Tutorial: Como Acessar o Qwen2.5-VL-72B Localmente, via API, em GPU na Nuvem

Índice

O que é Qwen2.5-VL-72B?
Como Acessar o Qwen2.5-VL-72B Localmente?
Como Acessar o Qwen2.5-VL-72B via API da Novita?
Usando Qwen2.5-VL-72B via GPU na Nuvem
Perguntas Frequentes
APIs Simples e GPU Escalável

Destaques Principais

Multimodal + Compreensão de Vídeos Longos
Suporta imagens, documentos e vídeos longos
Adequado para educação, mídia, vigilância

Localização Precisa + Saída Estruturada
Detecta objetos com precisão
Extrai dados estruturados de faturas, formulários, gráficos
Útil em finanças, direito, logística

Você pode iniciar um teste gratuito na Novita AI API de forma muito conveniente!

Qwen2.5-VL-72B-Instruct é um poderoso modelo de visão-linguagem grande (LVLM) com 72B parâmetros, ajustado para tarefas de seguir instruções. Ele suporta entradas textuais e visuais (imagens e vídeos), sendo ideal para raciocínio multimodal, compreensão de documentos, análise de vídeos e interação agêntica.

O que é Qwen2.5-VL-72B?

Um Exemplo para Demonstrar a Capacidade do Qwen2.5-VL-72B

**Entrada:**Envie a consulta: ’o usuário está experimentando o recurso de geração de imagens’, quando o conteúdo descrito ocorre no vídeo? Use segundos para o formato de tempo.

https://videopress.com/v/jVcvFOlu?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Saída: O conteúdo descrito ocorre de 28 segundos a 50 segundos no vídeo. Durante este segmento, o usuário interage com o recurso de geração de imagens, solicitando e recebendo uma pintura artística dupla de uma montanha durante o dia e a noite. O usuário então adiciona um pássaro à imagem gerada, demonstrando a funcionalidade da ferramenta de geração de imagens.

Visão Geral do Qwen2.5-VL-72B

Categoria	Item	Detalhes
Informações Básicas	Data de Lançamento	28 de janeiro de 2025
	Tamanho do Modelo	73,4B parâmetros
	Código Aberto	Sim (lançado por Qwen)
Arquitetura	Componentes Principais	Resolução Dinâmica e Treinamento com Taxa de Quadros\SwiGLU + RMSNorm + Window Attention\Amostragem Dinâmica de FPS
Suporte a Idiomas	Idiomas Suportados	Excelente em reconhecimento de texto multilíngue e cenas
Multimodal	Capacidade	Entradas visuais (imagens e vídeos) e textuais
Contexto	Janela de Contexto	Configurável até 64K tokens para vídeos longos
Precisão	Tipo de Tensor	BF16
Benchmarks	MMMU (Imagem)	70,2 (Qwen2.5-VL-72B) vs 70,3 (GPT-4o)
	MVBench (Vídeo)	70,4 (Qwen2.5-VL-72B) vs 64,6 (GPT-4o)
	AITZ_EM (Agente)	83,2 (Qwen2.5-VL-72B) vs 35,3 (GPT-4o)

Como Acessar o Qwen2.5-VL-72B Localmente?

Requisitos de Hardware para Qwen2.5-VL-72B

Categoria	Item	Detalhes
Hardware	Nvidia A100 (80 GB)	8 GPUs × 80 GB = 640 GB VRAM Total
	Nvidia H100 (80 GB)	8 GPUs × 80 GB = 640 GB VRAM Total
	RTX 4090 (24 GB)	24 GPUs × 24 GB = 576 GB VRAM Total
	Nvidia L40S (48 GB)	8 GPUs × 48 GB = 384 GB VRAM Total

Instalar o Qwen2.5-VL-72B Localmente

1. Instalar Dependências

bashCopyEdit<code># Instale a versão mais recente do Hugging Face Transformers a partir do código-fonte (necessário para Qwen2.5-VL)<br>pip install git+https://github.com/huggingface/transformers accelerate<br><br># Instale o kit de utilitários de visão (recomendado com decord para carregamento rápido de vídeo)<br>pip install 'qwen-vl-utils[decord]==0.0.8'</code>

2. Usar Qwen2.5-VL para Perguntas e Respostas Visuais

import torch
from transformers import AutoTokenizer, AutoModelForVision2Seq
from qwen_vl_utils import load_image, load_video, build_multimodal_inputs

# 🔧 Nome do modelo (também pode usar um caminho local)
model_name = "Qwen/Qwen2.5-VL-7B-Instruct"

# Carregar tokenizer e modelo
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(model_name, trust_remote_code=True).eval()

#Carregar uma imagem (pode ser caminho local, URL ou base64)
image = load_image("https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg")

#Definir a consulta
query = "O que está acontecendo na imagem?"

#Construir entradas para o modelo
inputs = build_multimodal_inputs(tokenizer, query=query, images=[image])

#Inferência
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=128)

#Decodificar e imprimir a resposta
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Resposta:", response)

3. Exemplo de Entrada de Vídeo

video = load_video("caminho_ou_url_para_video.mp4")
query = "Resuma o conteúdo do vídeo."

inputs = build_multimodal_inputs(tokenizer, query=query, videos=[video])

with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=128)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Resposta:", response)

Como Acessar o Qwen2.5-VL-72B via API da Novita?

Faça login na sua conta e clique no botão Model Library.

Experimente o Demo do Qwen2-VL-72B-Instruct Agora!

Passo 2: Inicie seu Teste Gratuito

Inicie seu teste gratuito para explorar as capacidades do modelo selecionado.

Passo 3: Obtenha sua Chave de API

Para autenticar com a API, forneceremos uma nova chave de API. Acessando a página “Settings”, você pode copiar a chave de API conforme indicado na imagem.

Passo 4: Instale a API

Instale a API usando o gerenciador de pacotes específico para sua linguagem de programação.

Após a instalação, importe as bibliotecas necessárias para seu ambiente de desenvolvimento. Inicialize a API com sua chave de API para começar a interagir com o LLM da Novita AI. Este é um exemplo de uso da API de chat completions para usuários Python.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<SUA CHAVE DE API Novita AI>",
)

model = "qwen/qwen2.5-vl-72b-instruct"
stream = True # ou False
max_tokens = 2048
system_content = """Seja um assistente útil"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Olá!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Usando Qwen2.5-VL-72B via GPU na Nuvem

Passo 1: Registre uma Conta

Se você é novo na Novita AI, comece criando uma conta em nosso site. Após o registro, vá para a aba “GPUs” para explorar os recursos disponíveis e iniciar sua jornada.

Passo 2: Explorando Modelos e Servidores GPU

Comece selecionando um modelo que corresponda às necessidades do seu projeto, como PyTorch, TensorFlow ou CUDA. Escolha a versão que atende aos seus requisitos, por exemplo, PyTorch 2.2.1 ou CUDA 11.8.0. Em seguida, selecione a configuração do servidor GPU A100, que oferece desempenho poderoso para lidar com cargas de trabalho exigentes com ampla VRAM, RAM e capacidade de disco.

Experimente as GPUs de Alto Desempenho da Novita AI

Passo 3: Personalize sua Implantação

Após selecionar um modelo e GPU, personalize as configurações de implantação ajustando parâmetros como a versão do sistema operacional (ex.: CUDA 11.8). Você também pode ajustar outras configurações para adequar o ambiente aos requisitos específicos do seu projeto.

Passo 4: Inicie uma Instância

Depois de finalizar o modelo e as configurações de implantação, clique em “Launch Instance” para configurar sua instância GPU. Isso iniciará a configuração do ambiente, permitindo que você comece a usar os recursos da GPU para suas tarefas de IA.

O Qwen2.5-VL-72B-Instruct oferece desempenho de ponta em uma ampla gama de tarefas de visão-linguagem. Seja automatizando fluxos de trabalho em finanças ou analisando vídeos em tempo real, ele combina profundidade, escala e flexibilidade. Com acesso de código aberto e múltiplos caminhos de implantação — GPU local, instâncias na nuvem ou API — o Qwen2.5-VL capacita desenvolvedores e empresas a construir sistemas de IA mais inteligentes e capazes.

Perguntas Frequentes

Posso implantar o Qwen2.5-VL-72B-Instruct localmente?

Sim. Você pode executá-lo em máquinas com VRAM suficiente (ex.: 8×A100 ou 24×4090 GPUs).

Como usar o Qwen2.5-VL-72B-Instruct via API?

Você pode acessar o Qwen2.5-VL-72B-Instruct através da Biblioteca de Modelos da Novita AI, iniciar um teste gratuito e obter uma chave de API para integração rápida.

Qual a diferença entre Qwen2.5-VL-72B e Qwen2.5-VL-72B-Instruct?

O modelo base lida com tarefas gerais de visão-linguagem; a versão “Instruct” é ajustada para seguir instruções do usuário com mais precisão.

Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer uma GPU na nuvem acessível e confiável para construir e escalar.

Leitura Recomendada

APIs Simples e GPU Escalável

Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer uma GPU na nuvem acessível e confiável para construir e escalar.

Cadastre-se/FAÇA LOGIN

Tutorial: Como Acessar o Qwen2.5-VL-72B Localmente, via API, em GPU na Nuvem

Destaques Principais

O que é Qwen2.5-VL-72B?

Um Exemplo para Demonstrar a Capacidade do Qwen2.5-VL-72B

Visão Geral do Qwen2.5-VL-72B

Como Acessar o Qwen2.5-VL-72B Localmente?

Requisitos de Hardware para Qwen2.5-VL-72B

Instalar o Qwen2.5-VL-72B Localmente

1. Instalar Dependências

2. Usar Qwen2.5-VL para Perguntas e Respostas Visuais

3. Exemplo de Entrada de Vídeo

Como Acessar o Qwen2.5-VL-72B via API da Novita?

Passo 2: Inicie seu Teste Gratuito

Passo 3: Obtenha sua Chave de API

Passo 4: Instale a API

Usando Qwen2.5-VL-72B via GPU na Nuvem

Passo 1: Registre uma Conta

Passo 2: Explorando Modelos e Servidores GPU

Passo 3: Personalize sua Implantação

Passo 4: Inicie uma Instância

Perguntas Frequentes

Leitura Recomendada

APIs Simples e GPU Escalável

Product

RESOURCES

Partners

Company

Destaques Principais

O que é Qwen2.5-VL-72B?

Um Exemplo para Demonstrar a Capacidade do Qwen2.5-VL-72B

Visão Geral do Qwen2.5-VL-72B

Como Acessar o Qwen2.5-VL-72B Localmente?

Requisitos de Hardware para Qwen2.5-VL-72B

Instalar o Qwen2.5-VL-72B Localmente

1. Instalar Dependências

2. Usar Qwen2.5-VL para Perguntas e Respostas Visuais

3. Exemplo de Entrada de Vídeo

Como Acessar o Qwen2.5-VL-72B via API da Novita?

Passo 1: Faça Login e Acesse a Biblioteca de Modelos

Passo 2: Inicie seu Teste Gratuito

Passo 3: Obtenha sua Chave de API

Passo 4: Instale a API

Usando Qwen2.5-VL-72B via GPU na Nuvem

Passo 1: Registre uma Conta

Passo 2: Explorando Modelos e Servidores GPU

Passo 3: Personalize sua Implantação

Passo 4: Inicie uma Instância

Perguntas Frequentes

Leitura Recomendada

APIs Simples e GPU Escalável

Posts relacionados

Product

RESOURCES

Partners

Company