Tutorial: Como Acessar o Qwen2.5-VL-72B Localmente, via API, em GPU na Nuvem

Tutorial: Como Acessar o Qwen2.5-VL-72B Localmente, via API, em GPU na Nuvem

Destaques Principais

Multimodal + Compreensão de Vídeos Longos
Suporta imagens, documentos e vídeos longos
Adequado para educação, mídia, vigilância

Localização Precisa + Saída Estruturada
Detecta objetos com precisão
Extrai dados estruturados de faturas, formulários, gráficos
Útil em finanças, direito, logística

Você pode iniciar um teste gratuito na Novita AI API de forma muito conveniente!

Qwen2.5-VL-72B-Instruct é um poderoso modelo de visão-linguagem grande (LVLM) com 72B parâmetros, ajustado para tarefas de seguir instruções. Ele suporta entradas textuais e visuais (imagens e vídeos), sendo ideal para raciocínio multimodal, compreensão de documentos, análise de vídeos e interação agêntica.

O que é Qwen2.5-VL-72B?

Um Exemplo para Demonstrar a Capacidade do Qwen2.5-VL-72B

**Entrada:**Envie a consulta: ’o usuário está experimentando o recurso de geração de imagens’, quando o conteúdo descrito ocorre no vídeo? Use segundos para o formato de tempo.

https://videopress.com/v/jVcvFOlu?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Saída: O conteúdo descrito ocorre de 28 segundos a 50 segundos no vídeo. Durante este segmento, o usuário interage com o recurso de geração de imagens, solicitando e recebendo uma pintura artística dupla de uma montanha durante o dia e a noite. O usuário então adiciona um pássaro à imagem gerada, demonstrando a funcionalidade da ferramenta de geração de imagens.

Visão Geral do Qwen2.5-VL-72B

Categoria Item Detalhes
Informações Básicas Data de Lançamento 28 de janeiro de 2025
Tamanho do Modelo 73,4B parâmetros
Código Aberto Sim (lançado por Qwen)
Arquitetura Componentes Principais Resolução Dinâmica e Treinamento com Taxa de Quadros\SwiGLU + RMSNorm + Window Attention\Amostragem Dinâmica de FPS
Suporte a Idiomas Idiomas Suportados Excelente em reconhecimento de texto multilíngue e cenas
Multimodal Capacidade Entradas visuais (imagens e vídeos) e textuais
Contexto Janela de Contexto Configurável até 64K tokens para vídeos longos
Precisão Tipo de Tensor BF16
Benchmarks MMMU (Imagem) 70,2 (Qwen2.5-VL-72B) vs 70,3 (GPT-4o)
MVBench (Vídeo) 70,4 (Qwen2.5-VL-72B) vs 64,6 (GPT-4o)
AITZ_EM (Agente) 83,2 (Qwen2.5-VL-72B) vs 35,3 (GPT-4o)

Como Acessar o Qwen2.5-VL-72B Localmente?

Requisitos de Hardware para Qwen2.5-VL-72B

Categoria Item Detalhes
Hardware Nvidia A100 (80 GB) 8 GPUs × 80 GB = 640 GB VRAM Total
Nvidia H100 (80 GB) 8 GPUs × 80 GB = 640 GB VRAM Total
RTX 4090 (24 GB) 24 GPUs × 24 GB = 576 GB VRAM Total
Nvidia L40S (48 GB) 8 GPUs × 48 GB = 384 GB VRAM Total

Instalar o Qwen2.5-VL-72B Localmente

1. Instalar Dependências

bashCopyEdit<code># Instale a versão mais recente do Hugging Face Transformers a partir do código-fonte (necessário para Qwen2.5-VL)<br>pip install git+https://github.com/huggingface/transformers accelerate<br><br># Instale o kit de utilitários de visão (recomendado com decord para carregamento rápido de vídeo)<br>pip install 'qwen-vl-utils[decord]==0.0.8'</code>

2. Usar Qwen2.5-VL para Perguntas e Respostas Visuais

import torch
from transformers import AutoTokenizer, AutoModelForVision2Seq
from qwen_vl_utils import load_image, load_video, build_multimodal_inputs

# 🔧 Nome do modelo (também pode usar um caminho local)
model_name = "Qwen/Qwen2.5-VL-7B-Instruct"

# Carregar tokenizer e modelo
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(model_name, trust_remote_code=True).eval()

#Carregar uma imagem (pode ser caminho local, URL ou base64)
image = load_image("https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg")

#Definir a consulta
query = "O que está acontecendo na imagem?"

#Construir entradas para o modelo
inputs = build_multimodal_inputs(tokenizer, query=query, images=[image])

#Inferência
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=128)

#Decodificar e imprimir a resposta
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Resposta:", response)

3. Exemplo de Entrada de Vídeo

video = load_video("caminho_ou_url_para_video.mp4")
query = "Resuma o conteúdo do vídeo."

inputs = build_multimodal_inputs(tokenizer, query=query, videos=[video])

with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=128)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Resposta:", response)

Como Acessar o Qwen2.5-VL-72B via API da Novita?

Passo 1: Faça Login e Acesse a Biblioteca de Modelos

Faça login na sua conta e clique no botão Model Library.

Faça Login e Acesse a Biblioteca de Modelos

Experimente o Demo do Qwen2-VL-72B-Instruct Agora!

Passo 2: Inicie seu Teste Gratuito

Inicie seu teste gratuito para explorar as capacidades do modelo selecionado.

Passo 3: Obtenha sua Chave de API

Para autenticar com a API, forneceremos uma nova chave de API. Acessando a página “Settings”, você pode copiar a chave de API conforme indicado na imagem.

obter chave de API

Passo 4: Instale a API

Instale a API usando o gerenciador de pacotes específico para sua linguagem de programação.

Após a instalação, importe as bibliotecas necessárias para seu ambiente de desenvolvimento. Inicialize a API com sua chave de API para começar a interagir com o LLM da Novita AI. Este é um exemplo de uso da API de chat completions para usuários Python.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<SUA CHAVE DE API Novita AI>",
)

model = "qwen/qwen2.5-vl-72b-instruct"
stream = True # ou False
max_tokens = 2048
system_content = """Seja um assistente útil"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Olá!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

Usando Qwen2.5-VL-72B via GPU na Nuvem

Passo 1: Registre uma Conta

Se você é novo na Novita AI, comece criando uma conta em nosso site. Após o registro, vá para a aba “GPUs” para explorar os recursos disponíveis e iniciar sua jornada.

Captura de tela do site Novita AI

Passo 2: Explorando Modelos e Servidores GPU

Comece selecionando um modelo que corresponda às necessidades do seu projeto, como PyTorch, TensorFlow ou CUDA. Escolha a versão que atende aos seus requisitos, por exemplo, PyTorch 2.2.1 ou CUDA 11.8.0. Em seguida, selecione a configuração do servidor GPU A100, que oferece desempenho poderoso para lidar com cargas de trabalho exigentes com ampla VRAM, RAM e capacidade de disco.

captura de tela do site novita ai usando gpu na nuvem

Experimente as GPUs de Alto Desempenho da Novita AI

Passo 3: Personalize sua Implantação

Após selecionar um modelo e GPU, personalize as configurações de implantação ajustando parâmetros como a versão do sistema operacional (ex.: CUDA 11.8). Você também pode ajustar outras configurações para adequar o ambiente aos requisitos específicos do seu projeto.

captura de tela do site novita ai usando gpu na nuvem

Passo 4: Inicie uma Instância

Depois de finalizar o modelo e as configurações de implantação, clique em “Launch Instance” para configurar sua instância GPU. Isso iniciará a configuração do ambiente, permitindo que você comece a usar os recursos da GPU para suas tarefas de IA.

captura de tela do site novita ai usando gpu na nuvem

O Qwen2.5-VL-72B-Instruct oferece desempenho de ponta em uma ampla gama de tarefas de visão-linguagem. Seja automatizando fluxos de trabalho em finanças ou analisando vídeos em tempo real, ele combina profundidade, escala e flexibilidade. Com acesso de código aberto e múltiplos caminhos de implantação — GPU local, instâncias na nuvem ou API — o Qwen2.5-VL capacita desenvolvedores e empresas a construir sistemas de IA mais inteligentes e capazes.

Perguntas Frequentes

Posso implantar o Qwen2.5-VL-72B-Instruct localmente?

Sim. Você pode executá-lo em máquinas com VRAM suficiente (ex.: 8×A100 ou 24×4090 GPUs).

Como usar o Qwen2.5-VL-72B-Instruct via API?

Você pode acessar o Qwen2.5-VL-72B-Instruct através da Biblioteca de Modelos da Novita AI, iniciar um teste gratuito e obter uma chave de API para integração rápida.

Qual a diferença entre Qwen2.5-VL-72B e Qwen2.5-VL-72B-Instruct?

O modelo base lida com tarefas gerais de visão-linguagem; a versão “Instruct” é ajustada para seguir instruções do usuário com mais precisão.

Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer uma GPU na nuvem acessível e confiável para construir e escalar.

Leitura Recomendada

APIs Simples e GPU Escalável

Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer uma GPU na nuvem acessível e confiável para construir e escalar.

Cadastre-se/FAÇA LOGIN