Vllm llama3: Asistente para eficiencia y reducción de costos

Vllm llama3: Asistente para eficiencia y reducción de costos

Descubre vLLM llama3, el asistente definitivo para eficiencia, reducción de costos y más. Descubre cómo puede revolucionar tu flujo de trabajo.

Puntos clave

  • vLLM Llama3 proporciona una gran precisión y ahorra costos al usar modelos de lenguaje grandes.
  • Su arquitectura se centra en obtener el mejor rendimiento. Incluye partes clave como contenedores Docker, servidores API y servidores GPU.
  • Las pruebas muestran grandes ganancias en velocidad de inferencia y rendimiento en comparación con versiones anteriores.
  • LLama3 incluye actualizaciones para una eficiencia mejorada, mejoras en el software y nueva integración tecnológica.

Introducción

El mundo de los modelos de lenguaje grandes virtuales (LLM) está en constante cambio. Llama 3 es un buen modelo que muestra escalabilidad y eficiencia. Existe la necesidad de una mejor velocidad y formas más fáciles de configurarlos. vLLM Llama3 es una respuesta sólida a estas necesidades. Ofrece gran precisión y también ahorra dinero. Esta publicación de blog analiza vLLM Llama3. Exploraremos su diseño, cómo mejora el rendimiento y qué nuevas características incluye.

Entendiendo vLLM Llama3

En el centro de vLLM Llama3 hay un diseño cuidadosamente construido orientado a un gran rendimiento y crecimiento. Utiliza un diseño de sistema distribuido, que aprovecha al máximo muchos recursos informáticos, especialmente GPU.

Además, la configuración de vLLM Llama3 se centra en ser flexible y fácil de extender. Esto ayuda a conectarse sin problemas con otras herramientas y sistemas. De esta manera, los desarrolladores pueden ajustar el despliegue para satisfacer sus necesidades específicas.

¿Qué es VLLM?

vLLM es una biblioteca de alto rendimiento diseñada específicamente para facilitar la inferencia y el servicio de LLM. Se distingue por su enfoque en ofrecer velocidad, eficiencia y rentabilidad, lo que la convierte en una solución accesible para una amplia variedad de desarrolladores.

logotipo de vLLM especificado

¿Por qué usar VLLM?

  • Alto rendimiento: vLLM alcanza un rendimiento de servicio de última generación, capaz de manejar un gran volumen de solicitudes.
  • Gestión de memoria: Introduce PagedAttention, un mecanismo avanzado para gestionar eficientemente la memoria de claves y valores de atención.
  • Procesamiento por lotes continuo: vLLM admite el procesamiento por lotes continuo de solicitudes entrantes, mejorando el rendimiento general y la eficiencia del modelo.
  • Integración perfecta: vLLM ofrece un proceso para implementar LLM como Llama 3, permitiendo una fácil integración en sistemas y aplicaciones existentes.
  • Compatibilidad con API: Incluye un servidor compatible con OpenAI, lo que facilita su integración en sistemas existentes que utilizan la API de OpenAI.
  • Soporte de cuantización: VLLM utiliza técnicas de cuantización como GPTQ, AWQ, SqueezeLLM y FP8 KV Cache para permitir que los modelos operen eficientemente con menor precisión sin comprometer el rendimiento.
  • Escalabilidad: VLLM admite despliegues escalables para diversos casos de uso como atención al cliente y resumen, ajustándose efectivamente a diferentes tamaños de implementación.

¿Qué es Llama 3?

LLaMA 3, desarrollado por Meta, esta serie avanzada de modelos de lenguaje tiene como objetivo mejorar las capacidades de IA para comprender y generar texto similar al humano. Se basa en la versión anterior Llama 2, aprovechando grandes conjuntos de datos y arquitecturas avanzadas para lograr una mayor precisión y una generación de texto más matizada. Llama 3 está diseñado para ser versátil, sirviendo aplicaciones en diversos campos como investigación, creación de contenido y más.

Hay varias versiones de Llama 3: Llama 3 8B, Llama 3 8B-Instruct, Llama 3 70B, Llama 3 70B-Instruct. Llama 3 8B Instruct supera a Gemma 7b-it, Mistral 7B Instruct, mientras que Llama 3 70B Instruct muestra un mejor rendimiento que Gemini y Claude.

Rendimiento del modelo Meta Llama 3 Instruct

Características clave de Llama 3

  • Precisión mejorada: Llama 3 es más preciso en comparación con modelos anteriores, especialmente la versión de 70 mil millones de parámetros (Llama 3 70B). Destaca en interacciones de chat, generación de código, resumen y generación aumentada por recuperación.
  • Datos de entrenamiento aumentados: Llama 3 se beneficia de un mayor volumen de datos de entrenamiento, que incluye diversas fuentes de texto e idiomas.
  • Tecnologías avanzadas: El modelo utiliza tecnologías como el tokenizador Tiktoken de OpenAI y la paralelización de datos para una mayor eficiencia.
  • Asignación de recursos: Llama 3 utiliza nuevas leyes de escalado para una mejor predicción del rendimiento y asignación de recursos, maximizando la eficiencia computacional y reduciendo el tiempo de ejecución.
  • Versatilidad: Las mejoras de Llama 3 lo hacen ideal para diversas aplicaciones en comercio electrónico, finanzas, salud y educación.
  • Escalabilidad y mantenimiento: Llama 3 cuenta con stacks de entrenamiento avanzados para detección, manejo y mantenimiento automatizados de errores para garantizar usabilidad y escalabilidad.

Rendimiento y eficiencia de costos de los modelos Llama 3

Características técnicas y rendimiento

Llama 3 8B

  • Parámetros: 8 mil millones
  • Longitud de contexto: 8K tokens
  • Datos de entrenamiento: 15T tokens

Llama 3 70B

  • Parámetros: 70 mil millones
  • Longitud de contexto: 8K tokens
  • Datos de entrenamiento: 15T tokens

Estos dos modelos se lanzaron antes del último Llama 3.1 405B.

El siguiente es un gráfico del rendimiento de los modelos base preentrenados.

Rendimiento de los modelos base preentrenados Llama 3 8B y Llama 3 70B

Aquí está el rendimiento de los modelos ajustados por instrucciones, que han sido afinados para comprender y seguir mejor las instrucciones proporcionadas por humanos.

Rendimiento de los modelos entrenados con instrucciones Llama 3 8B y Llama 3 70B

Eficiencia de costos de Llama 3

Habiendo analizado su rendimiento, debemos considerar su costo real. Tomando como ejemplo llama 3 8b, el costo de implementación para atención al cliente es el siguiente.

Costos de implementación de Llama 3 8B LLM para atención al cliente, usuarios activos por hora, dólares estadounidenses

Como una opción perfecta de relación costo-beneficio, Novita AI ofrece meta-llama/llama-3–8b-instruct y meta-llama/llama-3–70b-instruct por no más de $1/M por tokens de entrada y salida. Puedes ver más modelos en LLM Model API.

Modelos destacados de Novita AI incluyen Llama 3 8b instruct y llama 3 70b instruct

También ofrecemos la versión más nueva meta-llama/llama-3.1–405b-instruct. ¡Recientemente redujimos el precio de Llama 3.1 405B a $2.75 por millón de tokens!

Reducción de costo de Novita AI Llama 3.1 405B, $2.75 por millón de tokens

Comienza con VLLM Llama 3

Requisitos técnicos previos

Asegúrate de cumplir con los siguientes requisitos antes de comenzar:

  1. Un servidor con una GPU compatible (como NVIDIA A100 proporcionada por Novita AI).
  2. Instalar Python en tu sistema en el directorio correcto.
  3. Asegurar acceso a Internet estable.

Desplegar vLLM Llama 3

1. Instalar vLLM: Configura el entorno de vLLM en tu servidor. Puedes usar pip para instalar vLLM de la siguiente manera:

pip install vllm

2. Cargar el modelo: Carga el modelo Llama 3 8B en vLLM:

from vllm import LLM
model = LLM("meta-llama/Meta-Llama-3–8B-Instruct")

3. Ejecutar inferencia LLM: Usa el modelo para inferencia:

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3–8B-Instruct")
messages = [{"role": "user", "content": "What is the capital of France?"}]
formatted_prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
output = model.generate(formatted_prompt)
print(output)

Consejos avanzados

  • Personalizar el servicio de Llama3 es esencial para satisfacer diversas necesidades. El framework permite flexibilidad en la configuración, como asignación de recursos y parámetros del modelo.
  • Ajustando los parámetros de la API, los desarrolladores pueden personalizar el comportamiento y las salidas del modelo para diversos casos de uso.
  • El autoajuste es crucial en el aprendizaje automático. vLLM Llama3 aprovecha esta tecnología para mejorar el rendimiento ajustando configuraciones mediante algoritmos de IA y ML. Este bucle de retroalimentación refina continuamente factores como la latencia y el rendimiento para un rendimiento óptimo del usuario sin intervención manual.
  • También puedes usar la imagen Docker para mayor eficiencia. Mejora el rendimiento con técnicas como la cuantización.

Guía del desarrollador para aprovechar Llama 3: LLM API

Desplegar Llama 3 es complejo. Para utilizar Llama 3 de manera efectiva, los desarrolladores pueden comprender su funcionalidad y APIs. Recomendamos Novita AI para una integración rentable de LLM API, ya que esta plataforma de API de IA cuenta con modelos destacados y soluciones LLM asequibles.

Comienza con Novita AI API

  • Paso 1: Entra en Novita AI y crea una cuenta. Puedes iniciar sesión con Google o GitHub. Tu primer inicio de sesión creará una nueva cuenta. Está bien registrarse usando tu dirección de correo electrónico.

Sitio web de Novita AI, iniciar sesión o registrarse

  • Paso 2: Gestionar la clave API. Novita AI autentica el acceso a la API mediante autenticación Bearer con una clave API en el encabezado de la solicitud. Ve a “Key Management” para gestionar tus claves. Una vez que inicies sesión por primera vez, se crea automáticamente una clave predeterminada. También puedes hacer clic en “+ Add new key”.

Gestión de claves de Novita AI, clave API

  • Paso 3: Realiza una llamada API. Introduce tu clave API en el backend para continuar con las siguientes tareas.

Aquí tienes un ejemplo con un cliente Python usando la API de Chat Completions de Novita AI.

pip install 'openai>=1.0.0'
from openai import OpenAIclient = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    # Obtén la clave API de Novita AI consultando: https://novita.ai/docs/get-started/quickstart.html#_2-manage-api-key.
    api_key="<TU Clave API de Novita AI>",
)model = "Nous-Hermes-2-Mixtral-8x7B-DPO"
stream = True # o False
max_tokens = 512chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": "Actúa como si fueras un asistente útil.",
        },
        {
            "role": "user",
            "content": "¡Hola!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
 )if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Para más información, puedes visitar Model API Reference.

Referencia de API LLM de Novita AI, introducción, pasos clave para la integración

  • Paso 4. Recargar crédito. Como se mencionó en el primer paso, tienes un bono con créditos para probar nuestros productos, pero es limitado. Para añadir más crédito, visita Billing and Payments y sigue la guía sobre Payment Methods.

Conclusión

En resumen, vLLM Llama3 es una gran solución que facilita el trabajo y reduce los costos. Al comprender cómo funciona, mejorar el rendimiento y mantenerse al día con los cambios en los requisitos de configuración, los desarrolladores pueden aprovecharlo al máximo. El modelo Llama3 sigue mejorando, mostrando un fuerte compromiso con la calidad. Con planes orientados al futuro y métodos de ajuste avanzados, vLLM Llama3 lidera el camino hacia nuevas ideas en tecnologías de IA y ML. Estate atento a nuevas características y planes a largo plazo que ayudarán a dar forma al futuro del servicio de modelos.

Preguntas frecuentes

¿Qué es vLLM vs TGI?

VLLM es un motor de inferencia y servicio de LLM de código abierto que utiliza el algoritmo de asignación de memoria PagedAttention. Ofrece hasta 24 veces más rendimiento que Hugging Face Transformers y hasta 3.5 veces más rendimiento que Hugging Face Text Generation Inference.

¿Cómo funciona el procesamiento por lotes en vLLM?

Según la documentación de vLLM, utilizan procesamiento por lotes continuo, lo que permite que el tamaño del lote se ajuste dinámicamente a medida que se generan tokens.

¿Llama 3 es gratuito?

Llama 3 es de código abierto y está disponible de forma gratuita. Sin embargo, para su uso a través de API, puede costar alrededor de $0.1/M por tokens de entrada y salida.

¿Puedo usar Llama 3 para negocios?

La versión más reciente de Llama 3 está cubierta por el “Meta LLama 3 Community License Agreement”, lo que permite casi todos los usos comerciales. Las corporaciones utilizan Llama3 para generar contenido educativo, ofrecer detalles médicos y más.

Novita AI es la plataforma integral en la nube que impulsa tus ambiciones de IA. APIs integradas, sin servidor, Instancia de GPU — las herramientas rentables que necesitas. Elimina la infraestructura, comienza gratis y haz realidad tu visión de IA.

Lectura recomendada

1*.*Presentando Llama3 405B: Lanzamientos de LLM disponibles abiertamente

2.Explora el costo de Llama 3: Soluciones asequibles para tus necesidades

3.Descubriendo los modelos de lista VLLM: Una guía completa