Descifrando Mixtral of Experts: Guía completa

Descifrando Mixtral of Experts: Guía completa

Mixtral of Experts se refiere a Mixtral 8x7B y Mixtral 8x22B que usan SMoE. Explora las características y aplicaciones de Mixtral of Experts en nuestro blog.

Puntos clave

  • Mixtral 8x7B y Mixtral 8x22B son modelos líderes de lenguaje de código abierto desarrollados por Mistral AI.
  • Estos modelos utilizan una arquitectura de Mezcla Dispersa de Expertos (SMoE), donde Mixtral 8x22B emplea solo 39 mil millones de parámetros activos de 141 mil millones.
  • Mixtral sobresale en diversas tareas, incluyendo generación de código, comprensión multilingüe y manejo de contexto de largo alcance, superando a modelos de lenguaje más grandes en rendimiento.
  • Su rendimiento excepcional, junto con su naturaleza de código abierto, posiciona a Mixtral como una herramienta poderosa para desarrolladores que buscan integrar capacidades avanzadas de IA en sus aplicaciones.

Introducción

El campo del Procesamiento del Lenguaje Natural (PLN) está en constante cambio. Nuevos avances continúan mejorando nuestras capacidades, siendo el modelo Mixtral un ejemplo destacado. Operando sobre una mezcla de enfoques expertos dentro de un marco de transformadores, Mixtral será examinado en detalle en esta guía. El blog abarcará sus características, funcionalidades y aplicaciones potenciales en sectores dependientes del procesamiento del lenguaje.

¿Qué es un Mixtral of Experts?

¿Qué son Mixtral 7B y Mixtral 8x22B?

Mixtral 8x7B y Mixtral 8x22B, desarrollados por Mistral AI, son modelos de lenguaje grandes avanzados. Mixtral 8x7B y Mixtral 8x22B son modelos de pesos de código abierto conocidos por su alta eficiencia. Estos modelos están disponibles bajo licencia Apache 2.0, lo que garantiza una mayor accesibilidad. Son particularmente valiosos para tareas que requieren personalización y ajuste fino, ofreciendo un rendimiento más rápido, mayor portabilidad y mejor control como características clave.

¿Qué es una Mezcla Dispersa de Expertos?

Mixtral utiliza un enfoque de mezcla dispersa de expertos (SMoE) para la eficiencia. En lugar de usar todos los parámetros simultáneamente, emplea una red enrutadora para seleccionar un pequeño grupo de expertos para cada token de entrada. Esta selección específica mejora el rendimiento al centrarse en los componentes del modelo relevantes y se realiza mediante una red de compuerta en la capa MoE. Al activar solo los parámetros esenciales, Mixtral logra un mayor rendimiento y procesa la información más rápido, lo que lo hace ideal para tareas complejas de PLN con grandes conjuntos de datos.

Arquitectura de Mezcla Dispersa de Expertos

Capacidades de Mixtral

Aprovechando innovaciones como la Atención por Consultas Agrupadas (GQA) y la Atención con Ventana Deslizante (SWA), Mixtral sobresale en la gestión rápida de tareas complejas mediante el paralelismo de modelos. Mixtral puede dividir problemas complejos en otros más simples con estrategias de entrenamiento avanzadas. La suma ponderada de las salidas de diversos expertos en la capa MoE mejora su rendimiento al capturar complejidades que los modelos de estructura única podrían pasar por alto.

Características técnicas de Mixtral of Experts

Mixtral 8x7B

  • Capacidades multilingües en inglés, francés, italiano, alemán y español
  • Sólido rendimiento en codificación
  • Ajustado fino como modelo de seguimiento de instrucciones
  • Ventana de contexto de 32k tokens

Mixtral 8x22B

  • Ventana de contexto de 64k tokens
  • Fluido en inglés, francés, italiano, alemán y español
  • Sólidas capacidades matemáticas y de codificación
  • Soporte nativo para llamadas a funciones

Pruebas de rendimiento de Mixtral

A continuación se muestra un gráfico del rendimiento de Mixtral 8x22B y Mixtral 8x7B. Esto se deriva de modelos proporcionados por la comunidad. Mixtral 8x22B es el modelo más reciente de la familia de modelos abiertos de Mistral. Con patrones de activación dispersa, es una alternativa mucho más potente al modelo de 70B y supera a otros modelos de pesos abiertos. Su disponibilidad como modelo base lo hace ideal para ajustar fines diversos casos de uso.

Rendimiento de Mixtral 8x22B y Mixtral 8x7B (MMLU)

En capacidades de razonamiento, Mixtral 8x7B y Mixtral 8x22B también superan a Llama 2 70B, el modelo fundamental actual para expandir modelos de lenguaje grandes a idiomas ampliamente hablados pero subrepresentados en los datos de entrenamiento de estos modelos.

Prueba de razonamiento y sentido común de Mixtral 8x7B y Mixtral 8x22B

Estos modelos Mixtral of experts muestran grandes capacidades de codificación y matemáticas. Mixtral supera a su predecesor, Llama 2 70B, utilizando solo 13 mil millones de parámetros activos por token, una reducción significativa de 70 mil millones para ahorrar costos computacionales.

Rendimiento de codificación de Mixtral 8x7B y Mixtral 8x22B

Novita AI proporciona estos dos modelos; puedes consultar información detallada en nuestra API de modelos LLM.

Descripción y precio del modelo Mixtral 8x22B de Novita AI

Descripción y precio del modelo Mixtral 8x7B de Novita AI

Aplicaciones prácticas de Mixtral

La destreza técnica de Mixtral va más allá de sus capacidades. Su capacidad para generar texto similar al humano lo hace ideal para codificación, traducción de idiomas y creación de contenido. Al ser de código abierto, Mixtral es accesible para una amplia gama de industrias. Los desarrolladores pueden adaptar el modelo para cumplir requisitos específicos, facilitando el desarrollo de nuevos métodos y aplicaciones.

Generación de contenido

Una de las principales aplicaciones de Mistral of Experts (y de cualquier LLM) es generar texto basado en tus indicaciones iniciales. En el núcleo de esta funcionalidad está el entrenamiento extensivo del modelo en diversos conjuntos de datos que contienen una gran cantidad de texto de varios dominios. A través de este entrenamiento exhaustivo, el modelo puede dominar diferentes estilos de escritura, temas y estructuras lingüísticas, lo que le permite sobresalir en la producción de texto que cumple con requisitos específicos de tono o contenido.

Prueba de generación de contenido con Mixtral 8x22B de Novita AI

Análisis de emociones

El análisis de emociones de Mistral, impulsado por aprendizaje profundo, detecta con precisión emociones positivas, negativas y neutrales en el texto durante la conversación. Aprovecha un entrenamiento extensivo en diversos conjuntos de datos para inferir tonos emocionales y diferenciar emociones en varios tipos de contenido. Puedes solicitar a Mistral que analice las emociones en un texto específico.

Prueba de análisis de emociones con Mixtral 8x22B de Novita AI

Código de ejemplo de Mixtral 8x22B

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    # Obtén la clave API de Novita AI consultando: /docs/get-started/quickstart.htmll#_3-create-an-api-key
    api_key="<TU Clave API de Novita AI>",
)

model = "cognitivecomputations/dolphin-mixtral-8x22b"
stream = True # o False
max_tokens = 512

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": "Actúa como si fueras un asistente útil.",
        },
        {
            "role": "user",
            "content": "¡Hola!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Traducción de textos y tareas multilingües

Mistral también demuestra excelentes capacidades en el manejo de tareas multilingües. Entrenado específicamente, Mistral puede entender y generar texto en varios idiomas, particularmente francés, alemán, español e italiano. Mistral es especialmente valioso para empresas y usuarios que necesitan comunicarse en varios idiomas.

Prueba de traducción de textos y tareas multilingües con Mixtral 8x7B de Novita AI

Generación de código

Con la entrada proporcionada, el modelo Mistral of Experts sobresale en la generación de código, convirtiendo descripciones de alto nivel en código eficiente en múltiples lenguajes de programación. Utiliza entrenamiento a partir de repositorios de código, documentación técnica y foros de desarrolladores para cumplir con los requisitos y garantizar funcionalidad y optimización.

Prueba de generación de código con Mixtral 8x7B de Novita AI

Código de ejemplo de Mixtral 8x7B

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    # Obtén la clave API de Novita AI consultando: /docs/get-started/quickstart.htmll#_3-create-an-api-key
    api_key="<TU Clave API de Novita AI>",
)

model = "Nous-Hermes-2-Mixtral-8x7B-DPO"
stream = True # o False
max_tokens = 512

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": "Actúa como si fueras un asistente útil.",
        },
        {
            "role": "user",
            "content": "¡Hola!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Guía del desarrollador para aprovechar Mixtral: API LLM

Agregar el modelo Mixtral a las aplicaciones es una oportunidad emocionante para los desarrolladores. Es de código abierto y personalizable según necesidades específicas. Para utilizar Mixtral de manera efectiva, los desarrolladores deben comprender su funcionalidad y APIs. Recomendamos Novita AI para la integración rentable de APIs LLM, ya que esta plataforma de API de IA cuenta con modelos destacados y soluciones LLM asequibles.

Primeros pasos con la API de Novita AI

  • Paso 1: Ingresa a Novita AI y crea una cuenta. Puedes iniciar sesión con Google o GitHub. Tu primer inicio de sesión creará una nueva cuenta. También puedes registrarte usando tu dirección de correo electrónico.

Sitio web de Novita AI, iniciar sesión para registrarse

  • Paso 2: Gestiona la clave API. Novita AI autentica el acceso a la API mediante autenticación Bearer con una clave API en el encabezado de la solicitud. Ve a Key Management para gestionar tus claves. Una vez que inicies sesión por primera vez, se crea automáticamente una clave predeterminada. También puedes hacer clic en “+ Add new key”.

Gestión de claves de Novita AI, clave API

API LLM de Novita AI, referencia para desarrolladores, ejemplos, código de muestra

Aquí hay un ejemplo con un cliente Python usando la API de Chat Completions de Novita AI.

pip install 'openai>=1.0.0'
from openai import OpenAIclient = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    # Obtén la clave API de Novita AI consultando: https://novita.ai/docs/get-started/quickstart.html#_2-manage-api-key.
    api_key="<TU Clave API de Novita AI>",
)model = "Nous-Hermes-2-Mixtral-8x7B-DPO"
stream = True # o False
max_tokens = 512chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": "Actúa como si fueras un asistente útil.",
        },
        {
            "role": "user",
            "content": "¡Hola!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
 )if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  • Paso 4. Recarga crédito. Como se mencionó en el primer paso, tienes un vale con créditos para probar nuestros productos, pero es limitado. Para agregar más crédito, visita Facturación y pagos y sigue la guía sobre Métodos de pago.

Conclusión

En conclusión, Mixtral of Experts, con MoE como arquitectura central, es una nueva tecnología que combina funciones inteligentes de IA con aplicaciones del mundo real en diferentes industrias. Funciona mejor en tareas específicas como generar código, historias y traducción. Esto lo convierte en una herramienta especial en el mundo digital actual del aprendizaje automático. Las empresas pueden aprovechar todo su poder utilizando Mixtral con sistemas actuales y siguiendo buenas prácticas. Esto les ayudará a ser más creativas y mantenerse por delante de la competencia. Abraza la fuerza de Mixtral para tener éxito en el mundo acelerado de la IA.

Preguntas frecuentes

¿Cuál es la diferencia entre Mistral y Mixtral?

Mixtral, con la arquitectura de Mezcla Dispersa de Expertos, tiene capacidades mejoradas en comparación con Mistral. Sobresale en tareas lingüísticas complejas con rapidez y eficiencia, requiriendo menos poder de cómputo.

¿Con qué se entrenó Mixtral?

Mixtral fue entrenado con un tamaño de contexto extenso de 32,000 tokens y demuestra un rendimiento comparable con Llama 2 70B y GPT-3.5 en diferentes pruebas de referencia.

¿Mixtral necesita una GPU?

Para realizar inferencia con Mixtral 8X22B, se necesita una GPU con al menos 300 GB de memoria. Para Mixtral 8x7B, típicamente se requerirían alrededor de 94 GB de VRAM según pautas estándar.

¿Se puede usar Mixtral con fines comerciales?

Tanto Mixtral 8x7B como Mixtral 8x7B — Instruct están disponibles bajo la licencia Apache 2.0, permitiendo su uso tanto académico como comercial.

Novita AI es la plataforma integral en la nube que impulsa tus ambiciones de IA. APIs integradas, sin servidor, instancias GPU — las herramientas rentables que necesitas. Elimina la infraestructura, comienza gratis y haz realidad tu visión de IA.

Lectura recomendada

  1. Introducing Mixtral-8x22B: The Latest and Largest Mixture of Expert Large Language Model

  2. Mixtral 8x22b Secrets Revealed: A Comprehensive Guide

  3. Introducing Mistral’s Mixtral 8x7B Model: Everything You Need to Know