Mejora el rendimiento con RXT4080: consejos para GPU en la nube

Mejora el rendimiento con RXT4080: consejos para GPU en la nube

Puntos clave

  • Introducción de Mixtral: Mixtral es ahora el modelo de lenguaje grande gratuito y de código abierto más popular.
  • Problemas al ejecutar LLM con RTX4080: Memoria de video insuficiente, TTFT lento y costo elevado.
  • Cómo solucionar estos problemas: Mejorar el rendimiento de Mixtral, usar múltiples tarjetas gráficas o usar memoria extendida.
  • Ventajas de usar instancias de GPU: mayor escalabilidad, menor costo, pago por uso y menores costos de mantenimiento.
  • Tutoriales relacionados: Un tutorial sobre cómo ejecutar Mixtral localmente y un tutorial sobre cómo usar instancias de GPU.

Introducción

Este blog explorará cómo hacer que la familia de productos Mixtral funcione mejor en GPUs RTX 4080, un tipo de hardware de consumo como las laptops. Hablaremos sobre la gestión de la memoria y la configuración de las GPUs para usar sus recursos de manera eficiente, incluyendo el uso de al menos dos GPUs con 16 GB de VRAM cada una para un rendimiento óptimo. También compararemos la ejecución de modelos LLM en tu computadora con el uso de instancias de GPU, lo que puede brindarte un mejor rendimiento al utilizar la VRAM como un búfer de alta velocidad para una carga eficiente y evitar problemas de rendimiento.

Libera el poder del modelo de código abierto Mixtral

Antes de liberar el potencial de Mixtral, primero es necesario saber qué es Mixtral. Además, comprender las diferentes versiones de Mixtral también ayudará a los usuarios a elegir el hardware adecuado según las distintas versiones de LLM.

¿Qué es el modelo Mixtral?

Mixtral es un modelo de lenguaje grande gratuito y de código abierto creado por Mistral.ai. En la lista de Imsys de 2023, Mixtral 8x7b se convirtió en uno de los modelos LLM de código abierto mejor valorados por los usuarios.

Ranking de los modelos LLM más populares según los usuarios

Ranking de LLM

Utiliza un método llamado Mezcla Escasa de Expertos (MoE), también conocido como mezcla dispersa de expertos. Esto es diferente de los LLM regulares porque no todas las partes de Mixtral se utilizan simultáneamente. En cambio, solo se activan unas pocas secciones “expertas” dependiendo de la tarea.

¿Cuántas versiones de Mistral existen?

Para 2024, Mistral.ai ha lanzado cuatro modelos LLM gratuitos y de código abierto, que son:

  • Mistral 7B
  • Mixtral 8x7B
  • Mixtral 8x22B

Con el desarrollo de los productos de la serie Mixtral, la capacidad de razonamiento, la capacidad multilingüe y la capacidad de codificación matemática de esta serie de productos han mejorado enormemente.

Sin embargo, estas mejoras también requieren que los usuarios usen más memoria y tengan un mejor rendimiento. Por ejemplo, los requisitos de hardware para ejecutar Mixtral 8x22b en una PC requieren una GPU con aproximadamente 300 GB de memoria para que este modelo LLM funcione sin problemas.

Mixtral ejecutándose en 4080

Ahora algunos usuarios optan por usar RTX4080 para ejecutar Mixtral. Por ejemplo, Slaghton ejecutó exitosamente Mixtral 8x7b con dos RTX4080. Sin embargo, debido a las limitaciones de memoria de la GPU local, este LLM solo puede funcionar con una productividad mínima. En este caso, el LLM solo puede generar alrededor de 7–8 tokens por segundo.

¿Cómo ejecutar Mixtral 8x7b usando GPUs locales?

Video tutorial: Instalar Mixtral 8x7B localmente en Windows en una laptop

Paso 1: Necesitas un espacio de computadora suficientemente grande para ejecutarlo, ¡así que empieza limpiando tu computadora!

Paso 2: Instala las bibliotecas y herramientas de Python necesarias, como TensorFlow, PyTorch, etc. Estas bibliotecas y herramientas se pueden instalar mediante pip o conda.

Paso 3: Descarga el archivo del modelo Mixtral 8x7B desde el canal oficial. El archivo del modelo generalmente se proporciona como un paquete comprimido que contiene los pesos y los archivos de configuración del modelo.

Paso 4: Descomprime el archivo del modelo descargado en el directorio especificado.

Paso 5: Según el archivo de configuración del modelo, establece las variables de entorno necesarias, como la ruta del modelo, el tipo de dispositivo (CPU/GPU), etc.

¿Qué sucede cuando ejecutas Mixtral con una RTX4080 local?

Las personas que intentan ejecutar LLM con una tarjeta gráfica de consumo pueden encontrar los siguientes problemas.

  • Memoria de video insuficiente: La RXT4080 tiene un máximo de 16 GB de memoria de video, pero podría necesitar alrededor de 200–300 GB para ejecutar Mixtral sin problemas.
  • TTFT lento: Según la experiencia de varios editores de contenido de Reddit que ejecutan Mistral 7b y Mixtral 8x7b usando 4060, 4080 y 4090. Usar una tarjeta gráfica de consumo para ejecutar el modelo LLM TTFT solo alcanza velocidades de 1 t/s — 8 T/s.
  • Costo elevado: Estos editores de contenido suelen usar varias tarjetas gráficas o memoria externa para ejecutar Mixtral. Según el precio publicado en el sitio web de Amazon, una tarjeta gráfica RTX4080 cuesta $999.

¿Cómo mejorar el rendimiento de la 4080 al ejecutar Mixtral?

  • Ajustar la configuración de LLM es muy importante para obtener el mejor rendimiento en los 16 GB de memoria de GPU de la RTX 4080. Una configuración clave es el ‘tamaño de lote’ (batch size). Esta configuración define cuántas muestras de entrada se procesan al mismo tiempo. Si reduces el tamaño de lote, puedes reducir el uso de VRAM.
  • También es una buena idea expandir la memoria de la tarjeta gráfica 4080 con memoria extendida.
  • Usa múltiples tarjetas gráficas.

Las tendencias futuras en la ejecución de Mixtral

Con el desarrollo de LLM, la potencia de cómputo y la memoria de video necesarias para ejecutar LLM están aumentando. La oportunidad para que un individuo ejecute un LLM usando una tarjeta gráfica de consumo también es cada vez menor. Una nueva forma de ejecutar LLM se está volviendo popular entre individuos y empresas, y es ejecutarlo usando instancias de GPU.

¿Qué son las instancias de GPU?

Las instancias de GPU son máquinas virtuales o recursos informáticos proporcionados en un entorno de computación en la nube que están equipados con unidades de procesamiento gráfico (GPU).

Escenarios de aplicación:

  • Aprendizaje profundo: El entrenamiento de modelos de redes neuronales requiere muchas operaciones matriciales, y las capacidades de procesamiento paralelo de las GPU pueden acelerar significativamente el entrenamiento.
  • Renderizado de gráficos: Se utiliza en desarrollo de juegos, producción cinematográfica y televisiva, y otros campos para proporcionar gráficos de alta calidad.
  • Computación científica: Simulaciones y cálculos complejos en los campos de la física, la química y la biología.

Instancia de GPU vs GPU local

1. Es más barato usar instancias de GPU: El precio de las instancias de GPU que usan RTX 4090 es inferior a 1 $/h. Pero según Amazon, una RTX4090 local cuesta alrededor de $1,660.

Costo de la instancia de GPU

2. Mayor escalabilidad: Los usuarios de instancias de GPU pueden ajustar dinámicamente el número y el rendimiento de las instancias de GPU según la demanda con solo un clic del ratón.

3. Pago por uso: Los usuarios pagan según el uso, sin inversión inicial en hardware.

4. Menores costos de mantenimiento: El uso de recursos de GPU virtuales elimina la preocupación de que el programa no se ejecute debido a daños en el hardware.

¿Cómo usar la GPU en la nube?

Paso 1: Ve al sitio web de Novita.ai y haz clic en Producto — Instancia de GPU

Página web de Novita.ai

Paso 2: Haz clic en Comenzar ahora

Página web de Novita.ai

Paso 3: Selecciona el tipo de tarjeta gráfica que necesitas y la cantidad de memoria requerida, y haz clic en Desplegar.

Página web de Novita.ai

Para obtener detalles sobre cómo crear una instancia de GPU, consulta Cómo usar Llama 3 en una instancia de GPU de Novita AI

Preguntas frecuentes

¿Cuánta RAM necesita Mixtral?

Mixtral generalmente necesita al menos 8 GB de RAM para funcionar bien. Si tus tareas son más complejas, tener más RAM puede ayudar. Es importante tener suficiente RAM para que Mixtral funcione sin problemas y procese tareas de manera eficiente.

¿Qué GPU se necesita para Mixtral 8x22B?

Para usar Mixtral 8x22B de manera efectiva, necesitas una GPU potente. Es mejor tener al menos 48 GB de VRAM. La NVIDIA A100 es una buena opción para obtener el mejor rendimiento de Mixtral.

¿Qué tan rápida es la generación de tokens de Mistral 7B?

Mistral 7B muestra grandes velocidades de generación de tokens. Estas velocidades pueden cambiar dependiendo de tu hardware y configuración. En una GPU de consumo de gama alta, como la RTX 4080, generalmente genera entre 10 y 20 tokens por segundo.

Novita AI es la plataforma integral en la nube que impulsa tus ambiciones de IA. APIs integradas, serverless, instancia de GPU — las herramientas rentables que necesitas. Elimina la infraestructura, comienza gratis y haz realidad tu visión de IA.

Lecturas recomendadas

Secretos de Mixtral 8x22b revelados: una guía completa

Comparación de modelos LLM: tu guía completa

Las 5 mejores GPUs para IA en 2024: tu guía definitiva