¿Cómo entrenar modelos de lenguaje grandes óptimos en cómputo?

¿Cómo entrenar modelos de lenguaje grandes óptimos en cómputo?

Introducción

Recientemente, un LLM con solo 70B de parámetros supera a GPT-3. Este LLM, llamado Chinchilla, fue desarrollado por Hoffmann y sus colegas. En su trabajo, afirman que los LLM actuales no son óptimos en cómputo. ¿Por qué sucede esto? ¿Cómo entrenan su denominado LLM óptimo en cómputo, Chinchilla? ¿Cuáles son las limitaciones de su enfoque y cómo podemos superarlas? En este blog analizaremos estas preguntas una por una.

¿Qué son los modelos de lenguaje grandes óptimos en cómputo?

La idea central detrás de un LLM óptimo en cómputo es alcanzar el equilibrio adecuado entre el tamaño del modelo (número de parámetros) y la cantidad de datos de entrenamiento utilizados. Esto contrasta con enfoques anteriores que aumentaban el tamaño del modelo de forma más agresiva que los datos de entrenamiento, dando como resultado modelos significativamente subentrenados en relación con su capacidad.

¿Cuáles son las características principales de un LLM óptimo en cómputo?

Característica 1: Escalado equilibrado del tamaño del modelo y los datos de entrenamiento

En lugar de escalar el tamaño del modelo de forma exponencial mientras solo se incrementan gradualmente los datos de entrenamiento, los LLM óptimos en cómputo aumentan tanto el tamaño del modelo como los datos de entrenamiento en la misma proporción. Esto asegura que la capacidad del modelo se utilice completamente con los datos de entrenamiento disponibles.

Característica 2: Optimización de la eficiencia computacional global

El objetivo es encontrar el punto óptimo entre el tamaño del modelo y los datos de entrenamiento que ofrezca el mejor rendimiento por unidad de cómputo. Esto permite maximizar la capacidad del modelo dentro de un presupuesto computacional fijo, en lugar de simplemente llevar el tamaño del modelo a nuevos récords.

Característica 3: Menos recursos computacionales para ajuste fino e inferencia

Esto mejora aún más su eficiencia y practicidad en el mundo real, ya que implementar y usar el modelo se vuelve más rentable.

¿Estos LLM populares no son óptimos en cómputo?

Lamentablemente, según Hoffmann et al. (2022), estos LLM populares no son óptimos en cómputo. Primero retrocedamos a las ideas que impactaron a los LLM actuales.

El enfoque en el tamaño del modelo

Investigaciones previas de Kaplan et al. (2020) demostraron una convincente relación de ley potencial entre el tamaño del modelo de lenguaje y su rendimiento. Específicamente, encontraron que al aumentar exponencialmente el número de parámetros en un modelo, el rendimiento en diversos benchmarks mejoraba a una tasa constante de ley potencial.

Este trabajo fundamental ha tenido un profundo impacto en el campo de los modelos de lenguaje grandes (LLM), llevando a investigadores e ingenieros a centrarse en escalar el tamaño del modelo como el principal eje de mejora. La lógica era clara: si el rendimiento escala de manera tan predecible con el tamaño del modelo, entonces el camino hacia mejores LLM debe ser simplemente construir modelos cada vez más grandes.

Reenfocándose en la cantidad de datos de entrenamiento

Hoffmann et al. (2022) argumentan que este enfoque único en el escalado del modelo ha tenido un costo significativo. Postulan que los LLM actuales de última generación están, de hecho, severamente subentrenados, con el énfasis de la investigación puesto exclusivamente en aumentar el tamaño del modelo en lugar de incrementar proporcionalmente la cantidad de datos de entrenamiento.

Esta crítica es una contribución crucial de su artículo. Los autores sostienen que el campo ha perdido de vista el equilibrio fundamental entre modelo y datos, obsesionándose con llevar el tamaño del modelo a nuevos récords sin asegurarse de que esos modelos se entrenen con una cantidad proporcional de datos de alta calidad. El resultado, argumentan, es una situación en la que los LLM pueden tener impresionantes recuentos de parámetros, pero en última instancia son subóptimos en su rendimiento dados los recursos computacionales invertidos en su entrenamiento.

Al reenfocar la atención en este equilibrio central entre la capacidad del modelo y los datos de entrenamiento, los autores preparan el terreno para su investigación empírica sobre el equilibrio verdaderamente óptimo entre estos dos factores clave. Sus hallazgos, detallados en las siguientes secciones, ofrecen un nuevo paradigma para desarrollar modelos de lenguaje grandes eficientes en cómputo.

¿Cómo entrenar modelos de lenguaje grandes óptimos en cómputo?

En esta sección profundizaremos en el artículo de Hoffmann et al. (2022) titulado “Training Compute-Optimal Large Language Models”. Como siempre, si los detalles de investigación te parecen demasiado técnicos, simplemente toma esta conclusión y salta esta sección: para un entrenamiento óptimo en cómputo, el tamaño del modelo y el número de tokens de entrenamiento deben escalarse por igual — por cada duplicación del tamaño del modelo, el número de tokens de entrenamiento también debe duplicarse.

Estimación empírica del equilibrio óptimo entre modelo y datos

Para investigar el equilibrio óptimo entre el tamaño del modelo y los datos de entrenamiento, los autores entrenan más de 400 modelos que van desde 70 millones hasta 16 mil millones de parámetros, en conjuntos de datos de 5 a 500 mil millones de tokens. Modelan la pérdida final de preentrenamiento en función tanto del tamaño del modelo como del número de tokens de entrenamiento.

Hallazgos clave

Los autores encuentran que para un entrenamiento óptimo en cómputo, el tamaño del modelo y el número de tokens de entrenamiento deben escalarse por igual — por cada duplicación del tamaño del modelo, el número de tokens de entrenamiento también debe duplicarse. Esto contrasta con las recomendaciones de Kaplan et al., quienes sugerían un aumento menor en los tokens de entrenamiento en comparación con el tamaño del modelo.

Entrenando un modelo óptimo en cómputo: Chinchilla

Aplicando sus hallazgos, los autores entrenan un modelo de 70 mil millones de parámetros llamado Chinchilla, utilizando el mismo presupuesto computacional que el modelo Gopher de 280 mil millones de parámetros. Chinchilla supera significativamente a Gopher, GPT-3, Jurassic-1 y Megatron-Turing NLG en una amplia gama de tareas posteriores, al mismo tiempo que requiere sustancialmente menos cómputo para el ajuste fino y la inferencia.

Comentarios finales

El artículo demuestra que los modelos de lenguaje grandes actuales están significativamente subentrenados y proporciona un enfoque fundamentado para determinar el tamaño óptimo del modelo y los datos de entrenamiento para un presupuesto computacional dado. Esto tiene implicaciones importantes para el desarrollo eficiente de futuros modelos de lenguaje a gran escala.

Si deseas conocer más detalles técnicos, no dudes en leer el artículo original.

Limitaciones del enfoque de entrenamiento de modelos de lenguaje grandes óptimos en cómputo

Aunque el enfoque descrito en este artículo sobre modelos de lenguaje grandes (LLM) óptimos en cómputo presenta un marco teórico convincente, existen algunas limitaciones potenciales:

Disponibilidad de vastos datos de entrenamiento

  • Los principios se basan en tener acceso a conjuntos de datos extremadamente grandes y de alta calidad para entrenar los modelos.
  • Adquirir y curar conjuntos de datos tan masivos puede ser desafiante, consumir mucho tiempo y ser costoso.
  • Esto puede limitar la capacidad de implementar el enfoque en la práctica, especialmente para equipos de investigación u organizaciones más pequeñas.

Restricciones de hardware y cómputo

  • Entrenar modelos muy grandes con cantidades proporcionales de datos requiere recursos computacionales inmensos.
  • El acceso al hardware necesario (por ejemplo, GPU potentes, TPU) y la infraestructura requerida de electricidad/refrigeración puede ser un factor limitante.
  • Los costos computacionales generales asociados con este enfoque podrían ser prohibitivos para muchos.

Rendimiento específico de dominio

  • El artículo se centra en modelos de lenguaje de propósito general, pero el equilibrio óptimo entre el tamaño del modelo y los datos de entrenamiento puede variar para modelos dirigidos a dominios o tareas específicas.
  • Ciertas aplicaciones pueden requerir un enfoque de equilibrio diferente para lograr los mejores resultados.

Falta de validación empírica

  • Si bien los principios expuestos son lógicamente sólidos, el artículo no proporciona evidencia empírica ni estudios de caso que demuestren la eficacia del enfoque óptimo en cómputo.
  • Se necesitarían más investigaciones e implementaciones en el mundo real para validar las afirmaciones y cuantificar los beneficios.

Posibles impactos sociales

  • Escalar el tamaño del modelo y los datos de entrenamiento podría exacerbar las preocupaciones sobre la seguridad de la IA, la seguridad informática y el impacto ambiental del aprendizaje automático a gran escala.
  • Estas implicaciones sociales no se abordan en el artículo y requerirían una consideración cuidadosa.

En resumen, la implementación práctica del enfoque de LLM óptimo en cómputo puede enfrentar desafíos significativos relacionados con los datos, el hardware, la especificidad del dominio y las consideraciones de impacto más amplias. Se necesitarían evaluación empírica e investigación adicional para evaluar completamente su viabilidad y beneficios.

Una forma alternativa de obtener mejores rendimientos de los LLM

Si bien el enfoque óptimo en cómputo descrito anteriormente presenta un marco convincente para desarrollar LLM de alto rendimiento, existe una solución alternativa que puede ofrecer una flexibilidad y eficiencia aún mayores: las API de LLM.

En lugar de depender de un único LLM fijo, la API LLM de Novita AI proporciona acceso a una gama diversa de modelos de lenguaje, cada uno con sus propias capacidades únicas y áreas de especialización. Esto permite a los usuarios seleccionar el modelo más adecuado para sus necesidades específicas.

Además, la API de Modelos de Novita AI permite a los usuarios ajustar fácilmente parámetros clave del modelo, como top p (gobierna el proceso de selección de palabras del modelo para promover una generación de texto más diversa y significativa), temperature (modula el grado de aleatoriedad y exploración en la producción de texto del modelo), max tokens (restringe la longitud de la salida del modelo) y presence penalty (penaliza al modelo por la repetición excesiva de palabras, incentivándolo a generar texto más variado). Este nivel de personalización permite ajustar el rendimiento del LLM para que coincida con los requisitos únicos de cada proyecto o caso de uso, obteniendo resultados más óptimos y adaptados.

Además de los parámetros ajustables, otra característica destacada de la API de Modelos de Novita AI es su soporte para la entrada de system prompt. Los usuarios pueden proporcionar indicaciones o plantillas personalizadas para guiar el comportamiento del modelo de lenguaje, lo que permite respuestas más dirigidas y con propósito. Esto puede ser particularmente valioso para aplicaciones que requieren un tono, estilo o conocimiento específico de dominio.

Conclusión

El trabajo de Hoffmann et al. representa un paso significativo hacia la optimización del entrenamiento de modelos de lenguaje grandes dentro de restricciones computacionales prácticas. Su idea central de equilibrar la capacidad del modelo y la escala de los datos de entrenamiento está tanto fundamentada teóricamente como validada empíricamente a través de su modelo Chinchilla. Al evitar los peligros del subentrenamiento severo, este enfoque óptimo en cómputo desbloquea nuevos niveles de rendimiento y eficiencia en comparación con LLM de última generación anteriores como GPT-3.

Sin embargo, implementar este entrenamiento óptimo en cómputo a escala no está exento de desafíos. La curación de los conjuntos de datos enormemente grandes y de alta calidad requeridos plantea dificultades. La disponibilidad de recursos computacionales suficientes, desde hardware hasta costos de energía, también puede obstaculizar la adopción, especialmente para organizaciones más pequeñas. Un enfoque alternativo que ofrece más flexibilidad es aprovechar API de modelos de lenguaje avanzados como la API de Modelos de Novita AI. Estas API brindan a los usuarios acceso a una gama diversa de modelos preentrenados adaptados para diferentes casos de uso.

Novita AI, la plataforma integral para la creatividad sin límites que te da acceso a más de 100 APIs. Desde generación de imágenes y procesamiento de lenguaje hasta mejora de audio y manipulación de video, con precios de pago por uso económicos, te libera de las molestias del mantenimiento de GPU mientras construyes tus propios productos. Pruébalo gratis.

Lectura recomendada

¿Qué sucederá cuando los modelos de lenguaje grandes codifiquen conocimiento clínico?

¿Cómo pueden los modelos de lenguaje grandes mejorar por sí mismos?