El prompting de cadena de pensamiento desencadena el razonamiento en modelos de lenguaje grandes

El prompting de cadena de pensamiento desencadena el razonamiento en modelos de lenguaje grandes

Explora su eficacia en tareas de razonamiento aritmético, simbólico y de sentido común, revelando sus beneficios de escalabilidad. Observa las impresionantes mejoras de rendimiento en varios benchmarks y comprende su potencial para la generalización de longitud.

Introducción

El campo del PLN ha experimentado una transformación significativa gracias a los avances recientes en los modelos de lenguaje. Se ha demostrado que ampliar la escala de estos modelos ofrece diversas ventajas, incluido un mejor rendimiento y eficiencia en el aprendizaje a partir de ejemplos. Sin embargo, simplemente aumentar el tamaño de los modelos no ha sido suficiente para lograr un alto nivel de competencia en tareas exigentes como la aritmética, el razonamiento de sentido común y el razonamiento simbólico.

Este artículo profundiza en cómo se pueden mejorar las capacidades de razonamiento de los modelos de lenguaje grandes mediante un enfoque sencillo impulsado por dos conceptos clave. En primer lugar, enfatiza la importancia de generar explicaciones en lenguaje natural que aclaren los pasos que conducen a una solución, particularmente beneficioso en tareas de razonamiento aritmético. Además, destaca el potencial de los modelos de lenguaje grandes para el aprendizaje de pocos ejemplos en contexto mediante prompting. En lugar de ajustar un modelo separado para cada tarea nueva, este enfoque consiste en proporcionar al modelo algunos ejemplos de entrada-salida que ilustren la tarea, lo que ha mostrado un éxito notable en diversas tareas simples de preguntas y respuestas.

El prompting de cadena de pensamiento permite que los modelos de lenguaje grandes aborden tareas complejas de razonamiento aritmético, de sentido común y simbólico.

¿Qué es el prompting de cadena de pensamiento?

El prompting de cadena de pensamiento presenta varias cualidades atractivas como enfoque para mejorar el razonamiento en los modelos de lenguaje.

  1. En primer lugar, permite que los modelos descompongan problemas complejos en pasos intermedios, lo que permite asignar cómputo adicional para problemas que requieren múltiples pasos de razonamiento.
  2. En segundo lugar, una cadena de pensamiento ofrece una visión comprensible del comportamiento del modelo, indicando cómo pudo haber llegado a una respuesta específica y brindando oportunidades para identificar y corregir errores en el proceso de razonamiento (aunque comprender completamente los cálculos del modelo que respaldan una respuesta sigue siendo un desafío).
  3. En tercer lugar, el razonamiento de cadena de pensamiento es aplicable a diversas tareas, como problemas de palabras matemáticas, razonamiento de sentido común y manipulación simbólica, con el potencial de extenderse a cualquier tarea que los humanos puedan resolver mediante el lenguaje.
  4. Finalmente, el razonamiento de cadena de pensamiento puede incorporarse fácilmente en modelos de lenguaje grandes suficientemente preentrenados al incluir ejemplos de secuencias de cadenas de pensamiento en los ejemplos de prompting de pocos ejemplos, lo que lo convierte en una herramienta versátil para mejorar el rendimiento del modelo.

Si deseas obtener más información general sobre la cadena de pensamiento en los LLM, puedes consultar nuestro blog: Desbloqueando el potencial del prompting de cadena de pensamiento en modelos de lenguaje a gran escala

Razonamiento aritmético

Si bien el razonamiento aritmético puede parecer sencillo para los humanos, los modelos de lenguaje a menudo encuentran dificultades con él. Sorprendentemente, cuando se aplica a un modelo de lenguaje de 540 mil millones de parámetros, el prompting de cadena de pensamiento produce un rendimiento comparable al de modelos ajustados específicamente para la tarea en múltiples tareas. Incluso alcanza un nuevo estado del arte en el desafiante benchmark GSM8K.

Configuración experimental

Profundizamos en la efectividad del prompting de cadena de pensamiento en varios modelos de lenguaje en múltiples benchmarks de problemas de palabras matemáticas. Estos benchmarks incluyen el benchmark GSM8K, el conjunto de datos SVAMP, el conjunto de datos ASDiv, el conjunto de datos AQuA y el benchmark MAWPS, cada uno ofreciendo desafíos distintos en la resolución de problemas de palabras matemáticas. Proporcionamos ejemplos de problemas en la Tabla 12 del Apéndice como referencia.

Benchmarks.

Para nuestra comparación de referencia, empleamos la técnica estándar de prompting de pocos ejemplos ampliamente utilizada. Este método consiste en presentar al modelo de lenguaje ejemplos de pares entrada-salida en contexto antes de hacer predicciones sobre ejemplos en tiempo de prueba. Estos ejemplos se estructuran como preguntas y respuestas, y el modelo genera directamente la respuesta.

Prompting estándar

Por el contrario, nuestro enfoque propuesto, el prompting de cadena de pensamiento, mejora cada ejemplo en el prompting de pocos ejemplos con una cadena de pensamiento detallada vinculada a la respuesta asociada. Dado que la mayoría de los conjuntos de datos solo proporcionan una división de evaluación, creamos manualmente un conjunto de ocho ejemplos de pocos ejemplos con cadenas de pensamiento para el prompting. Un ejemplo de cadena de pensamiento se ilustra en la Figura 1, y el conjunto completo está disponible en la Tabla 20 del Apéndice. Es importante tener en cuenta que estos ejemplos no se sometieron a ingeniería de prompting; exploramos su robustez en la Sección 3.4 y el Apéndice A.2.

Nuestro objetivo es investigar si esta forma de prompting de cadena de pensamiento puede estimular eficazmente un razonamiento exitoso en una amplia gama de escenarios de problemas de palabras matemáticas.

Modelos de lenguaje

Evaluamos el rendimiento de cinco modelos de lenguaje grandes. El primero es GPT-3, para el cual utilizamos las variantes text-ada-001, text-babbage-001, text-curie-001 y text-davinci-002, correspondientes a los modelos InstructGPT de 350M, 1.3B, 6.7B y 175B de parámetros respectivamente. El segundo modelo es LaMDA, disponible en versiones con 422M, 2B, 8B, 68B y 137B de parámetros. El tercer modelo es PaLM, que ofrece modelos con 8B, 62B y 540B de parámetros. El cuarto modelo es UL2 20B, y el quinto es Codex.

Muestreamos de estos modelos usando decodificación codiciosa, aunque investigaciones posteriores sugieren que el prompting de cadena de pensamiento se puede refinar agregando la respuesta final mayoritaria sobre varias generaciones muestreadas. Para LaMDA, presentamos resultados promediados de cinco semillas aleatorias, donde cada semilla emplea un orden diferente de ejemplos mezclados aleatoriamente. Dado que los experimentos con LaMDA no mostraron una varianza significativa entre diferentes semillas, para optimizar los recursos computacionales, reportamos resultados basados en un único orden de ejemplos para todos los demás modelos.

Resultados

El prompting de cadena de pensamiento permite que los modelos de lenguaje grandes aborden problemas matemáticos difíciles. Notablemente, la capacidad de razonar a través de cadenas de pensamiento emerge a medida que los modelos escalan.

Razonamiento de sentido común

Si bien la metodología de cadena de pensamiento es particularmente efectiva para abordar problemas de palabras matemáticas, su enfoque basado en el lenguaje la hace aplicable a una amplia gama de tareas de razonamiento de sentido común. El razonamiento de sentido común implica comprender interacciones físicas y humanas basadas en conocimientos generales de fondo, una habilidad que aún es un desafío para los sistemas actuales de comprensión del lenguaje natural (Talmor et al., 2021).

Benchmarks

Evaluamos este enfoque en cinco conjuntos de datos que representan varios tipos de razonamiento de sentido común. El conjunto de datos CSQA implica responder preguntas de sentido común sobre el mundo, que a menudo requieren conocimiento previo de semántica compleja. StrategyQA requiere que los modelos deduzcan estrategias de múltiples pasos para responder preguntas. Además, utilizamos dos conjuntos de evaluación especializados de la iniciativa BIG-bench: Date Understanding, que se centra en inferir fechas a partir del contexto, y Sports Understanding, que implica determinar la plausibilidad de oraciones relacionadas con deportes. Por último, el conjunto de datos SayCan implica mapear instrucciones en lenguaje natural a secuencias de acciones de robots a partir de un conjunto discreto. Se ilustran ejemplos con anotaciones de cadena de pensamiento para todos los conjuntos de datos.

Prompts.

En términos de configuración experimental, seguimos un enfoque similar al de la sección anterior. Para CSQA y StrategyQA, seleccionamos aleatoriamente ejemplos del conjunto de entrenamiento y creamos manualmente cadenas de pensamiento para ellos que sirvan como ejemplos de pocos ejemplos. Como las dos tareas de BIG-bench carecen de conjuntos de entrenamiento, utilizamos los primeros diez ejemplos del conjunto de evaluación como ejemplos de pocos ejemplos y reportamos resultados en el resto del conjunto de evaluación. Para SayCan, utilizamos seis ejemplos del conjunto de entrenamiento y creamos cadenas de pensamiento manualmente.

Resultados

Los resultados, destacados en la Figura 7 para PaLM (con resultados completos para LaMDA, GPT-3 y diferentes escalas de modelo en la Tabla 4), revelan que escalar el tamaño del modelo mejora el rendimiento del prompting estándar en todas las tareas. Además, el prompting de cadena de pensamiento conduce a ganancias de rendimiento adicionales, siendo las mejoras más significativas observadas para PaLM 540B. Con el prompting de cadena de pensamiento, PaLM 540B logra resultados impresionantes, superando el rendimiento previo del estado del arte en StrategyQA (75.6% vs 69.4%) e incluso superando a los entusiastas del deporte no asistidos en la comprensión deportiva (95.4% vs 84%). Estos hallazgos subrayan el potencial del prompting de cadena de pensamiento para mejorar el rendimiento en una variedad de tareas de razonamiento de sentido común, aunque las ganancias fueron mínimas en CSQA.

Razonamiento simbólico

En nuestra evaluación experimental final, nos centramos en el razonamiento simbólico, una tarea que es sencilla para los humanos pero que puede plantear desafíos para los modelos de lenguaje. Demostramos que el prompting de cadena de pensamiento no solo permite que los modelos de lenguaje aborden tareas de razonamiento simbólico que son difíciles bajo condiciones estándar de prompting, sino que también ayuda en la generalización de longitud, permitiendo que los modelos manejen entradas de inferencia más largas que las encontradas en los ejemplos de pocos ejemplos.

Tareas

Empleamos las siguientes dos tareas simples para nuestro análisis:

  1. Concatenación de la última letra: En esta tarea, se asigna al modelo la tarea de concatenar las últimas letras de las palabras en un nombre dado (por ejemplo, “Amy Brown” → “yn”). Presenta una versión más desafiante de la tarea de concatenación de la primera letra, que los modelos de lenguaje ya pueden realizar sin necesidad de cadena de pensamiento. Generamos nombres completos combinando aleatoriamente nombres de los mil nombres y apellidos principales obtenidos de datos censales de nombres.
  2. Lanzamiento de moneda: Esta tarea requiere que el modelo determine si una moneda sigue mostrando cara después de que las personas la lancen o no (por ejemplo, “Una moneda muestra cara. Phoebe lanza la moneda. Osvaldo no lanza la moneda. ¿La moneda sigue mostrando cara?” → “no”).

Resultados

En la siguiente figura, presentamos los resultados de las evaluaciones dentro del dominio (in-domain) y fuera del dominio (OOD) para PaLM, con los resultados de LaMDA detallados en la Tabla 5 del Apéndice. Notablemente, con PaLM 540B, el prompting de cadena de pensamiento alcanza tasas de éxito cercanas al 100%, aunque el prompting estándar ya realiza las tareas de lanzamiento de moneda con PaLM 540B (pero no con LaMDA 137B).

Estas evaluaciones dentro del dominio involucran “tareas de juguete”, donde las cadenas de pensamiento en los ejemplos de pocos ejemplos proporcionan estructuras de solución perfectas. A pesar de esto, los modelos más pequeños aún tienen dificultades, lo que demuestra que la capacidad de manipular conceptos abstractos en símbolos no vistos solo emerge a una escala de 100B parámetros del modelo.

En las evaluaciones OOD, el prompting estándar falla para ambas tareas. Sin embargo, con el prompting de cadena de pensamiento, los modelos de lenguaje exhiben curvas de escalado ascendentes, aunque con un rendimiento menor en comparación con el entorno dentro del dominio. Esto indica que el prompting de cadena de pensamiento facilita la generalización de longitud más allá de las cadenas de pensamiento familiares para modelos de lenguaje escalados adecuadamente.

Conclusión

Nuestra exploración del prompting de cadena de pensamiento revela su eficacia como una técnica simple y ampliamente aplicable para mejorar las capacidades de razonamiento en los modelos de lenguaje. A través de experimentos que abarcan el razonamiento aritmético, simbólico y de sentido común, observamos que el razonamiento de cadena de pensamiento surge como una propiedad de la escala del modelo. Esto permite que modelos de lenguaje suficientemente grandes aborden eficazmente tareas de razonamiento que de otro modo muestran curvas de escalado planas.

Al expandir el repertorio de tareas de razonamiento que los modelos de lenguaje pueden manejar con competencia, nuestro objetivo es estimular la exploración y el desarrollo continuos de enfoques basados en el lenguaje para el razonamiento.

novita.ai, la plataforma integral para la creatividad sin límites que te brinda acceso a más de 100 APIs. Desde generación de imágenes y procesamiento de lenguaje hasta mejora de audio y manipulación de video, con un modelo de pago por uso económico, te libera de las tareas de mantenimiento de GPU mientras creas tus propios productos. Pruébalo gratis.

Lectura recomendada

¿Cuál es la diferencia entre LLM y GPT?

Predicciones del Leaderboard LLM 2024 reveladas

Novita AI LLM Inference Engine: el mayor rendimiento y la inferencia más económica disponible