Explora el impacto transformador de los Grandes Modelos Multimodales (LMMs) como CLIP y Flamingo, que pueden procesar y generar diversas modalidades de datos, como texto e imágenes. Descubre direcciones de investigación de vanguardia, como la incorporación de nuevas modalidades, la mejora de la eficiencia del entrenamiento y la generación de resultados multimodales, con el potencial de revolucionar industrias y las interacciones de los usuarios con la IA.
Antecedentes
Durante mucho tiempo, los modelos de aprendizaje automático operaron en un único modo de datos: texto para traducción y modelado de lenguaje, imagen para detección y clasificación de objetos, y audio para reconocimiento de voz. Sin embargo, la inteligencia humana no se limita a una sola modalidad. Leemos y escribimos texto, interpretamos imágenes y videos, escuchamos música para relajarnos y confiamos en los sonidos para detectar peligros. Para funcionar eficazmente en el mundo real, la IA también debe ser capaz de manejar datos multimodales.
Reconociendo esto, OpenAI enfatizó la importancia de incorporar modalidades adicionales, como imágenes, en los Grandes Modelos de Lenguaje (LLMs), marcando una frontera crucial en la investigación y el desarrollo de la IA. Esta integración de modalidades adicionales transforma los LLMs en Grandes Modelos Multimodales (LMMs). Durante el último año, los principales laboratorios de investigación han presentado una oleada de nuevos LMMs, como Flamingo de DeepMind, BLIP de Salesforce, KOSMOS-1 de Microsoft, PaLM-E de Google y Macaw-LLM de Tencent. Incluso chatbots como ChatGPT y Gemini entran en la categoría de LMMs.
Sin embargo, no todos los sistemas multimodales son LMMs. Modelos como Midjourney, Stable Diffusion y DALL-E pueden procesar múltiples modalidades, pero carecen de un componente de modelo de lenguaje. Los sistemas multimodales pueden abarcar una variedad de escenarios: donde la entrada y la salida son de diferentes modalidades (por ejemplo, texto a imagen, imagen a texto), donde las entradas son multimodales (por ejemplo, procesar tanto texto como imágenes), o donde las salidas son multimodales (por ejemplo, generar tanto texto como imágenes).
¿Qué es multimodal?
Multimodal puede significar una o más de las siguientes características:
- La entrada y la salida son de diferentes modalidades (por ejemplo, texto a imagen, imagen a texto).
- Las entradas son multimodales (por ejemplo, un sistema que puede procesar tanto texto como imágenes).
- Las salidas son multimodales (por ejemplo, un sistema que puede generar tanto texto como imágenes).
¿Por qué multimodal?
La multimodalidad es indispensable en numerosos casos de uso, particularmente en industrias que manejan una combinación de modalidades de datos, incluyendo atención médica, robótica, comercio electrónico, venta minorista, juegos y más.

De hecho, integrar datos de múltiples modalidades puede mejorar significativamente el rendimiento del modelo. Es lógico pensar que un modelo capaz de aprender tanto de texto como de imágenes superará a uno limitado a una sola modalidad.
Los sistemas multimodales ofrecen una interfaz más adaptable, permitiendo a los usuarios interactuar con ellos de diversas maneras según sus preferencias o circunstancias. Imagina poder hacer una pregunta escribiendo, hablando o simplemente apuntando una cámara a un objeto.
Modalidades de datos
Las diferentes modalidades de datos incluyen texto, imagen, audio, datos tabulares y más. Cada modalidad puede ser traducida o aproximada a otra forma:
- El audio puede representarse como imágenes, como los espectrogramas de mel.
- El habla puede transcribirse a texto, aunque esta conversión puede perder matices como el volumen, la entonación y las pausas.
- Una imagen puede convertirse en un vector, que luego puede aplanarse y representarse como una secuencia de tokens de texto.
- Los videos consisten en secuencias de imágenes combinadas con audio. Sin embargo, los modelos de ML actuales suelen tratar los videos únicamente como secuencias de imágenes, ignorando la importancia del sonido. Esta limitación es notable, ya que el sonido contribuye significativamente a la experiencia de video, como lo demuestra el 88% de los usuarios de TikTok que enfatizan su importancia.
- El texto puede capturarse como una imagen simplemente tomando una fotografía del mismo.
- Las tablas de datos pueden transformarse en gráficos, que son esencialmente imágenes.
Aquí están las diversas modalidades de novita.ai:

novita.ai es una plataforma integral para la creatividad ilimitada que te da acceso a más de 100 APIs. Desde generación de imágenes y procesamiento de lenguaje hasta mejora de audio y manipulación de video, con un modelo de pago por uso económico, te libera de las tareas de mantenimiento de GPU mientras construyes tus propios productos. Pruébalo gratis.
Tareas de los sistemas multimodales
Para comprender los sistemas multimodales, resulta útil examinar las tareas que abordan. Estas tareas varían ampliamente y su organización puede adoptar numerosas formas. En la literatura, las tareas de visión y lenguaje a menudo se clasifican en dos grupos principales: generación y comprensión de visión y lenguaje (VLU), que abarca tareas que no implican generación. Sin embargo, vale la pena señalar que la distinción entre estos grupos es algo ambigua, ya que la capacidad de generar respuestas implica inherentemente comprensión.
Generación
En las tareas generativas, la salida puede ser unimodal (como texto, imagen o renderizado 3D) o multimodal. Si bien las salidas unimodales son prevalentes en los modelos actuales, el desarrollo de salidas multimodales aún está en curso. Profundizaremos en las salidas multimodales hacia el final de esta publicación.
Generación de imágenes (síntesis texto a imagen)
Esta categoría de tarea es sencilla. Ejemplos: DALL-E, Stable Diffusion y Midjourney.
Generación de texto
Una tarea común en la generación de texto es la respuesta visual a preguntas (VQA), donde el modelo recibe tanto texto como imágenes para obtener contexto. Esto permite escenarios en los que los usuarios pueden usar sus cámaras para hacer preguntas como: “¿Qué le pasa a mi coche?” o “¿Cómo preparo este plato?”
De manera similar, la descripción de imágenes (image captioning) es otra aplicación común. Puede integrarse en sistemas de recuperación de imágenes basados en texto utilizados por organizaciones que albergan vastas bibliotecas de imágenes que incluyen imágenes de productos, gráficos, diseños, fotos de equipo, materiales promocionales y más. Al generar automáticamente descripciones y metadatos, la IA simplifica el proceso de localizar imágenes específicas dentro de estas colecciones.
Comprensión de visión y lenguaje
Centrémonos en dos tipos de tareas: clasificación y recuperación de imágenes basada en texto (TBIR).
Clasificación
Los modelos de clasificación se limitan a producir salidas que caen dentro de una lista predefinida de clases. Esto es adecuado cuando el objetivo es discernir entre un número fijo de resultados potenciales. Por ejemplo, en un sistema de Reconocimiento Óptico de Caracteres (OCR), la tarea es simplemente predecir si un visual corresponde a uno de los caracteres reconocidos, como un dígito o una letra.
Una tarea estrechamente relacionada con la clasificación es la recuperación de imagen a texto: dada una imagen y un conjunto de textos predefinidos, el objetivo es identificar el texto que más probablemente corresponda con la imagen. Esta aplicación puede ser particularmente útil para búsquedas de imágenes de productos, como recuperar reseñas de productos basadas en una imagen dada.

Procesamiento de documentos con GPT-4V. El error del modelo está resaltado en rojo.
Recuperación de imágenes basada en texto (búsqueda de imágenes)
La búsqueda de imágenes es importante no solo para los motores de búsqueda, sino también para las empresas que buscan examinar sus imágenes y documentos internos. Algunos se refieren a la recuperación de imágenes basada en texto como “recuperación texto a imagen”.
Existen varios enfoques para la recuperación de imágenes basada en texto. Dos métodos notables incluyen:
- Generar descripciones y metadatos para cada imagen, ya sea manual o automáticamente (como se ve en la descripción de imágenes dentro de la generación de texto). Dada una consulta de texto, el objetivo es identificar imágenes cuyas descripciones o metadatos coincidan estrechamente con la consulta.
- Entrenar un espacio de incrustación conjunto tanto para imágenes como para texto. En este enfoque, una consulta de texto genera una incrustación, y el objetivo es localizar imágenes cuyas incrustaciones sean más similares a la incrustación de la consulta.
El último enfoque ofrece mayor flexibilidad y se espera que tenga una adopción más amplia. Se basa en el establecimiento de un espacio de incrustación conjunto robusto tanto para la visión como para el lenguaje, similar al desarrollado por CLIP de OpenAI.
Componente clave del entrenamiento multimodal
A un nivel amplio, un sistema multimodal consta de los siguientes componentes:
- Codificadores para cada modalidad de datos encargados de generar incrustaciones específicas de esa modalidad.
- Mecanismos para alinear incrustaciones de diferentes modalidades dentro de un espacio de incrustación multimodal unificado.
- Para modelos generativos, se necesita un modelo de lenguaje para generar respuestas de texto. Dado que las entradas pueden incluir tanto texto como imágenes, se requieren técnicas innovadoras para permitir que el modelo de lenguaje base sus respuestas no solo en texto, sino también en imágenes.
Idealmente, la mayor cantidad posible de estos componentes debería estar preentrenada y ser reutilizable para mejorar la eficiencia y la versatilidad.
Introducción a sistemas multimodales existentes
Seleccionar en qué sistemas multimodales centrarme para esta publicación fue un desafío debido a la abundancia de opciones notables disponibles. Finalmente, opté por destacar dos modelos: CLIP (2021) y Flamingo (2022). Estas elecciones se basaron en su importancia, así como en la disponibilidad y claridad de la información pública.
CLIP hizo historia al ser el primer modelo capaz de generalizar a múltiples tareas de clasificación de imágenes utilizando técnicas de aprendizaje zero-shot y few-shot. Por otro lado, aunque Flamingo no fue el primer modelo multimodal grande capaz de generar respuestas abiertas (BLIP de Salesforce lo precedió por 3 meses), su impresionante rendimiento llevó a muchos a considerarlo como el momento definitorio, similar a GPT-3 en el ámbito multimodal.
A pesar de ser modelos más antiguos, las técnicas empleadas por CLIP y Flamingo siguen siendo relevantes hoy en día. Sirven como pilares fundamentales para comprender modelos más nuevos dentro del panorama multimodal en rápida evolución, donde se desarrollan continuamente numerosas ideas innovadoras.
CLIP: Contrastive Language-Image Pre-training
El gran avance de CLIP radica en su capacidad para mapear datos de diferentes modalidades (texto e imágenes) en un espacio de incrustación compartido. Este espacio de incrustación multimodal compartido simplifica significativamente tareas como texto a imagen e imagen a texto.
Además, entrenar este espacio de incrustación multimodal ha dado como resultado un codificador de imágenes robusto dentro de CLIP. En consecuencia, CLIP demuestra un rendimiento zero-shot competitivo en diversas tareas de clasificación de imágenes. La fortaleza de este codificador de imágenes se extiende a otras aplicaciones, incluida la generación de imágenes, la respuesta visual a preguntas y la recuperación de imágenes basada en texto. Notablemente, Flamingo y LLaVA aprovechan CLIP como su codificador de imágenes, mientras que DALL-E utiliza CLIP para reordenar imágenes generadas. Sin embargo, no está claro si GPT-4V incorpora CLIP en su arquitectura.

CLIP utilizó supervisión de lenguaje natural y técnicas de aprendizaje contrastivo, lo que permitió al modelo escalar sus datos y mejorar la eficiencia del entrenamiento.
Arquitectura de alto nivel de CLIP

En la arquitectura de CLIP, tanto los codificadores como las matrices de proyección se entrenan conjuntamente desde cero. El objetivo del entrenamiento es maximizar las puntuaciones de similitud de los pares (imagen, texto) correctos mientras se minimizan las puntuaciones de similitud de los pares incorrectos, una técnica conocida como aprendizaje contrastivo.
Aplicaciones de CLIP
Clasificación
Actualmente, CLIP sirve como una base sólida lista para usar para numerosas tareas de clasificación de imágenes, ya sea utilizado en su forma original o ajustado para aplicaciones específicas.

Recuperación de imágenes basada en texto
Dado que el proceso de entrenamiento de CLIP comparte similitudes conceptuales tanto con la recuperación de imagen a texto como con la recuperación de texto a imagen, tiene un gran potencial para aplicaciones amplias como la recuperación o búsqueda de imágenes. Sin embargo, su rendimiento en relación con el estado del arte general es notablemente menor en tareas de recuperación de imágenes.
Se han realizado esfuerzos para aprovechar CLIP en la recuperación de imágenes. Por ejemplo, el paquete clip-retrieval funciona de la siguiente manera:
- Generar incrustaciones CLIP para todas las imágenes y almacenarlas en una base de datos vectorial.
- Generar una incrustación CLIP para cada consulta de texto.
- Consultar la base de datos vectorial para todas las imágenes cuyas incrustaciones coincidan estrechamente con la incrustación de la consulta de texto.
Generación de imágenes
Las incrustaciones conjuntas de imagen y texto de CLIP ofrecen un valioso apoyo para las tareas de generación de imágenes. Por ejemplo, DALL-E (2021) utiliza CLIP para reordenar una multitud de imágenes generadas a partir de un prompt de texto determinado, presentando a los usuarios las imágenes mejor clasificadas.
En 2022, OpenAI introdujo unCLIP, un modelo de síntesis de texto a imagen condicionado por latentes de CLIP. Consta de dos componentes principales:
- CLIP está entrenado y se mantiene fijo. El modelo CLIP preentrenado puede producir incrustaciones tanto para texto como para imágenes en el mismo espacio de incrustación.
- Durante la generación de imágenes, ocurren dos pasos: a. Utilizar CLIP para generar incrustaciones para el texto dado. b. Emplear un decodificador de difusión para generar imágenes condicionadas por estas incrustaciones.

Generación de texto
Los autores de CLIP exploraron la creación de un modelo de generación de texto. Una variante que probaron se conoce como LM RN50. Sin embargo, aunque este modelo podía generar respuestas de texto, su rendimiento estaba constantemente aproximadamente un 10% por detrás del modelo CLIP con mejor rendimiento en todas las tareas de comprensión de visión y lenguaje evaluadas.
Si bien CLIP no se utiliza directamente para la generación de texto en la actualidad, su codificador de imágenes sirve con frecuencia como base para los Grandes Modelos Multimodales (LMMs) capaces de generar texto.
Flamingo: el amanecer de los LMMs
A diferencia de CLIP, Flamingo tiene la capacidad de producir respuestas de texto. En términos simplificados, Flamingo puede verse como CLIP combinado con un modelo de lenguaje, incorporando técnicas adicionales para permitir que el modelo de lenguaje genere tokens de texto condicionados tanto por entradas visuales como de texto.

Flamingo puede generar respuestas de texto condicionadas tanto por texto como por imágenes.
Arquitectura de alto nivel de Flamingo
Flamingo se puede descomponer en dos componentes principales:
- Codificador de visión: Este aspecto implica entrenar un modelo similar a CLIP utilizando aprendizaje contrastivo. A continuación, se descarta el codificador de texto del modelo, dejando el codificador de visión congelado para su integración en el modelo principal.
- Modelo de lenguaje: Flamingo refina Chinchilla mediante ajuste fino para producir tokens de texto condicionados tanto por entradas visuales como textuales. Este proceso implica el uso de pérdida de modelo de lenguaje e incorpora dos componentes adicionales: el Perceiver Resampler y las capas GATED XATTN-DENSE.

Conjunto de datos
Flamingo utilizó 4 conjuntos de datos: 2 conjuntos de pares (imagen, texto), 1 conjunto de pares (video, texto) y 1 conjunto intercalado de imágenes y texto.


Modelo de lenguaje de Flamingo
En Flamingo, Chinchilla sirve como modelo de lenguaje, con un enfoque específico en congelar las 9 capas preentrenadas de Chinchilla LM. A diferencia de un modelo de lenguaje tradicional, que predice el siguiente token de texto basándose únicamente en los tokens de texto anteriores.

Flamingo extiende esto prediciendo el siguiente token de texto considerando tanto los tokens de texto anteriores como los tokens visuales. Esta capacidad de generar texto condicionado tanto por entradas de texto como visuales se facilita mediante la integración de Perceiver Resampler y las capas GATED XATTN-DENSE.
CLIP vs. Flamingo

Direcciones futuras para los LMMs
CLIP tiene 3 años y Flamingo se acerca a su segundo aniversario. Si bien sus arquitecturas proporcionan una base sólida para comprender la construcción de Grandes Modelos Multimodales (LMMs), se han producido numerosos avances en este campo.
Varias direcciones en el espacio multimodal me resultan particularmente interesantes, aunque esta lista no es exhaustiva en absoluto. La extensión de esta publicación y mi exploración continua del tema contribuyen a su falta de exhaustividad. ¡Si tienes alguna idea o recomendación, te agradecería mucho!
Incorporar más modalidades de datos
En el ámbito de los sistemas multimodales, el enfoque actual gira predominantemente en torno al texto y las imágenes. Sin embargo, es solo cuestión de tiempo que surja la necesidad de sistemas capaces de integrar otras modalidades como videos, música y datos 3D. La perspectiva de tener un espacio de incrustación unificado que admita todas las modalidades de datos es realmente emocionante.
Algunos trabajos notables en esta área incluyen:
- ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding (Xue et al., diciembre de 2022)
- ImageBind: One Embedding Space To Bind Them All (Girdhar et al., mayo de 2023)
- NExT-GPT: Any-to-Any Multimodal Large Language Model (Wu et al., septiembre de 2023)
Además, el ambicioso proyecto Pathways de Jeff Dean (2021) tiene como objetivo “permitir modelos multimodales que abarquen simultáneamente la comprensión visual, auditiva y del lenguaje”.

Entrenar sistemas multimodales más eficientes
Si bien Flamingo utilizó 9 capas preentrenadas y congeladas de Chinchilla, requirió preentrenar su codificador de visión, Perceiver Resampler y capas GATED XATTN-DENSE desde cero. Entrenar estos módulos desde cero puede ser computacionalmente intensivo. En consecuencia, muchos trabajos recientes se han centrado en desarrollar métodos más eficientes para arrancar sistemas multimodales con menos entrenamiento desde cero.
Algunos de estos trabajos muestran resultados prometedores. Por ejemplo, BLIP-2 superó a Flamingo-80B en un 8.7% en VQA-v2 zero-shot con 54 veces menos parámetros entrenables.
Trabajos notables en este dominio incluyen:
- BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- [LAVIN] Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models
- LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model
Las imágenes a continuación provienen del tutorial de Grandes Modelos Multimodales de Chunyuan Li en CVPR 2023, que es altamente recomendado por su cobertura integral del tema.

Generar salidas multimodales
A medida que los modelos capaces de procesar entradas multimodales se vuelven cada vez más comunes, el desarrollo de capacidades de salida multimodal aún está rezagado. Muchos escenarios prácticos requieren salidas multimodales. Por ejemplo, al solicitar una explicación a ChatGPT sobre RLHF, una respuesta efectiva podría implicar la inclusión de gráficos, ecuaciones e incluso animaciones básicas.
Para generar salidas multimodales, un modelo primero debe producir una salida intermedia compartida. Una consideración crítica es la naturaleza de esta salida intermedia.
Un enfoque para la salida intermedia es el texto, que posteriormente guía la generación o síntesis de otras acciones.
Por ejemplo, CM3 (Aghajanyan et al., 2022) produce marcado HTML, que puede compilarse en páginas web que contienen no solo texto, sino también formato, enlaces e imágenes. GPT-4V genera código LaTeX, que luego puede reconstruirse en tablas de datos.

Conclusión
La evolución desde sistemas unimodales a multimodales marca un avance significativo en la investigación y el desarrollo de la inteligencia artificial. Modelos como CLIP y Flamingo han allanado el camino para los Grandes Modelos Multimodales (LMMs), capaces de procesar y generar diversas modalidades de datos, como texto, imágenes y más. A medida que el campo continúa progresando, los investigadores están explorando nuevas fronteras, incluyendo la incorporación de modalidades adicionales como videos y datos 3D, la mejora de la eficiencia del entrenamiento y el desarrollo de métodos para generar salidas multimodales. Estos avances tienen un inmenso potencial para revolucionar diversas industrias y mejorar las interacciones de los usuarios con los sistemas de IA.
novita.ai, la plataforma integral para la creatividad ilimitada que te da acceso a más de 100 APIs. Desde generación de imágenes y procesamiento de lenguaje hasta mejora de audio y manipulación de video, con un modelo de pago por uso económico, te libera de las tareas de mantenimiento de GPU mientras construyes tus propios productos. Pruébalo gratis.
Lectura recomendada
Novita AI LLM Inference Engine: el mayor rendimiento y la inferencia más económica disponible
