대규모 멀티모달 모델(LMMs): AI 세계의 거대한 도약

배경
멀티모달이란?
멀티모달의 작업
멀티모달 학습의 핵심 구성 요소
기존 멀티모달 시스템 소개
CLIP vs. Flamingo
LMM의 미래 방향
결론

CLIP, Flamingo와 같은 대규모 멀티모달 모델(LMMs)의 혁신적 영향을 탐구합니다. 이 모델들은 텍스트와 이미지 등 다양한 데이터 형식을 처리하고 생성할 수 있습니다. 새로운 모달리티 도입, 학습 효율성 향상, 멀티모달 출력 생성 등 최첨단 연구 방향을 발견하고 산업과 사용자와 AI의 상호작용에 혁명을 일으킬 잠재력을 확인하세요.

배경

오랫동안 머신러닝 모델은 하나의 데이터 모드로만 작동했습니다. 텍스트는 번역 및 언어 모델링, 이미지는 객체 탐지 및 분류, 오디오는 음성 인식에 사용되었습니다. 하지만 인간의 지능은 하나의 모달리티에 국한되지 않습니다. 우리는 텍스트를 읽고 쓰고, 이미지와 비디오를 해석하며, 휴식을 위해 음악을 듣고, 위험을 감지하기 위해 소리에 의존합니다. AI가 현실 세계에서 효과적으로 기능하려면 멀티모달 데이터를 처리할 수 있어야 합니다.

이를 인지한 OpenAI는 대규모 언어 모델(LLMs)에 이미지와 같은 추가 모달리티를 통합하는 것의 중요성을 강조했으며, 이는 AI 연구 및 개발의 중요한 프론티어를 표시했습니다. 이러한 추가 모달리티의 통합은 LLMs를 대규모 멀티모달 모델(LMMs)로 변환합니다. 지난 1년 동안 주요 연구소에서는 DeepMind의 Flamingo, Salesforce의 BLIP, Microsoft의 KOSMOS-1, Google의 PaLM-E, Tencent의 Macaw-LLM 등 새로운 LMM을 쏟아냈습니다. ChatGPT 및 Gemini와 같은 챗봇도 LMM 범주에 속합니다.

그러나 모든 멀티모달 시스템이 LMM은 아닙니다. Midjourney, Stable Diffusion, DALL-E와 같은 모델은 여러 모달리티를 처리할 수 있지만 언어 모델 구성 요소가 없습니다. 멀티모달 시스템은 입력과 출력의 모달리티가 다른 경우(예: 텍스트-이미지, 이미지-텍스트), 입력이 멀티모달인 경우(예: 텍스트와 이미지 모두 처리), 또는 출력이 멀티모달인 경우(예: 텍스트와 이미지 모두 생성) 등 다양한 시나리오를 포괄할 수 있습니다.

멀티모달이란?

멀티모달은 다음 중 하나 이상을 의미할 수 있습니다:

입력과 출력이 서로 다른 모달리티인 경우(예: 텍스트-이미지, 이미지-텍스트)
입력이 멀티모달인 경우(예: 텍스트와 이미지를 모두 처리할 수 있는 시스템)
출력이 멀티모달인 경우(예: 텍스트와 이미지를 모두 생성할 수 있는 시스템)

멀티모달이 중요한 이유

멀티모달은 다양한 사용 사례, 특히 헬스케어, 로봇공학, 전자상거래, 소매, 게임 등 데이터 모달리티가 혼합된 산업에서 필수적입니다.

실제로 여러 모달리티의 데이터를 통합하면 모델 성능이 크게 향상될 수 있습니다. 텍스트와 이미지 모두에서 학습할 수 있는 모델이 하나의 모달리티에만 제한된 모델보다 더 나은 성능을 보일 것이라는 점은 합리적입니다.

멀티모달 시스템은 더 적응성 있는 인터페이스를 제공하여 사용자가 선호도나 상황에 따라 다양한 방식으로 상호작용할 수 있게 합니다. 질문을 입력, 음성, 또는 물체에 카메라를 비추는 방식으로 할 수 있다고 상상해보세요.

데이터 모달리티

데이터 모달리티에는 텍스트, 이미지, 오디오, 테이블 형식 데이터 등이 있습니다. 각 모달리티는 다른 형태로 변환되거나 근사될 수 있습니다:

오디오는 멜 스펙트로그램과 같은 이미지로 표현될 수 있습니다.
음성은 텍스트로 전사될 수 있지만, 이 변환은 음량, 억양, 멈춤과 같은 뉘앙스를 잃을 수 있습니다.
이미지는 벡터로 변환된 후 평면화되어 텍스트 토큰 시퀀스로 표현될 수 있습니다.
비디오는 이미지 시퀀스와 오디오로 구성됩니다. 그러나 현재의 ML 모델은 일반적으로 비디오를 이미지 시퀀스로만 처리하며 소리의 중요성을 간과합니다. 이는 TikTok 사용자의 88%가 소리의 중요성을 강조하는 것과 같이 소리가 비디오 경험에 크게 기여한다는 점에서 주목할 만한 한계입니다.
텍스트는 사진을 찍는 것만으로 이미지로 캡처될 수 있습니다.
데이터 테이블은 차트로 변환될 수 있으며, 이는 본질적으로 이미지입니다.

다음은 novita.ai의 다양한 모달리티입니다:

novita.ai는 무한한 창의성을 위한 원스톱 플랫폼으로, 100개 이상의 API에 접근할 수 있습니다. 이미지 생성부터 언어 처리, 오디오 향상, 비디오 조작까지, 저렴한 종량제 요금으로 자체 제품을 구축하면서 GPU 유지 관리의 번거로움에서 해방됩니다. 무료로 사용해보기.

멀티모달의 작업

멀티모달 시스템을 이해하려면 해당 시스템이 해결하는 작업을 살펴보는 것이 유용합니다. 이러한 작업은 매우 다양하며, 구성 방식도 여러 가지입니다. 문헌에서는 비전-언어 작업이 흔히 생성(Generation)과 비전-언어 이해(Vision-Language Understanding, VLU)의 두 그룹으로 분류됩니다. VLU는 생성을 포함하지 않는 작업을 포함합니다. 그러나 이 두 그룹 간의 구분은 다소 모호합니다. 응답을 생성하는 능력에는 본질적으로 이해도 포함되기 때문입니다.

생성

생성 작업에서 출력은 단일 모달리티(텍스트, 이미지, 3D 렌더링 등) 또는 멀티모달일 수 있습니다. 현재 모델에서는 단일 모달리티 출력이 주류이지만, 멀티모달 출력의 개발은 계속 진행 중입니다. 이 글의 마지막 부분에서 멀티모달 출력에 대해 자세히 다룰 것입니다.

이미지 생성(텍스트-이미지 합성)

이 작업 범주는 간단합니다. 예: Dall-E, Stable Diffusion, Midjourney.

텍스트 생성

텍스트 생성의 일반적인 작업은 시각적 질문 응답(VQA)입니다. 여기서 모델은 텍스트와 이미지를 모두 제공받아 컨텍스트를 도출합니다. 이를 통해 사용자는 카메라를 사용하여 “내 차에 무슨 문제가 있지?” 또는 "이 요리는 어떻게 준비하지?"와 같은 질문을 할 수 있습니다.

유사하게, 이미지 캡셔닝도 또 다른 일반적인 응용입니다. 이는 조직이 방대한 이미지 라이브러리(제품 이미지, 그래프, 디자인, 팀 사진, 프로모션 자료 등)를 보유한 텍스트 기반 이미지 검색 시스템에 통합될 수 있습니다. AI가 자동으로 캡션과 메타데이터를 생성함으로써 이러한 컬렉션 내에서 특정 이미지를 찾는 과정을 단순화합니다.

비전-언어 이해

분류(Classification)와 텍스트 기반 이미지 검색(TBIR)의 두 가지 유형의 작업에 초점을 맞춰보겠습니다.

분류

분류 모델은 미리 정의된 클래스 목록에 속하는 출력만 생성할 수 있습니다. 이는 잠재적 결과의 정해진 수를 구분하는 것이 목표일 때 적합합니다. 예를 들어, 광학 문자 인식(OCR) 시스템에서 작업은 시각 데이터가 인식된 문자(예: 숫자 또는 알파벳) 중 하나에 해당하는지 예측하는 것입니다.

분류와 밀접하게 관련된 작업은 이미지-텍스트 검색입니다. 이미지와 미리 정의된 텍스트 집합이 주어지면, 이미지와 가장 일치할 가능성이 높은 텍스트를 식별하는 것이 목표입니다. 이 응용은 제품 이미지 검색, 예를 들어 주어진 사진을 기반으로 제품 리뷰를 검색하는 데 특히 유용할 수 있습니다.

GPT-4V를 이용한 문서 처리. 모델의 오류는 빨간색으로 강조되었습니다.

텍스트 기반 이미지 검색(이미지 검색)

이미지 검색은 검색 엔진뿐만 아니라 내부 이미지와 문서를 검색하려는 기업에게도 중요합니다. 일부에서는 텍스트 기반 이미지 검색을 “텍스트-이미지 검색”이라고 부릅니다.

텍스트 기반 이미지 검색에는 다양한 접근 방식이 있습니다. 두 가지 주목할 만한 방법은 다음과 같습니다:

각 이미지에 대해 수동 또는 자동으로 캡션과 메타데이터를 생성합니다(텍스트 생성의 이미지 캡셔닝 참조). 텍스트 쿼리가 주어지면 캡션 또는 메타데이터가 쿼리와 가장 가까운 이미지를 식별하는 것이 목표입니다.
이미지와 텍스트 모두에 대한 공동 임베딩 공간을 훈련합니다. 이 접근 방식에서 텍스트 쿼리는 임베딩을 생성하고, 쿼리 임베딩과 가장 유사한 임베딩을 가진 이미지를 찾는 것이 목표입니다.

후자의 접근 방식은 더 큰 유연성을 제공하며 더 널리 채택될 것으로 예상됩니다. 이는 OpenAI의 CLIP이 개발한 것과 같은 비전과 언어 모두에 대한 강력한 공동 임베딩 공간의 구축에 의존합니다.

멀티모달 학습의 핵심 구성 요소

광범위한 수준에서 멀티모달 시스템은 다음 구성 요소로 구성됩니다:

각 데이터 모달리티에 대한 인코더. 이 인코더는 해당 모달리티에 특화된 임베딩을 생성합니다.
서로 다른 모달리티의 임베딩을 통합된 멀티모달 임베딩 공간으로 정렬하는 메커니즘.
생성 모델의 경우, 텍스트 응답을 생성하기 위한 언어 모델이 필요합니다. 입력에는 텍스트와 시각 자료가 모두 포함될 수 있으므로, 언어 모델이 텍스트뿐만 아니라 시각 자료에도 기반하여 응답할 수 있도록 하는 혁신적인 기술이 필요합니다.

이상적으로는 이러한 구성 요소 중 가능한 한 많은 부분이 사전 훈련되고 재사용 가능하여 효율성과 다양성을 높이는 것이 좋습니다.

기존 멀티모달 시스템 소개

이 글에서 다룰 멀티모달 시스템을 선택하는 것은 매우 다양한 훌륭한 옵션이 있기 때문에 어려운 과제였습니다. 결국 저는 CLIP(2021)과 Flamingo(2022) 두 모델을 집중 조명하기로 결정했습니다. 이러한 선택은 그 중요성, 그리고 공개 정보의 가용성과 명확성을 기반으로 했습니다.

CLIP은 제로샷 및 퓨샷 학습 기술을 사용하여 여러 이미지 분류 작업에 일반화할 수 있는 최초의 모델로 역사를 기록했습니다. 반면, Flamingo는 개방형 응답을 생성할 수 있는 최초의 대규모 멀티모달 모델은 아니었지만(Salesforce의 BLIP이 3개월 먼저 등장), 그 인상적인 성능으로 인해 많은 사람들이 이를 멀티모달 영역에서 GPT-3와 같은 결정적 순간으로 간주하게 했습니다.

비교적 오래된 모델임에도 불구하고, CLIP과 Flamingo가 사용한 기술은 오늘날에도 여전히 유효합니다. 이들은 급변하는 멀티모달 환경에서 새로운 모델을 이해하기 위한 기반 역할을 하며, 수많은 혁신적인 아이디어가 지속적으로 개발되고 있습니다.

CLIP: 대조 언어-이미지 사전 훈련

CLIP의 주요 돌파구는 텍스트와 이미지라는 서로 다른 모달리티의 데이터를 공유 임베딩 공간에 매핑하는 능력에 있습니다. 이 공유 멀티모달 임베딩 공간은 텍스트-이미지 및 이미지-텍스트 작업을 크게 단순화합니다.

또한, 이 멀티모달 임베딩 공간을 훈련한 결과 CLIP은 강력한 이미지 인코더를 갖게 되었습니다. 따라서 CLIP은 다양한 이미지 분류 작업에서 경쟁력 있는 제로샷 성능을 보여줍니다. 이 이미지 인코더의 강점은 이미지 생성, 시각적 질문 응답, 텍스트 기반 이미지 검색 등 다른 응용 분야로 확장됩니다. 특히 Flamingo와 LLaVA는 CLIP을 이미지 인코더로 활용하고, DALL-E는 생성된 이미지를 재순위화하기 위해 CLIP을 사용합니다. 그러나 GPT-4V가 아키텍처에 CLIP을 통합하는지는 불확실합니다.

CLIP은 자연어 감독과 대조 학습 기술을 활용하여 모델이 데이터를 확장하고 훈련 효율성을 높일 수 있게 했습니다.

CLIP의 높은 수준의 아키텍처

CLIP의 아키텍처에서 인코더와 투영 행렬은 모두 처음부터 함께 훈련됩니다. 훈련의 목표는 올바른 (이미지, 텍스트) 쌍의 유사도 점수를 최대화하고 잘못된 쌍의 유사도 점수를 최소화하는 것입니다. 이 기술을 대조 학습(contrastive learning)이라고 합니다.

CLIP 응용

분류

현재 CLIP은 많은 이미지 분류 작업에서 강력한 기본 모델 역할을 하며, 원래 형태로 사용되거나 특정 응용에 맞게 미세 조정됩니다.

텍스트 기반 이미지 검색

CLIP의 훈련 과정은 이미지-텍스트 검색과 텍스트-이미지 검색 모두와 개념적으로 유사하기 때문에, 이미지 검색이나 검색과 같은 광범위한 응용에 큰 잠재력을 가지고 있습니다. 그러나 이미지 검색 작업에서 전체 최첨단 성능에 비해 성능이 현저히 낮습니다.

CLIP을 이미지 검색에 활용하려는 노력이 있었습니다. 예를 들어, clip-retrieval 패키지는 다음과 같이 작동합니다:

모든 이미지에 대해 CLIP 임베딩을 생성하고 벡터 데이터베이스에 저장합니다.
각 텍스트 쿼리에 대해 CLIP 임베딩을 생성합니다.
텍스트 쿼리 임베딩과 가장 가까운 임베딩을 가진 모든 이미지에 대해 벡터 데이터베이스를 쿼리합니다.

이미지 생성

CLIP의 공동 이미지-텍스트 임베딩은 이미지 생성 작업에 귀중한 지원을 제공합니다. 예를 들어, DALL-E(2021)는 CLIP을 사용하여 주어진 텍스트 프롬프트를 기반으로 생성된 많은 시각 자료를 재순위화하고 사용자에게 상위 순위의 시각 자료를 제공합니다.

2022년에 OpenAI는 CLIP 잠재 변수에 조건화된 텍스트-이미지 합성 모델인 unCLIP을 발표했습니다. 이 모델은 두 가지 주요 구성 요소로 구성됩니다:

CLIP은 훈련되어 고정된 상태로 유지됩니다. 사전 훈련된 CLIP 모델은 동일한 임베딩 공간 내에서 텍스트와 이미지 모두에 대한 임베딩을 생성할 수 있습니다.
이미지 생성 중 두 단계가 수행됩니다. a. CLIP을 사용하여 주어진 텍스트에 대한 임베딩을 생성합니다. b. 확산 디코더를 사용하여 이러한 임베딩에 조건화된 이미지를 생성합니다.

텍스트 생성

CLIP의 저자들은 텍스트 생성 모델을 만드는 것도 탐구했습니다. 그들이 실험한 변형 중 하나는 LM RN50으로 알려져 있습니다. 그러나 이 모델이 텍스트 응답을 생성할 수는 있었지만, 평가된 모든 비전-언어 이해 작업에서 최고 성능의 CLIP 모델보다 지속적으로 약 10% 뒤처졌습니다.

CLIP 자체가 오늘날 텍스트 생성에 직접 사용되지는 않지만, CLIP의 이미지 인코더는 텍스트를 생성할 수 있는 대규모 멀티모달 모델(LMMs)의 기반으로 자주 사용됩니다.

Flamingo: LMM의 시작

CLIP과 달리 Flamingo는 텍스트 응답을 생성할 수 있습니다. 간단히 말해, Flamingo는 CLIP에 언어 모델을 결합하고, 언어 모델이 시각적 입력과 텍스트 입력 모두에 조건화된 텍스트 토큰을 생성할 수 있도록 추가 기술을 적용한 것으로 볼 수 있습니다.

Flamingo는 텍스트와 이미지 모두에 조건화된 텍스트 응답을 생성할 수 있습니다.

Flamingo의 높은 수준의 아키텍처

Flamingo는 두 가지 주요 구성 요소로 나눌 수 있습니다:

비전 인코더: 이 부분은 대조 학습을 사용하여 CLIP과 유사한 모델을 훈련하는 것을 수반합니다. 그 후 모델의 텍스트 인코더는 폐기되고, 비전 인코더는 동결되어 주 모델에 통합됩니다.
언어 모델: Flamingo는 시각적 입력과 텍스트 입력 모두에 조건화된 텍스트 토큰을 생성하도록 Chinchilla를 미세 조정합니다. 이 과정은 언어 모델 손실을 사용하고 Perceiver Resampler와 GATED XATTN-DENSE 레이어라는 두 가지 추가 구성 요소를 통합합니다.

데이터셋

Flamingo는 4개의 데이터셋을 사용했습니다: 2개의 (이미지, 텍스트) 쌍 데이터셋, 1개의 (비디오, 텍스트) 쌍 데이터셋, 1개의 인터리브된 이미지와 텍스트 데이터셋.

Flamingo의 언어 모델

Flamingo에서는 Chinchilla가 언어 모델로 사용되며, 특히 사전 훈련된 9개의 Chinchilla LM 레이어를 동결하는 데 중점을 둡니다. 기존의 언어 모델은 이전 텍스트 토큰만을 기반으로 다음 텍스트 토큰을 예측합니다.

Flamingo는 이전 텍스트 토큰과 시각적 토큰을 모두 고려하여 다음 텍스트 토큰을 예측함으로써 이를 확장합니다. 텍스트와 시각 입력 모두에 조건화된 텍스트를 생성하는 이 능력은 Perceiver Resampler와 GATED XATTN-DENSE 레이어의 통합을 통해 가능해집니다.

CLIP vs. Flamingo

LMM의 미래 방향

CLIP은 3년, Flamingo는 2년째를 맞이하고 있습니다. 이들의 아키텍처는 대규모 멀티모달 모델(LMMs) 구축을 이해하는 데 견고한 기반을 제공하지만, 이 분야에서 많은 발전이 있었습니다.

멀티모달 공간에서 특히 흥미로운 몇 가지 방향이 있지만, 이 목록이 완전한 것은 아닙니다. 글의 길이와 이 주제에 대한 지속적인 탐구가 그 이유입니다. 만약 통찰이나 추천할 내용이 있으면 크게 감사하겠습니다!

더 많은 데이터 모달리티 통합

멀티모달 시스템 영역에서 현재의 초점은 주로 텍스트와 이미지에 맞춰져 있습니다. 그러나 비디오, 음악, 3D 데이터와 같은 다른 모달리티를 통합할 수 있는 시스템의 필요성은 시간 문제일 뿐입니다. 모든 데이터 모달리티를 수용하는 통합 임베딩 공간의 가능성은 정말 흥미진진합니다.

이 분야의 주목할 만한 연구는 다음과 같습니다:

ULIP: 언어, 이미지, 포인트 클라우드의 통합 표현 학습을 통한 3D 이해(Xue et al., 2022년 12월)
ImageBind: 모든 것을 묶는 하나의 임베딩 공간(Girdhar et al., 2023년 5월)
NExT-GPT: 모든-모든 멀티모달 대규모 언어 모델(Wu et al., 2023년 9월)

또한 Jeff Dean의 야심찬 Pathways 프로젝트(2021)는 "비전, 청각, 언어 이해를 동시에 포함하는 멀티모달 모델을 가능하게 하는 것"을 목표로 합니다.

더 효율적인 멀티모달 훈련

Flamingo는 Chinchilla의 9개의 사전 훈련되고 동결된 레이어를 활용했지만, 비전 인코더, Perceiver Resampler, GATED XATTN-DENSE 레이어를 처음부터 사전 훈련해야 했습니다. 이러한 모듈을 처음부터 훈련하는 것은 계산 집약적일 수 있습니다. 따라서 많은 최근 연구들은 훈련을 처음부터 덜 하면서 멀티모달 시스템을 부트스트랩하는 더 효율적인 방법을 개발하는 데 초점을 맞추고 있습니다.

이러한 작업 중 일부는 유망한 결과를 보여줍니다. 예를 들어, BLIP-2는 제로샷 VQA-v2에서 54배 적은 훈련 가능한 파라미터로 Flamingo-80B를 8.7% 능가했습니다.

이 분야의 주목할 만한 연구는 다음과 같습니다:

BLIP-2: 동결된 이미지 인코더와 대규모 언어 모델로 언어-이미지 사전 훈련 부트스트래핑
[LAVIN] Cheap and Quick: 대규모 언어 모델을 위한 효율적인 비전-언어 명령 튜닝
LLaMA-Adapter V2: 파라미터 효율적인 시각 명령 모델

아래 이미지는 CVPR 2023에서 Chunyuan Li의 대규모 멀티모달 모델 튜토리얼에서 가져온 것입니다. 이 주제를 포괄적으로 다루고 있어 강력히 추천합니다.

멀티모달 출력 생성

멀티모달 입력을 처리할 수 있는 모델이 점점 보편화됨에 따라, 멀티모달 출력 기능의 개발은 여전히 뒤쳐져 있습니다. 많은 실제 시나리오에서 멀티모달 출력이 필요합니다. 예를 들어, ChatGPT에게 RLHF에 대한 설명을 요청할 때, 효과적인 응답에는 그래프, 방정식, 심지어 기본적인 애니메이션이 포함될 수 있습니다.

멀티모달 출력을 생성하려면 모델이 먼저 공유 중간 출력을 생성해야 합니다. 중요한 고려 사항은 이 중간 출력의 성격입니다.

중간 출력을 위한 한 가지 접근 방식은 텍스트이며, 이후 다른 작업의 생성 또는 합성을 안내합니다.

예를 들어, CM3(Aghajanyan et al., 2022)는 HTML 마크업을 생성하며, 이는 텍스트뿐만 아니라 서식, 링크, 이미지도 포함하는 웹페이지로 컴파일될 수 있습니다. GPT-4V는 LaTeX 코드를 생성하며, 이는 데이터 테이블로 재구성될 수 있습니다.

결론

단일 모달 AI 시스템에서 멀티모달 AI 시스템으로의 진화는 인공지능 연구 및 개발에서 중요한 발전을 의미합니다. CLIP과 Flamingo와 같은 모델은 텍스트, 이미지 등 다양한 데이터 모달리티를 처리하고 생성할 수 있는 대규모 멀티모달 모델(LMMs)의 길을 열었습니다. 이 분야가 계속 발전함에 따라 연구자들은 비디오, 3D 데이터와 같은 추가 모달리티 통합, 훈련 효율성 향상, 멀티모달 출력 생성 방법 개발 등 새로운 프론티어를 탐구하고 있습니다. 이러한 발전은 다양한 산업을 혁신하고 사용자와 AI 시스템 간의 상호작용을 향상시키는 데 엄청난 가능성을 제시합니다.

novita.ai는 무한한 창의성을 위한 원스톱 플랫폼으로, 100개 이상의 API에 접근할 수 있습니다. 이미지 생성부터 언어 처리, 오디오 향상, 비디오 조작까지, 저렴한 종량제 요금으로 자체 제품을 구축하면서 GPU 유지 관리의 번거로움에서 해방됩니다. 무료로 사용해보세요.

추천 읽을거리

LLM과 GPT의 차이점은 무엇인가요?

공개된 LLM 리더보드 2024 예측

Novita AI LLM 추론 엔진: 최대 처리량과 가장 저렴한 추론 제공

대규모 멀티모달 모델(LMMs): AI 세계의 거대한 도약

배경