소개
더 큰 언어 모델은 어떻게 그리고 왜 다르게 인컨텍스트 학습을 수행할까? 이 글에서는 ‘인컨텍스트 학습’(ICL)의 개념을 살펴보고, 쉬운 영어로 서로 다른 크기의 모델이 보이는 인컨텍스트 학습 행동에 대한 최신 연구 결과를 논의하며, 다양한 LLM의 ICL 행동을 활용할 수 있는 방법을 탐구합니다. 관심이 있으시다면 계속 읽어보세요!
"인컨텍스트 학습"이란 무엇인가?
인컨텍스트 학습 은 대규모 언어 모델(LLM)의 발전에서 등장한 흥미로운 능력입니다. 이는 모델이 입력 컨텍스트 내에 제공된 짧은 일련의 작업 예제만으로 새로운 보지 못한 작업에서 좋은 성능을 발휘하는 능력을 말합니다. 이는 모델이 기본 파라미터를 업데이트하거나 미세 조정하지 않고도 새로운 상황에 적응하고 지식을 적용할 수 있다는 점에서 놀라운 성과입니다.
인컨텍스트 학습의 핵심은 모델이 사전 학습된 지식이나 훈련에만 의존하지 않고, 입력 프롬프트의 일부로 주어진 컨텍스트 정보를 활용하여 응답을 생성한다는 것입니다. 예를 들어, 언어 모델에 일차 방정식을 푸는 몇 가지 예제를 제시하면, 모델은 이전에 접해본 적 없는 새로운 일차 방정식을 풀기 위해 그 컨텍스트를 사용할 수 있습니다. 모델은 기본 패턴을 추론하여 새로운 문제에 적용하며, 해당 유형의 방정식에 대해 명시적으로 훈련될 필요가 없습니다.

"인커텍스트 학습"의 장점은 무엇인가?
다양성과 적응성
- ICL을 통해 대규모 언어 모델은 광범위한 작업과 도메인에 걸쳐 추가 재훈련 없이 적용될 수 있습니다.
- 이를 통해 모델은 ICL을 통해 새로운 기술을 학습하며 지속적으로 능력을 확장할 수 있습니다.
샘플 효율성
- ICL은 새로운 작업을 학습하는 데 비교적 적은 예제만 필요로 하여 전통적인 지도 학습에 비해 데이터 요구량을 줄입니다.
- 이는 레이블이 지정된 데이터가 부족하거나 획득 비용이 높은 경우에 유용합니다.
계산 효율성
- ICL은 파라미터 업데이트 없이 모델을 한 번만 순방향 전달(forward pass)하면 수행될 수 있습니다.
- 이러한 계산 효율성은 실시간 애플리케이션과 리소스가 제한된 배포 환경에서 중요합니다.
창발적 능력
- 대규모 언어 모델은 ICL을 통해 보지 못한 작업에서 종종 좋은 성능을 보이며, 해당 작업에 대해 명시적으로 훈련된 모델의 성능을 능가하기도 합니다.
- 이는 모델이 컨텍스트 정보를 효과적으로 활용하여 새로운 문제를 해결할 수 있음을 시사합니다.
모델 행동에 대한 통찰
- ICL을 이해하면 대규모 언어 모델이 지식을 표현하고 활용하는 방식에 대한 귀중한 통찰을 얻을 수 있습니다.
- 이는 더 견고하고 신뢰할 수 있는 AI 시스템 개발에 기여할 수 있습니다.
중요한 발견: 더 큰 언어 모델은 다르게 인컨텍스트 학습을 수행한다
Jerry Wei, Jason Wei, Yi Tay 등이 작성한 논문 "Larger Language Models Do In-context Learning Differently"는 인컨텍스트 학습이 사전 훈련에서 얻은 의미적 사전 정보(semantic priors)에 더 의존하는지, 아니면 예시에서 입력-레이블 매핑을 학습하는지에 대해 논의합니다.
연구 세부 사항에 관심이 없다면, 다음 결론만 기억하고 다음 섹션으로 넘어가세요: 언어 모델이 클수록 의미적 사전 정보(언어 모델이 사전 훈련 중 학습하는 고유한 의미와 연관성)에 덜 의존하며, 입력 컨텍스트로부터 학습하는 능력이 더 뛰어납니다.
더 깊이 알아보고 싶습니다
배경
- 언어 모델은 인컨텍스트 학습(ICL)을 통해 다양한 하위 작업을 수행할 수 있습니다. ICL에서는 프롬프트의 일부로 몇 가지 예시가 제공됩니다.
- ICL이 사전 훈련에서 얻은 의미적 사전 정보에 더 의존하는지, 아니면 예시에서 입력-레이블 매핑을 학습하는지에 대한 논쟁이 있습니다.
이론적 설정
저자들은 의미적 사전 정보와 입력-레이블 매핑 간의 상호 작용을 조사하기 위해 두 가지 설정을 연구합니다.
- 레이블 뒤집힘 ICL(Flipped-label ICL): 예시의 레이블이 뒤바뀌어 모델이 의미적 사전 정보를 무시하도록 강제합니다.
- 의미적으로 무관한 레이블 ICL(SUL-ICL): 레이블이 작업과 의미적으로 관련이 없어 의미적 사전 정보를 제거합니다.
실험 설계
- 7개의 NLP 작업에 대해 다양한 크기의 5개 모델 군(GPT-3, InstructGPT, Codex, PaLM, Flan-PaLM)에서 실험을 수행했습니다.
- 일반 ICL, 레이블 뒤집힘 ICL, SUL-ICL 설정에서 성능을 평가했습니다.

주요 발견
- 레이블 뒤집힘 ICL: 작은 모델은 의미적 사전 정보를 무시할 수 없지만, 큰 모델은 뒤집힌 예시 레이블을 따라 학습할 수 있습니다.
- SUL-ICL: 작은 모델은 의미적 사전 정보에 더 의존하는 반면, 큰 모델은 의미적 사전 정보 없이 입력-레이블 매핑을 학습할 수 있습니다.

- 의미적 사전 정보를 무시하고 입력-레이블 매핑을 학습하는 능력은 모델 규모에 따라 나타납니다.
- 명령어 튜닝(instruction tuning)은 입력-레이블 매핑을 학습하는 능력보다 의미적 사전 정보 사용을 더 강화합니다.
더 큰 언어 모델은 왜 다르게 인컨텍스트 학습을 수행할까?
Zhenmei Shi, Junyi Wei, Zhuoyan Xu, Yingyu Liang이 작성한 또 다른 논문 "Why Do Larger Language Models Do In-context Learning Differently?"는 크고 작은 LLM의 인컨텍스트 학습 성능 차이의 이유를 논의합니다. 여기서는 두 가지 버전을 제공합니다: 쉬운 영어 버전과 전문가 버전. 원하는 버전을 선택하세요.
쉬운 영어 버전을 선호합니다
이 논문은 더 크고 작은 언어 모델의 서로 다른 ICL 행동의 '이유’를 설명합니다:
핵심 이유는 모델이 인컨텍스트 학습 과정에서 다양한 특성(feature)에 주의(attention)를 할당하는 방식과 관련이 있습니다.
작은 모델은 작업과 관련된 중요하고 유용한 특성에 더 집중하는 경향이 있습니다. 이러한 핵심 특성을 강조하기 때문에 입력 컨텍스트의 노이즈나 무관한 정보에 대해 더 강건합니다.
반면, 더 큰 언어 모델은 덜 중요하거나 노이즈가 있는 특성까지 포함한 더 넓은 범위의 특성에 주의를 기울일 수 있는 용량을 가지고 있습니다. 이를 통해 더 많은 정보를 포착할 수 있지만, 동시에 입력 컨텍스트의 무관하거나 노이즈가 있는 측면에 쉽게 주의가 분산될 수 있습니다.
본질적으로 큰 모델은 관련 있든 없든 더 넓은 특성 집합을 다루는 반면, 작은 모델은 가장 두드러진 특성에 우선순위를 둡니다. 이러한 주의 할당의 차이 가 인컨텍스트 학습에서 작은 모델이 큰 모델보다 더 강건한 이유입니다.
더 깊이 알아보고 싶습니다
연구 배경
이 논문은 더 큰 언어 모델(LLM)이 작은 모델과 다른 인컨텍스트 학습(ICL) 행동을 보이는 이유를 분석합니다. ICL은 LLM의 중요한 창발 능력으로, 모델 파라미터를 업데이트하지 않고 짧은 작업 예제를 바탕으로 보지 못한 작업에서 좋은 성능을 발휘할 수 있습니다. 최근 연구에 따르면 더 큰 LLM은 테스트 컨텍스트의 노이즈에 더 민감하여 작은 모델보다 성능이 낮아지는 경향이 관찰되었습니다.
이론적 설정
이 현상을 이해하기 위해 논문은 두 가지 양식화된 설정을 분석합니다:
- 단일 계층 단일 헤드 선형 트랜스포머를 사용한 선형 회귀
- 두 계층 다중 어텐션 헤드 트랜스포머를 사용한 패리티 분류
목표는 어텐션 메커니즘과 모델 규모가 ICL 행동에 어떻게 영향을 미치는지에 대한 이론적 통찰을 제공하는 것입니다.
두 설정 모두에서 저자들은 폐쇄형 최적 해를 제공하고 작은 모델과 큰 모델 간의 어텐션 메커니즘 차이를 특성화합니다.
실험 설계
저자들은 다양한 크기의 Llama 모델 군을 사용하여 5개의 널리 사용되는 NLP 작업에서 인컨텍스트 학습 실험을 수행합니다. 실험 결과는 이론적 분석을 뒷받침하는 데 사용됩니다.
주요 발견
- 작은 모델은 중요한 숨겨진 특성에 중점을 두는 반면, 큰 모델은 덜 중요하거나 노이즈가 있는 특성을 포함한 더 많은 특성을 다룹니다.
- 작은 모델은 평가 중 레이블 노이즈와 입력 노이즈에 더 강건하지만, 큰 모델은 이러한 노이즈에 쉽게 주의가 분산되어 ICL 성능이 더 나빠집니다.

- 이론적 분석과 실험 결과는 어텐션 메커니즘과 모델 규모가 ICL 행동에 어떻게 영향을 미치는지에 대한 통찰을 제공하여 LLM의 내부 작동 방식을 밝혀냅니다.
서로 다른 LLM의 ICL 행동 활용하기
이러한 미묘한 차이를 인식하는 것은 데이터 특성과 작업 요구 사항에 따라 적절한 모델을 선택하는 데 중요합니다. 앞서 두 논문에서 배웠듯이, 작은 모델은 핵심 특성에 집중하고 무관한 정보에 덜 주의가 분산되므로 노이즈가 있는 입력에 더 강건합니다. 반면 큰 모델은 더 넓은 컨텍스트 지식을 활용하여 다양한 특성에 대한 포괄적인 이해가 필요한 작업에 탁월합니다.
따라서 서로 다른 LLM의 ICL 행동을 활용하기 위해 Novita AI는 AI 스타트업 개발자에게 비용 효율적이고 자동 확장되는 다양한 LLM 모델 옵션을 제공하는 LLM API를 제공합니다.

몇 줄의 코드만으로 강력한 LLM을 AI 제품에 통합할 수 있습니다. API를 사용하기 전에 Novita AI Playground에서 다양한 LLM의 기능을 자유롭게 체험해 보세요.

결론
인컨텍스트 학습은 대규모 언어 모델(LLM)이 입력(컨텍스트)을 기반으로 보지 못한 작업에서 좋은 성능을 발휘하는 능력입니다.
더 큰 언어 모델은 어떻게 다르게 인컨텍스트 학습을 수행할까? 언어 모델이 클수록 의미적 사전 정보에 덜 의존하고 입력 컨텍스트로부터 학습하는 능력이 더 뛰어납니다.
더 큰 언어 모델은 왜 다르게 인컨텍스트 학습을 수행할까? 이러한 차이의 핵심 이유는 모델이 인컨텍스트 학습 과정에서 다양한 특성에 주의를 할당하는 방식과 관련이 있습니다.
서로 다른 언어 모델이 보이는 다양한 인컨텍스트 학습 행동을 활용 하려면 다양한 LLM 모델 선택이 가능한 API를 구현하는 것이 유리할 수 있습니다.
Novita AI는 무한한 창의성을 위한 원스톱 플랫폼으로, 100개 이상의 API에 액세스할 수 있습니다. 이미지 생성, 언어 처리, 오디오 향상, 비디오 조작에 이르기까지 저렴한 종량제 요금제로 GPU 유지 관리의 번거로움 없이 자체 제품을 구축할 수 있습니다. 무료로 체험해 보세요.
