서론
대형 언어 모델의 창발적 능력은 신기루일까? 이 질문에 대한 짧은 답변은: 대체로 그렇다. 스탠퍼드 대학의 일부 학자들은 이 모든 것이 평가 지표의 문제라고 주장한다. 구체적으로 말하면, LLM은 대부분의 지표에 따라 갑자기 능력이 생기는 것이 아니라 점진적으로 발달하며, '창발적 기적’은 특정 지표에서만 나타난다. 이 블로그에서는 대형 언어 모델의 창발적 능력에 대한 원래 정의, 학자들이 이 주장에 어떻게 도전하는지, 그리고 AI 세계에서 그들의 발견이 갖는 함의를 살펴본다.

대형 언어 모델의 창발적 능력이란 무엇인가?
창발적 능력 이란 복잡한 시스템이 크기나 복잡성 면에서 확장됨에 따라 나타나는 새로운 능력이나 행동을 말한다. LLM의 맥락에서 이는 모델이 커짐에 따라 작은 모델에는 없었던 예상치 못한 기술이나 성능 향상을 의미한다.
특성 1: 급격함
창발적 능력에서의 급격함 은 특정 과제에서 성능이 갑자기 극적으로 향상되는 것을 의미한다. 마치 모델이 '전구가 켜진 순간’을 경험하며, 전혀 과제를 수행하지 못하다가 완벽하게 해내는 것으로 전환되는 것과 같다. 이는 종종 그래프에서 급격한 곡선으로 시각화되며, 정확도나 과제 완료율과 같은 성능 지표가 낮은 값에서 높은 값으로 중간 과정 없이 점프하는 양상을 보인다.
작은 모델에서 매우 큰 모델까지 다양한 크기의 언어 모델 시리즈가 있다고 상상해 보자. 이 모델들이 영어를 프랑스어로 번역하는 능력을 테스트한다고 가정하자. 작은 모델들은 많은 오류가 있는 빈약한 번역을 제공하며 어려움을 겪을 것이다. 하지만 점점 더 큰 모델을 테스트하다 보면 특정 크기에서 모델의 번역이 거의 완벽해지고 오류가 거의 없는 순간을 갑자기 발견할 수 있다. 이러한 갑작스러운 향상이 창발적 능력의 '급격함’이라고 불리는 것이다.

특성 2: 예측 불가능성
예측 불가능성 은 모델이 언제 또는 어떤 크기에서 창발적 능력을 나타낼지 예측하기 어렵다는 점이다. '이 크기나 복잡성에 도달하면 모델이 X를 할 수 있을 것’이라고 명확히 가리킬 수 있는 점진적인 추세가 없다. 대신 이러한 능력의 출현은 명백한 패턴이나 경고 없이 갑자기 나타나는 것처럼 보인다.
번역 예시를 계속 들어보자. 모델의 크기를 늘리면 번역 능력이 꾸준히 향상될 것이라고 예상할 수 있다. 그러나 예측 불가능성은 번역이 언제 우수해질지 정확한 모델 크기를 신뢰성 있게 예측할 수 없음을 의미한다. 어떤 모델은 1억 개의 파라미터에서 능력의 도약을 보이는 반면, 다른 모델은 10억 개의 파라미터에 도달할 때까지 같은 도약을 보이지 않을 수 있다. 이것이 언제 일어날지 알려주는 명확한 규칙이 없기 때문에 능력의 창발은 예측 불가능하다.

창발 주장에 대한 도전: 단지 신기루일 뿐
스탠퍼드 대학교 컴퓨터과학과의 Rylan Schaeffer, Brando Miranda, Sanmi Koyejo가 쓴 논문 "Are Emergent Abilities of Large Language Models a Mirage?"는 LLM이 창발적 능력을 보인다는 개념에 도전한다. 항상 그렇듯, 연구 세부 사항에 관심이 없다면 이 요점만 기억하고 다음 섹션으로 넘어가도 좋다: 대형 언어 모델에서 인식되는 '창발적 능력’은 실제로 모델의 능력이 규모에 따라 진정하고 갑작스럽게 변화한 것이 아니라, 성능 지표 선택에 의해 만들어진 환상일 수 있다.
연구 배경 및 연구 질문
논문은 복잡한 시스템에서의 창발적 속성 개념을 논의하는 것으로 시작한다. 이 개념은 작은 모델에서는 보이지 않는 능력을 보이는 대형 언어 모델(LLM)에 대한 관찰로 인해 머신러닝에서 주목받게 되었다. 이러한 창발적 능력은 급격함과 예측 불가능성을 특징으로 한다.
논문이 제기하는 연구 질문은 이러한 창발적 능력이 AI 모델 확장의 근본적인 속성인지, 아니면 성능 측정에 사용된 지표의 인공물(artifact)인지이다.
실험 설계
저자들은 창발적 능력에 대한 대안적 설명을 제안하며, 이는 본질적인 모델 행동보다는 지표 선택의 결과일 수 있다고 주장한다. 그들은 이를 입증하기 위해 수학적 모델을 제시하고 세 가지 상호 보완적 접근 방식을 통해 가설을 테스트한다.
- 잘 알려진 AI 모델 패밀리(InstructGPT/GPT-3)를 사용하여 사람들이 이러한 특별한 기술이 나타난다고 말한 과제에서 아이디어를 테스트했다. 테스트 점수(지표)를 변경함으로써 우리가 보는 것이 어떻게 달라지는지 관찰했다.
- 여러 테스트(BIG-Bench)에 걸쳐 창발적 능력에 대한 메타 분석을 수행하여 이러한 특별한 기술이 특정 채점 방식(지표)을 사용할 때만 나타나는지 확인했다.
- 여러 다양한 딥 네트워크에서 시각 과제에 대해 평가 지표를 변경하여 겉보기에 창발적으로 보이는 능력을 유도했다.
연구 결과
- 테스트 결과: 연구자들이 AI의 성능을 측정하는 방식을 바꾸었을 때, 흥미로운 현상을 발견했다. AI 능력의 갑작스러운 도약 대신, AI 모델이 커짐에 따라 부드럽고 꾸준한 향상을 발견했다. 이는 AI가 갑자기 나타나는 '특별한 기술’을 실제로 가지고 있다면 기대했던 것과 반대되는 결과였다.

- 다른 지표, 다른 이야기: 특정 성능 측정 방식은 AI가 매우 빠르게 훨씬 좋아지는 것처럼 보이게 만든다는 것을 발견했다. 그러나 AI를 더 공정하게 평가하는 다른 지표를 사용했을 때는 개선이 더 점진적이었다. 마치 AI가 갑자기 더 똑똑해지는 것이 아니라, 그렇게 보이게 하는 방식으로 테스트되고 있었던 것과 같았다.

- 대규모 테스트(메타 분석): 다양한 테스트(BIG-Bench)를 살펴보았을 때, 이러한 '특별한 기술’은 특정 지표가 사용될 때만 나타나는 것을 확인했다. 마치 이러한 기술이 숨겨져 있다가 테스트가 특정 방식으로 설정되었을 때만 나타나는 것 같았다.
- 기술을 나타나게 하기: 마지막으로, 연구자들은 AI의 성능을 측정하는 방식을 바꾸는 것만으로도 다른 유형의 AI 과제(예: 이미지 인식)에서 이러한 '특별한 기술’을 나타나게 할 수 있음을 보여주었다. 마치 마술 같았지만, 실제 마술 트릭 대신 AI 능력을 바라보는 방식에 관한 것이었다.

AI 연구 및 개발에 대한 함의
지표 선택
연구자들은 AI 모델을 평가할 때 지표 선택을 신중히 고려해야 한다. 논문은 비선형적이거나 불연속적인 지표가 모델 능력에 대한 잘못된 인식을 만들 수 있다고 시사한다. 점진적인 개선을 정확히 반영하는 적절한 지표를 선택하는 것이 타당하고 신뢰할 수 있는 평가에 중요하다.
벤치마크 설계
벤치마크 설계는 지표 선택이 AI 모델의 인식된 능력에 미칠 수 있는 잠재적 영향을 고려해야 한다. 벤치마크는 다양한 지표를 사용하여 포괄적인 평가를 제공하고, 창발적 능력의 출현을 유도할 수 있는 지표의 결과를 과도하게 강조하지 않도록 해야 한다.
결과 해석
연구자들은 창발적 능력을 시사하는 결과를 해석할 때 주의를 기울여야 한다. 논문은 모델 성능에 대한 더 미묘한 이해를 장려하며, 관찰된 ‘창발적’ 행동이 측정 과정의 인공물일 가능성을 고려하도록 한다.
모델 투명성과 재현성
논문은 독립적인 검증을 위해 모델과 그 출력을 공개적으로 제공하는 것의 중요성을 강조한다. 이러한 투명성은 과학 커뮤니티가 주장을 검증하고 결과를 재현하며 AI 연구의 무결성을 보장하는 데 필수적이다.
AI 안전성 및 정렬
창발적 능력이 예측 불가능하게 나타난다고 인식된다면, 이는 AI 안전성 및 정렬에 함의를 가질 수 있다. 그러나 이러한 능력이 지표 선택의 결과라면, 연구자들이 이전에 생각했던 것보다 AI 능력 개발에 대한 통제력이 더 크다는 것을 시사하며, 이는 AI 개발을 유익한 결과로 이끄는 데 활용될 수 있다.
자원 배분
창발적 능력이 신기루일 수 있다는 이해는 AI 개발의 자원 배분에 정보를 제공할 수 있다. 예측 불가능한 능력을 얻기 위해 모델 확장에 초점을 맞추는 대신, 알고리즘, 데이터 세트 및 훈련 프로세스를 개선하여 원하는 결과를 더 예측 가능한 방식으로 생산하는 데 자원을 사용하는 것이 더 나을 수 있다.
윤리적 고려 사항
AI 능력의 윤리적 함의는 AI가 할 수 있는 것과 할 수 없는 것에 대한 이해와 밀접하게 관련된다. 창발적 능력이 생각보다 덜 일반적이거나 덜 급격하다면, 이는 AI 개발 및 배포에 대한 윤리적 지침과 규제에 접근하는 방식에 영향을 미칠 수 있다.
대중 소통
AI 능력을 대중에게 정확하게 전달하는 것은 기대치를 관리하고 AI에 대한 우려를 해소하는 데 중요하다. 논문의 결과는 AI 능력을 과장하지 않고 AI의 현재 및 잠재적 미래 능력에 대한 명확하고 현실적인 그림을 제공하기 위해 주의를 기울여야 함을 시사한다.
연구 우선 순위
이러한 발견은 연구자들이 찾기 어려운 창발적 능력을 찾는 것보다 AI 성능 향상의 근본적인 메커니즘을 이해하는 데 우선 순위를 두도록 이끌 수 있다. 이는 알고리즘 개선, 데이터 품질 및 훈련 기술에 더 초점을 맞추는 것을 포함할 수 있다.
LLM의 능력을 직접 경험해 보세요
저자들은 LLM의 능력이 창발적이라고 부정하지만, 그렇다고 LLM의 능력이 견고하지 않다는 것을 의미하지는 않는다. 실제 시나리오에서 문제를 해결하는 LLM의 능력은 의심할 여지가 없다. LLM의 능력을 직접 경험해보고 싶다면, Novita AI는 AI 스타트업에게 LLM API를 제공하여 LLM의 힘을 활용할 수 있게 한다.

우리의 LLM 무료 체험을 사용하여 나중에 API에 통합된 다양한 LLM의 성능을 비교할 수 있다. 또한, 무료 채팅에서 LLM 출력의 특정 요구에 맞게 파라미터 조정 및 시스템 프롬프트 변경도 허용된다.


결론
대형 언어 모델(LLM)이 진정한 창발적 능력을 보이는지, 아니면 스탠퍼드 연구자들이 제안한 대로 이것이 신기루인지에 대한 논쟁은 AI 평가에서 성능 지표의 중추적인 역할을 조명한다. 이 연구는 LLM에 기인한 급격하고 예측 불가능한 개선이 본질적인 모델 능력보다는 특정 지표의 인공물일 수 있다고 주장한다.
이 관점은 AI 커뮤니티가 벤치마크 설계와 결과 해석을 재고하도록 촉구하며, 투명성, 다양한 지표, AI의 점진적 진보에 대한 더 깊은 이해를 주장한다. 함의는 명확하다. AI 연구를 발전시킴에 따라, 평가 도구를 비판적으로 검토하여 사회적 기대와 안전 기준에 부합하는 현실적이고 윤리적인 개발 경로를 보장해야 한다.
AI 학계의 최신 연구 결과를 계속 탐색해 보자!
Novita AI는 100개 이상의 API에 접근할 수 있는 무한한 창의성을 위한 원스톱 플랫폼입니다. 이미지 생성, 언어 처리, 오디오 향상, 비디오 조작에 이르기까지 저렴한 종량제 요금으로 GPU 유지 관리 부담 없이 자체 제품을 구축할 수 있습니다. 지금 무료로 사용해 보세요.
추천 읽을거리
How and Why Do Larger Language Models Do In-context Learning Differently?
All You Need to Know about Automatic Chain of Thought Prompting in Large Language Models
Diving Into the Academic Frontier: An Introduction of Large Language Models Differential Privacy
