Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

산술, 기호 및 상식 추론 작업에서의 효과를 살펴보고, 확장성의 이점을 확인하세요. 다양한 벤치마크에서 인상적인 성능 향상을 목격하고 길이 일반화 가능성을 이해하세요.

서론

NLP 분야는 최근 언어 모델의 발전 덕분에 큰 변화를 겪었습니다. 모델의 규모를 확장하는 것이 성능 향상 및 샘플 학습 효율성 등 다양한 이점을 제공하는 것으로 입증되었습니다. 그럼에도 불구하고 단순히 모델 크기를 늘리는 것만으로는 산술, 상식 추론, 기호 추론과 같은 까다로운 작업에서 높은 숙련도를 달성하기에 충분하지 않았습니다.

이 글에서는 두 가지 핵심 개념에 기반한 간단한 접근 방식을 통해 대규모 언어 모델의 추론 능력을 어떻게 향상시킬 수 있는지 탐구합니다. 첫째, 해결책으로 이어지는 단계를 설명하는 자연어 설명을 생성하는 것의 중요성을 강조하며, 특히 산술 추론 작업에서 유용합니다. 또한, 프롬프팅을 통한 컨텍스트 내 퓨샷 학습의 가능성을 강조합니다. 새로운 작업마다 별도의 모델을 미세 조정하는 대신, 이 접근 방식은 모델에 작업을 설명하는 몇 가지 입력-출력 예제를 제공하며, 이는 다양한 간단한 질의응답 작업에서 놀라운 성공을 거두었습니다.

Chain-of-thought 프롬프팅은 대규모 언어 모델이 복잡한 산술, 상식 및 기호 추론 작업을 처리할 수 있게 합니다.

Chain-of-Thought 프롬프팅이란?

Chain-of-thought 프롬프팅은 언어 모델의 추론을 향상시키는 접근 방식으로서 여러 가지 매력적인 특성을 제공합니다.

  1. 첫째, 모델이 복잡한 문제를 중간 단계로 분해할 수 있게 하여, 여러 추론 단계가 필요한 문제에 추가 계산을 할당할 수 있습니다.
  2. 둘째, chain-of-thought는 모델의 행동에 대해 이해할 수 있는 통찰력을 제공하며, 모델이 특정 답변에 어떻게 도달했는지 보여주고 추론 과정의 오류를 식별하고 수정할 기회를 제공합니다 (그러나 답변을 뒷받침하는 모델의 계산을 완전히 이해하는 것은 여전히 어려운 과제입니다).
  3. 셋째, chain-of-thought 추론은 수학 단어 문제, 상식 추론, 기호 조작 등 다양한 작업에 적용 가능하며, 잠재적으로 인간이 언어를 통해 해결할 수 있는 모든 작업으로 확장될 수 있습니다.
  4. 마지막으로, chain-of-thought 추론은 퓨샷 프롬프팅 예시에 chain-of-thought 시퀀스 예제를 포함시킴으로써 충분히 큰 사전 훈련된 언어 모델에 쉽게 통합될 수 있어, 모델 성능 향상을 위한 다목적 도구가 됩니다.

LLM에서 chain-of-thought에 대한 더 일반적인 정보를 알고 싶다면, 저희 블로그를 확인하세요: 대규모 언어 모델에서 Chain-of-Thought 프롬프팅의 잠재력 발휘

산술 추론

산술 추론은 인간에게는 간단해 보일 수 있지만, 언어 모델은 종종 어려움을 겪습니다. 놀랍게도, 5400억 개의 매개변수를 가진 언어 모델에 적용했을 때 chain-of-thought 프롬프팅은 여러 작업에서 작업별 미세 조정 모델과 비슷한 성능을 보여줍니다. 심지어 까다로운 GSM8K 벤치마크에서 새로운 최첨단 성능을 달성했습니다.

실험 설정

우리는 다양한 언어 모델에서 여러 수학 단어 문제 벤치마크에 대한 chain-of-thought 프롬프팅의 효과를 탐구합니다. 이러한 벤치마크에는 GSM8K, SVAMP, ASDiv, AQuA 및 MAWPS가 포함되며, 각각 수학 단어 문제 해결에서 독특한 과제를 제시합니다. 참고를 위해 부록 표 12에 예제 문제를 제공합니다.

벤치마크.

기준 비교를 위해 널리 사용되는 표준 퓨샷 프롬프팅 기술을 사용합니다. 이 방법은 테스트 시점 예제에 대한 예측을 하기 전에 언어 모델에 입력-출력 쌍의 컨텍스트 내 예제를 제시하는 것입니다. 이러한 예시는 질문과 답변으로 구성되며, 모델은 답변을 직접 출력합니다.

표준 프롬프팅

반면, 우리가 제안하는 접근 방식인 chain-of-thought 프롬프팅은 퓨샷 프롬프팅의 각 예시를 관련 답변에 연결된 상세한 chain-of-thought로 강화합니다. 대부분의 데이터 세트가 평가 분할만 제공하기 때문에, 프롬프팅을 위해 chain-of-thought가 포함된 8개의 퓨샷 예시 세트를 수동으로 생성합니다. 이러한 chain-of-thought 예시 중 하나가 그림 1에 설명되어 있으며, 전체 세트는 부록 표 20에서 확인할 수 있습니다. 이러한 예시는 프롬프트 엔지니어링을 거치지 않았다는 점에 유의하세요. 우리는 그 견고성을 섹션 3.4와 부록 A.2에서 탐구합니다.

우리의 목표는 이러한 형태의 chain-of-thought 프롬프팅이 다양한 수학 단어 문제 시나리오에서 성공적인 추론을 효과적으로 자극할 수 있는지 조사하는 것입니다.

언어 모델

우리는 5개의 대규모 언어 모델의 성능을 평가합니다. 첫 번째는 GPT-3로, text-ada-001, text-babbage-001, text-curie-001, text-davinci-002 변종을 사용하며, 이는 각각 350M, 1.3B, 6.7B, 175B 매개변수의 InstructGPT 모델에 해당합니다. 두 번째 모델은 LaMDA로, 422M, 2B, 8B, 68B, 137B 매개변수 버전으로 제공됩니다. 세 번째 모델은 PaLM으로, 8B, 62B, 540B 매개변수 모델을 제공합니다. 네 번째 모델은 UL2 20B이고, 다섯 번째는 Codex입니다.

우리는 탐욕적 디코딩을 사용하여 이러한 모델에서 샘플을 추출하지만, 후속 연구에서는 chain-of-thought 프롬프팅이 여러 생성에 걸쳐 다수 최종 답변을 집계함으로써 개선될 수 있음을 시사합니다. LaMDA의 경우, 각 시드가 예시의 무작위로 섞인 다른 순서를 사용하는 5개의 무작위 시드에 대해 평균 결과를 제시합니다. LaMDA 실험은 시드 간에 큰 분산을 보이지 않았으므로, 계산 자원을 최적화하기 위해 다른 모든 모델에 대해 단일 예시 순서를 기준으로 결과를 보고합니다.

결과

Chain-of-thought 프롬프팅은 대규모 언어 모델이 어려운 수학 문제를 해결할 수 있게 합니다. 특히, 모델이 확장됨에 따라 chain-of-thought를 통한 추론 능력이 나타납니다.

상식 추론

Chain-of-thought 방법론은 수학 단어 문제를 해결하는 데 특히 효과적이지만, 언어 기반 접근 방식이기 때문에 다양한 상식 추론 작업에 적용될 수 있습니다. 상식 추론은 일반적인 배경 지식을 바탕으로 물리적 및 인간 상호 작용을 이해하는 것을 포함하며, 이는 현재 자연어 이해 시스템에게 여전히 어려운 기술입니다 (Talmor et al., 2021).

벤치마크

우리는 다양한 유형의 상식 추론을 나타내는 5개의 데이터 세트에서 이 접근 방식을 평가합니다. CSQA 데이터 세트는 세계에 대한 상식 질문에 답하는 것을 포함하며, 종종 복잡한 의미론에 대한 사전 지식이 필요합니다. StrategyQA는 모델이 질문에 답하기 위해 다단계 전략을 추론해야 합니다. 또한 BIG-bench 이니셔티브의 두 가지 특수 평가 세트를 사용합니다: Date Understanding (문맥에서 날짜 추론에 초점) 및 Sports Understanding (스포츠 관련 문장의 타당성 결정). 마지막으로 SayCan 데이터 세트는 자연어 명령을 이산 세트의 로봇 동작 시퀀스에 매핑하는 것을 포함합니다. 모든 데이터 세트에 대한 chain-of-thought 주석 예시가 설명됩니다.

프롬프트.

실험 설정 측면에서 우리는 이전 섹션과 유사한 접근 방식을 따릅니다. CSQA 및 StrategyQA의 경우 훈련 세트에서 예제를 무작위로 선택하고 이에 대한 chain-of-thought를 수동으로 작성하여 퓨샷 예시로 사용합니다. 두 BIG-bench 작업은 훈련 세트가 없으므로 평가 세트의 처음 10개 예제를 퓨샷 예시로 사용하고 평가 세트의 나머지 부분에 대한 결과를 보고합니다. SayCan의 경우 훈련 세트에서 6개 예제를 사용하고 chain-of-thought를 수동으로 만듭니다.

결과

PaLM에 대해 그림 7에 강조된 결과 (LaMDA, GPT-3 및 다양한 모델 규모에 대한 전체 결과는 표 4 참조)는 모델 크기를 확장하면 모든 작업에서 표준 프롬프팅의 성능이 향상된다는 것을 보여줍니다. 또한 chain-of-thought 프롬프팅은 추가 성능 향상을 가져오며, 가장 큰 개선은 PaLM 540B에서 관찰됩니다. Chain-of-thought 프롬프팅을 통해 PaLM 540B는 인상적인 결과를 달성하여 StrategyQA에서 이전 최첨단 성능을 능가하고 (75.6% 대 69.4%), 스포츠 이해에서는 도움 없는 스포츠 애호가를 능가합니다 (95.4% 대 84%). 이러한 발견은 chain-of-thought 프롬프팅이 다양한 상식 추론 작업에서 성능을 향상시킬 수 있는 잠재력을 강조하지만, CSQA에서는 이득이 미미했습니다.

기호 추론

마지막 실험 평가에서는 기호 추론에 초점을 맞춥니다. 이는 인간에게는 간단하지만 언어 모델에게는 어려울 수 있는 작업입니다. 우리는 chain-of-thought 프롬프팅이 언어 모델이 표준 프롬프팅 조건에서 어려운 기호 추론 작업을 처리할 수 있게 할 뿐만 아니라 길이 일반화에도 도움이 되어, 모델이 퓨샷 예시에서 접했던 것보다 더 긴 추론 시간 입력을 처리할 수 있음을 보여줍니다.

작업

우리는 분석을 위해 다음과 같은 두 가지 간단한 작업을 사용합니다.

  1. 마지막 문자 연결: 이 작업에서 모델은 주어진 이름의 단어 마지막 문자를 연결해야 합니다 (예: “Amy Brown” → “yn”). 이는 언어 모델이 chain-of-thought 없이도 이미 수행할 수 있는 첫 번째 문자 연결 작업의 더 어려운 버전입니다. 우리는 인구 조사 데이터에서 가져온 상위 1000개의 이름과 성을 무작위로 결합하여 전체 이름을 생성합니다.
  2. 동전 뒤집기: 이 작업은 모델이 사람들이 동전을 뒤집거나 뒤집지 않은 후에 동전이 계속 앞면인지 여부를 결정해야 합니다 (예: “A coin is heads up. Phoebe flips the coin. Osvaldo does not flip the coin. Is the coin still heads up?” → “no”).

결과

아래 그림에서 PaLM의 도메인 내 및 도메인 외 (OOD) 평가 결과를 제시하며, LaMDA 결과는 부록 표 5에 자세히 나와 있습니다. 특히 PaLM 540B를 사용하면 chain-of-thought 프롬프팅이 거의 100% 성공률을 달성하지만, 표준 프롬프팅은 이미 PaLM 540B로 동전 뒤집기 작업을 수행합니다 (LaMDA 137B는 아님).

이러한 도메인 내 평가는 “장난감 작업”을 포함하며, 퓨샷 예시의 chain-of-thought에서 완벽한 솔루션 구조를 제공합니다. 그럼에도 불구하고 더 작은 모델은 여전히 어려움을 겪으며, 보이지 않는 기호에 대한 추상적 개념을 조작하는 능력은 100B 모델 매개변수 규모에서만 나타난다는 것을 보여줍니다.

OOD 평가에서 표준 프롬프팅은 두 작업 모두 실패합니다. 그러나 chain-of-thought 프롬프팅을 사용하면 언어 모델이 상향 스케일링 곡선을 나타내지만, 도메인 내 설정보다 성능이 낮습니다. 이는 chain-of-thought 프롬프팅이 적절히 확장된 언어 모델에 대해 익숙한 chain-of-thought를 넘어서는 길이 일반화를 촉진한다는 것을 나타냅니다.

결론

Chain-of-thought 프롬프팅에 대한 탐구는 이것이 언어 모델의 추론 능력을 향상시키는 간단하고 널리 적용 가능한 기술임을 보여줍니다. 산술, 기호 및 상식 추론에 걸친 실험을 통해 chain-of-thought 추론이 모델 규모의 속성으로 나타난다는 것을 관찰했습니다. 이를 통해 충분히 큰 언어 모델이 그렇지 않으면 평평한 스케일링 곡선을 보이는 추론 작업을 효과적으로 처리할 수 있습니다.

언어 모델이 능숙하게 처리할 수 있는 추론 작업의 레퍼토리를 확장함으로써, 우리는 언어 기반 추론 접근 방식에 대한 지속적인 탐구와 개발을 자극하고자 합니다.

novita.ai는 무한한 창의성을 위한 원스톱 플랫폼으로, 100개 이상의 API에 액세스할 수 있습니다. 이미지 생성, 언어 처리, 오디오 향상 및 비디오 조작에 이르기까지, 저렴한 종량제 요금제로 GPU 유지 관리의 번거로움 없이 자체 제품을 구축할 수 있습니다. 무료로 체험해 보세요.

추천 자료

LLM과 GPT의 차이점은 무엇인가요?

LLM 리더보드 2024 예측 공개

Novita AI LLM 추론 엔진: 최대 처리량과 가장 저렴한 추론 제공