추론적 디코딩이 LLM 추론 정확도를 해칠까?

추론적 디코딩이 LLM 추론 정확도를 해칠까?

Mitchell Stern 등이 2018년에 추론적 디코딩의 프로토타입 개념을 소개했습니다. 이후 이 방법은 Lookahead Decoding, REST, Medusa, EAGLE 등 다양한 접근 방식으로 더욱 발전하고 개선되어 대규모 언어 모델(LLM)의 추론 과정을 크게 가속화했습니다.

LLM에서 추론적 디코딩이 원래 모델의 정확도를 해칠까? 간단한 답변은 아니요 입니다.

정통 추론적 디코딩 알고리즘은 무손실이며, 수학적 분석과 실험을 통해 이를 증명하겠습니다.

수학적 증명

추론적 샘플링 공식은 다음과 같이 정의할 수 있습니다.

여기서:

다음은 DeepMind 논문에서 이 공식의 무손실 특성을 증명한 내용입니다.

수학 공식을 읽는 것이 너무 지루하다고 느낀다면, 다음 직관적인 다이어그램으로 증명을 설명하겠습니다.v√

실험

추론적 디코딩이 원칙적으로 무손실임을 수학적으로 증명했지만, 구현 오류가 발생할 수 있습니다. 따라서 실험적 검증도 필요합니다. 우리는 결정론적 방법인 그리디 디코딩과 무작위 방법인 다항 샘플링 두 가지 경우에 대해 실험을 수행했습니다.

그리디 디코딩

LLM에게 짧은 이야기를 두 번 생성하도록 요청했습니다. 먼저 기본 추론(vainilla inference)을 사용하고, 그 다음에는 추론적 디코딩을 사용했습니다. Medusa의 추론적 디코딩 구현을 사용했습니다. 모델 가중치는 medusa-1.0-vicuna-7b-v1.5와 기본 모델 vicuna-7b-v1.5입니다. 테스트 실행 후 두 개의 동일한 결과를 얻었습니다. 생성된 텍스트는 다음과 같습니다.

다항 샘플링

무작위 샘플링의 경우 상황이 더 복잡합니다. 대부분의 무작위 프로그램에서 결과를 재현하는 방법은 고정된 랜덤 시드를 사용하여 의사 난수 생성기의 결정론적 특성을 활용하는 것입니다. 그러나 이 접근 방식은 우리 시나리오에 적합하지 않습니다. 우리 실험은 대수의 법칙에 의존합니다. 충분한 샘플이 있으면 실제 분포와 이론적 분포 간의 오차가 0으로 수렴합니다.

네 가지 프롬프트 각각에 대해 첫 번째 토큰이 생성되는 과정을 1,000,000회 샘플링 반복했습니다. 사용된 모델 가중치는 Llama3 8B Instruct와 EAGLE-LLaMA3-Instruct-8B입니다. 통계 결과는 아래와 같습니다.

  • 파란색: 기본 모델의 logits 소프트맥스
  • 초록색: 드래프트 모델의 logits 소프트맥스
  • 주황색: 추론적 샘플링의 토큰 빈도 (1,000,000회)

기본 모델의 샘플링 분포 표준 편차는 9.694e-5입니다. 이는 예상대로입니다.

결론

추론적 디코딩은 대규모 언어 모델의 추론 정확도를 저하시키지 않습니다. 엄격한 수학적 분석과 실제 실험을 통해 표준 추론적 디코딩 알고리즘의 무손실 특성을 입증했습니다. 수학적 증명은 추론적 샘플링 공식이 기본 모델의 원래 분포를 어떻게 보존하는지 보여줍니다. 결정론적 그리디 디코딩과 확률적 다항 샘플링을 포함한 실험은 이러한 이론적 발견을 더욱 검증했습니다. 그리디 디코딩 실험에서는 추론적 디코딩을 사용하든 사용하지 않든 동일한 결과를 얻었으며, 다항 샘플링 실험에서는 많은 샘플에 걸쳐 토큰 분포에서 무시할 수 있는 차이만 보였습니다.

이러한 결과는 종합적으로 추론적 디코딩이 정확도를 희생하지 않고 LLM 추론을 크게 가속화할 수 있음을 확인하며, 더 효율적이고 접근성 높은 AI 시스템을 위한 길을 열어줍니다.

자세한 내용은 Novita AI를 방문하세요!