소개
GPT-3, PaLM, ChatGPT 등과 같은 large language models(LLM)이 엄청난 인기를 얻으면서, 이 모델들의 능력을 철저히 평가해야 할 필요성이 중요해졌습니다. 이러한 고급 AI 모델은 인간과 유사한 텍스트를 이해하고 생성할 수 있어 다양한 애플리케이션에서 강력한 도구로 사용됩니다.
그러나 큰 힘에는 큰 책임이 따릅니다 — LLM이 신뢰할 수 있고 편향되지 않으며 잠재적 위험을 잘 이해해야 합니다. 이 블로그에서는 LLM을 효과적으로 평가하는 방법에 대한 포괄적인 개요를 제공하는 학술 논문 “A Survey on Evaluation of Large Language Models”에 대해 논의하겠습니다.

대규모 언어 모델이란 무엇인가?
대규모 언어 모델(LLM)은 자연어 처리(NLP) 분야에 혁명을 일으킨 고급 딥러닝 모델의 한 범주를 나타냅니다. 이 모델들은 엄청난 크기와 인터넷에서 수집된 방대한 양의 텍스트 데이터에 대한 광범위한 사전 학습으로 구별됩니다. 많은 LLM의 기반이 되는 기본 아키텍처는 Transformer로 알려져 있으며, 이는 self-attention 메커니즘을 갖춘 인코더와 디코더 모듈의 레이어로 구성됩니다.
Transformer 아키텍처는 LLM이 인간과 유사한 텍스트를 이해하고 생성하는 데 탁월한 성능을 발휘할 수 있게 합니다. 텍스트를 순차적으로 처리하는 기존 모델과 달리 Transformer는 GPU의 컴퓨팅 성능을 활용하여 데이터 시퀀스를 병렬로 처리하므로 학습 시간을 크게 단축합니다. 이러한 병렬 처리 능력은 대규모 모델 학습에 관련된 데이터의 복잡성과 규모를 처리하는 데 중요합니다.
LLM은 비지도 또는 자기 지도 방식으로 학습됩니다. 즉, 데이터에 내재된 패턴과 구조만을 기반으로 텍스트에서 다음 단어나 단어 시퀀스를 예측하는 방법을 학습합니다. 이 접근 방식을 통해 LLM은 언어와 도메인 전반에 걸쳐 복잡한 언어 패턴, 구문 규칙, 의미 관계를 포착할 수 있습니다.

또한 LLM은 전이 학습이 가능하므로 비교적 적은 양의 작업별 데이터로 특정 작업에 미세 조정될 수 있습니다. 이러한 적응성 덕분에 LLM은 언어 번역, 감정 분석, 텍스트 요약, 질문 응답은 물론 창작 글쓰기나 코드 생성 작업에 이르기까지 광범위한 애플리케이션에서 다목적 도구로 사용됩니다. Novita AI를 비롯한 많은 기업에서 프로그래머가 LLM의 강력한 기능을 활용할 수 있도록 LLM API를 제공합니다.
LLM의 어떤 측면을 평가해야 하는가?
논문 “A Survey on Evaluation of Large Language Models”은 LLM 평가를 다음과 같은 몇 가지 주요 영역으로 분류합니다.
자연어 처리(NLP)
텍스트 분류, 자연어 추론, 요약, 번역, 질문 응답 등의 핵심 NLP 능력 테스트
추론
논리적 추론, 상식 추론, 다단계 산술 추론 능력 평가
견고성
적대적 입력, 분포 외 샘플, 데이터 손상 등에서의 모델 성능 검사
윤리 및 편향
성별, 인종, 종교와 관련된 편향 평가 및 윤리 원칙 준수 테스트
신뢰성
모델 출력의 신뢰성, 진실성, 사실적 정확성 측정
다국어 성능, 의료 애플리케이션, 공학, 수학 및 과학 질문 응답 등 더 많은 분야
LLM을 어디에서 평가할 것인가?
논문 “A Survey on Evaluation of Large Language Models”의 저자들은 LLM을 종합적으로 평가하기 위해 다양한 분야에 걸쳐 신중하게 선별된 데이터셋과 벤치마크가 필요하다고 지적합니다.
일반 벤치마크:
- BIG-bench, HELM, PromptBench: 단일 벤치마크에서 다양한 능력 테스트
특수 NLP 벤치마크:
- GLUE, SuperGLUE: 일반 언어 이해
- SQuAD, NarrativeQA: 질문 응답
추론 벤치마크:
- StrategyQA, PIE: 상식/다단계 추론
견고성 벤치마크:
- GLUE-X, CheckList: 다양한 섭동에 대한 견고성 평가
윤리 및 편향 벤치마크:
- Winogender, CrowS-Pairs: 성별 편향
- CANDELA: 혐오 표현 평가
다국어 벤치마크:
- XGLUE, XTREME: 교차 언어 일반화
- M3Exam: 다국어 능력
수학, 과학, 코드, 성격 테스트 등을 위한 특수 도메인 벤치마크
다중 모드 벤치마크:
- 텍스트와 이미지, 오디오, 비디오 등의 결합
- MMBench, MMLU, LAMM, MME 등
LLM을 어떻게 평가할 것인가?
“A Survey on Evaluation of Large Language Models”은 LLM 평가를 위한 다양한 프로토콜을 논의합니다.
자동 평가:
- BLEU, ROUGE, F1, Accuracy와 같은 지표를 사용하여 출력과 참조 비교
- 잘 정의된 작업에는 효과적이지만 한계가 있음
인간 평가:
- 인간 평가자가 주관적으로 출력을 평가하도록 모집
- 비용은 더 많이 들지만 개방형 측면을 포착할 수 있음
- 상식 추론, 개방형 생성에 사용됨
인간-인-더-루프:
- 인간이 상호작용적으로 피드백을 제공하여 모델 프롬프트/출력 개선
- 예: 유해 출력을 필터링하는 AdaFilter
크라우드소싱 테스트:
- 사람들로부터 템플릿을 크라우드소싱하여 새로운 테스트 케이스 생성
- DynaBench 같은 플랫폼이 지속적인 스트레스 테스트 수행
체크리스트:
- 능력과 실패 모드를 포괄하는 선별된 테스트 케이스
- 소프트웨어 테스트 체크리스트에서 영감을 받음

뛰어난 벤치마크 성능을 가진 인기 있는 LLM은 무엇인가?
Anthropic: Claude 3.5 Sonnet
Claude 3.5 Sonnet은 Opus보다 뛰어난 성능, Sonnet보다 빠른 속도를 동일한 Sonnet 가격으로 제공합니다. Sonnet은 특히 코딩, 인간 데이터 과학 전문성 강화, 여러 도구를 사용하여 인사이트를 얻기 위한 비구조화된 데이터 탐색, 시각 처리 및 에이전트 작업에 뛰어납니다. Claude 3.5 Sonnet API는 Anthropic에서 제공합니다.

Meta: Llama 3 70B Instruct
Meta의 최신 모델 클래스(Llama 3)는 다양한 크기와 변형으로 출시되었습니다. 이 70B instruct 튜닝 버전은 고품질 대화 사용 사례에 최적화되었습니다. 인간 평가에서 주요 폐쇄형 소스 모델과 비교하여 강력한 성능을 입증했습니다. Llama 3 70B Instruct API의 주요 제공업체로는 DeepInfra, Novita AI, OctoAI, Lepton, Together, Fireworks, Perplexity 등이 있습니다.

OpenAI: GPT-4o
GPT-4o(“o”는 “omni”의 약자)는 OpenAI의 최신 AI 모델로, 텍스트 출력과 함께 텍스트 및 이미지 입력을 모두 지원합니다. GPT-4 Turbo의 지능 수준을 유지하면서 두 배 빠른 속도와 50% 더 비용 효율적입니다. GPT-4o는 또한 비영어권 언어 처리 성능이 개선되고 시각 기능이 향상되었습니다. GPT-4o의 주요 제공업체로는 OpenAI와 Azure가 있습니다.

WizardLM-2 8x22B
WizardLM-2 8x22B는 Microsoft AI의 가장 진보된 Wizard 모델입니다. 주요 독점 모델과 비교하여 매우 경쟁력 있는 성능을 보여주며, 기존의 모든 최첨단 오픈소스 모델을 지속적으로 능가합니다. WizardLM-2 8x22B API의 주요 제공업체로는 Novita AI, DeepInfra, Lepton, OctoAI, Together 등이 있습니다.

Mistral: Mistral 7B Instruct
Mistral 7B Instruct는 속도와 컨텍스트 길이에 최적화된 고성능 업계 표준 7.3B 파라미터 모델입니다. Mistral 7B Instruct의 주요 제공업체로는 Novita AI, Lepton, DeepInfra, OctoAI, Together 등이 있습니다.

LLM 평가의 미래 과제는 무엇인가?
“A Survey on Evaluation of Large Language Models”의 저자들은 독자들이 고려해야 할 몇 가지 미래 과제를 제시합니다.
AGI 벤치마크 설계:
- 인공 일반 지능을 종합적으로 테스트할 수 있는 벤치마크 필요
- 다중 작업, 다중 모드, 개방형 능력을 포괄해야 함
완전한 행동 테스트:
- 가능한 모든 입력 분포와 행동에 대한 스트레스 테스트
- 실제 배포에서 신뢰성과 안전성 보장
견고성 평가:
- 적대적 공격, 분포 변화, 안전 위험
- 현재의 임시 방법을 넘어서는 원칙적 프레임워크 필요
동적 평가:
- LLM이 새로운 위험/능력을 처리하도록 진화함에 따라 평가 업데이트
- 예: LLM이 코딩이나 수학 추론에서 더 나아지는 경우
통합 평가:
- 다양한 LLM을 일관되게 평가할 수 있는 통합 프레임워크 필요
- 현재 접근 방식은 임시적이며 표준화 부족
신뢰할 수 있는 평가:
- 평가 과정 자체가 편향되지 않고 안전하며 신뢰할 수 있어야 함
- LLM의 부정 행위나 신뢰할 수 없는 인간 주석 방지
결론
대규모 언어 모델을 엄격하게 평가하는 것은 신뢰를 구축하고 안전하고 윤리적인 배포를 가능하게 하는 데 중요합니다. “A Survey on Evaluation of Large Language Models”은 LLM 평가의 핵심 측면, 데이터셋, 프로토콜 및 공개 과제에 대한 철저한 개요를 제공합니다. 이러한 강력한 AI 모델이 계속 발전함에 따라 평가 연구도 그 성능을 면밀히 조사하고 사회에 대한 잠재적 위험을 방지하기 위해 속도를 맞춰야 합니다. 원칙적인 평가 관행을 따르는 것은 LLM의 혁신적인 잠재력을 책임감 있게 활용하는 데 필수적입니다.
참고문헌
Chang, Y., Wang, X., Wang, J., Wu, Y., Yang, L., Zhu, K., Chen, H., Yi, X., Wang, C., Wang, Y., Ye, W., Zhang, Y., Chang, Y., Yu, P. S., Yang, Q., & Xie, X. (2018). A survey on evaluation of large language models. Journal of the ACM, 37(4), Article 111. https://arxiv.org/abs/2307.03109
Novita AI는 AI 야망을 실현하는 올인원 클라우드 플랫폼입니다. 원활하게 통합된 API, 서버리스 컴퓨팅, GPU 가속을 통해 AI 기반 비즈니스를 빠르게 구축하고 확장하는 데 필요한 비용 효율적인 도구를 제공합니다. 인프라 걱정을 없애고 무료로 시작하세요 — Novita AI가 AI 꿈을 현실로 만듭니다.
