비즈니스에 적합한 LLM을 선택하는 방법

소개
LLM의 크기란 무엇인가?
LLM의 다양한 유형은 무엇인가?
LLM의 성능 품질을 측정하는 방법
LLM 간 품질 비교표
훈련 데이터가 LLM에 미치는 영향
LLM의 라이선스 및 가용성
결론

소개

사용 가능한 수많은 대규모 언어 모델(LLM) 중에서 특정 요구 사항에 맞는 모델을 찾는 것은 어려워 보일 수 있습니다. 환경은 끊임없이 변화하고 있으며, 거의 매주 새로운 모델과 개선된 버전이 등장합니다. 결과적으로 LLM과 그 특성을 목록화하려는 시도는 곧 구식이 될 수밖에 없습니다.

각 최고 LLM을 자세히 설명하고 장단점을 나열하는 대신, 이 글은 모델을 평가하기 위한 일련의 기준을 제공하는 것을 목표로 합니다. 분석 프레임워크를 제공함으로써 독자는 새로 출시된 모델을 핵심 특성과 비교하여 효과적으로 평가할 수 있습니다. LLM을 평가할 때 고려해야 할 주요 속성은 다음과 같습니다.

크기
아키텍처 유형
벤치마크 성능
훈련 과정 및 편향
라이선스/가용성

LLM의 크기란 무엇인가?

LLM을 선택할 때 가장 먼저 고려해야 할 사항은 예산 제약입니다. LLM을 운영하는 데 상당한 비용이 발생할 수 있으므로 예산 범위 내에 있는 모델을 선택하는 것이 중요합니다. 비용을 나타내는 한 가지 지표는 LLM 내의 파라미터 수입니다.

모델의 파라미터 수란 무엇인가?

파라미터 수는 모델이 훈련 중에 조정되고 출력 계산에 사용되는 가중치와 편향의 개수에 해당합니다. 이 수가 중요한 이유는 무엇일까요? 이는 모델의 성능 오버헤드와 추론 속도에 대한 대략적인 근사치를 제공합니다. 일반적으로 이러한 요소는 직접적으로 관련되어 있습니다. 파라미터 수가 증가하면 출력 생성과 관련된 비용도 증가합니다.

모델의 추론 속도란 무엇인가?

언어 모델의 추론 속도는 입력을 처리하는 데 걸리는 시간을 의미하며, 기본적으로 출력 속도를 측정합니다. 추론 속도와 모델의 전반적인 성능은 복잡하고 다면적이며, 파라미터 수만으로 결정되지 않는다는 점을 인식하는 것이 중요합니다. 하지만 이 글의 맥락에서는 파라미터 수가 모델의 잠재적 성능에 대한 대략적인 추정치를 제공합니다. 다행히도 머신러닝 모델의 추론 시간을 완화하는 몇 가지 확립된 방법이 존재합니다.

각 LLM의 파라미터 수.

중간 크기 모델은 일반적으로 100억 개 미만의 파라미터를 포함하며, 더 저렴한 모델은 10억 개 미만일 수 있습니다. 하지만 10억 개 미만의 파라미터를 가진 모델은 종종 더 오래되었거나 텍스트 생성 작업에 특별히 맞춤화되지 않은 경우가 많습니다. 반면, 고가의 모델은 1000억 개 이상의 파라미터를 자랑하며, GPT-4는 무려 1.76조 개의 파라미터를 가진 예입니다. LLaMa 2, Mistral, Falcon, GPT를 포함한 많은 모델 시리즈는 100억 개 미만의 파라미터를 가진 소형 버전과 100억에서 1000억 개 사이의 대형 버전을 모두 제공합니다.

LLM의 다양한 유형은 무엇인가?

광범위하게, 트랜스포머 기반 LLM은 아키텍처에 따라 인코더 전용, 인코더-디코더, 디코더 전용의 세 그룹으로 분류할 수 있습니다. 이 분류는 모델의 의도된 목적과 텍스트 생성 작업에서의 성능을 이해하는 데 도움이 됩니다.

인코더 전용 모델이란 무엇인가?

인코더 전용 모델은 입력 텍스트를 인코딩하고 분류하는 역할을 담당하는 인코더 구성 요소만 사용합니다. 이 모델은 텍스트를 특정 범주에 할당하는 데 유용합니다. 대표적인 인코더 전용 모델인 BERT는 마스크 언어 모델(MLM) 및 다음 문장 예측(NSP)을 위해 훈련되었습니다. 이 두 훈련 목표는 모두 문장 내에서 필수 요소를 식별하는 것을 포함합니다.

인코더-디코더 모델이란 무엇인가?

인코더-디코더 모델은 인코더 전용 모델과 유사하게 먼저 입력 텍스트를 인코딩한 후, 인코딩된 입력을 기반으로 응답을 생성하거나 디코딩합니다. 인코더-디코더 모델 아키텍처의 예로는 BART가 있습니다. 이 모델은 텍스트 생성과 이해 작업 모두에 적합하여 다재다능하며, 번역 목적에 특히 유용합니다. 예를 들어, BART는 기사와 같은 긴 텍스트를 일관된 출력으로 요약하는 데 뛰어납니다. BART-Large-CNN은 다양한 뉴스 기사로 훈련되어 텍스트 요약 생성에 특화된 미세 조정 변형입니다. 전반적으로 인코더-디코더 모델은 텍스트 이해와 생성 작업 모두를 충족하는 이중 목적을 제공합니다.

디코더 전용 모델이란 무엇인가?

디코더 전용 모델은 주어진 프롬프트를 기반으로 다음 단어나 토큰을 생성하는 데 특화되어 있으며, 텍스트 생성 작업에만 집중합니다. 훈련이 간단하고 순수 텍스트 생성 목적에 특히 효율적입니다. GPT, Mistral, LLaMa와 같은 모델 시리즈는 디코더 전용 범주에 속합니다. 주요 요구 사항이 텍스트 생성이라면 디코더 전용 모델이 선호되는 선택입니다.

하지만 Mistral의 8x7B(Mixtral이라고도 함)는 'mixtral of experts’라고 불리는 독특한 아키텍처를 사용하여 기존의 디코더 전용 모델과 차별화된다는 점에 주목할 필요가 있습니다. 유사하게 GPT-4도 비슷한 기술을 사용한다는 징후가 있습니다. 따라서 이러한 모델은 디코더 전용 범주에 깔끔하게 들어맞지 않을 수 있습니다. 또한 검색 증강 생성(RAG)과 같은 새로운 아키텍처 기술은 이러한 기존 범주 내에서 분류하기 어렵습니다.

RAG 기술에 대해 더 자세히 알아보려면 블로그 글을 참조하세요: RAG란 무엇인가: 검색 증강 생성에 대한 종합 소개

LLM의 성능 품질을 측정하는 방법

다양한 메트릭이 언어 모델이 다양한 프롬프트를 이해하고 해석하며 정확한 응답을 제공하는 능력을 평가하는 데 사용됩니다. 이러한 평가 방법은 언어 모델의 의도된 사용 목적에 따라 다릅니다. 예를 들어, 분류와 같은 작업을 위해 주로 설계된 인코더 전용 모델인 BERT는 텍스트 생성에 맞춰진 디코더 전용 모델인 GPT-3와 동일한 기준으로 평가되지 않습니다. 다음 섹션에서는 텍스트 생성 LLM을 평가하는 데 사용되는 몇 가지 방법론을 설명하겠습니다.

학술 시험을 사용한 LLM 품질 측정

생성 언어 모델의 효과를 평가하는 일반적인 방법 중 하나는 모델을 시험에 응시하게 하는 것입니다. 예를 들어, GPT-4는 다양한 학술 테스트에서 GPT-3.5와 비교 평가되었습니다. 이 과정을 통해 모델의 성능은 인간 점수와 이전 모델의 점수 모두와 비교되어 학술적 맥락에서 추론 능력에 대한 통찰력을 제공합니다. 아래는 GPT-4에 실시된 일부 시험과 GPT-3.5 및 평균 인간 성과와의 비교 점수를 간략히 정리한 것입니다.

표준 시험에서 GPT-4와 GPT-3.5의 성능을 인간 평균과 비교.

학술 시험과 유사한 또 다른 성능 메트릭은 모델에 다양한 질문 및 답변(QnA) 데이터셋을 제시하는 것입니다. 이 접근 방식은 Hugging Face Open LLM Leaderboard에서 사용되며, QnA 데이터셋에서의 성능을 기반으로 다양한 LLM을 비교할 수 있는 귀중한 리소스를 제공합니다. 이러한 데이터셋은 LLM을 벤치마킹하는 간단한 수단을 제공하여 전반적인 지능과 논리적 능력을 평가할 수 있게 합니다.

LLM 간 품질 비교표

0-shot 점수와 25-shot 점수를 비교하는 것은 거의 의미가 없다는 점에 유의해야 합니다. 이상적으로는 품질 비교를 위해 사용된 프롬프트 유형의 일관성을 유지해야 합니다. 동일한 프롬프팅 방법으로 두 데이터 포인트를 비교하더라도 테스트 절차의 차이로 인해 부정확성이 발생할 수 있습니다. 그럼에도 불구하고 다음은 대략적인 품질 비교를 제공해야 합니다.

ARC, MMLU, WinoGrande 테스트에서 few-shot 및 zero-shot 프롬프팅을 사용한 LLM 간 품질 비교표.

현재 챗봇으로 사용하기 가장 좋은 LLM은 무엇인가?

앞서 언급한 면책 조항을 고려하면서 이 표를 살펴보면 GPT-4가 전반적인 품질 측면에서 최고 성능의 LLM으로 두드러짐을 알 수 있습니다. 그러나 최적의 가치를 위해서는 Mistral 모델이 최선의 선택입니다. 특히 8x7B Mistral 버전은 여러 Mistral 7b 모델을 결합하는 독특한 기술을 사용하여 더 높은 품질의 출력을 생성합니다. 이 접근 방식은 벤치마크 평가에서도 뛰어난 성능을 보이는 매우 효율적인 모델을 만듭니다.

훈련 데이터가 LLM에 미치는 영향

모델을 위한 훈련 데이터셋 선택은 중요한 고려 사항을 제기합니다. 어떤 유형의 데이터가 사용되었는가? 데이터셋이 특정 애플리케이션에 맞게 조정되었는가? 데이터셋 내에 모델에 영향을 미칠 수 있는 고유한 편향이 있는가?

모델 편향이 나타나는 방식, BERT를 예로 들어

대부분의 LLM의 경우 훈련 데이터는 일반적으로 방대하며, 모델에 언어에 대한 기본적인 이해를 제공하는 것을 목표로 합니다. 예를 들어, BERT는 Wikipedia(25억 단어)와 BookCorpus(8억 단어)를 사용하여 사전 훈련되었습니다. 그러나 Mistral의 모델과 같은 일부 경우에는 훈련 데이터셋이 공개되지 않은 상태로 남아 있습니다.

이러한 데이터셋을 조사하면 모델에 내재된 잠재적 편향에 대한 통찰력을 얻을 수 있습니다. 훈련을 위해 영어 Wikipedia 데이터셋에 크게 의존하는 BERT를 고려해보십시오. Wikipedia는 종종 중립적이고 편향되지 않은 출처로 간주되지만 항상 그렇지는 않습니다. 예를 들어, The Guardian은 Wikipedia 편집자의 16%만이 여성이며, 주목할 만한 인물에 관한 기사의 17%만이 여성에 관한 것이라고 보도했습니다. 또한 사하라 이남 아프리카에 대한 콘텐츠는 주로 지역 외부의 개인에 의해 작성됩니다. BERT가 영어 Wikipedia에 의존한다는 점을 감안할 때, 플랫폼에 존재하는 편향이 모델에 상속될 가능성이 있습니다. 실제로 증거는 BERT가 출력에서 성별 및 인종 편향을 나타냄을 시사합니다. 요약하자면, 사전 훈련된 모델의 훈련 데이터셋 내 편향은 텍스트 생성 능력에 영향을 미칠 수 있습니다. 따라서 이러한 편향은 최종 사용자 경험에 영향을 미치므로 고려하는 것이 필수적입니다.

미세 조정된 모델이란 무엇인가?

미세 조정은 이미 훈련된 모델을 새로운 데이터로 재훈련하는 것을 포함하며, 종종 특정 목적에 맞게 조정된 전문 파생 모델을 생성합니다. 미세 조정에 사용된 데이터의 선택은 모델의 잠재적 응용 가능성을 평가할 때 중요합니다. 예를 들어, BERT의 파생 모델인 FinBERT는 방대한 금융 언어 데이터셋으로 미세 조정되어 텍스트의 금융 감정 분석에 특히 유용합니다. 미세 조정에 대해 더 자세히 알고 싶다면 다음 글을 읽어보세요: 대규모 언어 모델을 미세 조정하는 방법은?

일부 모델은 추가 미세 조정을 가능하게 하도록 설계된 반면, 다른 모델은 특정 목적을 충족하도록 이미 미세 조정되어 있습니다. 예를 들어, Falcon과 같은 모델은 챗봇으로 효과적으로 작동하도록 정제된 채팅 버전이 있을 수 있습니다. 모델 미세 조정에는 다양한 방법이 사용되지만 이러한 기술의 세부 사항은 이 글의 범위를 벗어납니다. 일반적으로 미세 조정된 모델은 일반적으로 의도된 목적과 적용된 특정 미세 조정 기술에 대한 정보를 제공합니다.

각 언어 모델은 어떤 데이터셋을 사용하는가?

훈련 데이터가 모델의 성능에 미치는 중대한 영향을 고려하여 개발자들은 고품질 데이터셋을 획득하기 위해 다양한 웹 스크래핑 방법을 고안했습니다. 예를 들어, OpenAI의 Webtext 도구는 '최소 3 카르마를 받은 Reddit의 모든 외부 링크’를 스크래핑합니다. 아래는 현재까지 가장 주목할 만한 모델 중 일부가 사용한 데이터셋을 정리한 것입니다. 단, 많은 개발자가 사용하는 데이터셋을 공개하지 않는다는 점을 유의하십시오.

가장 인기 있는 LLM이 훈련된 데이터셋.

LLM의 라이선스 및 가용성

LLM의 상업적 이용을 위해서는 특정 모델과 관련된 라이선스 조건을 평가하는 것이 필수적입니다. 또한 가용성은 미묘할 수 있습니다. 일부 모델은 폐쇄 소스이므로 API를 통해서만 액세스해야 합니다.

폐쇄 소스 언어 모델이란 무엇인가?

폐쇄 소스 모델은 소스 코드가 공개적으로 접근 가능하지 않음을 의미합니다. GPT-3 및 GPT-4와 같은 모델이 이 범주에 속하며, 일반적으로 API를 통해서만 액세스할 수 있습니다. 그러나 API 통합이 간단할 수 있지만 비용도 수반됩니다. 일반적으로 플랫폼 통합의 경우 규모에 따라 오픈 소스 언어 모델을 활용하고 UbiOps와 같은 플랫폼을 사용하여 훈련하거나 배포하는 것이 더 비용 효율적입니다.

novita.ai LLM API

오픈 소스 LLM이란 무엇인가?

오픈 소스 LLM은 공개적으로 접근 가능하고 라이선스에 따라 상업적 목적으로 사용할 수 있는 모델을 말합니다. 또한 라이선스 조건에 따라 필요에 따라 미세 조정, 포크 또는 수정할 수 있습니다. 일반적으로 플랫폼 통합 또는 미세 조정 목적으로는 오픈 소스 모델을 선택하는 것이 좋습니다.

또한 오픈 소스 기술을 활용하는 것은 모델의 개선 및 맞춤화에 대한 인센티브를 조성하여 궁극적으로 전체 커뮤니티에 이익을 주기 때문에 LLM 분야의 발전에 도움이 됩니다.

상업용 라이선스

상업용 라이선스를 보유한 모델은 비즈니스 목적에 적합하며 상업 플랫폼에 통합할 수 있습니다.

LLM 및 해당 라이선스 개요.

결론

요구 사항에 맞는 LLM을 선택하는 것이 어려워 보일 수 있지만, 주요 특성을 필요와 비교하여 평가 프로세스를 간소화할 수 있습니다. 여기에는 크기, 유형, 품질 벤치마크, 훈련 방법론, 편향 및 라이선스가 포함됩니다. 이 목록은 출발점 역할을 하지만 고려해야 할 다른 요소도 많습니다. 그럼에도 불구하고 이 글은 새로 출시된 AI 모델을 평가하는 데 필요한 지식을 제공하여 요구 사항에 대한 잠재적 적합성을 판단하고 추가 조사가 필요한지 결정할 수 있도록 하는 것을 목표로 합니다.

novita.ai는 무한한 창의성을 위한 원스톱 플랫폼으로, 100개 이상의 API에 접근할 수 있습니다. 이미지 생성, 언어 처리, 오디오 향상, 비디오 조작에 이르기까지, 저렴한 종량제 요금으로 자체 제품을 구축하면서 GPU 유지 관리의 번거로움에서 해방됩니다. 무료로 사용해 보세요.

추천 자료

LLM과 GPT의 차이점은 무엇인가

2024년 LLM 리더보드 예측 공개

Novita AI LLM 추론 엔진: 최대 처리량과 가장 저렴한 추론

비즈니스에 적합한 LLM을 선택하는 방법

소개