LLM의 번역 능력을 향상시키는 방법?

LLM의 번역 능력을 향상시키는 방법?

소개

이 블로그에서는 대규모 언어 모델(LLM)의 번역 작업 수행 능력에 대해 깊이 알아봅니다. “Adaptive Machine Translation with Large Language Models”라는 학술 논문에서 영감을 받아 다음 질문들을 탐구합니다.

  • LLM은 추가 학습이나 미세 조정 없이 어떻게 번역을 수행할까요?
  • 번역 성능을 향상시키기 위해 어떤 전략을 사용할 수 있을까요?
  • 이러한 전략을 적용하여 LLM이 번역에 능숙해지도록 하려면 어떻게 해야 할까요?
  • LLM을 통한 번역 개선에 유망한 미래 방향은 무엇일까요?

관심이 있으시다면 계속 읽어보세요!

대규모 언어 모델은 어떻게 번역 작업을 수행하나요?

사전 학습:

LLM은 사전 학습이라는 단계로 시작합니다. 이 단계에서 여러 언어로 된 방대한 양의 텍스트 데이터에 노출되어 언어 간 패턴, 문법, 어휘, 단어 및 구문 간의 관계를 학습합니다.

맥락 이해:

번역할 문장이 주어지면 LLM은 맥락에 대한 이해를 바탕으로 단어의 의미와 전체 문장 구조를 해석합니다.

시퀀스 생성:

그런 다음 모델은 입력 문장에 해당하는 대상 언어에서 가장 가능성이 높은 단어 시퀀스를 예측하여 번역을 생성합니다.

자기회귀적 특성:

LLM은 종종 자기회귀적 접근 방식을 사용합니다. 즉, 이전에 생성된 단어를 기반으로 시퀀스의 다음 단어를 예측합니다. 이 과정은 모델이 문장 종료 토큰을 생성하거나 미리 정의된 길이에 도달할 때까지 계속됩니다.

빔 서치:

번역 품질을 향상시키기 위해 LLM은 빔 서치와 같은 기법을 사용할 수 있습니다. 이 기법은 여러 번역 가설을 동시에 확장하고 점수 함수에 따라 가장 가능성 높은 가설을 선택합니다.

모호성 처리:

LLM은 언어의 모호성을 처리하도록 설계되었습니다. 문법적으로 올바른 번역이 여러 개 있더라도 맥락상 통계적으로 더 가능성 있는 번역을 선택합니다.

후처리:

번역을 생성한 후 일부 모델은 출력을 정제하기 위해 후처리 단계(예: 문법 교정, 어순 조정, 이상 현상 해결)를 적용할 수 있습니다.

대규모 언어 모델이 번역 작업을 더 잘 수행하려면 어떻게 해야 하나요?

“Adaptive Machine Translation with Large Language Models” 논문의 실험은 GPT-3.5 textdavinci-003 모델을 공식 API를 통해 사용하여 수행되었습니다. 설정에는 top-p 1, temperature 조정, 언어별 토큰 길이 배수 등 다양한 매개변수가 포함되었습니다. 도메인별 시나리오를 시뮬레이션하기 위해 3070개의 고유 세그먼트로 구성된 컨텍스트 데이터셋 TICO-19가 사용되었습니다. 연구에는 영어-아랍어, 영어-중국어, 영어-프랑스어, 영어-키냐르완다어, 영어-스페인어의 5가지 다양한 언어 쌍이 포함되었습니다.

이 논문은 LLM의 번역 성능을 향상시키기 위한 몇 가지 전략을 탐구합니다.

퍼지 매칭을 활용한 적응형 기계 번역:

  • 목표: 이전에 번역된 유사한 세그먼트(퍼지 매치)의 맥락을 활용하여 LLM이 실시간으로 번역을 적응시키는 능력을 평가합니다.
  • 방법: 임베딩 유사도 기반 검색을 사용하여 데이터셋에서 퍼지 매치를 추출하고, 이를 새로운 번역 대상 문장과 함께 제시합니다.
  • 예시: 번역할 새 문장이 “The quick brown fox jumps over the lazy dog”라면, 시스템은 데이터셋에서 유사한 문장을 검색하여 번역 스타일에 영향을 미칠 수 있도록 합니다.

인코더-디코더 기계 번역 모델과의 비교:

  • 목표: GPT-3.5의 번역 품질을 기존의 인코더-디코더 모델과 비교 평가합니다.
  • 방법: 동일한 원문을 사용하여 GPT-3.5와 다양한 API 및 모델의 번역 출력을 비교합니다.
  • 예시: 주어진 영어 문장에 대해 각 모델(GPT-3.5, DeepL, Google Cloud 등)은 대상 언어로 번역을 생성하며, 품질 지표(spBLEU, chrF++ 등)를 비교합니다.

인코더-디코더 기계 번역 통합:

  • 목표: 인코더-디코더 모델(예: DeepL)의 출력과 LLM의 맥락 내 학습을 결합하여 번역 품질을 향상시킬 수 있는지 탐구합니다.
  • 방법: GPT-3.5의 컨텍스트 프롬프트에 사용된 퍼지 매치에 인코더-디코더 모델의 번역을 추가로 제공합니다.
  • 예시: 퍼지 매치와 번역할 새 세그먼트를 GPT-3.5에 제공할 때, 해당 세그먼트에 대한 인코더-디코더 모델의 번역도 함께 포함하여 컨텍스트를 풍부하게 합니다.

이중 언어 용어 추출:

  • 목표: 도메인별 용어를 자동으로 추출하고 활용하여 번역의 일관성과 정확성을 향상시킵니다.
  • 방법: GPT-3.5를 학습시켜 문장 쌍에서 핵심 용어를 식별하고 추출한 다음, 이 용어를 사용하여 번역을 제한합니다.
  • 예시: 의학 용어가 포함된 문장 쌍이 주어지면 GPT-3.5는 “influenza”와 “vaccination” 같은 용어를 추출하고, 이러한 용어가 번역에서 일관되게 사용되도록 합니다.

용어 제약 기계 번역:

  • 목표: 도메인별 용어를 번역 과정에 통합하여 특정 스타일과 어휘를 더 잘 준수하도록 합니다.
  • 방법: 미리 정의된 용어집 또는 퍼지 매치에서 추출한 용어를 사용하여 번역을 제한합니다.
  • 예시: 의학 맥락에서 번역할 문장의 경우 시스템은 “malignant” 또는 “benign”과 같은 의학 용어집의 용어를 사용하여 올바른 용어가 사용되도록 합니다.

대규모 언어 모델은 번역을 얼마나 더 잘할 수 있을까요?

퍼지 매칭을 활용한 적응형 기계 번역:

이 논문은 컨텍스트로 퍼지 매치(원본 텍스트와 유사도가 높은 이전 번역 세그먼트)를 사용하는 것이 GPT-3.5와 같은 LLM의 번역 품질을 크게 향상시킨다는 것을 보여주었습니다.

예를 들어, 영어-아랍어(EN-AR) 쌍의 경우, 단일 퍼지 매치를 사용하면 spBLEU 점수가 27.6(제로샷)에서 36.38로 향상되었습니다. 두 개의 퍼지 매치를 사용하면 점수가 38.41로 더욱 높아졌습니다. 다른 언어 쌍에서도 유사한 개선이 관찰되어 퍼지 매치를 활용한 컨텍스트 내 학습의 효과를 입증했습니다.

인코더-디코더 기계 번역 모델과의 비교:

GPT-3.5의 few-shot 번역 품질은 DeepL, Google Cloud Translation API, OPUS, NLLB를 포함한 여러 인코더-디코더 기계 번역 시스템과 비교되었습니다.

고자원 언어의 경우, 5개 또는 10개의 퍼지 매치를 사용한 GPT-3.5는 특정 언어 쌍에서 기존 시스템을 능가했습니다. 예를 들어, 영어-스페인어(EN-ES)에서 5-shot 번역의 GPT-3.5는 spBLEU 점수 61.77을 기록하여 다른 시스템의 점수를 넘어섰습니다.

인코더-디코더 기계 번역 통합:

퍼지 매치에 인코더-디코더 모델의 새 세그먼트 기계 번역을 추가함으로써 논문은 번역 품질이 실질적으로 향상됨을 관찰했습니다.

예를 들어, 영어-아랍어에서 5개의 퍼지 매치에 OPUS MT를 추가하면 spBLEU 점수가 41.33에서 45.9로 향상되었습니다.

이중 언어 용어 추출:

GPT-3.5는 컨텍스트 데이터셋의 각 문장 쌍에서 5개의 이중 언어 용어를 추출하도록 요청받았습니다. 인간 평가 결과, GPT-3이 EN-AR, EN-ES, EN-FR 언어 쌍에 대해 추출한 용어의 대부분(95% 이상)이 정확한 것으로 나타났습니다.

용어 제약 기계 번역:

논문은 용어집의 용어를 번역 과정에 통합하면 번역 품질, 특히 제로샷 시나리오에서 향상된다는 것을 발견했습니다. 예를 들어, 영어-아랍어에서 용어집 용어를 사용한 제로샷 번역은 spBLEU 점수가 27.6에서 35.38로 향상되었습니다.

용어 제약 기계 번역에 대한 인간 평가는 모델이 용어를 통합하지 않은 경우보다 용어집 용어를 대상 언어로 성공적으로 전달하는 빈도가 더 높다는 것을 보여주었습니다.

ChatGPT 모델, BLOOM 및 BLOOMZ 모델:

이 논문은 GPT-3.5를 GPT-3.5 Turbo 및 GPT-4와 같은 최신 대화형 모델과 간략히 비교했습니다. GPT-4는 제로샷 번역 품질이 더 우수했으며, GPT-3.5 Turbo는 효율성이 더 높았지만 few-shot 번역에서는 비슷한 품질을 보였습니다.

GPT-3.5를 오픈소스 다국어 모델 BLOOM 및 BLOOMZ와 비교했을 때, 영어-아랍어(BLOOM이 비슷한 성능을 보임)를 제외한 대부분의 언어 쌍에서 GPT-3.5가 일반적으로 더 나은 성능을 보였습니다.

어떻게 LLM을 번역에 능숙하게 만들 수 있나요?

저자가 제시한 접근 방식을 따라 단계별로 알아보겠습니다!

단계 1: LLM API에 접근 권한 얻기

  • 대규모 언어 모델(LLM)에 접근하기 위한 API 키에 가입하세요. Novita AI LLM API는 개발자에게 Llama3-8b, Llama3-70b, Mythomax-13b 등 비용 효율적인 다양한 LLM 옵션을 제공합니다.

단계 2: 도메인별 번역 메모리™ 준비하기

  • 관심 도메인에서 승인된 번역 쌍(“퍼지 매치”라고 함)을 수집합니다.
  • TM 데이터를 원본 언어 문장과 그에 해당하는 대상 언어 문장으로 구성합니다.

단계 3: 번역을 위한 컨텍스트 내 학습 구현하기

  • 새 원본 문장을 번역해야 할 때 LLM에 대한 프롬프트를 다음과 같이 구성합니다: 1. 번역하려는 원본 언어의 새 원본 문장, 2. TM에서 관련 “퍼지 매치” 번역 쌍
  • 프롬프트를 새 원본 문장과의 유사도가 높은 순서로 원본-대상 언어 쌍을 배열합니다.
  • 이 프롬프트를 LLM의 API에 전달하고 번역된 출력을 생성하도록 합니다. LLM은 TM에 사용된 스타일과 용어에 맞게 번역을 조정합니다.

단계 4: 컨텍스트 내 학습 최적화하기

  • 프롬프트에 포함할 “퍼지 매치” 번역 쌍의 수를 실험해보고, 5~10개의 관련 쌍을 목표로 합니다.
  • 번역 품질을 모니터링하고 최상의 결과를 얻기 위해 프롬프트 형식, 예시 수 및 기타 매개변수를 조정합니다.

단계 5: 인코더-디코더 기계 번역 모델과 결합하기

  • 가능하다면, “퍼지 매치” 번역 쌍과 함께 강력한 인코더-디코더 기계 번역(MT) 모델의 출력을 프롬프트에 통합합니다.
  • 이는 특히 LLM만으로는 인코더-디코더 모델의 성능에 미치지 못할 수 있는 언어 쌍에서 번역 품질을 더욱 향상시키는 데 도움이 될 수 있습니다.

단계 6: TM 지속적으로 개선 및 확장하기

  • 더 많은 콘텐츠를 번역함에 따라 새로운 승인된 번역 쌍으로 TM을 업데이트합니다.
  • 정기적으로 TM을 검토하고 선별하여 도메인별 요구 사항에 맞게 관련성과 정확성을 유지합니다.

논문에서 언급된 접근 방식(예: 퍼지 매치 추출)에 대한 정확한 코드는 여기에서 찾을 수 있습니다: https://github.com/ymoslem/Adaptive-MT-LLM

대규모 언어 모델을 통한 번역의 미래 방향은 무엇인가요?

“Adaptive Machine Translation with Large Language Models” 논문은 대규모 언어 모델(LLM)을 통한 번역의 몇 가지 미래 방향을 제시합니다. 다음은 추가 탐구와 개발을 위해 확인된 주요 영역입니다.

동적 Few-Shot 예시 선택:

고정된 수의 퍼지 매치를 사용하는 대신, 특정 유사도 점수 이상의 고품질 매치만 선택하는 동적 선택 프로세스를 사용할 수 있습니다. 이는 더 관련성 높은 컨텍스트를 제공하여 성능을 향상시킬 수 있습니다.

품질 기반 용어집 용어 또는 기계 번역 출력 통합:

용어집의 용어나 다른 시스템의 기계 번역 출력을 통합할 때 특정 품질 특성을 가진 것을 선택하는 것이 유용할 수 있습니다. 이러한 선택적 통합은 더 나은 번역 품질로 이어질 수 있습니다.

구문 기반 용어 추출:

논문은 용어 추출에 개별 용어 대신 더 긴 구문을 사용하는 것을 탐구할 것을 제안합니다. 이는 더 긴 컨텍스트가 번역 정확도를 향상시킬 수 있는 저자원 언어에 특히 유용할 수 있습니다.

저자원 언어 및 희귀 도메인을 위한 미세 조정:

논문은 기본 성능에 초점을 맞추고 있지만, 향후 연구에서는 저자원 언어와 특정 도메인을 위한 모델 미세 조정이 포함될 수 있습니다. 이는 이러한 영역에서 번역의 품질과 효율성을 모두 향상시키는 데 도움이 될 수 있습니다.

오픈소스 LLM 실험:

저자들은 BLOOM 및 BLOOMZ와 같은 오픈소스 LLM으로 실험을 확장하여 번역 작업의 다양한 측면을 다루는 것을 제안합니다. 이는 GPT-3.5와 같은 독점 모델과 비교하여 이러한 모델의 성능에 대한 통찰력을 제공할 수 있습니다.

품질 추정 및 자동 선택:

여러 대안 중에서 최상의 번역을 선택하기 위한 자동 품질 추정 방법을 개발하는 것은 가치 있는 연구 분야가 될 수 있습니다. 여기에는 퍼지 매치 및/또는 용어 사용 유무에 따른 번역 비교가 포함될 수 있습니다.

비라틴 언어를 위한 토큰화 개선:

GPT-3.5와 아랍어에서 확인된 것처럼 비라틴 언어의 토큰화 문제를 해결하는 것은 더 많은 언어 쌍에서 LLM의 성능을 향상시키는 데 중요할 수 있습니다.

대규모 배포 및 사용자 피드백 통합 조사:

LLM이 실제 번역 시나리오에서 효과적으로 대규모로 배포되는 방법과 사용자 피드백을 통합하여 번역을 지속적으로 개선하는 방법에 대한 연구가 필요합니다.

멀티모달 입력 사용 탐구:

향후 연구에서는 텍스트와 함께 이미지, 오디오와 같은 멀티모달 입력을 사용하여 번역 작업에 추가 컨텍스트를 제공하는 방법을 조사할 수 있으며, 특히 설명적 또는 기술적 콘텐츠와 관련된 작업에 유용합니다.

윤리적 고려 사항 및 편향 완화:

모든 AI 애플리케이션과 마찬가지로 번역의 편향을 포함한 잠재적인 윤리적 문제를 연구하고 해결하며, 이러한 문제를 완화하는 방법을 개발하는 것이 중요합니다.

견고성 및 일반화 가능성:

LLM이 다양한 도메인에서 잘 일반화되고 특정 언어 쌍에 대한 제한된 데이터에서도 견고한 성능을 유지할 수 있도록 보장하는 것이 필요합니다.

결론

결론적으로, 대규모 언어 모델을 번역 작업에 최적화하는 과정은 다면적이고 역동적입니다. “Adaptive Machine Translation with Large Language Models”의 통찰을 반영하여, 우리는 번역 품질의 상당한 개선 가능성을 강조하는 다양한 전략과 실험을 살펴보았습니다. 퍼지 매치를 활용한 컨텍스트 내 학습부터 인코더-디코더 모델 및 도메인별 용어 추출 통합까지, 여기서 논의된 발전은 언어 번역의 정확성과 효율성 향상을 위한 길을 열어줍니다.

앞으로 논문에서 강조된 미래 연구 방향(동적 예시 선택, 멀티모달 입력, 윤리적 고려 사항 등)은 추가 탐구를 위한 유망한 경로를 제공합니다. 이러한 노력은 다양한 언어와 도메인에서 LLM의 기술적 능력을 개선할 뿐만 아니라 더 광범위한 사회적 영향을 해결하고 고품질 번역 도구에 대한 공평한 접근을 보장하는 것을 목표로 합니다.

참고 문헌

Moslem, Y., Haque, R., Kelleher, J. D., & Way, A. (2023). Adaptive machine translation with large language models. arXiv. https://doi.org/10.48550/arXiv.2301.13294

Novita AI는 AI 야망을 실현하는 올인원 클라우드 플랫폼입니다. 원활하게 통합된 API, 서버리스 컴퓨팅, GPU 가속을 통해 AI 기반 비즈니스를 신속하게 구축하고 확장하는 데 필요한 비용 효율적인 도구를 제공합니다. 인프라 문제를 해결하고 무료로 시작하세요 — Novita AI가 여러분의 AI 꿈을 현실로 만듭니다.