ERNIE-4.5 Thinking: 바이두의 21B MoE 모델, 활성화 파라미터 3B만으로 7배 더 빠른 성능 제공

ERNIE-4.5 Thinking: 바이두의 21B MoE 모델, 활성화 파라미터 3B만으로 7배 더 빠른 성능 제공

ERNIE-4.5-21B-A3B-Thinking이 이제 Novita AI 플랫폼에서 이용 가능합니다. 개발자 친화적인 인프라를 통해 바이두의 혁신적인 사고 능력을 개발자와 기업에 제공합니다. 바이두의 최신 릴리즈는 경량 AI 모델의 큰 발전을 나타내며, 이전 세대와 차별화되는 향상된 추론 깊이와 품질을 선보입니다.

전체 21B 파라미터 중 토큰당 3B 파라미터만 활성화하는 효율적인 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처를 탑재해 ERNIE-4.5-21B-A3B-Thinking은 가벼운 리소스 요구사항으로 대형 모델 수준의 성능을 제공합니다.

복잡한 추론 애플리케이션 개발, 수학 문제 해결기 구축, 고급 AI 기능 탐색 등 어떤 목적으로든 Novita AI의 ERNIE-4.5-21B-A3B-Thinking은 최적화된 인프라와 쉬운 통합 옵션으로 개발 프로세스를 단순화합니다.

Novita AI 현재 요금: 131,072 컨텍스트, 입력 토큰 1M당 $0.07, 출력 토큰 1M당 $0.28

ERNIE-4.5-21B-A3B-Thinking 데모 체험하기

ERNIE-4.5-21B-A3B-Thinking이란 무엇인가요?

ERNIE-4.5-21B-A3B-Thinking은 바이두의 혁신적인 ERNIE 4.5 시리즈(총 10개 모델로 구성)의 텍스트 기반 전문가 혼합(Mixture of Experts, MoE) 후속 학습 모델입니다. 이 모델은 AI 사고 능력의 큰 진화를 나타내며, 전체 21B 파라미터 중 토큰당 3B만 활성화하는 특징이 있습니다.

이 모델은 이전 버전 대비 세 가지 주요 개선 사항을 도입했습니다:

향상된 사고 능력: ERNIE-4.5-21B-A3B-Thinking은 논리적 추론, 수학, 과학, 코딩, 텍스트 생성, 일반적으로 인간 전문 지식이 필요한 학술 벤치마크 등 추론 작업에서 현저히 향상된 성능을 제공합니다. 모델의 사고 길이가 늘어나 매우 복잡한 추론 작업에 특히 효과적입니다.

효율적인 도구 활용: 이 모델은 도구 사용 및 함수 호출에서 뛰어난 성능을 보여 에이전트 기반 애플리케이션에 이상적입니다. 이를 통해 실제 애플리케이션에서 외부 시스템 및 API와 원활하게 통합할 수 있습니다.

확장된 컨텍스트 이해 능력: 향상된 128K 장문 컨텍스트 이해 능력(131,072 토큰)을 갖춘 ERNIE-4.5-21B-A3B-Thinking은 방대한 문서, 코드베이스, 복잡한 다중 턴 대화를 컨텍스트나 정확도 손실 없이 처리할 수 있습니다.

ERNIE-4.5-21B-A3B-Thinking은 SFT(지도 학습 미세 조정), DPO(직접 선호 최적화), 바이두의 독점 기술인 UPO(통합 선호 최적화) 등 고급 후속 학습 기술을 활용합니다. 이 모델은 더 넓은 커뮤니티와의 호환성을 위해 Transformer 스타일 가중치를 공개해 PyTorch 및 PaddlePaddle 생태계(vLLM, FastDeploy 포함) 모두와 호환됩니다. 이러한 광범위한 호환성으로 기존 워크플로우에 쉽게 통합할 수 있으며, 80GB × 1 GPU 요구사항만으로 계산 효율성을 유지합니다.

Novita AI 플레이그라운드에서 ERNIE-4.5-21B-A3B-Thinking 살펴보기 →

모델 사양

ERNIE-4.5-21B-A3B-Thinking은 성능과 효율성 모두에 최적화된 정교한 전문가 혼합(Mixture-of-Experts) 아키텍처를 채택했습니다. 모델 설계는 각 토큰에 가장 적합한 전문가를 선택적으로 활성화해 기능과 계산 비용 간의 최적 균형을 달성합니다.

핵심 사양:

  • 총 파라미터 수: 21B
  • 활성화 파라미터 수: 토큰당 3B
  • 레이어 수: 28
  • 어텐션 헤드 수: 20 쿼리 헤드 / 4 키-값 헤드
  • 텍스트 전문가 수: 총 64개 / 토큰당 6개 활성화
  • 공유 전문가 수: 2
  • 컨텍스트 길이: 131,072 토큰
  • 최대 출력: 65,536 토큰
  • 입출력 기능: 텍스트
  • 학습 단계: 후속 학습
  • 제공사: 바이두
  • 라이선스: Apache 2.0
  • 양자화: FP8
  • GPU 요구사양: 80GB × 1 GPU
  • 추론 지원: 지원

ERNIE-4.5-21B-A3B-Thinking의 MoE 아키텍처는 효율적인 AI 설계의 돌파구로, 모달리티 분리 라우팅 및 라우터 직교 손실 기술 등 ERNIE 4.5 시리즈의 혁신 기술을 계승했습니다. 전체 21B 파라미터에 접근하면서도 토큰당 3B 파라미터만 활성화해 일반적인 계산 오버헤드 없이 기업급 성능을 제공합니다.

131,072 토큰의 컨텍스트 창과 65,536 토큰의 출력 기능을 갖춘 이 모델은 방대한 문서 처리와 포괄적인 응답 생성을 가능하게 해 복잡한 분석 작업, 장문 콘텐츠 생성, 상세한 기술 문서 작성에 이상적입니다.

성능 하이라이트

ERNIE-4.5-21B-A3B-Thinking은 여러 분야에서 뛰어난 성능을 보이며 ERNIE 4.5 패밀리의 일원으로 최신 최고 수준(SOTA)의 성적을 달성했습니다. 향상된 사고 능력과 개선된 추론 깊이를 갖춘 이 모델은 다단계 분석과 복잡한 문제 해결이 필요한 작업에 특히 효과적입니다.

ERNIE-4.5-21B-A3B-Thinking 벤치마크

주요 성능 강점은 다음과 같습니다:

  • 논리적 추론: ERNIE-4.5-21B-A3B-Thinking은 복잡한 논리적 연역 작업에서 탁월한 성능을 보이며, 퍼즐, 삼단 논법, 신중한 분석과 체계적 사고가 필요한 다단계 추론 문제에서 우수한 성적을 거둡니다.
  • 수학: 이 모델은 고급 수학 문제 해결 능력을 보여 기초 산술부터 복잡한 미적분, 선형 대수, 추상적 수학 개념까지 높은 정확도로 처리합니다.
  • 과학: 향상된 과학적 추론 및 분석 능력을 갖춘 ERNIE-4.5-21B-A3B-Thinking은 물리, 화학, 생물학 등 과학 분야의 문제를 해결하며 상세한 설명과 정확한 솔루션을 제공합니다.
  • 코딩: 여러 프로그래밍 언어에서 개선된 코드 생성 및 디버깅 능력을 갖춘 이 모델은 코드 작성, 분석, 최적화는 물론 프로그래밍 개념과 모범 사례에 대한 명확한 설명도 제공합니다.
  • 텍스트 생성: 고품질 자연어 생성 기능을 갖춘 ERNIE-4.5-21B-A3B-Thinking은 세밀한 이해와 표현이 필요한 창작 글쓰기, 기술 문서 작성, 콘텐츠 제작 작업에 이상적입니다.
  • 학술 벤치마크: 이 모델은 인간 수준의 전문 지식이 필요한 벤치마크에서 경쟁력 있는 성능을 달성해 전문 및 학술 애플리케이션에 활용 가능한 준비 상태를 입증합니다.

Novita AI 플레이그라운드에서 ERNIE-4.5-21B-A3B-Thinking의 성능 테스트하기 →

Novita AI 플랫폼에서 ERNIE-4.5-21B-A3B-Thinking 시작하기

Novita AI는 다양한 기술 수준과 사용 사례에 맞춰 ERNIE-4.5-21B-A3B-Thinking에 접근할 수 있는 여러 경로를 제공합니다. AI 기능을 탐색하는 비즈니스 사용자이든 프로덕션 애플리케이션을 구축하는 개발자이든, 플랫폼은 필요한 도구와 유연성을 모두 제공합니다.

플레이그라운드 사용 (지금 이용 가능 – 코딩 불필요)

Novita AI 플레이그라운드는 별도의 기술 설정 없이 ERNIE-4.5-21B-A3B-Thinking의 기능을 경험할 수 있는 가장 빠른 방법입니다:

  • 즉시 접근: 가입 후 몇 초 만에 ERNIE-4.5-21B-A3B-Thinking으로 실험을 시작할 수 있습니다. 초기 테스트에는 API 키나 설정이 필요하지 않습니다.
  • 인터랙티브 인터페이스: 직관적인 웹 인터페이스로 프롬프트를 테스트하고 출력을 실시간으로 확인할 수 있습니다. temperature(기본값 0.7), 최대 토큰(최대 65,536), 시스템 프롬프트 등 파라미터를 조정해 모델 동작에 미치는 영향을 확인하세요.
  • 모델 설정: 응답 형식, temperature, top-p, min-p, top-k, presence penalty, frequency penalty, repetition penalty를 미세 조정해 특정 사용 사례에 최적화된 출력을 얻을 수 있습니다.

플레이그라운드는 프로토타이핑, 아이디어 테스트, 전체 구현 전 모델 기능을 이해하기에 완벽합니다. 성공한 프롬프트와 설정을 코드로 직접 내보내 프로덕션 전환을 원활하게 할 수 있습니다.

플레이그라운드에서 ERNIE-4.5-21B-A3B-Thinking 테스트 시작하기 →

API 연동 (운영 중 – 개발자용)

프로덕션 배포를 위해 Novita AI는 OpenAI 호환 엔드포인트를 통해 기업급 안정성과 성능을 갖춘 ERNIE-4.5-21B-A3B-Thinking API 접근 권한을 제공합니다.

직접 API 연동 (Python 예제)

OpenAI 호환 API를 사용해 애플리케이션에 ERNIE-4.5-21B-A3B-Thinking을 연동하세요:

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key="",
)

model = "baidu/ernie-4.5-21B-a3b-thinking"
stream = True # or False
max_tokens = 32768
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

다양한 기술 스택에서 원활한 연동을 위해 TypeScript, Java, Go, Shell용 추가 SDK가 지원됩니다.

OpenAI Agents SDK를 활용한 멀티 에이전트 워크플로우

ERNIE-4.5-21B-A3B-Thinking의 향상된 사고 능력을 활용한 정교한 멀티 에이전트 시스템을 구축하세요:

  • 플러그 앤 플레이 연동: 수정 없이 모든 OpenAI Agents 워크플로우에서 ERNIE-4.5-21B-A3B-Thinking을 사용할 수 있습니다
  • 고급 에이전트 기능: 복잡한 워크플로우를 위한 핸드오프, 라우팅, 도구 연동을 완벽하게 지원합니다
  • 함수 호출: JsonSchema 정의를 활용해 구조화된 상호작용과 도구 사용이 가능합니다

배포 옵션

Novita AI는 특정 요구사항과 사용 패턴에 맞는 유연한 배포 옵션을 제공합니다.

서버리스 API

즉시 접근과 토큰 단위 과금을 위해 ERNIE-4.5-21B-A3B-Thinking을 Novita의 서버리스 API를 통해 이용할 수 있습니다:

  • 설정 불필요: 인프라 관리 없이 즉시 모델 사용을 시작할 수 있습니다
  • 사용량 과금: 입력 토큰 1M당 $0.07, 출력 토큰 1M당 $0.28
  • OpenAI 호환 엔드포인트: 기존 OpenAI 연동을 대체해 쉽게 적용할 수 있습니다
  • 자동 스케일링: 용량 계획 없이 변동 워크로드를 처리할 수 있습니다

온디맨드 배포

대량 트래픽이나 지연 민감 애플리케이션의 경우 온디맨드 배포를 통해 전용 리소스를 제공합니다:

  • 고성능 서빙 스택: 최대 처리량을 위한 최적화된 추론 엔진
  • 고안정성: 전용 GPU 리소스로 일관된 성능을 보장합니다
  • 속도 제한 없음: 인위적인 제한 없이 필요에 따라 스케일할 수 있습니다
  • GPU 요구사양: 80GB VRAM (최적 성능을 위해 NVIDIA A100 80GB 또는 H100 80GB 권장)

서드파티 플랫폼 연동

Novita AI의 ERNIE-4.5-21B-A3B-Thinking은 기존 개발 생태계와 원활하게 연동됩니다:

  • 개발 도구: OpenAI 호환 API를 통해 Cursor, Cline, Continue, Codex, Qwen Code 등 인기 IDE 및 개발 환경과 직접 연동됩니다.
  • 오케스트레이션 프레임워크: 공식 커넥터를 활용해 LangChain, Dify, CrewAI, Langflow 등 AI 오케스트레이션 플랫폼을 기본 지원합니다.
  • Hugging Face 연동: Hugging Face 공식 추론 제공사로서 Novita AI는 광범위한 생태계 호환성과 쉬운 모델 배포를 보장합니다.

결론

Novita AI의 ERNIE-4.5-21B-A3B-Thinking은 효율적인 AI 추론의 돌파구로, 안정적이고 확장 가능한 플랫폼을 통해 개발자와 기업에 바이두의 가장 진보된 사고 능력을 제공합니다.

향상된 추론 깊이, 효율적인 도구 활용, 131K 컨텍스트 이해 능력의 독특한 조합을 갖춘 이 모델은 복잡한 추론 작업에 이상적인 선택입니다. 3B 활성화 파라미터로 21B 파라미터 수준의 성능을 내면서 80GB GPU 메모리만 요구하는 ERNIE-4.5-21B-A3B-Thinking은 능력과 효율성의 비교할 수 없는 균형을 제공합니다.

ERNIE-4.5-21B-A3B-Thinking의 성능을 경험할 준비가 되셨나요? 플레이그라운드는 설정 없이 즉시 접근할 수 있어 모델의 기능을 탐색하고 사용 사례를 테스트하기에 완벽합니다. 인터랙티브 인터페이스로 모델의 강점을 파악한 후 프로덕션 배포 준비가 되면 API 연동으로 원활하게 전환할 수 있습니다.

지금 Novita AI 플레이그라운드에서 ERNIE-4.5-21B-A3B-Thinking 이용하기 →

입력 토큰 1M당 $0.07의 저렴한 가격으로 고급 AI 추론으로 프로젝트를 혁신하세요. 몇 초 만에 탐색을 시작하세요!

Novita AI는 간단한 API를 통해 AI 모델을 쉽게 배포할 수 있는 개발자 친화적인 AI 클라우드 플랫폼으로, 구축 및 확장을 위한 저렴하고 안정적인 GPU 클라우드도 제공합니다.