Baidu의 최첨단 오픈 웨이트 Mixture-of-Experts (MoE) 모델인 ERNIE 4.5가 이제 Novita AI에서 사용 가능합니다!
다음은 Novita AI의 현재 ERNIE 4.5 가격입니다:
baidu/ernie-4.5-vl-28b-a3b: 30k 컨텍스트, 무료
baidu/erine-4.5–21B-a3b: 120k 컨텍스트, 무료
baidu/erine-4.5–0.3b: 120k 컨텍스트, 무료
baidu/erine-4.5-vl-424b-a47b: 123k 컨텍스트, 입력 $0.42/M 토큰, 출력 $1.25/M 토큰
baidu/ernie-4.5–300b-a47b-paddle: 123k 컨텍스트, 입력 $0.3/M 토큰, 출력 $1/M 토큰
ERNIE-4.5-300B-A47B 데모 지금 사용해보기
ERNIE 4.5란 무엇인가?
ERNIE 4.5는 Baidu의 최신 오픈소스 모델 시리즈로, 총 10개의 모델로 구성됩니다. 이 라인업에는 470억 개와 30억 개의 활성화된 파라미터를 가진 Mixture-of-Experts (MoE) 모델(가장 큰 모델은 총 4240억 개의 파라미터에 도달)과 3억 개의 파라미터를 가진 밀집 모델이 포함됩니다.

아키텍처 혁신: 이 모델들은 ** 혁신적인 멀티모달 이종 모델 구조**를 사용합니다. 교차 모달 파라미터 공유 메커니즘을 통해 교차 모달 지식 융합을 달성하면서, 개별 모달리티 전용 파라미터 공간을 유지합니다. 이 아키텍처는 대규모 언어 모델에서 멀티모달 모델로의 지속적 사전 훈련 패러다임에 매우 적합하며, 텍스트 작업 성능을 유지하거나 개선하면서 멀티모달 이해 능력을 크게 향상시킵니다.
프레임워크 및 훈련: 모든 ERNIE 4.5 시리즈 모델은 **PaddlePaddle 딥러닝 프레임워크 ** 를 사용하여 효율적으로 훈련, 추론 및 배포됩니다. 대규모 언어 모델 사전 훈련 중 Model FLOPs Utilization (MFU)는 47%에 도달 합니다.
성능 및 기능
벤치마크 성과: 실험 결과에 따르면 이 모델 시리즈는 여러 텍스트 및 멀티모달 벤치마크에서 ** 최고 수준(SOTA) 성능**을 달성하며, 특히 다음 분야에서 뛰어난 결과를 보여줍니다:

- 명령 수행 - 복잡한 명령 이해 및 실행
- 세계 지식 보유 - 포괄적인 사실 지식 저장 및 회상
- 시각적 이해 - 고급 이미지 이해 능력
- 멀티모달 추론 작업 - 텍스트 및 시각적 입력 전반의 복잡한 추론
모델 사양 (ERNIE-4.5-300B-A47B):
- 총 파라미터: 300B, 토큰당 47B 활성화
- 아키텍처: 54 레이어, 64 쿼리 헤드 / 8 키-값 헤드
- 전문가 구성: 64 텍스트 전문가 (8 활성화) / 64 비전 전문가 (8 활성화)
- 컨텍스트 길이: 131,072 토큰
- 모달리티: 멀티모달 훈련 기능을 갖춘 텍스트
접근성 및 배포:
- Apache 2.0 라이선스 - 모델 가중치가 학술 연구 및 산업 애플리케이션 모두에 오픈소스로 공개됨
- 산업용 개발 툴킷 - PaddlePaddle의 포괄적인 제품군과 ERNIEKit 지원 기반
- 광범위한 칩 호환성 - 다양한 하드웨어 플랫폼에서 작동하여 사후 훈련 및 배포 장벽을 낮춤
- 우수한 추론 성능 - FastDeploy, Transformers, vLLM 통합 등 여러 배포 옵션
- 유연한 양자화 - 리소스 제약에 따라 4비트, 2비트, FP8 옵션
기술 혁신
멀티모달 Mixture of Experts 모델 사전 훈련
접근 방식: ERNIE 4.5는 ** 텍스트 및 시각적 모달리티에 걸친 공동 훈련**을 수행하여 멀티모달 정보의 미묘한 차이를 더 잘 포착하고, 텍스트 생성, 이미지 이해 및 멀티모달 추론 작업의 성능을 향상시킵니다.
혁신: 학습 중 두 모달리티가 상호 강화되면서도 한 모달리티가 다른 모달리티의 학습을 방해하지 않도록 하기 위해, Baidu는 다음을 갖춘 ** 멀티모달 이종 Mixture of Experts 모델 구조**를 제안합니다:
- 특화된 전문가 할당을 위한 모달리티 분리 라우팅
- 전문가 전문화를 강화하는 라우터 직교 손실
- 모달리티 간 최적의 리소스 활용을 위한 멀티모달 토큰 균형 손실
고급 최적화: 이러한 아키텍처 선택은 두 모달리티가 효과적으로 표현되도록 보장하여 훈련 중 ** 멀티모달 상호 촉진 및 개선**을 가능하게 합니다.
효율적인 훈련 및 추론 프레임워크
훈련 최적화: ERNIE 4.5 모델의 효율적인 훈련을 지원하기 위해 Baidu는 ** 이종 하이브리드 병렬성 및 계층적 부하 균형 전략**을 제안합니다. 여러 고급 기술을 통해 사전 훈련 처리량이 크게 향상됩니다:
- 노드 내 전문가 병렬성 - 컴퓨팅 노드 내 최적화된 병렬 처리
- 메모리 효율적인 파이프라인 스케줄링 - 훈련 중 스마트 메모리 관리
- FP8 혼합 정밀도 훈련 - 고급 수치 정밀도 기술
- 세분화된 재계산 - 메모리 효율성을 위한 전략적 재계산
추론 혁신: 추론 최적화를 위해 여러 최첨단 방법을 제안합니다:
- 다중 전문가 병렬 협력 방법 - 모델 전문가 간 협력 처리
- 컨볼루션 코드 양자화 알고리즘 - 압축을 위한 고급 인코딩 기술
- 거의 무손실 양자화: 최소한의 성능 저하로 4비트 양자화 및 2비트 양자화 달성
- 동적 역할 전환을 통한 PD 분리 - 리소스를 더 완벽하게 활용하고 ERNIE 4.5 MoE 모델의 추론 성능을 향상시키는 적응형 배포
모달리티별 사후 훈련
맞춤형 최적화: 실제 시나리오의 다양한 요구를 충족하기 위해 Baidu는 사전 훈련된 모델에 대해 ** 모달리티별 미세 조정**을 수행합니다:
대규모 언어 모델 (LLM):
- 일반 언어 이해 및 생성 에 특별히 최적화됨
비전-언어 모델 (VLM):
- 시각-언어 이해 에 초점
- **사고 모드 ** 와 비사고 모드 모두 지원
다단계 훈련 파이프라인: 각 모델은 고급 기술을 사용한 ** 다단계 사후 훈련**을 채택합니다:
- SFT (지도 미세 조정) - 지도 예제에서 학습
- DPO (직접 선호도 최적화) - 선호도 기반 직접 최적화
- UPO (통합 선호도 최적화) - Baidu의 독점적인 통합 선호도 최적화 기술
배포 및 통합
ERNIE-4.5 모델은 FastDeploy, Hugging Face Transformers 또는 vLLM을 사용하여 배포할 수 있습니다. 다양한 양자화 수준 및 서빙 프레임워크를 통해 모델은 다양한 하드웨어 설정에서 효율적으로 실행될 수 있습니다:
- 전체 정밀도 모델 은 많은 GPU(일반적으로 각각 최소 80GB VRAM을 가진 16개 GPU)가 필요합니다.
- 양자화된 모델(예: WINT4, W4A8C8 또는 WINT2)은 VRAM 요구 사항을 크게 줄입니다. 예를 들어 WINT4 또는 W4A8C8은 4~8×80GB GPU에서 실행할 수 있으며, WINT2는 최소 141GB VRAM이 있는 경우 단일 GPU 배포가 가능합니다.
- Transformers 통합 은 유연한 사용을 허용하지만 대규모 모델의 경우 여전히 상당한 VRAM이 필요합니다.
- vLLM 은 높은 처리량의 다중 GPU 추론에 이상적입니다. 양자화된 모델은 사용 가능한 GPU 메모리 내에서 맞추는 데 도움이 됩니다.
- 권장 샘플링: Temperature=0.8, Top-P=0.8
Novita AI에서 ERNIE 4.5-300B-A47B 사용 방법
Novita AI에서 ERNIE 4.5-300B-A47B를 시작하는 것은 간편하고 위험이 없습니다. 신규 사용자는 $10 무료 크레딧 을 받아 선불 비용 없이 ERNIE 4.5-300B-A47B를 탐색할 수 있습니다.
플레이그라운드 사용하기 (코딩 불필요)
즉시 액세스: 가입하기, 무료 크레딧을 받고 몇 초 만에 ERNIE 4.5 및 기타 최고 모델을 실험해 보세요.
대화형 UI: 프롬프트, 사고 사슬 추론을 테스트하고 결과를 실시간으로 시각화하세요.
모델 비교: ERNIE 4.5, Qwen 3, Llama 4, DeepSeek 등 사이를 쉽게 전환하여 필요에 가장 적합한 모델을 찾으세요.
API를 통한 통합 (개발자용)
Novita AI의 통합 REST API를 사용하여 ERNIE 4.5를 애플리케이션, 워크플로 또는 챗봇에 원활하게 연결하세요. 모델 가중치 관리나 인프라 걱정 없이 Novita AI는 다국어 SDK(Python, Node.js, cURL) 및 고급 파라미터 제어를 제공합니다.
옵션 1: 직접 API 통합 (Python 예제)
curl "https://api.novita.ai/v3/openai/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer " \
-d @- << 'EOF'
{
"model": "baidu/ernie-4.5-300b-a47b-paddle",
"messages": [
{
"role": "system",
"content": Be a helpful assistant
},
{
"role": "user",
"content": "Hi there!"
}
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="",
)
model = "baidu/ernie-4.5-300b-a47b-paddle"
stream = True # or False
max_tokens = 6000
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
"response_format": { "type": "text" },
"max_tokens": 32768,
"temperature": 1,
"top_p": 1,
"min_p": 0,
"top_k": 50,
"presence_penalty": 0,
"frequency_penalty": 0,
"repetition_penalty": 1
}
EOF
옵션 2: OpenAI Agents SDK를 사용한 다중 에이전트 워크플로
OpenAI Agents SDK와 Novita AI를 통합하여 고급 다중 에이전트 시스템을 구축하세요:
- 플러그 앤 플레이: 모든 OpenAI Agents 워크플로에서 Novita AI의 ERNIE 4.5 사용
- 핸드오프, 라우팅 및 도구 사용 지원: ERNIE 4.5의 기능으로 위임, 분류 또는 함수 실행이 가능한 에이전트 설계
- Python 통합: SDK를 Novita의 엔드포인트(
https://api.novita.ai/v3/openai)로 지정하고 API 키를 사용하기만 하면 됩니다.
타사 플랫폼에서 ERNIE 4.5 API 연결하기
-
Hugging Face: Novita AI 엔드포인트를 통해 Spaces, 파이프라인 또는 Transformers 라이브러리에서 ERNIE 4.5를 사용하세요.
-
에이전트 및 오케스트레이션 프레임워크: Continue, AnythingLLM, LangChain, Dify 및 Langflow와 같은 파트너 플랫폼을 공식 커넥터와 단계별 통합 가이드를 통해 Novita AI에 쉽게 연결하세요.
-
OpenAI 호환 API: OpenAI API 표준용으로 설계된 Cline 및 Cursor와 같은 도구와의 번거로움 없는 마이그레이션 및 통합을 즐기세요.
결론
ERNIE 4.5는 고급 Mixture-of-Experts 아키텍처와 혁신적인 멀티모달 학습을 결합한 다재다능한 오픈소스 AI 모델 시리즈입니다. 언어 및 비전 작업 전반에서 강력하고 효율적인 성능을 제공하여 차세대 AI 애플리케이션을 위한 강력한 기반이 됩니다.
AI 추론의 미래를 경험할 준비가 되셨나요? Novita AI에서 ERNIE 4.5를 사용해보세요.
Novita AI는 개발자가 간단한 API를 사용하여 AI 모델을 쉽게 배포할 수 있는 AI 클라우드 플랫폼이며, 구축 및 확장을 위한 저렴하고 안정적인 GPU 클라우드도 제공합니다.
