Qwen 3, 이제 Novita AI에서 사용 가능

Qwen 3란 무엇인가?
벤치마크 및 성능
Novita AI에서 Qwen 3에 액세스하는 방법
최적의 Qwen 3 성능을 위한 모범 사례
결론

Alibaba의 최첨단 Qwen 3 대규모 언어 모델이 이제 Novita AI의 Model API 플랫폼에서 제공됩니다!

다음은 Novita AI의 현재 Qwen 3 라인업과 가격입니다:

Qwen3-235B-A22B: $0.20 / 백만 입력 토큰, $0.80 / 백만 출력 토큰
Qwen3-30B-A3B: $0.10 / 백만 입력 토큰, $0.45 / 백만 출력 토큰
Qwen3-32B: $0.10 / 백만 입력 토큰, $0.45 / 백만 출력 토큰
Qwen3-14B: $0.07 / 백만 입력 토큰, $0.275 / 백만 출력 토큰
Qwen3-8B: $0.035 / 백만 입력 토큰, $0.138 / 백만 출력 토큰
Qwen3-4B: 무료
Qwen3-1.7B: 무료

최첨단 언어 모델로 챗봇, 앱 및 워크플로우를 강화하세요—Qwen 3는 API 호출 한 번으로 사용할 수 있습니다.

Qwen 3란 무엇인가?

Qwen 3는 Alibaba Cloud의 Qwen 팀이 개발한 최신 최고급 대규모 언어 모델 제품군입니다. QwQ와 Qwen2.5의 경험을 바탕으로 Qwen 3는 추론, 다국어 지원 및 에이전트 능력에서 큰 개선을 이루며 오픈소스 AI의 새로운 기준을 세웁니다.

Qwen 3의 주요 특징

다양한 크기의 Dense 및 Mixture-of-Experts (MoE) 모델: Qwen 3는 Dense 및 MoE 아키텍처로 제공되며, 가벼운 0.6B 및 1.7B 모델부터 대규모 32B (Dense) 및 플래그십 30B-A3B와 235B-A22B (MoE) 변종까지 다양합니다.
하이브리드 사고 모드: 모델은 ** 사고 모드 ** (복잡한 단계별 논리 추론, 수학, 코드 생성용)와 ** 비사고 모드** (빠르고 효율적인 일반 채팅용) 간의 원활한 전환을 지원합니다.
크게 향상된 추론 능력: Qwen 3는 이전 Qwen 모델을 수학, 코드 생성 및 상식 논리 추론에서 능가합니다. 또한 다양한 작업에 대해 더 안정적이고 제어 가능한 추론 예산을 제공합니다.
뛰어난 인간 선호 정렬: 이 모델은 창작 글쓰기, 롤플레이, 다중 턴 대화 및 명령 수행에서 탁월하여 더 자연스럽고 매력적인 대화를 생성합니다.
고급 에이전트 기능: Qwen 3는 에이전트 기반 워크플로우에 맞게 설계되어 두 추론 모드 모두에서 외부 도구와의 원활한 통합 및 정확한 함수 호출을 지원합니다. 이를 통해 복잡한 에이전트 기반 작업에서 최첨단 성능을 발휘합니다.
강력한 다국어 지원: 119개 언어 및 방언을 지원하는 Qwen 3는 고품질의 다국어 명령 수행 및 번역이 가능하여 진정한 글로벌 애플리케이션의 문을 엽니다.

벤치마크 및 성능

Qwen 3 시리즈는 포괄적인 AI 벤치마크 제품군에서 업계 최고 수준의 성능을 보여주며, 코딩, 수학, 일반 추론 및 다국어 이해에서 탁월합니다.

플래그십 모델: Qwen3-235B-A22B

플래그십 모델인 Qwen3-235B-A22B 는 DeepSeek-R1, OpenAI-01, OpenAI-o3-mini, Grok-3 Beta, Gemini-2.5-Pro 등 현재 가장 진보된 모델들과 비교해 지속적으로 최고 또는 최고에 가까운 결과를 달성합니다.

출처: Qwen

복잡한 추론: ArenaHard에서 최고 점수(95.6)를 기록, 모든 경쟁사보다 높거나 동등합니다.
수학: AIME’24(85.7) 및 AIME’25(81.5)에서 선도적인 결과로 대부분의 상용 및 오픈소스 모델을 크게 앞지릅니다.
코딩: LiveCodeBench(70.7) 및 CodeForces Elo(2056)에서 탁월한 성능을 보여 소프트웨어 및 알고리즘 작업에서의 강점을 확인합니다.
다국어 및 일반 능력: Qwen3-235B-A22B는 LiveBench 및 MultiF에서 강력한 결과를 달성하여 견고한 실용적 및 다국어 이해력을 입증합니다.

기타 소형 모델

Qwen 3의 아키텍처 혁신은 더 작은 모델 크기에서도 뛰어난 성능으로 이어집니다:

출처: Qwen

Qwen3-32B (Dense): 플래그십에 바로 뒤따르는 결과를 제공하며, 모든 범주에서 대부분의 대체 모델을 능가합니다.
Qwen3-30B-A3B (MoE): 활성화된 매개변수의 10분의 1만 사용함에도 불구하고 QwQ-32B를 능가하며 Qwen의 효율성과 스마트한 확장성을 보여줍니다.
Qwen3-4B (Dense): 이 소형 모델조차도 추론 및 다국어 작업에서 Qwen2.5-72B-Instruct와 같은 훨씬 더 큰 모델의 성능에 필적할 수 있습니다.

Novita AI에서 Qwen 3에 액세스하는 방법

Novita AI에서 Qwen 3를 시작하는 것은 빠르고 간단하며 위험이 없습니다. 추천 프로그램 덕분에 $10 상당의 무료 크레딧 을 받게 됩니다—이 크레딧으로 Qwen 3의 성능을 충분히 탐색하고 프로토타입을 구축하며 선불 비용 없이 첫 번째 사용 사례를 시작할 수 있습니다.

플레이그라운드 사용 (코딩 불필요)

즉시 액세스: 가입하고 무료 크레딧을 받아 몇 초 안에 Qwen 3 및 기타 최고 모델을 실험해 보세요.
대화형 UI: 프롬프트, 사고 사슬 추론을 테스트하고 결과를 실시간으로 시각화하세요.
모델 비교: Qwen 3, Llama 4, DeepSeek 등을 손쉽게 전환하여 필요에 가장 적합한 모델을 찾으세요.

API를 통한 통합 (개발자용)

Novita AI의 통합 REST API를 통해 Qwen 3를 애플리케이션, 워크플로우 또는 챗봇에 원활하게 연결하세요—모델 가중치나 인프라를 관리할 필요가 없습니다. Novita AI는 다국어 SDK(Python, Node.js, cURL 등)와 고급 사용자를 위한 고급 매개변수 제어를 제공합니다.

옵션 1: 직접 API 통합 (Python 예제)

시작하려면 아래 코드 스니펫을 사용하세요.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "qwen/qwen3-235b-a22b-fp8"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

주요 기능:

통합 엔드포인트: /v3/openai는 OpenAI의 Chat Completions API 형식을 지원합니다.
유연한 제어: temperature, top-p, 페널티 등을 조정하여 맞춤형 결과를 얻을 수 있습니다.
스트리밍 및 배치: 원하는 응답 모드를 선택하세요.

옵션 2: OpenAI Agents SDK를 이용한 멀티 에이전트 워크플로우

Novita AI를 OpenAI Agents SDK와 통합하여 고급 멀티 에이전트 시스템을 구축하세요.

플러그 앤 플레이: 어떤 OpenAI Agents 워크플로우에서든 Novita AI의 LLM을 사용하세요.
핸드오프, 라우팅, 도구 사용 지원: Novita AI의 모델로 구동되는, 위임, 분류 또는 함수 실행이 가능한 에이전트를 설계하세요.
Python 통합: SDK를 Novita의 엔드포인트(https://api.novita.ai/v3/openai)로 지정하고 API 키를 사용하기만 하면 됩니다.

타사 플랫폼에서 Qwen 3 API 연결

Hugging Face: Novita AI 엔드포인트를 통해 Spaces, 파이프라인 또는 Transformers 라이브러리에서 Qwen 3를 사용하세요.
에이전트 및 오케스트레이션 프레임워크: Continue, AnythingLLM, LangChain, Dify, Langflow와 같은 파트너 플랫폼에 공식 커넥터 및 단계별 통합 가이드를 통해 쉽게 연결하세요.
OpenAI 호환 API: Cline 및 Cursor와 같이 OpenAI API 표준에 맞춰진 도구와 번거로움 없이 마이그레이션 및 통합할 수 있습니다.

최적의 Qwen 3 성능을 위한 모범 사례

샘플링 매개변수 설정

사고 모드
enable_thinking=True
Temperature: 0.6
TopP: 0.95
TopK: 20
MinP: 0
팁: 성능 저하 또는 반복 출력을 방지하려면 탐욕 디코딩을 피하세요.

비사고 모드
enable_thinking=False
Temperature: 0.7
TopP: 0.8
TopK: 20
MinP: 0

반복 제어
지원되는 프레임워크의 경우 presence_penalty를 0 에서 2 사이로 조정하여 반복을 줄이세요.
참고: 값이 높을수록 언어 혼합이 발생하거나 모델 성능이 약간 저하될 수 있습니다.

출력 길이 권장 사항

대부분의 쿼리에서는 출력 길이를 32,768 토큰 으로 설정하세요.
복잡한 벤치마크 작업(예: 수학 또는 프로그래밍 대회)의 경우 더 포괄적인 응답을 위해 최대 출력 길이를 38,912 토큰 으로 늘리세요.

출력 형식 표준화

수학 문제: 프롬프트에 다음을 포함하세요: “단계별로 추론하고 최종 답변을 \oxed{} 안에 넣어 주세요.”
객관식 질문: JSON 필드를 사용하여 응답을 표준화하세요: “답변 필드에 선택지 문자만 표시해 주세요. 예: “answer”: “C”.”

대화 기록 관리

다중 턴 대화에서는 채팅 기록에 최종 출력만 포함하세요. 중간 “생각” 내용은 생략하세요.
Jinja2 채팅 템플릿을 사용하는 경우 자동으로 처리됩니다. 다른 프레임워크의 경우 이 방법을 수동으로 따라야 합니다.

이러한 권장 사항을 따르면 Qwen 3가 모든 사용 사례에서 일관되게 정확하고 고품질의 결과를 제공할 것입니다.

결론

Qwen 3는 코딩, 추론 및 다국어 작업에서 최고 수준의 성능을 제공합니다. 프로젝트 규모에 관계없이 말이죠. 실제로 확인해 보시겠습니까?

지금 Novita AI에서 Qwen 3 데모를 사용해 보고 무료 크레딧을 받으세요!

Novita AI는 개발자가 간단한 API를 사용하여 AI 모델을 쉽게 배포할 수 있도록 하고, 구축 및 확장을 위한 저렴하고 안정적인 GPU 클라우드를 제공하는 AI 클라우드 플랫폼입니다.

Qwen 3, 이제 Novita AI에서 사용 가능