GPU를 녹이지 않고 Qwen 3 235B A22B 사용하기: 3가지 쉬운 API 방법

GPU를 녹이지 않고 Qwen 3 235B A22B 사용하기: 3가지 쉬운 API 방법

LLM API $10 받기

주요 내용

Qwen 3 235B A22B 는 고급 추론, 코딩 및 다국어 작업을 위해 설계된 강력한 Mixture-of-Experts (MoE) 모델입니다.

로컬에서 실행하려면 약 1128GB의 VRAM 이 필요하며, 이는 16× A100 또는 16× H100 GPU에 해당하므로 대부분의 개인 개발자에게는 접근이 어렵습니다.

API를 통해 Qwen 3 235B A22B에 액세스하는 3가지 간단한 방법:

  1. 직접 API 통합 – OpenAI 호환 엔드포인트 사용
  2. 멀티 에이전트 워크플로우 – OpenAI Agents SDK 활용
  3. 서드파티 통합 – Hugging Face, LangChain, Dify 등을 통해

Qwen 3 235B A22B는 현재 가장 뛰어난 대규모 언어 모델 중 하나로, 추론, 수학, 다국어 작업에서 최고 수준의 성능을 제공합니다. 그러나 VRAM 요구량이 1TB를 초과하기 때문에 대부분의 개발자가 로컬에서 실행하는 것은 거의 불가능합니다. 다행히 API 기반 접근 방식은 무거운 인프라 없이 이 강력한 성능을 활용할 수 있게 해줍니다.

Qwen 3 235B A22B란?

Qwen 3 235B A22B 소개

Qwen 3 235B A22B 벤치마크

Qwen 3 235B A22B 벤치마크

출처: Qwen

Qwen 3 235B A22B 하드웨어 요구 사항

Qwen 3 235B A22B를 로컬에서 실행하려면 약 1128GB의 VRAM 이 필요하며, 이는 다음과 같습니다.

  • 16× A100 (80GB) GPU
  • 또는 16× H100 (80GB) GPU

이러한 구성은 대부분의 개인 개발자나 소규모 팀이 감당하기 어렵습니다.

대부분의 개발자에게 API가 더 현명한 선택입니다

  • 설정이나 하드웨어 비용이 전혀 들지 않음
  • 최첨단 모델에 즉시 액세스 가능
  • 필요에 따라 확장 가능한 사용량
  • 지속적인 모델 업데이트 및 유지보수

옵션 1: 직접 API 통합

1단계: 로그인 및 모델 라이브러리 접속

계정에 로그인한 후 모델 라이브러리 버튼을 클릭합니다.

로그인 및 모델 라이브러리 접속

2단계: 모델 선택

사용 가능한 옵션을 살펴보고 필요에 맞는 모델을 선택합니다.

모델 선택

3단계: 무료 체험 시작

선택한 모델의 기능을 탐색하려면 무료 체험을 시작하세요.

무료 체험 시작

지금 Qwen 3 235B A22B 사용해보기!

4단계: API 키 받기

API 인증을 위해 새 API 키를 제공합니다. “Settings” 페이지로 이동하여 이미지에 표시된 대로 API 키를 복사할 수 있습니다.

API 키 받기

5단계: API 설치

프로그래밍 언어에 맞는 패키지 관리자를 사용하여 API를 설치합니다.

설치 후 개발 환경에 필요한 라이브러리를 가져옵니다. API 키를 사용하여 API를 초기화하고 Novita AI LLM과 상호 작용을 시작합니다. 다음은 Python 사용자를 위한 채팅 완성 API 사용 예시입니다.

from openai import OpenAI
  
from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "qwen/qwen3-235b-a22b-fp8"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

옵션 2: OpenAI Agents SDK를 활용한 멀티 에이전트 워크플로우

OpenAI Agents SDK 는 OpenAI의 SWARM 프로젝트의 프로덕션급 진화 버전으로, 지능적이고 협력적이며 안전한 AI 에이전트 개발을 간소화하도록 설계되었습니다. 핵심은 LLM 기반 에이전트로, 사용자 지정 지침, 역할 및 외부 도구로 구성할 수 있습니다. SDK는 Pydantic 검증을 통한 자동 함수-도구 변환, 원활한 도구 피드백을 위한 내장 에이전트 루프, 다중 에이전트 작업 위임, 강력한 보안 가드레일 등 강력한 기능을 제공합니다. 개발자는 최소한의 학습 곡선으로 가벼운 프레임워크 내에서 Python 네이티브 오케스트레이션, 디버깅을 위한 내장 추적 도구, 높은 사용자 정의 가능성의 이점을 누릴 수 있습니다.

1. Python 환경 설정 및 Agents SDK 설치

python -m venv env
source env/bin/activate
pip install openai-agents

2. Novita API 키 설정

API 키 받기

콘솔로 이동하여 10 크레딧 받기

3. 핸드오프 예시

import os
from openai import AsyncOpenAI
from agents import (
    Agent,
    Runner,
    set_default_openai_api,
    set_default_openai_client,
    set_tracing_disabled,
)

BASE_URL = "https://api.novita.ai/v3/openai"
API_KEY = os.getenv("NOVITA_API_KEY")
MODEL_NAME = os.getenv("MODEL_NAME")

# Because Novita not support the responses API so we use the chat completions API instead.
set_default_openai_api("chat_completions")
set_default_openai_client(AsyncOpenAI(base_url=BASE_URL, api_key=API_KEY))
# Disable tracing for this example
# Refer to https://openai.github.io/openai-agents-python/tracing/#external-tracing-processors-list to use the custom spans.
set_tracing_disabled(disabled=True)

agent = Agent(name="Assistant",
              instructions="You are a helpful assistant", model=MODEL_NAME)

result = Runner.run_sync(
    agent, "Write a haiku about recursion in programming.")
print(result.final_output)

# Code within the code,
# Functions calling themselves,
# Infinite loop's dance.

옵션 3: 서드파티 Qwen 3 API 통합

1.HuggingFace 통합

1단계: Hugging Face에서 API 키 구성

  • 계정 설정 대시보드에 접속하여 API 키를 구성합니다.
  • Novita AI 인증 자격 증명을 Hugging Face 플랫폼에 입력합니다.Hugging Face에서 API 키 구성

2단계: 추론 API 모드 선택

  • 사용자 키 모드: 호출이 추론 제공자에게 직접 전송되며, 사용자 자신의 API 키를 사용합니다.
  • HF-라우팅 모드: 이 모드에서는 제공자 토큰이 필요하지 않습니다. 요금은 제공자 계정이 아닌 Hugging Face 계정에 청구됩니다.

3단계: 설정 버튼을 클릭하고 Novita AI를 API 제공자로 선택합니다.

deepsite with novita ai

2.Novita AI와의 에이전트/프레임워크 통합

Novita AI는 많은 인기 에이전트 프레임워크의 일류 파트너 입니다.
플랫폼 내에서 **Novita를 제공자로 직접 선택 ** 할 수 있습니다. 각각 **공식 커넥터 ** 와 단계별 가이드 가 제공되어 멀티 에이전트 워크플로우, 도구 호출 에이전트 및 복잡한 오케스트레이션 작업에 원활하게 통합할 수 있습니다.

3. OpenAI 호환 API 통합

**OpenAI API 표준 ** 을 기반으로 구축된 도구의 경우 Novita AI는 **드롭인 대체 ** 를 제공합니다. 기본 URL 과 **API 키 ** 만 있으면 됩니다. 이 방법은 리팩토링이 전혀 필요 없으며, 이미 OpenAI 호출을 사용하는 앱의 즉시 마이그레이션을 지원합니다.

자주 묻는 질문

Qwen 3 235B A22B란 무엇인가요?

알리바바의 최첨단 MoE 언어 모델로, 235B 파라미터(포워드 패스당 활성화 22B)를 가지며 논리, 수학, 다국어 작업에서 뛰어납니다.

Qwen 3 235B A22B를 로컬에서 실행할 수 없는 이유는 무엇인가요?

약 1128GB의 VRAM이 필요하여 일반 소비자 하드웨어 수준을 훨씬 초과합니다. 16개의 A100 또는 H100 GPU가 필요합니다.

Qwen 3 235B A22B를 무료로 체험할 수 있나요?

네. Novita AI는 모델을 부담 없이 탐색할 수 있도록 무료 크레딧을 제공합니다.

*Novita AI*는 개발자가 간단한 API를 사용하여 AI 모델을 쉽게 배포할 수 있도록 지원하는 AI 클라우드 플랫폼이며, 구축 및 확장을 위한 저렴하고 안정적인 GPU 클라우드도 제공합니다.

추천 자료