로컬 또는 API를 통해 Qwen 3에 액세스하는 방법: 완전한 가이드

Qwen 3에 접속하는 방법

친구에게 다음을 추천하세요. Novita AI 그리고 두 분 모두 10달러를 벌게 될 것입니다. LLM API 크레딧 - 총 보상이 최대 500달러입니다.

개발자 커뮤니티를 지원하기 위해 Qwen2.5-7B, Qwen 3 0.6B, Qwen 3 1.7B, Qwen 3 4B가 현재 무료로 제공됩니다. Novita AI.

퀀 2.5 7b

Qwen 3는 Alibaba가 개발한 다재다능하고 강력한 오픈소스 언어 모델 제품군입니다. 최첨단 아키텍처와 듀얼 모드 추론 기능을 탑재하여 엣지 디바이스와 대규모 엔터프라이즈 요구 사항을 모두 충족하도록 설계되었습니다. 이 글에서는 Qwen XNUMX의 기능, 모델 유형, 그리고 로컬 또는 API를 통한 사용 방법을 살펴봅니다.

Qwen 3은 무엇인가요?

퀀 3 알리바바의 2025년 오픈 소스 대규모 언어 모델 제품군으로, 119개 이상의 언어에 걸쳐 향상된 추론 및 다국어 성능을 위해 전환 가능한 "사고" 및 "비사고" 모드를 제공합니다. Qwen 3 모델 라인업 포함 :

Qwen 3 – 공유 기능

오픈 소스 및 상업적으로 친화적

Apache 2.0 라이센스, 연구 및 비즈니스 용도로 무료로 제공되는 가중치.

효율적인 변압기 코어

최대 128K 토큰의 긴 컨텍스트 KV 메모리 절약을 위한 그룹화된 쿼리 주의가 있는 디코더 전용.

이중 "사고/비사고" 모드

필요할 때는 세부적인 사고의 흐름을 제시하고, 속도가 중요할 때는 간결하고 직접적인 답변을 제공합니다.

대규모 36 T 토큰 코퍼스

119개 언어와 확장된 STEM 및 코드 데이터를 통해 추론 능력과 프로그래밍 기술을 강화합니다.

3단계 사전 훈련

기본 기술 → STEM 강화 → 32 K-토큰 장기 맥락 적응.

4단계 포스트 트레이닝

긴 CoT SFT → 추론 RL → 모드 융합 → 일반 RLHF 정렬.

다국어 교육 후

영어와 중국어에 강하고, 글로벌 애플리케이션을 위해 100개 이상의 언어에 걸쳐 견고합니다.

도구/에이전트 준비

외부 도구 호출을 결정하고 형식을 지정하기 위한 내장 함수 호출 스키마입니다.

텍스트 입력/텍스트 출력 방식

현재는 언어 작업에 최적화되어 있으며, 향후 릴리스에서는 비전 변형이 계획되어 있습니다.

Qwen 3 시리즈 아키텍처

큐웬 3

Qwen 3 시리즈 벤치마크

Qwen 3 시리즈 벤치마크
Qwen 3 시리즈 벤치마크

고매개변수 모델 Qwen-23B와 Qwen-14B는 규칙을 일관되게 따르며, 더 큰 모델과 추론 지원 버전이 더 높은 점수를 기록했습니다. 저매개변수 모델에서 이러한 불일치는 추론 메커니즘을 충분히 활용할 수 있는 능력이 부족하여 최적의 성능을 발휘하지 못하는 추론 능력의 한계에서 비롯될 수 있습니다.

Qwen 3에 지역적으로 접속하는 방법?

하드웨어 요구 사항

모델추천 GPUVRAMvCPU스토리지
Qwen3-0.6BRTX 3060 / T48 GB48 GB20 GB
Qwen3-1.7BRTX 3060 / A500012~24GB6-816 GB30 GB
Qwen3-4BA100 40GB / RTX 309024~40GB12+24 GB40 GB
Qwen3-8BA100 80GB / H10040~80GB16+48 GB60 GB
Qwen3-14B2× A100 80GB / 1× H10080GB 이상24+64 GB80 GB
Qwen3-30B(교육부)2× H100 / 4× A100160 GB48+128 GB160 GB
Qwen3-32B2× H100 / 4× A100160 GB64160 GB200 GB
Qwen3-235B(교육부)8× H100 / 8× A100640 GB128+512 GBGB 이상

단계별 설치 가이드

# 1단계: Python 설치 및 가상 환경 생성 # Python(3.8 이상)이 설치되어 있는지 확인합니다. 그런 다음 가상 환경을 생성하고 활성화합니다. python3 -m venv llama_env source llama_env/bin/activate # Windows에서는 `llama_env\Scripts\activate`를 사용합니다. # 2단계: 필수 라이브러리 설치 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # For GPU 최적화 pip install bitsandbytes # 효율적 GPU 메모리 사용량 # 3단계: Hugging Face CLI 설치 및 로그인 pip install huggingface-cli huggingface-cli login # 프롬프트에 따라 인증 # 4단계: Llama-3.3 70B에 대한 액세스 요청 # Llama-3.3 70B의 Hugging Face 모델 페이지를 방문하여 액세스를 요청합니다. # URL: https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct # 5단계: 모델 파일 다운로드 huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct # 6단계: 로컬에서 모델 로드 import torch from transformers import AutoModelForCausalLM, AutoTokenizer # 모델 ID 및 로컬 디렉토리 경로 model_id = "meta-llama/Llama-3.3-70B-Instruct" local_model_dir = "./Llama-3.3-70B-Instruct" # 모델을 로드합니다. GPU 최적화 모델 = AutoModelForCausalLM.from_pretrained( local_model_dir, device_map="auto", # 모델 레이어를 자동으로 매핑합니다. GPU(s) torch_dtype=torch.bfloat16 # 효율적인 메모리 사용을 위해 bfloat16을 사용합니다.) # 토크나이저 로드 tokenizer = AutoTokenizer.from_pretrained(local_model_dir) # 7단계: 추론 실행 # 입력 텍스트 정의 input_text = "상대성 이론을 간단한 용어로 설명하세요." # 입력 토큰화 inputs = tokenizer(input_text, return_tensors="pt").to("cuda") # 입력을 다음으로 보냅니다. GPU

# torch.no_grad()로 응답을 생성합니다. outputs = model.generate( **inputs, max_length=100, # 최대 응답 길이 설정 temperature=0.7, # 창의성 조정(낮음 = 창의성 낮음, 높음 = 창의성 높음) top_k=50, # 다양성을 위한 Top-k 샘플링) # 출력 토큰 디코딩 response = tokenizer.decode(outputs[0], skip_special_tokens=True) print("응답:", response)

API를 통해 Qwen 3에 액세스하는 방법

Novita AI 확장 가능한 저렴하고 안정적이며 간단한 추론 플랫폼을 제공합니다. 라마 3.3 70b API개발자가 AI 애플리케이션을 구축할 수 있도록 지원합니다. Novita AI Llama 3.3 70b API 데모 .

옵션 1: 직접 API 통합(Python 예제)

qwen 3 api

주요 특징:

  • 통합 엔드포인트:/v3/openai OpenAI의 채팅 완성 API 형식을 지원합니다.
  • 유연한 제어: 온도, 최고 온도, 페널티 등을 조정하여 맞춤형 결과를 얻으세요.
  • 스트리밍 및 배치: 원하는 응답 모드를 선택하세요.

옵션 2: 다중 에이전트 워크플로 OpenAI 중개인 SDK

통합을 통해 고급 멀티 에이전트 시스템을 구축하세요. Novita AI 와 더불어 OpenAI 에이전트 SDK:

  • 플러그 앤 플레이: Novita AI의 LLM모든 OpenAI 에이전트 워크플로우에 있습니다.
  • 핸드오프, 라우팅 및 도구 사용을 지원합니다. 위임, 분류 또는 기능을 실행할 수 있는 에이전트를 설계합니다. Novita AI의 모델입니다.
  • Python 통합: SDK를 Novita의 엔드포인트로 가리키기만 하면 됩니다.https://api.novita.ai/v3/openai)을 클릭하고 API 키를 사용하세요.

타사 플랫폼에서 Qwen 3 API 연결

  • 포옹하는 얼굴: Qwen 3을 Spaces, 파이프라인 또는 Transformers 라이브러리와 함께 사용하세요. Novita AI 끝점.
 타사 플랫폼의 Qwen 3 API
  • 에이전트 및 오케스트레이션 프레임워크: 쉽게 연결 Novita AI 다음과 같은 파트너 플랫폼과 함께 계속, 아무것도LLM,랭체인, 디파이하다 랭플로우 공식 커넥터와 단계별 통합 가이드를 통해.
  • OpenAI 호환 API: 다음과 같은 도구를 사용하여 번거로움 없는 마이그레이션 및 통합을 즐겨보세요. 클라인 커서OpenAI API 표준에 맞춰 설계되었습니다.

어떤 방법이 당신에게 적합할까요?

로컬 액세스와 API 액세스 비교

아래로컬 액세스API 액세스
확장성제한적이므로 수동 업그레이드가 필요합니다.자동으로 효율적으로 확장됩니다.
유연성높은 유연성; 설정에 대한 완벽한 제어.유연성이 낮음; 공급업체의 구성에 따라 다름.
편의성기술적 전문성이 필요합니다.사용하기 쉽고 복잡한 설정이 필요 없습니다.
경제성초기 비용은 높지만 유지 관리 비용은 낮습니다. 장기 사용에 가장 적합합니다.사용량에 따라 요금을 지불하므로 소규모 또는 가끔씩 사용하기에 적합합니다.

다양한 사용자 그룹에 대한 권장 사항

  • 연구원 → 선호하다 로컬 액세스 완벽한 제어와 실험의 유연성을 위해.
  • 개발자 → 사용 API 빠른 테스트 및 앱 빌드를 위해 이동 지방의 맞춤형 교육을 위해.
  • 프로API 쉽게 통합할 수 있어서 좋습니다. 지방의 안정적인 요구 사항을 갖춘 팀에 적합합니다.
  • 소규모 팀 및 개인API 시작하기에 더 저렴하고 쉽습니다.
  • 비기술 사용자 → 꼭 같이 가세요 API—복잡한 설정이 필요 없습니다.

연구원, 개발자, 비즈니스 팀 등 어떤 팀이든 Qwen 3는 모든 니즈에 맞춰 활용 가능합니다. 로컬 액세스를 통해 제어 및 맞춤 설정이 가능하며, API는 즉각적인 확장성과 낮은 진입 장벽을 제공합니다. Qwen 3는 실제 업무에 필요한 강력한 다국어 지원, 추론 및 도구 강화 기능을 제공합니다.

자주 묻는 질문

Qwen 3가 다른 제품과 다른 점은 무엇입니까? LLMs?

이 솔루션은 개방형 가중치와 상업적으로 친화적인 라이센스를 통해 이중 사고 모드, 강력한 다국어 교육, 긴 컨텍스트(128k 토큰)를 지원합니다.

내 PC에서 Qwen 3을 실행할 수 있나요?

소비자에게 적합한 모델은 가장 작은 모델(예: 0.6B)뿐입니다. GPUs. 더 큰 모델에는 A100/H100 설정이 필요합니다.

API 접근이 더 쉬운가요?

가능! Novita AI Hugging Face는 저렴한 플러그 앤 플레이 방식의 Qwen 3 API를 제공합니다. 빠른 통합과 저지연 사용에 적합합니다.

Novita AI AI에 대한 야망을 실현하는 올인원 클라우드 플랫폼입니다. 통합 API, 서버리스, GPU 인스턴스 - 필요한 비용 효율적인 도구입니다. 인프라를 없애고 무료로 시작하여 AI 비전을 현실로 만드세요.

독서 추천


Novita에서 더 많은 것을 알아보세요

이메일로 최신 게시물을 받아보려면 구독하세요.

코멘트 남김

위쪽으로 스크롤

Novita에서 더 많은 것을 알아보세요

계속해서 읽고 전체 아카이브에 액세스하려면 지금 구독하세요.

계속 읽기