친구에게 다음을 추천하세요. Novita AI 그리고 두 분 모두 10달러를 벌게 될 것입니다. LLM API 크레딧 - 총 보상이 최대 500달러입니다.
개발자 커뮤니티를 지원하기 위해 Qwen2.5-7B, Qwen 3 0.6B, Qwen 3 1.7B, Qwen 3 4B가 현재 무료로 제공됩니다. Novita AI.
Qwen 3는 Alibaba가 개발한 다재다능하고 강력한 오픈소스 언어 모델 제품군입니다. 최첨단 아키텍처와 듀얼 모드 추론 기능을 탑재하여 엣지 디바이스와 대규모 엔터프라이즈 요구 사항을 모두 충족하도록 설계되었습니다. 이 글에서는 Qwen XNUMX의 기능, 모델 유형, 그리고 로컬 또는 API를 통한 사용 방법을 살펴봅니다.
최대 128K 토큰의 긴 컨텍스트 KV 메모리 절약을 위한 그룹화된 쿼리 주의가 있는 디코더 전용.
이중 "사고/비사고" 모드
필요할 때는 세부적인 사고의 흐름을 제시하고, 속도가 중요할 때는 간결하고 직접적인 답변을 제공합니다.
대규모 36 T 토큰 코퍼스
119개 언어와 확장된 STEM 및 코드 데이터를 통해 추론 능력과 프로그래밍 기술을 강화합니다.
3단계 사전 훈련
기본 기술 → STEM 강화 → 32 K-토큰 장기 맥락 적응.
4단계 포스트 트레이닝
긴 CoT SFT → 추론 RL → 모드 융합 → 일반 RLHF 정렬.
다국어 교육 후
영어와 중국어에 강하고, 글로벌 애플리케이션을 위해 100개 이상의 언어에 걸쳐 견고합니다.
도구/에이전트 준비
외부 도구 호출을 결정하고 형식을 지정하기 위한 내장 함수 호출 스키마입니다.
텍스트 입력/텍스트 출력 방식
현재는 언어 작업에 최적화되어 있으며, 향후 릴리스에서는 비전 변형이 계획되어 있습니다.
Qwen 3 시리즈 아키텍처
Qwen 3 시리즈 벤치마크
고매개변수 모델 Qwen-23B와 Qwen-14B는 규칙을 일관되게 따르며, 더 큰 모델과 추론 지원 버전이 더 높은 점수를 기록했습니다. 저매개변수 모델에서 이러한 불일치는 추론 메커니즘을 충분히 활용할 수 있는 능력이 부족하여 최적의 성능을 발휘하지 못하는 추론 능력의 한계에서 비롯될 수 있습니다.
Qwen 3에 지역적으로 접속하는 방법?
하드웨어 요구 사항
모델
추천 GPU
VRAM
vCPU
램
스토리지
Qwen3-0.6B
RTX 3060 / T4
8 GB
4
8 GB
20 GB
Qwen3-1.7B
RTX 3060 / A5000
12~24GB
6-8
16 GB
30 GB
Qwen3-4B
A100 40GB / RTX 3090
24~40GB
12+
24 GB
40 GB
Qwen3-8B
A100 80GB / H100
40~80GB
16+
48 GB
60 GB
Qwen3-14B
2× A100 80GB / 1× H100
80GB 이상
24+
64 GB
80 GB
Qwen3-30B(교육부)
2× H100 / 4× A100
160 GB
48+
128 GB
160 GB
Qwen3-32B
2× H100 / 4× A100
160 GB
64
160 GB
200 GB
Qwen3-235B(교육부)
8× H100 / 8× A100
640 GB
128+
512 GB
GB 이상
단계별 설치 가이드
# 1단계: Python 설치 및 가상 환경 생성 # Python(3.8 이상)이 설치되어 있는지 확인합니다. 그런 다음 가상 환경을 생성하고 활성화합니다. python3 -m venv llama_env source llama_env/bin/activate # Windows에서는 `llama_env\Scripts\activate`를 사용합니다. # 2단계: 필수 라이브러리 설치 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # For GPU 최적화 pip install bitsandbytes # 효율적 GPU 메모리 사용량 # 3단계: Hugging Face CLI 설치 및 로그인 pip install huggingface-cli huggingface-cli login # 프롬프트에 따라 인증 # 4단계: Llama-3.3 70B에 대한 액세스 요청 # Llama-3.3 70B의 Hugging Face 모델 페이지를 방문하여 액세스를 요청합니다. # URL: https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct # 5단계: 모델 파일 다운로드 huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct # 6단계: 로컬에서 모델 로드 import torch from transformers import AutoModelForCausalLM, AutoTokenizer # 모델 ID 및 로컬 디렉토리 경로 model_id = "meta-llama/Llama-3.3-70B-Instruct" local_model_dir = "./Llama-3.3-70B-Instruct" # 모델을 로드합니다. GPU 최적화 모델 = AutoModelForCausalLM.from_pretrained( local_model_dir, device_map="auto", # 모델 레이어를 자동으로 매핑합니다. GPU(s) torch_dtype=torch.bfloat16 # 효율적인 메모리 사용을 위해 bfloat16을 사용합니다.) # 토크나이저 로드 tokenizer = AutoTokenizer.from_pretrained(local_model_dir) # 7단계: 추론 실행 # 입력 텍스트 정의 input_text = "상대성 이론을 간단한 용어로 설명하세요." # 입력 토큰화 inputs = tokenizer(input_text, return_tensors="pt").to("cuda") # 입력을 다음으로 보냅니다. GPU
# torch.no_grad()로 응답을 생성합니다. outputs = model.generate( **inputs, max_length=100, # 최대 응답 길이 설정 temperature=0.7, # 창의성 조정(낮음 = 창의성 낮음, 높음 = 창의성 높음) top_k=50, # 다양성을 위한 Top-k 샘플링) # 출력 토큰 디코딩 response = tokenizer.decode(outputs[0], skip_special_tokens=True) print("응답:", response)
API를 통해 Qwen 3에 액세스하는 방법
Novita AI 확장 가능한 저렴하고 안정적이며 간단한 추론 플랫폼을 제공합니다. 라마 3.3 70b API개발자가 AI 애플리케이션을 구축할 수 있도록 지원합니다. Novita AI Llama 3.3 70b API 데모 .
통합을 통해 고급 멀티 에이전트 시스템을 구축하세요. Novita AI 와 더불어 OpenAI 에이전트 SDK:
플러그 앤 플레이: Novita AI의 LLM모든 OpenAI 에이전트 워크플로우에 있습니다.
핸드오프, 라우팅 및 도구 사용을 지원합니다. 위임, 분류 또는 기능을 실행할 수 있는 에이전트를 설계합니다. Novita AI의 모델입니다.
Python 통합: SDK를 Novita의 엔드포인트로 가리키기만 하면 됩니다.https://api.novita.ai/v3/openai)을 클릭하고 API 키를 사용하세요.
타사 플랫폼에서 Qwen 3 API 연결
포옹하는 얼굴: Qwen 3을 Spaces, 파이프라인 또는 Transformers 라이브러리와 함께 사용하세요. Novita AI 끝점.
에이전트 및 오케스트레이션 프레임워크: 쉽게 연결 Novita AI 다음과 같은 파트너 플랫폼과 함께 계속, 아무것도LLM,랭체인, 디파이하다랭플로우 공식 커넥터와 단계별 통합 가이드를 통해.
OpenAI 호환 API: 다음과 같은 도구를 사용하여 번거로움 없는 마이그레이션 및 통합을 즐겨보세요. 클라인커서OpenAI API 표준에 맞춰 설계되었습니다.
어떤 방법이 당신에게 적합할까요?
로컬 액세스와 API 액세스 비교
아래
로컬 액세스
API 액세스
확장성
제한적이므로 수동 업그레이드가 필요합니다.
자동으로 효율적으로 확장됩니다.
유연성
높은 유연성; 설정에 대한 완벽한 제어.
유연성이 낮음; 공급업체의 구성에 따라 다름.
편의성
기술적 전문성이 필요합니다.
사용하기 쉽고 복잡한 설정이 필요 없습니다.
경제성
초기 비용은 높지만 유지 관리 비용은 낮습니다. 장기 사용에 가장 적합합니다.
사용량에 따라 요금을 지불하므로 소규모 또는 가끔씩 사용하기에 적합합니다.
다양한 사용자 그룹에 대한 권장 사항
연구원 → 선호하다 로컬 액세스 완벽한 제어와 실험의 유연성을 위해.
개발자 → 사용 API 빠른 테스트 및 앱 빌드를 위해 이동 지방의 맞춤형 교육을 위해.
프로 → API 쉽게 통합할 수 있어서 좋습니다. 지방의 안정적인 요구 사항을 갖춘 팀에 적합합니다.
소규모 팀 및 개인 → API 시작하기에 더 저렴하고 쉽습니다.
비기술 사용자 → 꼭 같이 가세요 API—복잡한 설정이 필요 없습니다.
연구원, 개발자, 비즈니스 팀 등 어떤 팀이든 Qwen 3는 모든 니즈에 맞춰 활용 가능합니다. 로컬 액세스를 통해 제어 및 맞춤 설정이 가능하며, API는 즉각적인 확장성과 낮은 진입 장벽을 제공합니다. Qwen 3는 실제 업무에 필요한 강력한 다국어 지원, 추론 및 도구 강화 기능을 제공합니다.
자주 묻는 질문
Qwen 3가 다른 제품과 다른 점은 무엇입니까? LLMs?
이 솔루션은 개방형 가중치와 상업적으로 친화적인 라이센스를 통해 이중 사고 모드, 강력한 다국어 교육, 긴 컨텍스트(128k 토큰)를 지원합니다.
내 PC에서 Qwen 3을 실행할 수 있나요?
소비자에게 적합한 모델은 가장 작은 모델(예: 0.6B)뿐입니다. GPUs. 더 큰 모델에는 A100/H100 설정이 필요합니다.
API 접근이 더 쉬운가요?
가능! Novita AI Hugging Face는 저렴한 플러그 앤 플레이 방식의 Qwen 3 API를 제공합니다. 빠른 통합과 저지연 사용에 적합합니다.
Novita AI AI에 대한 야망을 실현하는 올인원 클라우드 플랫폼입니다. 통합 API, 서버리스, GPU 인스턴스 - 필요한 비용 효율적인 도구입니다. 인프라를 없애고 무료로 시작하여 AI 비전을 현실로 만드세요.