Qwen 3 for RAG(llm、埋め込み、再ランキング) は、検索拡張生成(Retrieval-Augmented Generation)向けに設計されたオープンソースのAIソリューションです。関連文書を検索する埋め込みモデル、最良の結果を並べ替える再ランキングモデル、そして明確かつ正確な回答を生成する強力なLLMの3つの主要モデルを組み合わせています。Qwen 3は長いコンテキスト、多言語対応、そして使いやすさを備えており、スマート検索や質疑応答システムの構築に最適です。
LLM、埋め込みモデル、再ランキングモデルはどのように連携するのか?
1. 埋め込みモデル:検索の理解
目的:
大量の文書から関連情報を見つける。
仕組み:
- 各文書(またはテキストのチャンク)は、埋め込みモデル(例:OpenAIのAda、Sentence Transformers)を使用してベクトル(数値の配列)に変換されます。
- ユーザーのクエリも同様にベクトルに変換されます。
- システムは、クエリベクトルに最も類似した文書ベクトルを検索します(コサイン類似度などの類似度指標を使用)。
- 上位N個の最も類似した文書が取得されます。
2. 再ランキングモデル:関連性の向上
目的:
埋め込み検索ステップの結果を、クエリとの関連性に基づいてより正確に順位付けし、絞り込みます。
仕組み:
- 最初に取得された文書セット(例:上位20件)は、再ランカーによってさらに評価されます。
- 再ランカーは、クエリと各文書の両方を入力として受け取り、関連性スコアを出力するクロスエンコーダーモデル(BERT、RoBERTaなど)を使用することが多いです。
- 上位にランク付けされた文書が次のステップに選択されます。
3. LLM(大規模言語モデル):回答生成
目的:
取得されたコンテキストに基づいて、一貫性があり情報豊かな回答を生成します。
仕組み:
- 上位ランクの文書が連結または要約され、「コンテキスト」として使用されます。
- LLMには、ユーザーの質問と取得されたコンテキストがプロンプトとして与えられます。
- LLMは、取得された情報を引用または使用して応答を生成します。
これらすべての連携(RAGパイプライン)
- ユーザーがクエリを送信。
- 埋め込みモデル が関連文書を取得。
- 再ランカー がこれらの文書を関連性で並べ替え。
- LLM が上位文書を使用して回答を生成。
RAG向けQwen 3モデルとは?
Qwen 3 埋め込みモデル
| モデル | サイズ | レイヤー | シーケンス長 | 埋め込み次元 | MRL対応 | 指示認識 |
|---|---|---|---|---|---|---|
| Qwen3 Embedding 0.6B | 0.6B | 28 | 32K | 1024 | はい | はい |
| Qwen3 Embedding 4B | 4B | 36 | 32K | 2560 | はい | はい |
| Qwen3 Embedding 8B | 8B | 36 | 32K | 4096 | はい | はい |
Qwen 3 再ランキングモデル
| **モデル ** | ** サイズ ** | ** レイヤー** | ** シーケンス長 ** | ** 指示認識** |
| Qwen3-Reranker-0.6B | 0.6B | 32 | 32K | はい |
| Qwen3-Reranker-4B | 4B | 36 | 32K | はい |
| Qwen3-Reranker-8B | 8B | 36 | 32K | はい |
Qwen 3 LLMモデル
| モデル | アーキテクチャ | パラメータ(総数 / 活性化数) | レイヤー | アテンションヘッド(Q / KV) | エキスパート(総数 / アクティブ数) | コンテキストウィンドウ(トークン) |
|---|---|---|---|---|---|---|
| Qwen3-235B-A22B | MoE | 235B / 22B | 94 | 64 / 4 | 128 / 8 | 32,768(YaRNで131,072) |
| Qwen3-30B-A3B | MoE | 30.5B / 3.3B | 48 | 32 / 4 | 128 / 8 | 32,768(YaRNで131,072) |
| Qwen3-32B | Dense | 32.8B | 64 | 64 / 8 | - | 32,768(YaRNで131,072) |
| Qwen3-14B | Dense | 14.8B | 40 | 40 / 8 | - | 32,768(YaRNで131,072) |
| Qwen3-8B | Dense | 8.2B | 36 | 32 / 8 | - | 32,768(YaRNで131,072) |
| Qwen3-4B | Dense | 4.0B | 36 | 32 / 8 | - | 32,768(YaRNで131,072) |
| Qwen3-1.7B | Dense | 1.7B | 28 | 16 / 8 | - | 32,768 |
| Qwen3-0.6B | Dense | 0.6B | 28 | 16 / 8 | - | 32,768 |
開発者がRAGにQwen3を採用する理由は?
| 機能 | Qwen 3 |
|---|---|
| **長いコンテキストウィンドウ ** | 32,000トークン |
| **複数のモデルサイズ ** | 0.6B / 4B / 8B |
| **多言語対応 ** | 100以上の言語 |
| **高度なアーキテクチャ ** | ** 再ランキングモデルはクロスエンコーダー構成、埋め込みモデルはバイエンコーダー構成** |
| **オープンソース ** | Apache-2.0 |
| **指示認識 ** | ** 特定の指示を理解し従うための指示認識機能をサポート** |
Qwen 3モデルのパフォーマンス

埋め込みモデルの評価はこのリーダーボードで確認できます!
Qwen 3モデルにアクセスするには?
Novita AIは、開発者がシンプルなAPIを使用してAIモデルを簡単にデプロイできるAIクラウドプラットフォームであり、手頃で信頼性の高いGPUクラウドを提供してスケーリングを支援します。
Novita AIでは、Qwen 3 Reranker 8BやEmbedding 8Bに加えて、無料のbge-m3も提供し、オープンソースコミュニティの発展を支援しています!
ステップ1:ログインしてモデルライブラリにアクセス
アカウントにログインし、モデルライブラリ ボタンをクリックします。

ステップ2:モデルを選択して無料トライアルを開始
利用可能なオプションからニーズに合ったモデルを選択します。


ステップ3:APIキーを取得
APIで認証するために、新しいAPIキーを提供します。「設定」ページに移動し、画像のようにAPIキーをコピーします。

ステップ4:APIをインストール(例:Qwen 3 Rankerモデル)
使用するプログラミング言語に応じたパッケージマネージャーを使用してAPIをインストールします。

インストール後、必要なライブラリを開発環境にインポートします。APIキーを使用してクライアントを初期化し、Novita AIモデルとの対話を開始します。これはPythonユーザー向けのチャット補完APIの使用例です。
from openai import OpenAI
base_url = "https://api.novita.ai/v3/openai"
api_key = "<Your API Key>"
model = "qwen/qwen3-reranker-8b"
client = OpenAI(
base_url=base_url,
api_key=api_key,
)
stream = True # or False
max_tokens = 1000
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
extra_body={
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
AIアプリケーションがユーザーの意図をより正確に理解することを求められる中、再ランキングモデルは、よりスマートな検索結果を提供するための重要なツールとなっています。初期検索後の第二のインテリジェンス層として機能する再ランカーは、より深い文脈分析によって文書のランキングを微調整します。**Qwen 3 Rerankerシリーズ ** は、この分野で新たなベンチマークを打ち立て、多言語、長文書、さらにはコード検索タスクにわたって印象的なパフォーマンスを発揮します。Novita AI によりデプロイが簡素化されているため、開発者は大規模なインフラストラクチャを必要とせずにこれらの高度なモデルを活用でき、高精度な検索がこれまで以上に身近なものになっています。
よくある質問
再ランキングモデルとは何ですか?
再ランカーは、検索された文書のリストをクエリとの関連性でスコアリングして並べ替えることで、AI検索システムの精度を向上させます。
再ランカーは埋め込みモデルとどう違うのですか?
埋め込みモデル:各テキストをベクトルに変換し、類似度を使用して比較します。
再ランキングモデル:クエリと文書の両方を一緒に読み込み、関連性に対してスマートなスコアを出力します。
Qwen 3 Rerankerのパフォーマンスはどうですか?
Qwen3-Reranker-8B はトップクラスのスコアを達成しています:
MTEB-R: 69.02、
CMTEB-R: 77.45、
MTEB-Code: 81.22
複数のカテゴリでBGEやGTEなどの人気モデルを上回っています。
Novita AIは、AIの野心を実現するオールインワンのクラウドプラットフォームです。統合API、サーバーレス、GPUインスタンス — 必要なコスト効率の高いツールです。インフラストラクチャを排除し、無料で開始して、AIのビジョンを現実にしましょう。
