vLLM Llama3 を発見してください。効率化、コスト削減などを実現する究極のアシスタントです。ワークフローをどのように変革するかをご確認ください。
主なポイント
- vLLM Llama3 は、大規模言語モデルを使用する際に優れた精度を提供し、コストを節約します。
- そのアーキテクチャは最高のパフォーマンスを得ることに焦点を当てています。Docker コンテナ、API サーバー、GPU サーバーなどの主要コンポーネントが含まれています。
- テストでは、以前のバージョンと比較して推論速度とスループットの大幅な向上が示されています。
- LLama3 には、効率性の向上、ソフトウェアの改善、新しいテクノロジーの統合のためのアップデートが含まれています。
はじめに
仮想大規模言語モデル(LLM)の世界は常に変化しています。Llama 3 は、拡張性と効率性を示す優れたモデルです。速度の向上とセットアップの容易さに対するニーズがあります。vLLM Llama3 はこれらのニーズに対する強力な答えであり、優れた精度を提供し、コストも節約します。このブログ投稿では、vLLM Llama3 について詳しく見ていきます。その設計、パフォーマンスの向上方法、含まれる新機能について探ります。
vLLM Llama3 について
vLLM Llama3 の中心には、優れたパフォーマンスと成長を目指して注意深く構築された設計があります。分散システム設計を採用しており、多くのコンピューティングリソース、特に GPU を最大限に活用します。
また、vLLM Llama3 のセットアップは柔軟性と拡張の容易さに焦点を当てており、他のツールやシステムとのスムーズな統合を可能にします。これにより、開発者は自分の特定のニーズに合わせてデプロイメントを調整できます。
VLLM とは?
vLLM は、LLM の推論とサービングを容易にするために特別に設計された高性能ライブラリです。速度、効率性、費用対効果に重点を置いている点で際立っており、幅広い開発者がアクセスしやすいソリューションとなっています。

VLLM を使う理由
- 高スループット: vLLM は最先端のサービングスループットを達成し、大量のリクエストを処理できます。
- メモリ管理: PagedAttention を導入。アテンションキーとバリューメモリを効率的に管理する高度なメカニズムです。
- 継続的バッチ処理: vLLM は受信リクエストの継続的なバッチ処理をサポートし、モデルの全体的なスループットと効率を向上させます。
- シームレスな統合: vLLM は Llama 3 のような LLM をデプロイするプロセスを提供し、既存のシステムやアプリケーションへの簡単な統合を可能にします。
- API 互換性: OpenAI 互換のサーバーが含まれているため、OpenAI の API を利用する既存のシステムに簡単に統合できます。
- 量子化サポート: vLLM は GPTQ、AWQ、SqueezeLLM、FP8 KV Cache などの量子化技術を使用して、パフォーマンスを犠牲にすることなく低精度で効率的に動作できるようにします。
- 拡張性: vLLM はカスタマーサポートや要約など、さまざまなユースケースに合わせてデプロイメントを拡張でき、さまざまなデプロイメントサイズに効果的に適応します。
Llama 3 とは?
Meta によって開発された LLaMA 3 は、AI の人間のようなテキストの理解と生成能力を強化することを目的とした高度な言語モデルシリーズです。前バージョンの Llama 2 を基に、大規模なデータセットと高度なアーキテクチャを活用して、より高い精度とよりニュアンスのあるテキスト生成を実現します。Llama 3 は汎用性が高く、研究、コンテンツ作成など様々な分野のアプリケーションに役立つように設計されています。
Llama 3 にはいくつかのバージョンがあります: Llama 3 8B、Llama 3 8B-Instruct、Llama 3 70B、Llama 3 70B-Instruct。Llama 3 8B Instruct は Gemma 7b-it、Mistral 7B Instruct を上回り、Llama 3 70B Instruct は Gemini や Claude よりも優れたパフォーマンスを示します。

Llama 3 の主な特徴
- 精度の向上: Llama 3 は、特に 700 億パラメータバージョン(Llama 3 70B)において、以前のモデルよりも正確です。チャットのやり取り、コード生成、要約、検索拡張生成(RAG)で優れています。
- トレーニングデータの増加: Llama 3 は、多様なテキストソースと言語を含むトレーニングデータの増加の恩恵を受けています。
- 高度な技術: このモデルは、OpenAI の Tiktoken トークナイザーやデータ並列化などの技術を効率向上のために使用しています。
- リソース配分: Llama 3 は、パフォーマンス予測とリソース配分を改善するための新しいスケーリング則を利用し、計算効率を最大化し、実行時間を短縮します。
- 汎用性: Llama 3 の強化により、電子商取引、金融、ヘルスケア、教育など様々なアプリケーションに最適です。
- 拡張性とメンテナンス: Llama 3 は、自動エラー検出、処理、メンテナンスのための高度なトレーニングスタックを備え、使いやすさと拡張性を確保します。
Llama 3 モデルのパフォーマンスとコスト効率
技術的特徴とパフォーマンス
Llama 3 8B
- パラメータ: 80 億
- コンテキスト長: 8K トークン
- トレーニングデータ: 15T トークン
Llama 3 70B
- パラメータ: 700 億
- コンテキスト長: 8K トークン
- トレーニングデータ: 15T トークン
これらの 2 つのモデルは、最新の Llama 3.1 405B より前にリリースされました。
以下は、ベースの事前学習モデルのパフォーマンスグラフです。

以下は、人間の指示をよりよく理解し従うように微調整された命令調整済みモデルのパフォーマンスです。

Llama 3 のコスト効率
そのパフォーマンスを分析したところで、実際のコストを考慮する必要があります。llama 3 8b を例にとると、カスタマーサポートのデプロイコストは以下の通りです。

完璧な費用対効果の選択肢として、Novita AI は meta-llama/llama-3–8b-instruct と meta-llama/llama-3–70b-instruct を入力トークンと出力トークンに対して $1/M 以下で提供しています。その他のモデルは LLM モデル API でご覧いただけます。

また、最新バージョンの meta-llama/llama-3.1–405b-instruct も提供しています。最近、Llama 3.1 405B の価格を 100 万トークンあたり 2.75 ドル に値下げしました。

VLLM Llama 3 を始める
技術的前提条件
開始する前に、以下の要件を満たしていることを確認してください。
- 互換性のある GPU(NVIDIA A100 など。Novita AI が提供)を搭載したサーバー。
- 適切なディレクトリにシステムに Python をインストールする。
- スムーズなインターネットアクセスを確保する。
vLLM Llama 3 をデプロイする
1. vLLM のインストール: サーバーに vLLM 環境をセットアップします。pip を使用して vLLM をインストールできます。
pip install vllm
2. モデルのロード: Llama 3 8B モデルを vLLM にロードします。
from vllm import LLM
model = LLM("meta-llama/Meta-Llama-3–8B-Instruct")
3. LLM 推論の実行: モデルを推論に使用します。
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3–8B-Instruct")
messages = [{"role": "user", "content": "What is the capital of France?"}]
formatted_prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
output = model.generate(formatted_prompt)
print(output)
高度なヒント
- さまざまなニーズを満たすには、Llama3 のサービングをカスタマイズすることが不可欠です。フレームワークは、リソース割り当てやモデルパラメータなどの設定に柔軟性を提供します。
- API パラメータを調整することで、開発者は多様なユースケースに合わせてモデルの動作と出力をカスタマイズできます。
- 自動チューニングは機械学習において重要です。vLLM Llama3 はこのテクノロジーを活用して、AI および ML アルゴリズムを使用して設定を調整し、パフォーマンスを向上させます。このフィードバックループは、レイテンシやスループットなどの要素を継続的に調整し、手動介入なしで最適なユーザーパフォーマンスを実現します。
- 効率化のために Docker イメージを使用することもできます。量子化などの技術を使用してパフォーマンスを向上させます。
Llama 3 を活用するための開発者ガイド: LLM API
Llama 3 のデプロイは複雑です。Llama 3 を効果的に活用するために、開発者はその機能と API を理解できます。コスト効率の高い LLM API 統合には、Novita AI をお勧めします。この AI API プラットフォームは、特集モデルと手頃な価格の LLM ソリューションを備えています。
Novita AI API を始める
- ステップ 1: Novita AI にアクセスし、アカウントを作成します。Google または GitHub でログインできます。初回ログインで新しいアカウントが作成されます。メールアドレスを使用してサインアップしても問題ありません。

- ステップ 2: API キーを管理します。 Novita AI は、リクエストヘッダー内の API キーを使用した Bearer 認証により API アクセスを認証します。「キー管理」 に移動して、キーを管理します。初回ログイン時に、デフォルトのキーが自動的に作成されます。また、「+ 新しいキーを追加」 をクリックすることもできます。

- ステップ 3: API 呼び出しを行います。 バックエンドに API キーを入力して、以下のタスクを続行します。
以下は、Novita AI Chat Completions API を使用した Python クライアントの例です。
pip install 'openai>=1.0.0'
from openai import OpenAIclient = OpenAI(
base_url="https://api.novita.ai/v3/openai",
# Get the Novita AI API Key by referring: https://novita.ai/docs/get-started/quickstart.html#_2-manage-api-key.
api_key="<YOUR Novita AI API Key>",
)model = "Nous-Hermes-2-Mixtral-8x7B-DPO"
stream = True # or False
max_tokens = 512chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": "Act like you are a helpful assistant.",
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
)if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
詳細については、モデル API リファレンス をご覧ください。

- ステップ 4. クレジットをチャージします。 最初のステップで述べたように、製品を試すためのクレジット付きバウチャーがありますが、制限があります。クレジットを追加するには、「請求と支払い」 にアクセスし、** 支払い方法** のガイドに従ってください。
結論
要約すると、vLLM Llama3 は作業を容易にし、コストを削減する優れたソリューションです。その仕組みを理解し、パフォーマンスを最適化し、セットアップ要件の変更に対応することで、開発者はその可能性を最大限に引き出すことができます。Llama3 モデルは進化を続けており、品質への強いコミットメントを示しています。将来を見据えた計画と高度なチューニング手法により、vLLM Llama3 は AI および ML テクノロジーの革新の道をリードしています。モデルサービングの未来を形作る新機能と長期的な計画にご注目ください。
よくある質問
vLLM と TGI の違いは何ですか?
VLLM は、PagedAttention メモリ割り当てアルゴリズムを使用するオープンソースの LLM 推論およびサービングエンジンです。Hugging Face Transformers と比較して最大 24 倍、Hugging Face Text Generation Inference と比較して最大 3.5 倍高いスループットを提供します。
vLLM のバッチ処理はどのように機能しますか?
vLLM のドキュメントによると、継続的バッチ処理を採用しており、トークンが生成されるにつれてバッチサイズが動的に調整されます。
Llama 3 は無料ですか?
Llama 3 はオープンソースで無料で利用できます。ただし、API として使用する場合、入力トークンと出力トークンに対して約 $0.1/M の費用がかかる場合があります。
Llama 3 をビジネスに使用できますか?
最新バージョンの Llama 3 は「Meta LLama 3 Community License Agreement」の対象であり、ほぼすべての商用目的での使用が許可されています。企業は Llama3 を利用して教育コンテンツの生成、医療情報の提供などを行っています。
Novita AI は、AI の野望を実現するオールインワンのクラウドプラットフォームです。統合 API、サーバーレス、GPU インスタンス — 必要なコスト効率の高いツール。インフラストラクチャを排除し、無料で始めて、AI のビジョンを現実にしましょう。
おすすめの記事
1*.*Llama3 405B の紹介: 公開利用可能な LLM リリース
