主なハイライト
- Llama 3 モデルの概要: Meta の Llama 3 ファミリーは、高度な大規模言語モデル (LLM) を 8B および 70B サイズで提供し、対話タスクとテキスト生成に最適化されています。
- パフォーマンス評価: Llama 3 は主要ベンチマークにおいて、Mistral 7B や Gemini 1.5 などのオープンソースモデルを上回り、推論能力とコンテキスト処理能力の向上を示しています。
- API の有用性: API は、開発者が高度な LLM をアプリケーションに効率的に統合し、容易なスケーラビリティとレスポンスのカスタマイズを可能にするための重要な接続手段です。
- 注目の API プロバイダー: Lepton、Fireworks、Novita AI、Together AI などの主要プロバイダーは、さまざまなアプリケーション向けに堅牢でコスト効率の高い AI ソリューションを提供しています。
- ユーザーフレンドリーなプロセス: Novita AI は、実験用のプレイグラウンドや合理化されたキー管理システムなど、Llama 3 API をデプロイするためのツールとリソースを開発者に提供します。
はじめに
Meta の Llama 3 のような大規模言語モデル (LLM) は、自然言語処理に革命をもたらし、高度なインタラクションとより深いソフトウェア理解を可能にしました。Llama 3 は対話タスクと複雑な言語課題の処理に優れています。この記事では、Llama 3 の特徴、API による統合、および Novita AI のような API プロバイダーがこれらのモデルをシームレスに展開する上で果たす役割について詳しく説明します。
Llama 3 モデルとは?
Meta は Llama 3 ファミリーの大規模言語モデル (LLM) を開発し、8B および 70B サイズの事前学習済みおよび指示チューニング済み生成テキストモデルを提供しています。これらの指示チューニング済みモデルは対話タスクに最適化されており、主要な業界ベンチマークにおいて多くのオープンソースチャットモデルを上回ります。さらに、Meta は開発プロセスにおいて、有用性と安全性の両方の最適化を優先しました。
Llama 3 の評価
以下に、モデルとその Open LLM Leaderboard スコアのリストを示します。このリストは網羅的なものではないため、完全なリーダーボードを参照することをお勧めします。LLM Leaderboard は主に事前学習済みモデルの評価に有用であり、他のベンチマークは対話モデルに焦点を当てていることに注意してください。

Llama 3 の使用方法
このリポジトリには、Meta-Llama-3–8B の 2 つのバージョンが含まれています。1 つは transformers での使用向け、もう 1 つは元の Llama 3 コードベースと互換性があります。
transformers での使用
Transformers での使用例については、以下のスニペットを参照してください:
import transformers
import torch
model_id = "meta-llama/Meta-Llama-3-8B"
pipeline = transformers.pipeline(
pipeline("Hey how are you doing today?")
llama 3 での使用
リポジトリ の手順に従ってください。
元のチェックポイントをダウンロードするには、huggingface-cli を使用した以下のコマンド例を参照してください:
huggingface-cli download meta-llama/Meta-Llama-3-8B --include “original/*” --local-dir Meta-Llama-3-8B
Hugging Face サポートの場合、Meta-Llama 開発者は Transformers または TGI の使用を推奨していますが、同様のコマンドでも動作します。
Meta の Llama 3 は Llama 2 の 2 倍のサイズ
Llama 3 は改善された推論能力を備え、最大 8,000 トークンのコンテキストウィンドウをサポートするため、ソフトウェア開発における複雑な自然言語処理タスクでの効果が向上しています。Meta の Llama 3 は、15 兆トークンを超える広範なデータセットでトレーニングされました。
Mistral 7B および Gemma 7B との比較
Meta の Llama 3 8B モデルは、MMLU、ARC、DROP などのさまざまなベンチマークにおいて、Mistral 7B や Gemma 7B などの他のオープンソースモデルを上回るとされています。
Gemini 1.5 との比較
Meta の Llama 3 70B は、MMLU、HumanEval、GSM-8K を含む複数のベンチマークにおいて、Gemini 1.5 Pro よりも優れたパフォーマンスを示しています。
GPT-3.5 との比較
Meta の Llama 3 70B は、コーディング、ライティング、推論、要約のスキルを評価するために特別に設計されたカスタムテストセットにおいて、GPT-3.5 に対して印象的なパフォーマンスを実証しています。
API とは?
API (アプリケーション プログラミング インターフェース) は、異なるソフトウェアアプリケーションが通信しデータを共有できるようにするデジタルコネクターです。これらは仲介役として機能し、さまざまなプログラムやシステム間のシームレスな相互作用を可能にします。
API は私たちの日常生活の至る所に存在しています — ライドシェアアプリの使用、モバイル決済、スマートホームデバイスのリモート制御などです。これらのアプリケーションを利用する際、API はサーバーとの情報交換、リクエストの処理、結果をユーザーフレンドリーな形式でデバイスに表示するために使用されています。

LLM API が必要な理由
API は開発者に標準化されたインターフェースを提供し、大規模言語モデルをアプリケーションに統合できるようにします。この標準化により、開発プロセスが効率化されるだけでなく、最新のモデル改善へのアクセスも保証されます。また、タスクの効率的なスケーリングや、さまざまなアプリケーションに適した LLM の選択も可能になります。さらに、API の柔軟性により、特定の要件に合わせて LLM の応答をカスタマイズでき、さまざまなシナリオでの適応性と関連性が向上します。
2024 年の開発者向け主要 LLM API プロバイダー
API プロバイダーは、機械学習モデルの効率的なデプロイを促進するコスト効率の高いクラウドプラットフォームです。これらは、使いやすい API、堅牢なスケーラビリティ、競争力のある価格設定を通じて、インフラストラクチャなしで高度な AI へのアクセスを提供し、あらゆる規模の企業が AI を利用できるようにしています。このセクションでは、業界をリードする API プロバイダーをいくつか紹介します。
例として Llama 3 70B モデルを取り上げ、それぞれ異なるパフォーマンス指標とコスト効率を持ついくつかの API プロバイダーを示します。各オプションの詳細な説明を提供し、開発者が情報に基づいた選択を行えるようにします。

Lepton
Lepton は API プロバイダーであり、最大 8,192 トークンの出力をサポートしています。入力および出力のコストはともに $0.80、レイテンシは 0.15 秒、スループットは 26.02 t/s です。
- 利点: Lepton は非常に低いレイテンシを誇り、応答時間が重要なアプリケーションに最適です。
- 欠点: ただし、スループットは比較的低く、大量のデータ処理が必要なアプリケーションには適さない可能性があります。
Fireworks
Fireworks は別の API プロバイダーであり、最大 8,192 トークンの出力を持つリクエストを処理できます。入力および出力のコストはともに $0.90、レイテンシは 0.24 秒、スループットは 142.6 t/s です。
- 利点: Fireworks は非常に高いスループットを提供し、コストをあまり気にせず大量のデータを処理する必要があるユーザーに最適です。
- 欠点: レイテンシは比較的高く、コストは 4 つの API プロバイダーの中で最も高いため、予算が限られているユーザーには適さない可能性があります。
Novita AI
Novita AI は、統合 API、サーバーレスコンピューティング、GPU インスタンスを備えたクラウドプラットフォームであり、AI への野心をサポートします。成功のための手頃なツールを提供し、ユーザーがコストをかけずにプロジェクトを開始し、AI の夢を効率的に実現できるようにします。
Novita AI は API プロバイダーであり、大量のリクエストを処理するためのコスト効率の高いソリューションを提供するため、予算が限られていて大量のデータ処理が必要なユーザーに適しています。
- 利点: Novita AI は多数のリクエストを管理する際のコストが低く、広範なデータ処理が必要で予算を重視するユーザーに最適です。
- 欠点: 他のプロバイダーと比較して、Novita AI のレイテンシは 1.10 秒であり、迅速な応答時間が必要なアプリケーションには課題となる可能性があります。
Together AI
Together AI は別の API プロバイダーであり、最大 8,192 トークンの出力を持つリクエストを処理できます。入力および出力のコストはともに $0.792、レイテンシは 0.36 秒、スループットは 47.16 t/s です。
- 利点: Together は低いレイテンシと高いスループットを提供し、高速なリクエスト処理が必要なアプリケーションに適しています。
- 欠点: コストは Novita AI よりもわずかに高く、非常に厳しい予算のユーザーにとっては考慮事項となる可能性があります。
API プロバイダーを選択する際は、コスト、レイテンシ、スループットを考慮してください。Novita AI は、大量のデータニーズがある予算重視のプロジェクトに最適です。Lepton は低レイテンシアプリケーションに優れ、Fireworks は高いコストとレイテンシで大量のデータを処理します。全体として、Novita AI は手頃な価格での大規模データ処理に優れています。
LLM API についてさらに詳しく説明すると、Llama 3 API は、標準化された API を介して開発者に高度な言語処理機能へのアクセスを提供します。これにより、言語機能をさまざまなアプリケーションにシームレスに統合し、対話型および分析機能を強化できます。Novita AI の LLM API プラットフォームで Llama 3 API を使用する方法を学びましょう。
Novita AI の LLM API で Meta の Llama 3 を実行する
以下の構造化された手順に従って、Novita AI 上の Llama 3 API を使用して強力な言語処理アプリケーションを構築してください。この詳細なガイドは、高度な AI プラットフォームを求める現代の開発者の期待に応え、スムーズで効率的なプロセスを保証します。
ステップ 1: Novita AI にアクセスし、ログインします。
Google アカウントまたは GitHub アカウントを使用してログインできます。初回ログイン時に新しいアカウントが作成されます。
または、メールアドレスでサインアップすることもできます。

ステップ 2: API キーを管理します。
Novita AI は認証に Bearer 認証を使用し、リクエストヘッダーに API キーが必要です (例: “Authorization: Bearer {API Key}”)。
キーを管理するには、設定の “Key Management” に移動します。
初回ログイン時にデフォルトのキーが自動的に作成され、「+ Add New Key」をクリックして追加のキーを生成できます。


ステップ 3: モデルを選択します
Novita AI は、Llama の複数のバージョンを含むさまざまなモデルを提供しています。チャット補完、テキスト生成、その他のタスクなど、アプリケーションのニーズに最適なモデルを選択してください。

こちら が Llama 3 に対して提供しているものです:
- meta-llama/llama-3.1–8b-instruct
- meta-llama/llama-3.1–70b-instruct
- meta-llama/llama-3.1–405b-instruct
- meta-llama/llama-3–8b-instruct
- meta-llama/llama-3–70b-instruct
利用可能なモデルの全リストを確認するには、Novita AI LLM Models List にアクセスしてください。
ステップ 4: LLM API リファレンス を参照して、Novita AI が提供する利用可能な API とモデルを確認してください。

ステップ 5: ニーズに最適なモデルを選択し、開発環境をセットアップします。content、role、name、prompt などのオプションを設定してアプリケーションをカスタマイズします。

ステップ 6: 複数のテストを実行して、API が一貫してパフォーマンスを発揮し、アプリケーションの要件を満たしていることを確認します。
Novita AI の LLM API で Llama 3 API をデプロイする前に、まず LLM Playground で試すことができます。当社は開発者にプラットフォームを試すための無料使用クレジットを提供しています。ご提案があれば、Discord でお気軽に共有してください。それでは、開始手順を説明します:
ステップ 1: Playground にアクセスするには、Products タブに移動し、Model API を選択して、LLM API の探索を開始します。

ステップ 2: 評価のニーズに最適な Llama モデルを選択します。

ステップ 3: 入力フィールドにプロンプトを入力して、選択したモデルから応答を生成します。
Python クライアントを使用した例
pip install 'openai>=1.0.0'
チャット補完 API:
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
# Get the Novita AI API Key by referring to: https://novita.ai/docs/get-started/quickstart.html#_2-manage-api-key.
api_key="<YOUR Novita AI API Key>",
)
model = "Nous-Hermes-2-Mixtral-8x7B-DPO"
stream = True # or False
max_tokens = 512
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": "Act like you are a helpful assistant.",
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
補完 API:
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
# Get the Novita AI API Key by referring to: https://docs/get-started/quickstart.html#_2-manage-api-key
api_key="<YOUR Novita AI API Key>",
)
model = "Nous-Hermes-2-Mixtral-8x7B-DPO"
stream = True # or False
max_tokens = 512
completion_res = client.completions.create(
model=model,
prompt="A chat between a curious user and an artificial intelligence assistant.\
You are a cooking assistant.\
Be edgy in your cooking ideas.\
USER: How do I make pasta?\
ASSISTANT: First, boil water. Then, add pasta to the boiling water. Cook for 8-10 minutes or until al dente. Drain and serve!\
USER: How do I make it better?\
ASSISTANT:",
stream=stream,
max_tokens=max_tokens,
)
if stream:
for chunk in completion_res:
print(chunk.choices[0].text or "", end="")
else:
print(completion_res.choices[0].text)
Llama 3 API の価格
Novita AI を使用すると、大規模言語モデル、画像、音声、動画モデルなど、業界をリードするオープンソースモデルに簡単にアクセスして利用できます。固定費や隠れた料金はなく、使用した分だけお支払いいただきます。ニーズに最適な Novita AI の料金プラン を選択してください。

結論
Meta の Llama 3 モデルは、大規模言語モデルにおける重要な進歩を示し、対話能力と推論能力を向上させています。API を介して統合することで、このモデルはさまざまなアプリケーションでユーザーエクスペリエンスを向上させます。Novita AI は主要な API プロバイダーとして際立っており、Llama 3 API と効果的な AI 開発のための必須ツールを提供しています。Novita AI のようなプラットフォームは、高度な AI ソリューションへの需要の高まりに応え、開発者がこの分野で革新を起こす力を与える上で重要です。
よくある質問
Llama 3 はどのようにアプリケーションパフォーマンスを向上させますか?
Llama 3 は、効率的なアルゴリズムとリソース使用によりアプリのパフォーマンスを向上させ、ユーザーエクスペリエンスと運用効率を向上させるためのより高速な計算を保証します。
Llama 3 API はあらゆるアプリケーションと統合できますか?
Llama 3 API は、LLM API の特別バージョンであり、開発者に高度な言語処理を提供します。最適な統合にはカスタマイズが必要になる場合があります。
Llama 3 を無料で利用するにはどうすればよいですか?
ローカルセットアップを希望する場合、Ollama などのツールを使用すると、ローカルマシンに Llama 3 モデルを展開し、個人プロジェクトで無料で使用できます。
Llama 3.1 と 3 の違いは何ですか?
Llama 3.1 は、数学と推論能力において Llama 3 を上回っています。たとえば、Meta のテクニカルブログでは、Llama-3.1 (8B) が MATH (0-shot, CoT) で 73.0 をスコアし、Llama-3 の MATH (5-shot) スコア 68.4 を上回っています。
Originally published at Novita AI
Novita AI は、AI への野心を強化するオールインワンのクラウドプラットフォームです。統合 API、サーバーレス、GPU インスタンス — コスト効率の高いツールが必要なすべてを提供します。インフラストラクチャを排除し、無料で始めて、AI のビジョンを現実にしましょう。
おすすめの記事
