主なポイント
- Mixtralの紹介: Mixtralは現在最も人気のある無料オープンソース大規模言語モデルです。
- RTX4080でLLMを実行する際の問題: ビデオメモリ不足、TTFTの遅さ、高コスト。
- これらの問題を解決する方法: Mixtralのパフォーマンスを向上させる、複数のグラフィックカードを使用する、拡張メモリを使用する。
- GPUインスタンスを使用する利点: 高い拡張性、低コスト、従量課金制、低いメンテナンスコスト。
- 関連チュートリアル: Mixtralをローカルで実行するチュートリアルとGPUインスタンスを使用するチュートリアル。
はじめに
このブログでは、ラップトップなどのコンシューマーハードウェアであるRTX 4080 GPU上でMixtral製品ファミリーをより良く実行する方法を探ります。メモリ管理とGPUの設定について説明し、リソースを効率的に使用する方法、特に最適なパフォーマンスを得るために16 GBのVRAMを搭載したGPUを少なくとも2台使用する方法を紹介します。また、ローカルコンピュータでLLMモデルを実行する場合とGPUインスタンスを使用する場合を比較します。GPUインスタンスは、VRAMを高速バッファとして活用し、効率的なロードを実現してパフォーマンスの問題を防ぐことで、より良いパフォーマンスを提供する可能性があります。
Mixtralオープンソースモデルのパワーを引き出す
Mixtralの可能性を最大限に引き出す前に、まずMixtralとは何かを知る必要があります。また、Mixtralの異なるバージョンを理解することで、ユーザーはLLMのバージョンに応じて適切なハードウェアデバイスを選択するのに役立ちます。
Mixtralモデルとは?
Mixtralは、Mistral.aiによって作成された無料のオープンソース大規模言語モデルです。2023年のImsysリストでは、Mixtral 8x7b はユーザーによる評価が最も高いLLMオープンソースモデルの1つになりました。

LLMランキング
これはExpert Sparse Blending(MoE)と呼ばれる手法を使用しており、スパース混合エキスパートとしても知られています。これは通常のLLMとは異なり、Mixtralのすべての部分が同時に使用されるわけではありません。代わりに、タスクに応じて少数の「エキスパート」セクションのみがアクティブ化されます。
Mistralにはいくつのバージョンがありますか?
2024年までに、Mistral.aiは以下の4つの無料オープンソースLLMモデルをリリースしました。
- Mistral 7B
- Mixtral 8x7B
- Mixtral 8x22B
Mixtralシリーズ製品の開発に伴い、このシリーズの製品の推論能力、多言語能力、数学的コーディング能力は大幅に向上しました。
ただし、これらの改善にはユーザーがより多くのメモリを使用し、より良いパフォーマンスを発揮する必要があります。たとえば、PC上でMixtral 8x22bを実行するためのハードウェア要件は、このLLMモデルがスムーズに動作するために約300GBのメモリを搭載したGPUが必要です。
4080でMixtralを実行する
現在、一部のユーザーはRTX4080を使用してMixtralを実行することを選択しています。たとえば、Slaghtonは2台のRTX4080でMixtral 8x7bの実行に成功しました。ただし、ローカルGPUのメモリ制限により、このLLMは最小限の生産性でしか実行できません。この場合、LLMは1秒間に約7~8トークンしか生成できません。
ローカルGPUを使用してMixtral 8x7bを実行する方法
ビデオチュートリアル: ラップトップ上のWindowsにMixtral 8x7Bをローカルインストールする
ステップ1: 実行するのに十分な大きさのコンピュータスペースが必要なので、まずコンピュータをクリーンアップしてください。
ステップ2: TensorFlow、PyTorchなど、必要なPythonライブラリとツールをインストールします。これらのライブラリとツールは、pipまたはcondaを使用してインストールできます。
ステップ3: 公式チャンネル からMixtral 8x7Bモデルファイルをダウンロードします。モデルファイルは通常、モデルの重みと設定ファイルを含む圧縮パッケージとして提供されます。
ステップ4: ダウンロードしたモデルファイルを指定されたディレクトリに解凍します。
ステップ5: モデルの設定ファイルに従って、モデルパス、デバイスタイプ(CPU/GPU)などの必要な環境変数を設定します。
ローカルRTX4080でMixtralを実行するとどうなりますか?
コンシューマーグレードのグラフィックカードでLLMを実行しようとする人は、以下の問題に直面する可能性があります。
- ビデオメモリ不足: RXT4080の最大ビデオメモリは16GBですが、Mixtralをスムーズに実行するには約200〜300GBが必要になる場合があります。
- TTFTの遅さ: 4060、4080、4090を使用してMistral 7bとMixtral 8x7bを実行したいくつかのRedditコンテンツ投稿者の経験に基づくと、コンシューマーグラフィックカードを使用したLLMモデルTTFTの速度は、1t/s〜8T/sにしか達しませんでした。
- 高コスト: これらのコンテンツ投稿者は、Mixtralを実行するために複数のグラフィックカードや外部メモリを使用することがよくあります。Amazonのウェブサイトに掲載されている価格によると、RTX4080グラフィックカードの価格は999ドルです。
4080でMixtralを実行するパフォーマンスを向上させる方法
- RTX 4080の16GB GPUメモリで最高のパフォーマンスを得るには、LLMの設定を微調整することが非常に重要です。重要な設定の1つは「バッチサイズ」です。この設定は、同時に処理される入力サンプルの数を定義します。バッチサイズを小さくすると、VRAMの使用量を削減できます。
- 拡張メモリを使用して4080グラフィックカードのメモリを拡張することも良いアイデアです。
- 複数のグラフィックカードを使用します。
Mixtral実行の将来トレンド
LLMの発展に伴い、LLMの実行に必要な計算能力とビデオメモリは増加しています。個人がコンシューマーグレードのグラフィックカードを使用してLLMを実行できる機会はますます少なくなっています。LLMを実行する新しい方法が、LLMの個人や企業の間で人気を集めています。それはGPUインスタンスを使用して実行することです。
GPUインスタンスとは?
GPUインスタンスは、クラウドコンピューティング環境で提供される仮想マシンまたはコンピューティングリソースであり、グラフィックスプロセッシングユニット(GPU)を搭載しています。
アプリケーションシナリオ:
- ディープラーニング: ニューラルネットワークモデルのトレーニングには多くの行列演算が必要であり、GPUの並列処理能力によりトレーニングを大幅に高速化できます。
- グラフィックスレンダリング: ゲーム開発、映画・テレビ制作などの分野で使用され、高品質のグラフィックス出力を提供します。
- 科学計算: 物理学、化学、生物学の分野での複雑なシミュレーションと計算。
GPUインスタンス vs ローカルGPU
- GPUインスタンスを使用する方が安価: RTX 4090を使用するGPUインスタンスの価格は1 $/h未満です。しかし、Amazonによると、ローカルのRTX4090は約1,660ドルかかります。

GPUインスタンスのコスト
-
高い拡張性: GPUインスタンスのユーザーは、マウスクリックで需要に応じてGPUインスタンスの数とパフォーマンスを動的に調整できます。
-
従量課金制: ユーザーは使用量に応じて支払い、ハードウェアへの先行投資は不要です。
-
低いメンテナンスコスト: 仮想GPUリソースを使用する場合、プログラムが実行されない原因となるハードウェアの損傷を心配する必要はありません。
GPUクラウドの使用方法
ステップ1: Novita.ai ウェブサイトにアクセスし、「Produce — GPU Instance」をクリックします。

Novita.ai ウェブサイトページ
ステップ2: 「Start Building Now」をクリックします。

Novita.ai ウェブサイトページ
ステップ3: 必要なグラフィックカードのタイプと必要なメモリ容量を選択し、「Deploy」 をクリックします。

Novita.ai ウェブサイトページ
GPUインスタンスの作成方法の詳細については、Novita AI GPUインスタンスでLlama 3を使用する方法 を参照してください。
よくある質問
MixtralにはどれくらいのRAMが必要ですか?
Mixtralは通常、正常に動作するために少なくとも8GBのRAMが必要です。タスクがより複雑な場合、より多くのRAMがあると役立ちます。Mixtralがスムーズに実行され、タスクを効率的に処理するには、十分なRAMを用意することが重要です。
Mixtral 8x22BにはどのGPUが必要ですか?
Mixtral 8x22Bを効果的に使用するには、強力なGPUが必要です。少なくとも48GBのVRAMを搭載することをお勧めします。NVIDIA A100は、Mixtralから最高のパフォーマンスを得るための良い選択肢です。
Mistral 7Bのトークン生成速度はどのくらいですか?
Mistral 7Bは優れたトークン生成速度を示します。これらの速度は、ハードウェアとセットアップによって変化する可能性があります。ハイエンドのコンシューマーGPU(RTX 4080など)では、通常、1秒あたり10〜20トークンを生成します。
Novita AI は、AIの野心を強化するオールインワンのクラウドプラットフォームです。統合API、サーバーレス、GPUインスタンス — コスト効率の高いツール。インフラストラクチャを排除し、無料で開始し、AIのビジョンを実現します。
おすすめの記事
