高度なAIのためのHermes 13B習得

主なハイライト

技術的な進歩: Nous Research が Teknium と Emozilla と協力して開発した Hermes 13B は、8x a100 80GB DGX マシン上で微調整されたモデルであり、4096 シーケンス長で複雑なタスクをサポートします。
データセットとトレーニング: 300,000 以上の合成 GPT-4 出力でトレーニングされ、GPTeacher やロールプレイデータセットなどのソースから厳選された Hermes 13B は、信頼性とパフォーマンスに優れています。
ベンチマークパフォーマンス: GPT-4 モデルの中で ARC-c、ARC-e、Hellaswag、OpenBookQA で第 1 位、Winogrande で第 2 位を獲得し、優れたベンチマーク性能を示しています。
主な機能: 拡張応答生成、幻覚の最小化、制限のない議論機能を提供し、信頼性と汎用性を確保します。
実用的なアプリケーション: AI チュータリング、技術文書の自動化、脚本作成、カスタマイズ可能なチャットボット、学術研究、コンテンツ生成、インタラクティブストーリーテリングをサポートします。
**API 統合 **: Novita AI と簡単に統合でき、Hermes 13B の機能にシームレスにアクセスできるため、開発とデプロイが簡素化されます。
最適化とアップデート: データセットの品質、シーケンス長、モデルパラメータを最適化してパフォーマンスを最大化するためのヒントと、最新の進歩に追従する重要性を強調します。

はじめに

Nous Research の最新の驚異である Hermes 13B の能力に興味はありますか？前任モデルとどのように比較されるのでしょうか？Hermes 13B の技術仕様、トレーニングデータの洞察、実用的なアプリケーション、API のセットアップについて詳しく見ていきましょう。これらの疑問やさらなる情報を明らかにしていきます。

Hermes 13B の理解

概要

Hermes 13B、別名 Nous-Hermes-Llama2–13b は、Nous Research が開発した高度な言語モデルであり、Teknium と Emozilla が微調整とデータセットキュレーションに大きく貢献しています。このモデルは、30 万以上の命令からなる大規模なデータセットで微調整され、Llama-1 上の Hermes よりも能力を向上させることを目指しています。

技術仕様

微調整プロセスでは 4096 シーケンス長が使用され、モデルが複雑で長い入力を処理できる能力を示しています。トレーニングは 8x a100 80GB DGX マシンで実行され、その開発に投入された相当な計算リソースが示されています。

トレーニングデータ

モデルは主に合成 GPT-4 出力でトレーニングされ、高品質な知識保持とタスク完了を保証しています。データセットは、GPTeacher、ロールプレイデータセット、コード指示データセット、未公開の Nous Instruct や PDACTL などのさまざまなソースから厳選されたコレクションです。

コラボレーションと謝辞

モデルの開発は、複数の主要な貢献者と組織（Teknium、Karan4D、Nous Research、Huemin Art、Redmond AI）の協力によるものであり、計算リソースを提供してくれた Redmond AI に特に感謝します。

プロンプトとインタラクション

モデルは Alpaca プロンプト形式に従い、ユーザーは構造化された指示と応答セクションを通じてモデルと対話できます。

パフォーマンスベンチマーク

モデルは、AGI-Eval、GPT-4All ベンチマークセット、BigBench Reasoning Test などのさまざまなベンチマークで評価されています。Hermes 13B は現在、GPT4all のベンチマーク一覧と比較して、ARC-c、ARC-e、Hellaswag、OpenBookQA で第 1 位、Winogrande で第 2 位にランクされています。

主な機能と能力

拡張された長文応答生成

モデルは、長く詳細な応答を生成するように微調整されています。この機能は、執筆、要約、詳細な説明など、包括的な回答を必要とするタスクに特に役立ちます。

幻覚率の低減

言語モデルにおける「幻覚」とは、もっともらしいが事実として誤った情報を生成することを指します。Hermes-Llama2–13b モデルはこれを最小限に抑えるように微調整されており、応答の信頼性と正確性が向上しています。

検閲メカニズムの不在

一部のモデルがコンテンツ検閲を組み込んでいるのとは異なり、Hermes-Llama2–13b には議論可能なトピックに対する組み込みの制限がありません。これにより、よりオープンな対話が可能になり、モデルが特定の主題を避ける可能性が低減します。

高品質なデータセットの活用

モデルは、高品質な合成 GPT-4 出力から派生した厳選されたデータセットでトレーニングされており、知識とタスク実行における強固な基盤が確保されています。データセットの多様性は、さまざまな領域にわたるモデルの汎用性と有効性に貢献しています。

Hermes 13B の実用的なアプリケーション

AI チュータリングシステムの開発

Hermes 13B を活用して動的でインタラクティブなレッスンプランを生成し、個々の学習者のニーズに合わせた詳細な説明を提供する、パーソナライズされた e ラーニングプラットフォームを開発します。

技術文書の自動化

Hermes 13B の複雑な技術概念の理解を利用して、API ドキュメント、システムアーキテクチャ図、ユーザーガイドなどの技術文書の生成を自動化するツールを作成します。

クリエイティブ産業向け脚本作成 API

脚本家向けに Hermes 13B を使用して、さまざまなメディア形式の対話、プロット要約、キャラクター説明を生成する API サービスを構築し、クリエイティブなワークフローを強化します。

カスタマイズ可能なチャットボットフレームワーク

Hermes 13B の会話型 AI 機能を使用して、ドメイン固有のインタラクションを可能にするカスタマイズ可能なカスタマーサービスチャットボットを構築するためのフレームワークを設計します。

学術ライティングと研究アシスタント

Hermes 13B を使用して学術論文を起草し、文献レビューを生成し、既存の学術研究に基づいて研究方向を提案する研究者向けの AI アシスタントを実装します。

知識統合エンジン

Hermes 13B の多様なトピックを理解し統合する能力を利用して、さまざまな領域からの情報を統合し、包括的なレポートを作成したり、学際的な洞察を提供するシステムを開発します。

デジタルマーケティングコンテンツジェネレーター

Hermes 13B を活用して、ブランドガイドラインに沿った魅力的なマーケティング資料、ソーシャルメディア投稿、広告コピーを生成するマーケター向けのコンテンツ生成ツールを作成します。

インタラクティブストーリーテリングプラットフォーム

ゲームやその他のメディア向けのインタラクティブストーリーテリングプラットフォームを開発し、Hermes 13B がユーザーの選択に基づいて分岐する物語やキャラクターのインタラクションを作り出せるようにします。

Hermes 13B LLM API のセットアップ

ステップ 1: アカウントを登録する

Novita AI のウェブサイトにアクセスし、トップメニューの「Log In」ボタンをクリックします。現在、Google アカウントまたは GitHub アカウントを使用してサインインできます。ログインすると、無料で $0.5 のクレジットが付与されます。

ステップ 2: API キーを生成する

API で認証するには、リクエストヘッダーに Bearer Token を含めます（例：-H “Authorization: Bearer ***”）。新しい API キーを提供します。

「Add new key」を選択して独自のキーを作成することもできます。

ステップ 3: API 呼び出しを実行する

わずか数行のコードで API 呼び出しを行い、Hermes 13B や他の高度なモデルの機能を利用できます。

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    # Get the Novita AI API Key by referring: https://novita.ai/get-started/Quick_Start.html#_3-create-an-api-key
    api_key="<YOUR Novita AI API Key>",
)
model = "nousresearch/nous-hermes-llama2-13b"
completion_res = client.completions.create(
    model=model,
    prompt="A chat between a curious user and an artificial intelligence assistant".
    stream = True, # or False
    max_tokens = 512,
)

Hermes 13B に類似したモデル

Novita AI 上の Mythomax-l2–13b

Mythomax-l2–13b の概念は、各層が複数のテンソルで構成され、それぞれが特定の機能を担当するというものです。MythoLogic-L2 の強力な理解能力を入力として、Huginn の広範なライティングスキルを出力として活用することで、結果として得られるモデルは両方の領域で優れています。

Novita AI 上の Hermes-2-pro-llama-3–8b

Hermes 2 Pro は、Nous Hermes 2 の改良および再トレーニングされたバージョンです。更新および洗練された OpenHermes 2.5 データセットと、内部で新たに作成された Function Calling および JSON Mode データセットを特長としています。

Novita AI 上の Openhermes-2.5-mistral-7b

OpenHermes 2.5 Mistral 7B は、最先端の Mistral Fine-tune であり、追加のコードデータセットでトレーニングされた OpenHermes 2 モデルの継続です。

モデルパフォーマンスの最大化

Hermes 13B を最大限に活用するには、適切に調整する方法を知ることが非常に重要です。以下に役立つヒントをいくつか紹介します。

高品質で多様なデータセットの確保

データセットには、微調整のために多様で最高品質のものを使用してください。さまざまな分野からの指示を含めることで、モデルの理解力と応答生成能力が向上します。

シーケンス長の最適化

シーケンス長については、最良の結果を得るために 2000 以下を試してみてください。ただし、異なる長さを試すことも恐れずに行ってください。これにより、パフォーマンスと応答時間の最適なバランスを見つけることができます。

モデルパラメータの微調整

モデルパラメータは、特定のニーズに基づいて調整してください。温度や繰り返しペナルティなどの設定を調整して、創造性のレベルと応答の一貫性を微調整します。

結論

結論として、Nous Research が他の組織と協力して開発した Hermes 13B は、AI 言語モデルにおける重要な飛躍を示しています。

長い入力を処理する能力や、その微調整の背後にある膨大な計算リソースなど、その堅牢な技術仕様について探求しました。モデルは厳選された合成 GPT-4 出力データセットでトレーニングされており、多くのベンチマークでトップランキングを獲得していることからもわかるように、さまざまな領域で高品質なパフォーマンスを保証しています。さらに、その応用範囲は AI チュータリングシステムからデジタルマーケティングコンテンツ生成にまで及び、その汎用性と実世界での有用性を示しています。

Hermes 13B を自身のプロジェクトに活用する際は、データセットの品質、シーケンス長、モデルパラメータを最適化してその可能性を最大化することの重要性を忘れないでください。最新の進歩に常に追従し、パフォーマンスを継続的に向上させてください。

よくある質問

1. Hermes 13B と以前のバージョンの違いは何ですか？

第一に、Hermes 13B は長文応答の生成方法が改善されています。第二に、幻覚（でたらめな情報の生成）が少なくなっています。第三に、OpenAI のような発言や行動を制限するルールがありません。さらに、あらゆる種類の言語タスクにおいて全体的に優れたパフォーマンスを発揮します。最後に、今回はさらに多様なデータでトレーニングされています。

2. Hermes 13B をダウンロードするにはどうすればよいですか？

Hermes 13B モデルは Hugging Face から無料でダウンロードできます。

Novita AI は、AI の可能性を実現するオールインワンのクラウドプラットフォームです。シームレスに統合された API、サーバーレスコンピューティング、GPU アクセラレーションにより、AI 駆動型ビジネスを迅速に構築および拡張するためのコスト効率の高いツールを提供します。インフラストラクチャの悩みから解放され、無料で始めましょう — Novita AI が AI の夢を現実にします。

おすすめ記事

Openhermes 2.5 の紹介：神々のメッセンジャーの力を理解する

MythoMax-L2–13B の探求：利点と限界