精通 Hermes 13B 实现高级 AI

精通 Hermes 13B 实现高级 AI

关键亮点

  • 技术进步:由 Nous Research 与 Teknium 和 Emozilla 开发,Hermes 13B 在 8 块 a100 80GB DGX 机器上微调,支持复杂任务,序列长度为 4096。
  • 数据集与训练:使用超过 30 万条合成 GPT-4 输出进行训练,这些数据来自 GPTeacher 和角色扮演数据集等多个来源,Hermes 13B 在可靠性和性能方面表现出色。
  • 基准测试表现:在 ARC-c、ARC-e、Hellaswag 和 OpenBookQA 上排名第一,在 Winogrande 上排名第二(在 GPT-4 模型中),展现了卓越的基准测试表现。
  • 关键特性:提供扩展响应生成、最小化幻觉、无限制讨论能力,确保可靠性和多功能性。
  • 实际应用:支持 AI 辅导、技术文档自动化、剧本写作、可定制聊天机器人、学术研究、内容生成和互动故事创作。
  • **API 集成 **:轻松集成 Novita AI ,无缝访问 Hermes 13B 的能力,简化开发和部署。
  • 优化与更新:关于优化数据集质量、序列长度和模型参数以最大化性能的提示,强调紧跟最新进展。

引言

对 Hermes 13B(Nous Research 的最新杰作)的能力感到好奇吗?想知道它与前代相比如何?请加入我们,深入探讨 Hermes 13B 的技术规格、训练数据洞见、实际应用及 API 设置。让我们一起来解答这些问题以及更多内容。

理解 Hermes 13B

概述

Hermes 13B,即 Nous-Hermes-Llama2–13b,是由 Nous Research 开发的高级语言模型,Teknium 和 Emozilla 在微调和数据集整理方面做出了重要贡献。该模型在超过 30 万条指令的广泛数据集上进行了微调,旨在增强超越其前代 Hermes on Llama-1 的能力。

技术规格

微调过程使用了 4096 的序列长度,表明模型处理复杂且较长输入的能力。训练在 8 块 a100 80GB DGX 机器上完成,展示了其开发投入的大量计算资源。

训练数据

该模型主要基于合成的 GPT-4 输出进行训练,确保了高质量的知识保留和任务完成。数据集是从多个来源精心整理的,包括 GPTeacher、角色扮演数据集、代码指令数据集以及未发布的材料(如 Nous Instruct 和 PDACTL)。

合作与致谢

模型的开发是多个关键贡献者和组织(Teknium、Karan4D、Nous Research、Huemin Art 和 Redmond AI)的协作成果,特别感谢 Redmond AI 赞助计算资源。

提示与交互

模型遵循 Alpaca 提示格式,允许用户通过结构化的指令和回复部分进行交互。

性能基准测试

该模型已在多个基准测试中评估,包括 AGI-Eval、GPT-4All 基准测试集和 BigBench 推理测试。Hermes 13B 目前在 ARC-c、ARC-e、Hellaswag 和 OpenBookQA 上排名第一,在 Winogrande 上排名第二(对比 GPT4all 的基准测试列表)。

主要特性与能力

增强的长格式响应生成

该模型经过微调,能够生成扩展的、详细的响应。这一能力对于需要全面答案的任务特别有用,例如写作、总结和深入解释。

降低幻觉率

在语言模型中,“幻觉”指的是生成看似合理但事实不正确的信息。Hermes-Llama2–13b 模型经过微调以最小化这一点,确保响应更加可靠和准确。

无审查机制

与某些内置内容审查的模型不同,Hermes-Llama2–13b 没有对可讨论主题的内置限制。这使得对话更加开放,并减少了模型回避某些主题的可能性。

高质量数据集利用

该模型基于高质量合成 GPT-4 输出的精选数据集进行训练,确保了知识和任务执行的坚实基础。数据集的多样性有助于模型在各个领域的多功能性和有效性。

Hermes 13B 的实际应用

AI 辅导系统开发

开发一个个性化的电子学习平台,利用 Hermes 13B 生成动态、交互式的课程计划,并根据个体学习者的需求提供详细解释。

技术文档自动化

创建工具,利用 Hermes 13B 对复杂技术概念的理解,自动生成技术文档,如 API 文档、系统架构图和使用指南。

创意产业的剧本写作 API

为剧本作者构建一个 API 服务,使用 Hermes 13B 为各种媒体格式生成对话、情节摘要和角色描述,增强创意工作流程。

可定制聊天机器人框架

设计一个框架,用于构建客户服务聊天机器人,可以利用 Hermes 13B 的对话式 AI 能力轻松进行定制,实现特定领域的交互。

学术写作与研究助手

为研究人员实现一个 AI 助手,使用 Hermes 13B 起草学术论文、生成文献综述,并根据现有学术著作建议研究方向。

知识综合引擎

开发一个系统,综合来自不同领域的信息,创建综合报告或提供跨学科洞见,利用 Hermes 13B 理解和整合各种主题的能力。

数字营销内容生成器

为营销人员创建一个内容生成工具,利用 Hermes 13B 制作符合品牌指导方针的吸引人的营销材料、社交媒体帖子和广告文案。

互动故事创作平台

开发一个用于游戏或其他媒体中互动故事创作的平台,Hermes 13B 可以根据用户选择编织分支叙事和角色互动。

设置 Hermes 13B LLM API

步骤 1:注册账户

导航至 Novita AI 网站,点击顶部菜单中的“Log In”按钮。目前,您可以使用 Google 或 GitHub 账户登录。登录后,您将免费获得 0.5 美元的积分!

步骤 2:生成 API 密钥

为了通过 API 进行身份验证,请在请求头中包含一个 Bearer 令牌(例如:-H “Authorization: Bearer ***”)。我们将为您提供一个新的 API 密钥。

您也可以通过选择“Add new key”来自建密钥。

步骤 3:执行 API 调用

只需几行代码,您就可以进行 API 调用并利用 Hermes 13B 及其他高级模型的能力:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    # 获取 Novita AI API 密钥,参考:https://novita.ai/get-started/Quick_Start.html#_3-create-an-api-key
    api_key="<YOUR Novita AI API Key>",
)
model = "nousresearch/nous-hermes-llama2-13b"
completion_res = client.completions.create(
    model=model,
    prompt="A chat between a curious user and an artificial intelligence assistant".
    stream = True, # or False
    max_tokens = 512,
)

与 Hermes 13B 类似的模型

Novita AI 上的 Mythomax-l2–13b

Mythomax-l2–13b 的概念是每一层由多个张量组成,每个张量负责特定功能。通过利用 MythoLogic-L2 强大的理解能力作为输入,以及 Huginn 广泛的写作能力作为输出,所得到的模型在两个领域都表现出色。

Novita AI 上的 Hermes-2-pro-llama-3–8b

Hermes 2 Pro 是 Nous Hermes 2 的增强和重新训练版本。它具有更新和精炼版的 OpenHermes 2.5 数据集,以及内部新开发的函数调用和 JSON 模式数据集。

Novita AI 上的 Openhermes-2.5-mistral-7b

OpenHermes 2.5 Mistral 7B 是最先进的 Mistral 微调模型,是 OpenHermes 2 模型的延续,并在额外的代码数据集上进行了训练。

最大化模型性能

为了充分发挥 Hermes 13B 的潜力,了解如何恰到好处地进行调优至关重要。以下是一些能够帮助您闪亮登场的提示:

确保高质量且多样化的数据集

确保您的数据集既多样又高质量,以用于调优。从各个领域引入指令,使模型在理解和生成回复方面表现更好。

优化序列长度

关于序列长度,尽量保持在 2000 或以下以获得最佳效果。不过,也可以尝试不同的长度,这可能有助于在性能和响应时长之间找到最佳平衡点。

微调模型参数

对于模型参数,根据您的具体需求进行调整。尝试调整温度和重复惩罚等设置,以精细控制创造力和回复一致性。

保持更新

关于更新:始终关注 Hermes 13B 的最新版本,定期检查是否有新的发布或修复,这可能使性能进一步提升。

牢记这些提示,并不断改进您的微调方法,就能从 Hermes 13B 中榨取每一分潜力,用于复杂的 AI 任务。

结论

总之,由 Nous Research 与其他机构合作开发的 Hermes 13B 代表了 AI 语言模型的重大飞跃。

我们探讨了其强大的技术规格,包括处理长输入的能力及其微调背后的大量计算资源。该模型基于精选的合成 GPT-4 输出数据集进行训练,确保在各个领域的高质量表现,这反映在许多基准测试的顶级排名中。此外,其应用范围从 AI 辅导系统到数字营销内容生成,展示了其多功能性和实际价值。

当您考虑在自己的项目中使用 Hermes 13B 时,请记住优化数据集质量、序列长度和模型参数的重要性,以最大化其潜力。保持与最新进展同步,以持续提升其性能。

常见问题

1. Hermes 13B 与之前版本有何不同?

首先,Hermes 13B 在生成长格式响应方面表现更好。其次,您会发现它编造信息(幻觉)的频率更低。第三,它没有那些 OpenAI 规则限制其能说什么或做什么。此外,在所有类型的语言任务中,它的表现都更出色。最后,这次训练时使用了更大、更多样化的数据混合。

2. 如何下载 Hermes 13B?

您可以在 Hugging Face 上免费下载 Hermes 13B 模型。

Novita AI 是赋能您 AI 抱负的一站式云平台。通过无缝集成的 API、无服务器计算和 GPU 加速,我们提供经济高效的工具,助您快速构建和扩展 AI 驱动业务。消除基础设施烦恼,立即免费开始——Novita AI 让您的 AI 梦想成真。

推荐阅读

介绍 Openhermes 2.5:理解众神使者的力量

探索 MythoMax-L2–13B:优势与局限