关键亮点
- 强大的双语能力与推理能力:基于 Yi-34B 构建,该模型在双语任务和复杂推理方面表现出色。
- 创新训练与前无古人的上下文长度:在 Capybara 数据集上以 200K 上下文长度进行训练,提供深层的上下文理解和精准回答。
- 多功能性与多模态能力:可处理多轮对话,并通过 Obsidian 集成多模态处理,性能媲美部分更大的 7B 模型。
- 数据完整性与实际应用:通过严格检查确保数据集完整性,支持高级语言理解、复杂聊天机器人和多模态分析等多样化应用。
- **NousResearch 的其他大语言模型 **:在 Novita AI 上提供 Nous-Hermes-2-Mixtral-8x7B-DPO、nous-hermes-llama2–13b 和 hermes-2-pro-llama-3–8b。
引言
欢迎来到 Nous Capybara 34B 模型的世界——这是一款突破性的 AI 模型,不仅具备双语能力,还在理解与推理方面表现卓越。
在这篇博文中,我们将深入探讨该模型的细节,它基于强大的 Yi-34B 训练,拥有前所未有的 200K 上下文长度。我们将介绍其技术细节、独特功能、实际应用以及 NousResearch 的其他模型。那么,让我们一起踏上探索 Nous Capybara 34B 模型潜力的旅程。
探索 Nous Capybara 34B 模型
Nous Capybara 34B 模型基于 Yi-34B 模型,使用 200K 上下文长度在 Capybara 数据集上进行了 3 个 epoch 的训练。
Yi-34B
01.AI 推出的 Yi-34B 模型是一款专门设计的双语语言模型,在庞大的 3TB 多语言语料库上训练而成,这使其成为全球最强大的大语言模型之一。

Yi-34B 在理解、常识推理和阅读理解等多种语言任务中表现出色。其能力在 AlpacaEval 排行榜上得到印证:Yi-34B-Chat 模型位居第二,仅次于 GPT-4 Turbo,并超越了其他领先的大语言模型,如 GPT-4 和 Mixtral。此外,Yi-34B 模型在 Hugging Face Open LLM Leaderboard 和 C-Eval 等多个基准测试中,均被评为英语和中文开源模型的最高排名之一。
开创先河
- 首款 34B Nous 模型:这是 Nous 系列中的先驱模型,标志着 AI 发展的重要里程碑。
- 首款 200K 上下文长度模型:它凭借处理大量上下文的能力树立了新标准,提供更深层的理解和更细致的回答。
训练与数据集
Capybara 模型中的大部分 token 均通过新合成产生,主要来自 Puffin 和 Dove 等数据集。不过,有必要承认单轮数据集作为“种子”的作用,它们在 Amplify-Instruct 合成过程中被用于创建多轮对话。下图中绿色列出的数据集是该项目合成时选取种子的来源,而蓝色数据集代表在 Capybara 开发之前就已经存在的精选集合。

开发团队与致谢
- 领导层:由 Luigi D. (LDJ) 领导,J-Supha 和 Jeffrey Q. 支持,团队的专业知识在模型的能力中得以体现。
- 赞助:感谢 A16Z 和 Yield Protocol 的支持,为研究开发提供了便利。
Nous Capybara 34B 的主要功能
Yi-34B 基础模型
建立在坚实基础之上,能够处理大量上下文和复杂任务。
多轮对话
超过 60% 的数据集专注于多轮对话,相对于仅针对单轮交互训练的模型来说,这是一个显著优势。
高级摘要
经过训练,能够有效总结复杂主题和研究,展现了其高级推理能力。
历史回忆
无需联网即可回忆至 2022 年底的信息,展示了其广泛的知识基础。
多模态
Nous Capybara 34B 模型通过其多模态扩展 Obsidian-3B-V0.5,引入了处理和理解文本与视觉数据的突破性能力。Obsidian 建立在 Capybara-3B-V1.9 的坚实基础之上,并利用了 StableLM-3B-4e1t,是世界上最迷你的多模态大语言模型 (MLLM),其性能可与部分 7B 模型相媲美。
确保 Capybara 数据集的完整性

开发人员针对流行基准测试的数据污染问题进行了检查。以下是他们所采取措施的总结:
污染检查
他们进行了彻底检查,以确保 Capybara 数据集不包含来自其他流行数据集的污染。
Minhash 技术
他们利用 minhash 技术将自己的数据集与其他基准进行比较。该技术有助于识别数据集之间的相似性。
相似度级别
开发人员检查了不同级别的相似度匹配,包括 100%、99%、98% 和 97%。这种全面的方法确保即使接近的匹配也能被识别并处理。
检查的基准
他们专门检查了 HumanEval、AGIEval、TruthfulQA、MMLU 和 GPT4All 等多个基准,以确保数据集不包含来自这些来源的数据。
无精确匹配
结果发现,即使在 97% 的相似度级别下,也没有找到精确匹配或接近匹配,这表明 Capybara 数据集没有受到污染。
面向开发者的 Nous Capybara 34B 实际应用
鉴于 Nous Capybara 34B 模型的优势,以下是针对开发者最相关的应用场景:
高级语言理解
利用模型的双语能力开发需要深刻理解英语和中文的应用,例如多语言搜索引擎、翻译服务和跨文化内容分析工具。
复杂聊天机器人
将该模型用于客户服务聊天机器人,处理复杂查询并保持多轮对话的上下文,提供更人性化的交互体验。
自动内容生成
利用模型生成高级摘要和复杂内容的能力,自动完成报告撰写、文章转写或社交媒体内容创建。
教育与学习
利用模型的理解能力开发自适应学习平台,提供个性化教育内容和交互式问答会话。
多模态分析
通过 Obsidian 扩展,创建能够分析解读视觉和文本数据的应用,适用于电子商务或媒体管理中的图像标记、描述和检索系统。
数据驱动洞察
利用模型处理复杂摘要的能力开发商业智能工具,分析大型数据集并生成决策支持的可操作见解。
语义搜索
将模型集成到搜索应用中,通过理解查询的语义上下文来增强搜索结果,提高准确性和相关性。
知识库构建
利用模型构建和维护动态知识库,持续从各种来源更新新信息。
Nous Capybara 34B 的未来发展
扩展尺寸
当前已有 3B、7B 和 34B 版本,计划推出 13B、70B 以及基于 phi-1.5 或 Tiny Llama 的 1B 模型。
即将发布的基准测试
即将发布基准测试结果,以评估模型相对于行业标准的性能。
NousResearch 开发的其他模型
Novita AI 为开发者提供多种 LLM API 选项,包含 NousResearch 开发的模型。Novita AI LLM API 支持超参数调整和自定义系统提示,满足个性化需求。

Novita AI 上的 Nous-Hermes-2-Mixtral-8x7B-DPO
Nous Hermes 2 Mixtral 8x7B DPO 是 Nous Research 在 Mixtral 8x7B MoE LLM 上训练的新旗舰模型。该模型基于超过 1,000,000 条数据训练,其中主要是 GPT-4 生成的数据,以及来自 AI 领域其他开放数据集的高质量数据,在多种任务上实现了最先进的性能。

Novita AI 上的 nousresearch/nous-hermes-llama2–13b
Nous-Hermes-Llama2–13b 是一款基于超过 30 万条指令微调的最先进语言模型。该模型由 Nous Research 微调,Teknium 和 Emozilla 主导微调过程和数据集筛选,Redmond AI 赞助算力,并有多位贡献者参与。

Novita AI 上的 nousresearch/hermes-2-pro-llama-3–8b
Hermes 2 Pro 是 Nous Hermes 2 的升级重训版本,包含更新清理后的 OpenHermes 2.5 数据集,以及内部新推出的函数调用和 JSON 模式数据集。

结论
从基于 Yi-34B 模型和 Capybara 数据集的基础训练开始,Nous Capybara 34B 因其能够处理跨多个领域的广泛上下文和复杂任务而脱颖而出。多轮对话处理、高级摘要能力以及通过 Obsidian 扩展实现的多模态处理等关键特性,凸显了其多才多艺和复杂性。此外,通过污染检查确保数据集完整性的严格努力,巩固了其在实际应用中的可靠性。
展望未来,Nous Capybara 34B 模型的未来发展承诺了更强大的能力,包括扩展尺寸和即将发布的基准测试以验证其相对于行业标准的性能。作为 Novita AI 产品的一部分,连同 NousResearch 开发的其他模型(如 Nous Hermes 2 Mixtral 8x7B DPO 和 Nous-Hermes-Llama2–13b),该模型代表了 AI 驱动解决方案演变中的一个里程碑。
Novita AI 是一个一体化云平台,为您的 AI 雄心赋能。通过无缝集成的 API、无服务器计算和 GPU 加速,我们提供经济高效的工具,助您快速构建和扩展 AI 驱动业务。消除基础设施困扰,免费开始——Novita AI 让您的 AI 梦想成为现实。
推荐阅读
