glm-4-5v-vs-qwen-2-5-vl-which-open-vlm-should-you-use-for-your-ai-application

目录
  1. 现在把YAML部分整理好:
  2. title: "GLM 4.5V 与 Qwen 2.5-VL 对比:你的AI应用该选哪款开源视觉语言模型?" description: "本文深入对比两款来自中国AI社区的先进视觉语言模型GLM 4.5V与Qwen 2.5-VL,帮助开发者了解二者的差异。" pubDate: "2025-09-06 19:00:00" updatedDate: "2025-09-05 00:40:23" wpSlug: "glm-4-5v-vs-qwen-2-5-vl-which-open-vlm-should-you-use-for-your-ai-application" canonical: "/glm-4-5v-vs-qwen-2-5-vl-which-open-vlm-should-you-use-for-your-ai-application/" author: "Novita AI" categories: ["Novita AI"] tags: ["AI Model Comparison"] cover: "/uploads/2025/08/Frame-1618873257-1.webp" isSticky: false readingMinutes: 7 wordpressId: 16432 locale: zh-CN translationKey: "glm-4-5v-vs-qwen-2-5-vl-which-open-vlm-should-you-use-for-your-ai-application"
  3. 现在把所有内容整理成正确的Markdown格式,确保所有语法正确,表格正确,代码块正确,引用正确,图片路径正确,链接正确。 </think>
  4. title: "GLM 4.5V 与 Qwen 2.5-VL 对比:你的AI应用该选哪款开源视觉语言模型?" description: "本文深入对比两款来自中国AI社区的先进视觉语言模型GLM 4.5V与Qwen 2.5-VL,帮助开发者了解二者的差异。" pubDate: "2025-09-06 19:00:00" updatedDate: "2025-09-05 00:40:23" wpSlug: "glm-4-5v-vs-qwen-2-5-vl-which-open-vlm-should-you-use-for-your-ai-application" canonical: "/glm-4-5v-vs-qwen-2-5-vl-which-open-vlm-should-you-use-for-your-ai-application/" author: "Novita AI" categories: ["Novita AI"] tags: ["AI Model Comparison"] cover: "/uploads/2025/08/Frame-1618873257-1.webp" isSticky: false readingMinutes: 7 wordpressId: 16432 locale: zh-CN translationKey: "glm-4-5v-vs-qwen-2-5-vl-which-open-vlm-should-you-use-for-your-ai-application"
  5. GLM 4.5V 与 Qwen 2.5-VL:核心架构差异
  6. GLM 4.5V 与 Qwen 2.5-VL:基准测试对比
  7. GLM 4.5V 与 Qwen 2.5-VL:优势与劣势
  8. GLM 4.5V 与 Qwen 2.5-VL 对比:文本摘要、聊天机器人、图像NLP任务谁更胜一筹?
  9. Novita AI:更具性价比、更稳定的GLM 4.5V API提供商
  10. 使用MCP和GLM构建简易图像识别工具

`思维链提示词,与视觉任务交织进行”,Qwen的是“推理为内部实现,无显式思维链暴露”;Fine-Tuning Approach翻译成“微调方法”,GLM的是“跨STEM、GUI、视频、文档等多个领域采用课程采样强化学习(RLCS)”,Qwen的是“采用类似RLHF/RLAIF的微调方法(未完全公开),至少应用于32B模型,72B版本大概率继承该技术”;Multimodal Capabilities翻译成“多模态能力”,GLM的是“针对智能体任务训练:可对图像进行推理、执行操作(如GUI交互、工具调用)”,Qwen的是“擅长结构化输出:支持JSON格式OCR、布局解析(QwenVL HTML)、带坐标的目标检测”。

然后那个引用块> 翻译成“> 总结来说,GLM 4.5V的训练更侧重质量与推理能力(精选数据+显式推理+多领域强化学习),而Qwen 2.5-VL的训练更侧重广度与视觉能力(广泛数据覆盖+动态视觉训练+部分强化学习对齐)。”

接下来### GLM 4.5v and Qwen 2.5-VL: Inference Latency Comparison 翻译成“### GLM 4.5V 与 Qwen 2.5-VL:推理延迟对比”,然后下面的段落: GLM 4.5V 采用混合专家(MoE)架构,这意味着尽管模型总参数量超过100B,但每次推理时仅激活约12B参数。 这一设计使其运行效率更高,推理速度与12B-20B的稠密模型相当,不会像72B+稠密模型那样产生高延迟和低吞吐量。 GLM 4.5V 在处理长上下文(最高128K tokens)时延迟增长更平缓,非常适合处理长文档或多轮对话类任务。 GLM 支持特殊的/nothink模式,无需逐步推理时可关闭该模式,输出更快更简洁。

总体而言,GLM 4.5V 具备出色的长上下文推理效率和可扩展性,但需要强大的硬件和合理的部署策略才能充分发挥其潜力。

然后下一个大标题## GLM 4.5V and Qwen 2.5-VL: Benchmark Comparison 翻译成“## GLM 4.5V 与 Qwen 2.5-VL:基准测试对比”,图片路径保留,然后引用块:

GLM-4.5V目前在整体基准测试性能上领先,尤其在复杂长上下文多模态任务中表现突出,

但Qwen2.5-VL依然极具竞争力,曾是基准测试中的领先者。

两款模型均 outperforms 大多数其他开源LLM,甚至在视觉语言领域面对闭源巨头时也具备强劲竞争力。

然后下一个大标题## Strengths and Weaknesses of GLM 4.5V and Qwen 2.5-VL 翻译成“## GLM 4.5V 与 Qwen 2.5-VL:优势与劣势”,图片保留,然后那个链接Try GLM4.5V and Qwen 2.5VL Now! 翻译成“立即试用 GLM4.5V 与 Qwen 2.5VL!

然后下一个大标题## GLM 4.5V vs Qwen 2.5-VL: Which is Better for Text Summarization, Chatbot,Image-Based NLP? 翻译成“## GLM 4.5V 与 Qwen 2.5-VL 对比:文本摘要、聊天机器人、图像NLP任务谁更胜一筹?”

然后子标题### Text Summarization: GLM-4.5V wins 翻译成“### 文本摘要:GLM-4.5V 更优”,内容:对于长文档、报告或多模态内容的摘要,GLM-4.5V优势明显。其128K的上下文窗口可处理整本书籍或大型对话日志而无需截断。得益于内置的思维链模式,它可以在摘要的同时对内容进行分析和推理。 Qwen 2.5-VL的摘要能力同样出色,尤其适合短篇文章或标准长度文档的摘要。它生成的摘要简洁、格式规范,中等长度任务的处理速度更快。但在重度摘要任务,尤其是涉及文本+图像的多模态摘要场景下,GLM的能力更强。

子标题### Chatbots: Depends on needs 翻译成“### 聊天机器人:视需求而定”,内容:对于需要深度推理、长记忆、分步任务完成的聊天机器人,GLM-4.5V能力更强。它支持工具调用和长对话,不会遗忘上下文。其结构化推理(<think>模式)可更好地处理复杂查询。 对于视觉类聊天机器人,尤其是涉及截图、图像、布局解析的场景,Qwen 2.5-VL表现更优。它对图像的理解能力强,可输出结构化答案(如JSON格式),支持多轮视觉对话。而且它开箱即用的对齐效果更好,交互更流畅礼貌。

子标题### Image-Based NLP Tasks: Qwen2.5-VL leads 翻译成“### 图像NLP任务:Qwen2.5-VL 领先”,内容:对于从图像中提取结构化数据的任务,如OCR、表单理解、布局识别,Qwen 2.5-VL是更强的选择。

  • 它支持边界框检测,可输出HTML或JSON格式的结构化布局,能解析复杂的视觉文档。
  • 多语言OCR能力和对图像内容的推理能力,使其在面向业务的视觉NLP场景中实用性极强。 GLM-4.5V也可处理这类任务,但通常以自由文本形式描述视觉内容,而非结构化格式,可能需要更多后处理工作。

然后下一个部分## Novita AI: More Cost-Effectvely and Stable GLM 4.5V API Provider 哦这里原文有个拼写错误,Cost-Effectvely应该是Cost-Effectively,翻译的时候可以修正?或者保留?哦原文是Cost-Effectvely,不过翻译的时候应该是“更具性价比、更稳定的GLM 4.5V API提供商”,对,然后那个引用块:

Novita AI的GLM-4.5V API支持65.5K上下文,输入价格为$0.60/1K tokens,输出价格为$1.80/1K tokens,支持函数调用和结构化输出。

然后Step 1: Log In and Access the Model Library 翻译成“步骤1:登录并访问模型库”,内容:登录你的账号,点击模型库按钮。图片保留,然后那个链接 again 翻译成“立即试用 GLM4.5V 与 Qwen 2.5VL!

Step 2: Choose Your Model 翻译成“步骤2:选择模型”,内容:浏览可用选项,选择适合你需求的模型。图片保留。

Step 3: Start Your Free Trial 翻译成“步骤3:开启免费试用”,内容:开始免费试用,探索所选模型的能力。图片保留。

Step 4: Get Your API Key 翻译成“步骤4:获取API密钥”,内容:为了通过API进行身份验证,我们会为你提供新的API密钥。进入“设置”页面,即可按照图示复制API密钥。图片保留。

Step 5: Install the API 翻译成“步骤5:安装API”,内容:使用对应编程语言的包管理器安装API。安装完成后,将必要的库导入到你的开发环境中,使用API密钥初始化API,即可开始调用Novita AI的LLM服务。以下是Python用户使用聊天补全API的示例: 然后代码块保留,不要改,里面的注释和代码都原样。

然后下一个大标题## Build a Simple Image Recognition Tool using MCP and GLM. 翻译成“## 使用MCP和GLM构建简易图像识别工具”,内容:如果你想利用GLM的能力,比如构建一个简易图像识别工具来展示其视觉识别与推理的集成能力,可以使用Novita AI支持的MCP功能。以下是示例代码:代码块保留原样。

然后引用块> 如果你想了解详细信息,可以查看这篇文章:如何使用Novita AI构建你的第一个MCP服务器!

然后接下来:对比完这两款模型,我们可以明确GLM 4.5V和Qwen 2.5-VL都极其强大。“更好”的模型 truly 取决于具体的使用场景和约束条件。最后我们通过一个简短的FAQ解答一些剩余的实际问题:

What are the key architectural improvements in GLM-4.5V? 翻译成“GLM-4.5V的核心架构改进有哪些?” 回答:仅≤13B的小版本可在单张GPU上运行;完整版模型需要多GPU集群或云端推理才能运行。

Do these models support languages beyond English and Chinese? 翻译成“这两款模型是否支持英语和中文之外的语言?” 回答:它们的核心优势在英语和中文,但可以处理部分其他语言,质量因语言而异。

Can I fine-tune these models for my task? 翻译成“我可以针对自己的任务微调这些模型吗?” 回答:可以,两款模型都支持使用LoRA等技术进行微调或适配,但大模型微调需要大量的算力支持。

然后引用块> Novita AI 是助力你实现AI愿景的一站式云平台。集成API、无服务器、GPU实例——你需要的性价比工具一应俱全。无需操心基础设施,免费即可开始,让你的AI想法落地。

然后#### Recommend Reading 翻译成“#### 推荐阅读”,下面的列表:

哦对了,还要注意所有的链接、代码、图片路径都不能改,比如那个代码块里的api_key?哦原文里的api_key是示例,保留就行,不要改。还有那个MCP的代码也原样保留。还有所有的Markdown语法,比如表格、引用、加粗、链接都要保留,只是翻译文本内容。

等下,检查有没有漏的,比如那个“More Cost-Effectvely”原文是拼写错误,翻译的时候可以写成“更具性价比”就行,不用特意保留拼写错误?或者如果要忠实原文的话?哦用户说“Translate Markdown blog posts for developer readers. Return only the translated Markdown document. Preserve YAML frontmatter delimiters and field names. Translate title and description values when present. Set locale to the target locale. Set translationKey to the provided slug if it is missing. Do not translate code blocks, inline code, model names, product names, URLs, file paths, API parameters, or Markdown link URLs. Preserve image paths and Markdown syntax exactly.” 哦对,model names比如GLM 4.5V、Qwen 2.5-VL这些不要翻译,保留原样,产品名Novita AI也不要翻译,URL、文件路径、代码块、API参数都不要改,Markdown链接的URL也不要改,只翻译周围的文本。

哦对,刚才的model names都保留原样,比如GLM 4.5V、Qwen 2.5-VL、MoE、ViT、RMSNorm、SwiGLU、RLCS、RLHF、RLAIF、LoRA、MCP、OCR、JSON、HTML、API这些术语都保留,不要翻译,因为是开发者读者熟悉的。

还有那个<think>...</think>是代码里的,保留原样,不要翻译。还有代码块里的所有内容都原样保留,包括那个api_key,虽然是示例,但是不要改。

还有那个链接的utm参数也不要改,原样保留。

现在把YAML部分整理好:

title: “GLM 4.5V 与 Qwen 2.5-VL 对比:你的AI应用该选哪款开源视觉语言模型?” description: “本文深入对比两款来自中国AI社区的先进视觉语言模型GLM 4.5V与Qwen 2.5-VL,帮助开发者了解二者的差异。” pubDate: “2025-09-06 19:00:00” updatedDate: “2025-09-05 00:40:23” wpSlug: “glm-4-5v-vs-qwen-2-5-vl-which-open-vlm-should-you-use-for-your-ai-application” canonical: “/glm-4-5v-vs-qwen-2-5-vl-which-open-vlm-should-you-use-for-your-ai-application/” author: “Novita AI” categories: [“Novita AI”] tags: [“AI Model Comparison”] cover: “/uploads/2025/08/Frame-1618873257-1.webp” isSticky: false readingMinutes: 7 wordpressId: 16432 locale: zh-CN translationKey: “glm-4-5v-vs-qwen-2-5-vl-which-open-vlm-should-you-use-for-your-ai-application”

对,加了locale和translationKey字段,符合要求。

然后正文部分,再检查有没有漏翻译的,比如那个“outperforms most other open-source LLMs”翻译成“均 outperforms 大多数其他开源LLM”?哦不,要翻译成“均表现优于大多数其他开源大语言模型”?哦对,outperforms是“表现优于”,刚才写错了,改成“两款模型均表现优于大多数其他开源大语言模型,甚至在视觉语言领域面对闭源巨头时也具备强劲竞争力。”

还有那个“More Cost-Effectvely”原文是拼写错误,翻译的时候写成“更具性价比”就可以,不用管拼写错误,因为是翻译内容。

还有那个“Try GLM4.5V and Qwen 2.5VL Now!”翻译成“立即试用 GLM4.5V 与 Qwen 2.5VL!”就可以,加粗保留。

还有那个FAQ里的回答,要准确,比如第一个问题“GLM-4.5V的核心架构改进有哪些?”回答:“仅参数规模≤13B的小版本可在单张GPU上运行;完整版模型需要多GPU集群或云端推理才能运行。” 对,原文是“Only the smaller versions (≤13B) can run on a single GPU; the full-size models require multi-GPU setups or cloud inference.” 翻译准确。

第二个问题“这两款模型是否支持英语和中文之外的语言?”回答:“它们的核心优势在英语和中文,但可以处理部分其他语言,质量因语言而异。” 对,原文是“Their core strength is in English and Chinese, but they can handle some other languages with variable quality.”

第三个问题“我可以针对自己的任务微调这些模型吗?”回答:“可以,两款模型都支持使用LoRA等技术进行微调或适配,但大模型微调需要大量的算力支持。” 原文是“Yes, both can be fine-tuned or adapted using techniques like LoRA, but large models require significant compute.” 对的。

还有那个推荐阅读的链接,原文的链接URL不要改,翻译链接文本,比如第一个“教程:如何本地、通过API、在云GPU上访问Qwen2.5-VL-72B” 对,第二个“GPT OSS 120B 与 Qwen3 235B Thinking 2507对比:聊天还是编程?” 第三个“Qwen3 Embedding 8B:强大的搜索、灵活的定制与多语言支持” 对的。

还有那个代码块里的内容,完全原样保留,不要改,包括那个api_key,还有所有的参数,比如stream、max_tokens这些,都不要动。

还有图片路径,比如“/uploads/2025/08/image-71.webp”这些,原样保留,不要改。

还有那个MCP的代码块,也原样保留,不要改任何内容。

哦对了,原文里有个“GLM 4.5v”小写的v,翻译的时候保留原样吗?哦原文里的“GLM 4.5v”是拼写,就保留,比如那个图片的alt文本“GLM 4.5v and Qwen 2.5-VL: Benchmark Comparison”翻译成“GLM 4.5v 与 Qwen 2.5-VL:基准测试对比”就可以,v小写保留。

还有那个“Novita AI: More Cost-Effectvely and Stable GLM 4.5V API Provider”里的拼写错误Cost-Effectvely,翻译的时候不用特意保留,翻译成“Novita AI:更具性价比、更稳定的GLM 4.5V API提供商”就可以,因为是翻译内容,不是保留拼写错误。

还有那个链接里的utm_campaign是gemma-3-27b-vs-qwen2-5-vl,哦原文里的链接好像有点问题?不过用户说不要改Markdown link URLs,所以原样保留,不要动。

现在把所有内容整理成正确的Markdown格式,确保所有语法正确,表格正确,代码块正确,引用正确,图片路径正确,链接正确。

title: “GLM 4.5V 与 Qwen 2.5-VL 对比:你的AI应用该选哪款开源视觉语言模型?” description: “本文深入对比两款来自中国AI社区的先进视觉语言模型GLM 4.5V与Qwen 2.5-VL,帮助开发者了解二者的差异。” pubDate: “2025-09-06 19:00:00” updatedDate: “2025-09-05 00:40:23” wpSlug: “glm-4-5v-vs-qwen-2-5-vl-which-open-vlm-should-you-use-for-your-ai-application” canonical: “/glm-4-5v-vs-qwen-2-5-vl-which-open-vlm-should-you-use-for-your-ai-application/” author: “Novita AI” categories: [“Novita AI”] tags: [“AI Model Comparison”] cover: “/uploads/2025/08/Frame-1618873257-1.webp” isSticky: false readingMinutes: 7 wordpressId: 16432 locale: zh-CN translationKey: “glm-4-5v-vs-qwen-2-5-vl-which-open-vlm-should-you-use-for-your-ai-application”

GLM 4.5VQwen 2.5-VL 是两款来自中国AI社区的最新一代开源视觉语言模型(VLM),二者均致力于推动多模态AI的技术前沿,将自然语言理解与视觉内容分析能力相结合。在这篇博客中,我们将从开发者关注的多個维度对比GLM 4.5V和Qwen 2.5-VL。

GLM 4.5V 与 Qwen 2.5-VL:核心架构差异

特性 GLM 4.5V Qwen 2.5-VL
架构类型 混合专家(MoE)架构,总参数量355B,每token仅激活约32B参数(Air版本:总参数量106B / 每token激活12B) 稠密Transformer架构,每token处理时全部72B参数均激活
效率与能力权衡 参数量大,但因仅激活部分专家,推理成本更低 性能稳定但计算成本高,每次输入都会调用全部参数
视觉编码器 基于视觉Transformer(ViT)的标准实现 采用窗口注意力、RMSNorm和SwiGLU的ViT,可更高效处理高分辨率内容
上下文长度 最高支持128K tokens(部分配置下可达131K) 最高支持32K tokens

GLM 4.5V 与 Qwen 2.5-VL:训练数据

1. 数据规模

类别 GLM 4.5V Qwen 2.5-VL
文本Token数 总文本Token约23万亿:其中15万亿为通用文本,8万亿为推理/编程/智能体任务相关数据 72B版本估计使用18万亿+ Token(基于早期Qwen系列的规模推算)

2. 数据类型

类别 GLM 4.5V Qwen 2.5-VL
文本 多语言文本、代码、网络文本、推理提示词、智能体任务数据 通用多语言文本、指令数据,可能包含对齐偏好的提示词
视觉数据 清洗并重新配对的图文对、学术图表、数学图像、GUI截图、PDF、手写笔记、多语言OCR数据 广泛的视觉数据,包含扫描表单、发票、演示文稿、边界框标签、OCR文本
视频数据 带有推理监督的长视频 支持动态分辨率和帧采样的视频

3. 额外能力与训练技术

类别 GLM 4.5V Qwen 2.5-VL
推理支持 训练时使用<think>...</think>思维链提示词,与视觉任务交织进行 推理为内部实现,无显式思维链暴露
微调方法 跨STEM、GUI、视频、文档等多个领域采用课程采样强化学习(RLCS) 采用类似RLHF/RLAIF的微调方法(未完全公开),至少应用于32B模型,72B版本大概率继承该技术
多模态能力 针对智能体任务训练:可对图像进行推理、执行操作(如GUI交互、工具调用) 擅长结构化输出:支持JSON格式OCR、布局解析(QwenVL HTML)、带坐标的目标检测

总结来说,GLM 4.5V的训练更侧重质量与推理能力(精选数据+显式推理+多领域强化学习),而Qwen 2.5-VL的训练更侧重广度与视觉能力(广泛数据覆盖+动态视觉训练+部分强化学习对齐)。

GLM 4.5V 与 Qwen 2.5-VL:推理延迟对比

GLM 4.5V 采用混合专家(MoE)架构,这意味着尽管模型总参数量超过100B,但每次推理时仅激活约12B参数。 这一设计使其运行效率更高,推理速度与12B-20B的稠密模型相当,不会像72B+稠密模型那样产生高延迟和低吞吐量。 GLM 4.5V 在处理长上下文(最高128K tokens)时延迟增长更平缓,非常适合处理长文档或多轮对话类任务。 GLM 支持特殊的/nothink模式,无需逐步推理时可关闭该模式,输出更快更简洁。

总体而言,GLM 4.5V 具备出色的长上下文推理效率和可扩展性,但需要强大的硬件和合理的部署策略才能充分发挥其潜力。

GLM 4.5V 与 Qwen 2.5-VL:基准测试对比

GLM 4.5v 与 Qwen 2.5-VL:基准测试对比

GLM-4.5V目前在整体基准测试性能上领先,尤其在复杂长上下文多模态任务中表现突出,

但Qwen2.5-VL依然极具竞争力,曾是基准测试中的领先者。

两款模型均表现优于大多数其他开源大语言模型,甚至在视觉语言领域面对闭源巨头时也具备强劲竞争力。

GLM 4.5V 与 Qwen 2.5-VL:优势与劣势

GLM 4.5V 与 Qwen 2.5-VL 的优势与劣势

立即试用 GLM4.5V 与 Qwen 2.5VL!

GLM 4.5V 与 Qwen 2.5-VL 对比:文本摘要、聊天机器人、图像NLP任务谁更胜一筹?

文本摘要:GLM-4.5V 更优

对于长文档、报告或多模态内容的摘要,GLM-4.5V优势明显。其128K的上下文窗口可处理整本书籍或大型对话日志而无需截断。得益于内置的思维链模式,它可以在摘要的同时对内容进行分析和推理。 Qwen 2.5-VL的摘要能力同样出色,尤其适合短篇文章或标准长度文档的摘要。它生成的摘要简洁、格式规范,中等长度任务的处理速度更快。但在重度摘要任务,尤其是涉及文本+图像的多模态摘要场景下,GLM的能力更强。

聊天机器人:视需求而定

对于需要深度推理、长记忆、分步任务完成的聊天机器人,GLM-4.5V能力更强。它支持工具调用和长对话,不会遗忘上下文。其结构化推理(<think>模式)可更好地处理复杂查询。 对于视觉类聊天机器人,尤其是涉及截图、图像、布局解析的场景,Qwen 2.5-VL表现更优。它对图像的理解能力强,可输出结构化答案(如JSON格式),支持多轮视觉对话。而且它开箱即用的对齐效果更好,交互更流畅礼貌。

图像NLP任务:Qwen2.5-VL 领先

对于从图像中提取结构化数据的任务,如OCR、表单理解、布局识别,Qwen 2.5-VL是更强的选择。

  • 它支持边界框检测,可输出HTML或JSON格式的结构化布局,能解析复杂的视觉文档。
  • 多语言OCR能力和对图像内容的推理能力,使其在面向业务的视觉NLP场景中实用性极强。 GLM-4.5V也可处理这类任务,但通常以自由文本形式描述视觉内容,而非结构化格式,可能需要更多后处理工作。

Novita AI:更具性价比、更稳定的GLM 4.5V API提供商

Novita AI的GLM-4.5V API支持65.5K上下文,输入价格为$0.60/1K tokens,输出价格为$1.80/1K tokens,支持函数调用和结构化输出。

步骤1:登录并访问模型库 登录你的账号,点击模型库按钮。 登录并访问模型库

立即试用 GLM4.5V 与 Qwen 2.5VL!

步骤2:选择模型 浏览可用选项,选择适合你需求的模型。 步骤2:选择模型

步骤3:开启免费试用 开始免费试用,探索所选模型的能力。 步骤3:开启免费试用

步骤4:获取API密钥 为了通过API进行身份验证,我们会为你提供新的API密钥。进入“设置”页面,即可按照图示复制API密钥。 获取API密钥

步骤5:安装API 使用对应编程语言的包管理器安装API。安装完成后,将必要的库导入到你的开发环境中,使用API密钥初始化API,即可开始调用Novita AI的LLM服务。以下是Python用户使用聊天补全API的示例:

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key="session_rDfpD7GWNXFvnoIbmYNFkVlStqevDItFJac__3tAuw3ZiENHe3wm498Kv9rZEc5JhZgEJ7c9To5Y3EmZZewMbw==",
)

model = "zai-org/glm-4.5v"
stream = True # or False
max_tokens = 32768
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

使用MCP和GLM构建简易图像识别工具

如果你想利用GLM的能力,比如构建一个简易图像识别工具来展示其视觉识别与推理的集成能力,可以使用Novita AI支持的MCP功能。以下是示例代码:

import os
import sys
from mcp.server.fastmcp import FastMCP
import requests
import uvicorn
from starlette.applications import Starlette
from starlette.routing import Mount

base_url = "https://api.novita.ai/v3"
headers = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {os.environ['NOVITA_API_KEY']}"
}

mcp = FastMCP("Novita_API")

@mcp.tool()
def list_models() -> str:
    """
    List all available models from the Novita API.
    """
    url = base_url + "/openai/models"
    response = requests.request("GET", url, headers=headers)
    data = response.json()["data"]

    text = ""
    for i, model in enumerate(data, start=1):
        text += f"Model id: {model['id']}\
"
        text += f"Model description: {model['description']}\
"
        text += f"Model type: {model['model_type']}\
\
"

    return text

@mcp.tool()
def get_model(model_id: str, message) -> str:
    """
    Provide a model ID and a message to get a response from the Novita API.
    """
    url = base_url + "/openai/chat/completions"
    payload = {
        "model": model_id,
        "messages": [
            {
                "content": message,
                "role": "user",
            }
        ],
        "max_tokens": 200,
        "response_format": {
            "type": "text",
        },
    }
    response = requests.request("POST", url, json=payload, headers=headers)
    content = response.json()["choices"][0]["message"]["content"]
    return content

@mcp.tool()
def vision_chat(model_id: str, image_url: str, question: str) -> str:
    """
    Use GLM-4.1V-9B-Thinking to answer a question about an image.
    """
    url = base_url + "/openai/chat/completions"
    payload = {
        "model": model_id,
        "messages": [
            {
                "role": "user",
                "content": [
                    {
                        "type": "image_url",
                        "image_url": {
                            "url": image_url,
                        }
                    },
                    {
                        "type": "text",
                        "text": question,
                    }
                ]
            }
        ],
        "max_tokens": 500
    }
    response = requests.post(url, json=payload, headers=headers)
    return response.json()["choices"][0]["message"]["content"]

if __name__ == "__main__":
   # Run using stdio transport
   mcp.run(transport="stdio")

如果你想了解详细信息,可以查看这篇文章:如何使用Novita AI构建你的第一个MCP服务器!

对比完这两款模型,我们可以明确GLM 4.5V和Qwen 2.5-VL都极其强大。“更好”的模型 truly 取决于具体的使用场景和约束条件。最后我们通过一个简短的FAQ解答一些剩余的实际问题:

GLM-4.5V的核心架构改进有哪些? 仅参数规模≤13B的小版本可在单张GPU上运行;完整版模型需要多GPU集群或云端推理才能运行。

这两款模型是否支持英语和中文之外的语言? 它们的核心优势在英语和中文,但可以处理部分其他语言,质量因语言而异。

我可以针对自己的任务微调这些模型吗? 可以,两款模型都支持使用LoRA等技术进行微调或适配,但大模型微调需要大量的算力支持。

Novita AI 是助力你实现AI愿景的一站式云平台。集成API、无服务器、GPU实例——你需要的性价比工具一应俱全。无需操心基础设施,免费即可开始,让你的AI想法落地。

推荐阅读