Qwen、Llama、GLM、BGE 在 Novita AI 上免費使用

Llama 3.2 1b instruct
Qwen2.5-7b-instruct
GLM-4-9b-0414 和 GLM-Z1-9b-0414
bge-m3
如何在 Novita AI 上存取免費模型？

為了支持開源 AI 社群並加速自然語言處理領域的創新，Novita AI 已將五個強大的模型以 API 形式免費開放。這些模型包括小巧但功能強大的 Llama 3.2 1B Instruct、多用途的 Qwen2.5-7B Instruct、高效能 GLM-4-9B-0414 與 GLM-Z1-9B-0414，以及多語言多功能嵌入模型 BGE-M3。透過開放這些模型的存取權限，Novita AI 旨在讓開發者、研究人員與新創公司能夠更有效率地建構、測試並擴展 AI 應用程式，無需負擔高昂的基礎建設成本。

Llama 3.2 1b instruct

立即試用 Llama 3.2 1B！

模型大小：1.23B 參數
架構：優化 Transformer，採用 Grouped-Query Attention (GQA)、SwiGLU 激活函數、Rotary Positional Embeddings (RoPE) 與 RMSNorm
上下文長度：128K tokens
多語言：官方支援英文、德文、法文、義大利文、葡萄牙文、印地文、西班牙文與泰文；訓練資料涵蓋更廣泛的語言
模態：文字對文字（輸入與輸出）
訓練資料：基於最多 9 兆個公開線上 tokens 進行訓練
開源：✅
基準測試：在指令遵循、摘要、提示重寫與工具使用等任務上表現強勁；在同等參數規模的模型中具有競爭力

Qwen2.5-7b-instruct

立即試用 Qwen 2.5 7B！

Qwen 2.5 7B 是一個多語言開源 Transformer 模型，在通用、數學、程式碼與多語言任務上表現優異。專為多功能性、輕量部署與廣泛語言支援而設計。

模型大小：7.61B 參數
架構：Transformer，採用 RoPE、SwiGLU、RMSNorm 與 Attention QKV bias
上下文長度：128K tokens
多語言：支援超過 29 種語言
模態：文字對文字
訓練資料：基於 18T+ tokens 進行訓練
開源：✅
基準測試：Qwen 2.5 7B 在此基準套件的 ** 所有類別（通用任務、STEM、程式碼與多語言理解）中均排名第一**，儘管其參數數量相對精簡。

GLM-4-9b-0414 和 GLM-Z1-9b-0414

立即試用 GLM-4 9B-0414！

GLM-4-9B-0414 與 GLM-Z1-9B-0414 是 THUDM 開發的兩個 90 億參數開源語言模型，各自針對不同任務進行優化。

GLM-4-9B-0414：專為對話生成設計，繼承 GLM-4-32B 的架構，在多輪對話、翻譯與摘要等任務上表現出色。支援 32K 上下文窗口，適合資源受限的部署場景，需具備穩健的語言理解與生成能力。
GLM-Z1-9B-0414：專注於數學推理與通用任務，採用延伸強化學習與成對排序校準等技術。在數學、程式碼與邏輯任務上展現強勁效能，優於同重量級的多數開源模型。

特性	數值
模型大小	9B 參數
優勢	- GLM-4-9B-0414：高效能參數比，擅長數學與推理 - GLM-Z1-9B-0414：數學與通用任務表現強勁
任務導向	- GLM-4-9B-0414：對話導向 - GLM-Z1-9B-0414：推理導向
模態	文字對文字，支援 HTML/SVG 視覺化
上下文窗口	32K tokens
訓練與校準	從 GLM-4-32B 蒸餾而成。基礎模型在 15 兆個高品質 tokens（尤其是合成推理資料）上進行預訓練，並透過人類偏好調校以符合對話任務。

bge-m3

立即試用 bge m3！

BGE-M3 是由 ** 北京人工智慧研究院 (BAAI)** 開發的尖端文字嵌入模型。它在三個核心維度上提供卓越的多功能性：** 功能性、語言支援與輸入粒度 。BGE-M3 在多個基準測試（包括 MKQA 與 MLDR）中達到 ** 最先進的成果，在單語與跨語檢索場景中持續優於競爭模型。

多功能性：BGE-M3 在統一架構下無縫整合三種檢索策略：
- 密集檢索 (Dense Retrieval) – 為每個輸入生成單一向量表示，適用於一般語意匹配。
- 稀疏檢索 (Sparse Retrieval) – 強調 token 層級的重要性，類似傳統詞彙匹配。
- 多向量檢索 (Multi-Vector Retrieval) – 為每個輸入生成多個向量，捕捉細粒度語意，提升檢索準確度。
**多語言 **：支援超過 100 種語言，具備多語與跨語檢索能力。
**多粒度 **：專為處理各種輸入長度而設計——從短語到長篇文件，每筆輸入支援最高 8192 tokens。

如何在 Novita AI 上存取免費模型？

步驟 1：登入並存取模型庫

登入您的帳戶，點擊 模型庫 按鈕。

步驟 2：選擇您的模型

瀏覽可用選項，選擇符合您需求的模型。

步驟 3：開始免費試用

開始免費試用，探索所選模型的功能。

步驟 4：取得您的 API 金鑰

為了驗證 API，我們將提供您一組新的 API 金鑰。進入「設定」頁面，即可按照圖片指示複製 API 金鑰。

步驟 5：安裝 API

使用您程式語言專屬的套件管理工具安裝 API。

安裝完成後，將必要的函式庫匯入開發環境。使用您的 API 金鑰初始化 API，即可開始與 Novita AI LLM 互動。以下為 Python 使用者使用 chat completions API 的範例。

from openai import OpenAI
  
from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "model name"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

無論您是正在建構智慧聊天機器人、語意搜尋引擎，還是多語言推薦系統，免費存取 Novita AI 的模型 都能提供您快速上手所需的一切。憑藉世界級的效能與簡便的 API 整合，這些模型讓可擴展的 AI 變得前所未有的平易近人。

*Novita AI * 是一個 AI 雲端平台，為開發者提供透過簡單 API 部署 AI 模型的便捷途徑，同時提供經濟實惠且可靠的 GPU 雲端用於建構與擴展。

Qwen、Llama、GLM、BGE 在 Novita AI 上免費使用 – 立即試用！

Llama 3.2 1b instruct

Qwen2.5-7b-instruct

GLM-4-9b-0414 和 GLM-Z1-9b-0414

bge-m3