如何在本機或透過 API 存取 Llama 3.3 70b:完整指南

如何在本機或透過 API 存取 Llama 3.3 70b:完整指南

重點摘要

1. 進階效能:Llama 3.3 70b 是 Meta 推出的強大模型。在指令遵循與多語言推理等任務上表現出色。

2. 如何在本機存取 Llama 3.3 70b:要在本機執行 Llama 3.3 70b,你需要一張強大的 GPU(至少 24GB VRAM)、至少 32GB 的 RAM、250GB 的儲存空間,以及特定的軟體。

3. 如何透過 API 存取 Llama 3.3 70bNovita AI 提供 Llama 3.3 70b 的 API,** 輸入與輸出每百萬個 tokens 僅需 $0.39**。只要註冊免費試用,並透過簡單請求使用 API 即可。

4. 使用建議:不同使用者有不同需求:研究人員可能偏好本機安裝,而企業與一般使用者可能會發現透過 API 存取更為方便且符合成本效益。

在快速演進的人工智慧領域中,Meta 的 Llama 3.3 70b 是一款強大且多用途的多語言大型語言模型。由於具備執行多種文字型任務的能力,同時維持可控的運算需求,Llama 3.3 70b 為開發者與研究人員提供了可行的選擇。本文提供如何存取 Llama 3.3 70b 的完整指南,詳細說明本機安裝與 API(例如 Novita AI)兩種方式,以滿足不同的使用者需求。

什麼是 Llama 3.3 70b?

Llama 3.3 70b 是 Meta 最新的 多語言大型語言模型 (LLM),專為各種文字型任務而設計。擁有 700 億個參數,其效能可與更大的 Llama 3.1 405B 模型匹敵,同時大幅降低運算需求,讓開發者更容易使用。

主要特色

  • 多語言支援:Llama 3.3 70b 原生支援八種語言:英文、法文、德文、印地文、義大利文、葡萄牙文、西班牙文與泰文。在適當的安全措施下,也可針對其他語言進行微調。
  • 先進架構:採用最佳化的 Transformer 架構,並使用分組查詢注意力 (GQA) 來提升效率與可擴展性。
  • **長上下文長度 **:支援 128k tokens 的上下文長度,適合處理長篇文字。
  • 環保訓練:Meta 在模型訓練過程中達到淨零排放。
  • 工具整合:允許與外部工具及 API 整合,以取得即時資料與第三方應用。
  • 安全與對齊:透過監督式微調 (SFT) 與人類回饋強化學習 (RLHF) 進行微調,確保安全性並與人類偏好對齊。

https://www.youtube.com/watch?v=-dnGa6Oms5I

與其他 Llama 模型比較

  • Llama 3.3 70b vs. Llama 3.1 405B:Llama 3.3 70b 提供與 Llama 3.1 405B 類似的效能,但效率更高且運算需求更低。
  • Llama 3.3 70b vs. Llama 3.2:Llama 3.3 在微調、安全功能與基準測試效能上皆優於 Llama 3.2。

與其他模型比較

雖然 Llama 3.3 70b 不一定總能超越 GPT-4 或 Claude 3.5 等模型,但它提供了具有競爭力的結果,特別是在程式碼與多語言推理方面。它在指令遵循任務上表現出色,在此領域超越 Llama 3.1 405B 與 GPT-4。此外,以輸入與輸出 token 成本來看,它比 Amazon Nova Pro、GPT-4 和 Claude 3.5 更具成本效益。

若想查看更詳細的參數比較,可以參考這篇文章:Llama 3.3 效能基準:主要優勢與應用見解

應用場景

  • 多語言聊天機器人與虛擬助理。
  • 程式碼支援與軟體開發。
  • 合成資料生成。
  • 多語言內容創作與本地化。
  • 研究與實驗。
  • 知識型應用,例如問答與摘要。

如何在本機安裝 Llama 3.3 70b

硬體需求與配置建議

  • GPU:NVIDIA GPU,至少需要 24GB VRAM(例如 A100 或 H100)。部分來源建議使用 NVIDIA RTX A6000 配備 48GB。
  • RAM:至少 32GB(處理較大資料集建議 64GB)。
  • 儲存空間:至少 250GB 可用磁碟空間;模型本身約佔 40GB。
  • 作業系統:Linux(建議)或 Windows 搭配 WSL2,Ubuntu 22.04 是其中一個特定選項。
  • 軟體:Python 3.8 或更新版本,以及 CUDA Toolkit 11.7 或更高版本。
  • 必要函式庫:Hugging Face Transformers、PyTorch,以及用於量化與最佳化的工具如 bitsandbytes。

從上述資料你可以了解 為什麼 LLaMA 3.3 70B VRAM 需求對家用伺服器是一項挑戰?

逐步安裝指南

1. 安裝 Python 並建立虛擬環境

2. 安裝必要函式庫:

使用 pip install bitsandbytes 進行 GPU 最佳化。

3. 安裝 Hugging Face CLI 並登入:

   pip install huggingface-cli
   huggingface-cli login

4. 在 Hugging Face 網站上請求 Llama-3.3 70b 的存取權限。

5. 使用 Hugging Face CLI 下載模型檔案:

   huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct

6. 使用 Hugging Face Transformers 函式庫在本機載入模型:

   import torch
   from transformers import AutoModelForCausalLM, AutoTokenizer

   model_id = "meta-llama/Llama-3.3-70B-Instruct"
   model = AutoModelForCausalLM.from_pretrained(
       model_id, device_map="auto", torch_dtype=torch.bfloat16
   )
   tokenizer = AutoTokenizer.from_pretrained(model_id)

7. 使用載入的模型與 tokenizer 進行推論。

如何透過 Novita AI 存取 Llama 3.3 70b

how to access to llama 3.3 via api

逐步指南

Novita AI 提供一個價格實惠、可靠且簡單的推論平台,並具備可擴展的 Llama 3.3 70b API,讓開發者能夠建立 AI 應用。立即試用 Novita AI Llama 3.3 70b API 示範

步驟 1:登入並存取模型庫

登入你的帳號,然後點選 Model Library(模型庫)按鈕。

Log In and Access the Model Library

步驟 2:選擇你的模型

瀏覽可用的選項,並選擇符合你需求的模型。

choose your model

步驟 3:開始免費試用

開始免費試用,探索所選模型的功能。

free trail

步驟 4:取得你的 API 金鑰

為了驗證 API,我們將提供一個新的 API 金鑰。進入「Settings」(設定)頁面,你可以依照圖片指示複製 API 金鑰。

get api key

步驟 5:安裝 API

使用你所使用的程式語言專屬的套件管理器安裝 API。

install api

安裝完成後,將必要的函式庫匯入你的開發環境。使用你的 API 金鑰初始化 API,開始與 Novita AI LLM 互動。以下是使用 Python 的聊天補全 API 範例。

 from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    # 取得 Novita AI API 金鑰,請參考:https://novita.ai/docs/get-started/quickstart.html#_2-manage-api-key。
    api_key="<你的 Novita AI API 金鑰>",
)

model = "meta-llama/llama-3.3-70b-instruct"
stream = True  # 或 False
max_tokens = 512

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=&#91;
        {
            "role": "system",
            "content": "請扮演一個有用的助手。",
        },
        {
            "role": "user",
            "content": "你好!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
)

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices&#91;0].delta.content or "")
else:
    print(chat_completion_res.choices&#91;0].message.content)

註冊後,Novita AI 會提供 $0.5 的點數讓你入門!

如果免費點數用完,你可以付費繼續使用。

哪種方法適合你?

本機 vs. API 存取比較

面向 本機存取 API 存取
可擴展性 有限;需要手動升級。 自動且高效地擴展。
靈活性 高度靈活;完全控制設定。 較不靈活;依賴提供者的配置。
易用性 需要技術專業知識。 較易使用,無需複雜設定。
成本效益 初期成本高,長期成本低。最適合長期使用。 按用量付費,適合小規模或偶爾使用。

不同使用者群體的建議

  • 研究人員:通常偏好本機存取,以獲得實驗的靈活性與控制權。

  • 開發者

    • API 存取適合用於建立應用程式與快速原型開發。
    • 本機存取更適合微調與自訂工作流程。
  • 企業:API 存取有利於快速整合進服務中,無需高昂初期成本。對於需求穩定且有基礎設施投資能力的團隊,本機部署可能更適合。

  • 小型團隊/個人:由於啟動成本較低,API 存取通常更實用。

  • 技術能力有限的使用者:API 存取較為理想,因為無需深入技術知識。

總結來說,Llama 3.3 是一款強大、多用途且容易使用的模型,在效能與資源需求之間取得平衡。根據你的需求與可用資源,你可以選擇在本機執行或透過 API 存取。

常見問題

Novita AI 是一個全整合的雲端平台,能賦予你的 AI 抱負。整合 API、無伺服器、GPU 實例——你所需的經濟實惠工具。無需基礎設施,免費開始,實現你的 AI 願景。

推薦閱讀