介紹 Dolly 2.0:釋放開源語言模型的全部潛力

介紹 Dolly 2.0:釋放開源語言模型的全部潛力

引言

Databricks 推出了人工智慧領域的顛覆性產品——Dolly 2.0,這是第一個可用於商業用途的開源指令追蹤大型語言模型 (LLM)。但 Dolly 2.0 究竟有何革命性之處?企業又如何利用其功能推動創新?本指南將深入探討這款強大 AI 模型的技術實力、顯著優勢與多樣應用,同時探索 LLM API 如何克服其限制。

什麼是 Dolly 2.0?

Dolly 2.0 是 Databricks 開發的大型語言模型 (LLM) 最新突破。基於先前 Dolly 1.0 的成功,Dolly 2.0 是第一個可用於商業用途的開源指令追蹤 LLM。

Dolly 2.0 的技術細節

Dolly 2.0 是一個擁有 120 億個參數的模型,基於名為 databricks-dolly-15k 的新資料集進行微調。這個資料集由超過 5,000 名 Databricks 員工精心建構,他們生成了 15,000 對高品質的提示與回應,專門用於訓練指令型 LLM。與先前的資料集不同,databricks-dolly-15k 採用 Creative Commons 授權,完全可用於商業用途。

這個名為 databricks-dolly-15k 的新資料集包含 15,000 對高品質的提示與回應,專門用於大型語言模型的指令調校。資料集於 2023 年 3 月至 4 月期間,透過超過 5,000 名 Databricks 員工以群眾外包方式產生,他們透過競賽獲得激勵,生成了涵蓋開放式問答、閉卷問答、資訊提取與摘要、腦力激盪、分類和創意寫作等各種任務的提示與回應。

Databricks 不僅超出了最初 10,000 對的目標,更運用遊戲化機制快速收集了這個規模可觀的資料集。最重要的是,與先前的指令資料集不同,該資料集採用 Creative Commons 授權,可用於商業用途。

為何 Databricks 要讓 Dolly 2.0 具備商業可用性?

Databricks 打造具備商業可用性的指令型 LLM 之旅,源於客戶需求。當 Dolly 1.0 發佈時,最常被問到的問題是能否用於商業用途——但底層資料集的使用條款禁止了這一點。為了解決這個問題,Databricks 以群眾外包方式建立了新的 databricks-dolly-15k 資料集,利用超過 5,000 名熱情的員工生成高品質、原創的提示與回應對。

結果就是 Dolly 2.0——一個強大的開源 LLM,任何組織都可以使用、修改並以此為基礎,打造特定領域的 AI 助手與應用程式。Databricks 相信這種開放、社群驅動的 AI 開發方法,對於確保 AI 能造福所有人(而不只是少數大型科技公司)至關重要。

Dolly 2.0 的優勢

可自訂的微調能力

與 ChatGPT 等受管大型語言模型不同,Dolly 2.0 讓使用者完全掌控微調過程。使用者無需受限於受管服務提供者按 token 或按記錄收費的模式,而是可以針對自身需求微調預先訓練好的開源 Dolly 2.0 模型,無需支付額外費用。更重要的是,Dolly 2.0 使用者還能完整取得評估指標,清楚了解模型的行為,讓資料科學家在運用這項技術時感到更自在、更有信心。

可擴展且適配的基礎架構

Dolly 2.0 讓使用者可以自由選擇在偏好的雲端或本地基礎架構上部署模型,提供選擇最適合自身需求部署環境的靈活性。當需要改善延遲或提高吞吐量時,使用者可以視需求輕鬆擴展或橫向擴展基礎架構,透過配置更多雲端資源來達成。這種動態擴展的能力對於工作負載變化大的組織尤其有價值。這種基礎架構靈活性通常在受管服務 LLM 中無法獲得,因為使用者僅限於提供者自身的擴展能力。

安全且機密的資料處理

對於金融和醫療等對資料隱私和機密性要求嚴格的產業,Dolly 2.0 提供了比外部託管受管服務 LLM 更安全的替代方案。在微調 Dolly 2.0 模型時,使用者無需向第三方提供者暴露任何機密資料。此外,推理過程可以完全在使用者自身的安全伺服器內進行,確保敏感資訊不會離開其受控環境。這與 ChatGPT 等受管服務形成對比,使用者必須信任服務提供者能維持必要的資料安全態勢並遵守相關法規。

不受限制的商業使用

Dolly 2.0 採用 Apache 2.0 授權,賦予使用者自由將模型用於任何商業目的,不受限制。這種開放且寬鬆的授權方式,使組織能夠自由銷售利用 Dolly 2.0 模型打造的產品或部署服務,無需支付權利金或處理複雜的授權協議。這種靈活性並非所有開源大型語言模型都具備,有些模型可能附帶更嚴格的使用條款,或要求特定商業應用支付授權費用。

Dolly 2.0 商業應用

可自訂的 AI 助手

由於 Dolly 2.0 是開源且具商業可用性的指令追蹤語言模型,組織可以利用它來打造符合特定需求的 AI 助手。相較於受限於通用聊天機器人或助手,企業可以微調並自訂 Dolly 2.0,為員工和客戶提供領域專屬的支援。

例如,金融服務公司可以取得 Dolly 2.0,並進一步以其內部政策、產品資訊和客服資料進行訓練。這樣一來,他們就能部署一款高度個人化的 AI 助手,能夠處理從帳戶管理到投資建議等各種客戶諮詢,同時維持符合公司標準。

內容創作與腦力激盪

Dolly 2.0 廣泛的指令追蹤能力使其非常適合內容創作與腦力激盪任務。行銷、廣告和媒體等領域的企業可以利用 Dolly 2.0 生成文章初稿、社群媒體貼文、創意簡報等。模型能夠摘要資訊並激發新點子,這可以顯著加速內容製作流程。

例如,行銷公司可以利用 Dolly 2.0 快速設計活動概念雛型、撰寫範例社群媒體文案,甚至產出標語和口號等初期創意素材。人類再根據品牌和訊息需求,對模型產出進行潤飾與調整。

自動化資料分析

擁有大型資料集的組織,例如市場研究公司或商業智慧團隊,可以利用 Dolly 2.0 自動執行部分資料分析與報告任務。模型擅長從文字中提取關鍵資訊、回答特定問題以及摘要見解,這有助於生成初步的分析結果,再由人類驗證與擴展。

這可以減少將原始資料轉化為可行洞察所需的時間與精力,讓分析師能專注於高層次的解讀與策略建議,而非低階的資料處理。

Dolly 2.0 的開源與商業友善特性,為各行各業開啟了廣泛的潛在應用場景,使組織能夠打造符合自身獨特需求與優先事項的客製化 AI 解決方案。正如 Databricks 所強調的,這種方法旨在確保先進語言模型的好處能惠及更廣泛的社群,而不只是少數大型科技公司。

如何開始使用 Dolly 2.0?

如果你想在不訓練模型的情況下開始使用 Dolly 2.0,操作說明如下:

  1. 預先訓練好的 Dolly 2.0 模型可在 Hugging Face 上取得,名稱為 databricks/dolly-v2-12b

2. 要在配備 A100 GPU 的機器上使用 Transformers 函式庫載入模型:

from transformers import pipeline  
import torch  
  
instruct_pipeline = pipeline(model="databricks/dolly-v2-12b", torch_dtype=torch.bfloat16, trust_remote_code=True, device_map="auto")

然後你可以使用 instruct_pipeline 根據指令生成回應。

3. 對於其他 GPU 實例:

(1) A10 GPU:

  • 6.9B 和 2.8B 參數的模型應可直接使用。
  • 對於 12B 參數的模型,你需要使用 8 位元權重載入與執行模型,這可能對結果產生輕微影響。

(2) V100 GPU:

  • pipeline() 命令中將 torch_dtype 設為 torch.float16,而非 torch.bfloat16
  • 12B 參數的模型在 V100 上以 8 位元運作可能表現不佳。

關鍵點在於預先訓練好的 Dolly 2.0 模型可在 Hugging Face 上取得,你可以使用 Transformers 函式庫載入並使用該模型生成回應。然而,具體配置可能需要根據你擁有的 GPU 硬體進行調整。更多資訊可參閱 Github 上的 databrickslabs/dolly

Dolly 2.0 的限制與不足

雖然 Dolly 2.0 在開源且具商業可用性的指令追蹤語言模型方面代表了一項重大進展,但它並非沒有缺陷。

語言限制

一個主要的不足是該模型缺乏英語以外語言的廣泛訓練。Dolly 2.0 及其底層的 Pythia 骨幹模型都沒有經過大量非英語資料集的訓練。這意味著需要多語言能力的應用程式可能必須進行大量的微調工作,才能掌握其他語言的細微差異,考慮到要涵蓋無數的語言特徵,這可能不是一個可行的策略。

上下文限制

另一個限制是 Dolly 2.0 相對較窄的 token 窗口,僅有 2,048 個 token。這遠小於許多受管語言模型支援的上下文大小(可達 32,000 token 或更多)。對於涉及大型輸入的使用案例,例如長篇文件摘要,Dolly 2.0 可能需要分塊策略,並且由於一次能處理的上下文有限,可能產生較差的結果。

可擴展性疑慮

此外,目前的 Dolly 2.0 模型尚未擴展到 1,000 億參數的範圍,而某些應用可能需要這樣的規模才能與 ChatGPT 等模型的能力競爭。這種規模限制可能使 Dolly 2.0 在需要最強大語言模型的高風險或關鍵任務場景中表現受限。

持續存在的限制

Databricks 也承認,作為一個仍在積極開發中的研究導向模型,Dolly 2.0 可能表現出各種其他限制。其中包括難以處理複雜提示、開放式問答、寫作任務的正確格式、程式碼生成、數學運算,以及保持一致幽默感或寫作風格等問題。雖然這些缺陷可能會在後續迭代與改善中得到解決,但它們是目前使用者將 Dolly 2.0 用於特定應用時應注意的限制。

克服 Dolly 2.0 的限制

雖然像 Dolly 2.0 這樣的開源模型代表了重要的進展,但它們仍然存在顯著限制,可能限制其在現實世界中的適用性。為了克服這些限制,Novita AI 提供了一個全面的 LLM API,旨在賦予組織所需的靈活性與能力,以打造真正客製化的 AI 解決方案。

模型多樣性與自訂

我們 LLM API 的核心是能夠從多種大型語言模型中進行選擇,而不僅僅是單一預訓練選項。這意味著你可以選擇最符合特定使用案例的模型,無論是全球應用的多語言變體、關鍵任務所需的高參數模型,還是行業特定的領域調校版本。

但選擇模型只是開始。我們的 API 還允許你透過精心設計的提示,系統性地修改所選 LLM 的語氣、個性和行為。透過微調模型的反應模式,你可以確保你的 AI 助手展現出與使用者或客戶互動所需的確切聲音、同理心與專業知識。

進階參數控制

除了模型和提示自訂之外,我們的 LLM API 還將精細控制權交到你的手中。你可以調整溫度、top_p、presence_penalty 和最大 token 數等關鍵參數,以針對特定的應用需求最佳化模型輸出。這種調整層級讓你能在創造力、連貫性和簡潔性之間取得完美平衡。

無縫角色整合

為了進一步提升使用者體驗,我們的 LLM API 支援整合自訂角色,這些角色可以與你的最終使用者對話。這些角色可以設計成符合你的品牌、行業或目標受眾,有助於創造更沉浸、更個人化的互動。透過將大型語言模型的威力與熟悉角色的親切感相結合,你可以打造出真正與受眾產生共鳴的 AI 助手。

結論

雖然 Dolly 2.0 提供了一個有前景的開源替代方案,取代了受商業限制的指令追蹤語言模型,但它並非沒有限制。組織在採用 Dolly 2.0 之前,應根據自身特定的使用案例和要求仔細評估其能力與限制。為了克服 Dolly 2.0 及其他開源語言模型的限制,Novita AI 的全面 LLM API 可以提供強大的解決方案。

Novita AI 是一個一站式平台,為無限創意提供超過 100 個 API。從圖像生成、語言處理到音訊增強和影片操作,採用隨用隨付的經濟模式,讓你在打造自己產品的同時,無需煩惱 GPU 維護。立即免費試用。