引言
在人工智慧快速發展的領域中,大型語言模型之間的相互作用(LLMs) 及其規模較小的同行講述了協同作用和創新的故事。卓越的能力 LLM像 GPT-3 和 GPT-4 這樣的技術雖然令人驚嘆,但卻受到諸多限制的束縛——模型權重的可訪問性有限、計算需求巨大,以及情境學習 (ICL) 的限制。
然而,在這些限制中也存在著一個漏洞,小模型可以作為插件介入,為更個人化和高效的應用程式架起一座橋樑。本部落格深入探討了在廣泛的領域中將小型模型作為插件進行整合的必要性和影響 LLMs,探索超級情境學習(SuperICL)的概念及其現實世界的影響。
理解 LLMs 和更小的模型
之間的差異 LLMs 和更小的模型
大型語言模型是一種複雜的人工智慧系統,旨在處理和理解大量自然語言資料。 LLM通常具有大量參數,範圍從數億到數十億。這使得他們能夠捕捉語言中複雜的模式和關係,從而實現語言翻譯、文本摘要、問答和內容生成等高級功能。 LLMs 在大型數據集上進行訓練,隨著規模的擴大,可以表現出複雜的行為和“突發能力”,儘管後一個概念仍有爭議,正如斯坦福大學的研究中所討論的那樣。
相比之下,較小的模型具有較少的參數且不太複雜。他們的能力和能夠有效執行的任務範圍可能會受到更多限制。較小的模型通常用於更具體或不太複雜的任務,因為它們的計算要求較低且資料集需求較小。雖然它們在某些應用中可能非常高效,但它們通常不具備與人類同等程度的細緻理解能力或處理各種語言任務的能力。 LLMs.
最好的開源軟體有哪些 LLMs?
- BERT:BERT 由谷歌開發,是一項開創性的 LLM 因其對自然語言處理的變革性影響而聞名,被谷歌搜尋廣泛使用並啟發了許多專門的模型。
- 獵鷹180B:阿聯酋技術創新研究所 LLM 擁有 180 億個參數,在文本生成和處理方面表現出色,其較小版本 Falcon-40B 也因其語言理解能力而受到認可。
- GPT-NeoX 和 GPT-J: EleutherAI 的開源 LLM分別具有 20 億和 6 億個參數,提供跨領域的高效能並促進人工智慧民主化。
- 美洲駝3:Meta AI 的多功能 LLM,範圍從 7 億到 70 億個參數,針對自然語言生成進行了優化,並可通過開源許可證進行定制,並為開發人員提供 API。公司,例如 Novita AI,通常為AI新創公司提供LLaMA 3 API。
- 盛開:開源 LLM 擁有 176 億個參數,是 Hugging Face 的合作成果,旨在產生多語言和程式語言文本,優先考慮透明度和可訪問性。
- 小羊駝 13-B:此開源對話模型基於 LLaMa 13B 進行微調,擅長處理跨行業聊天機器人應用中的擴展對話,展示了先進的對話式 AI 功能。
為什麼我們需要小模型作為大型語言模型的插件?
模型權重的可近性有限
- LLMGPT-3 和 GPT-4 等是用於各種自然語言處理 (NLP) 任務的強大工具。然而,由於智慧財產權和安全性問題,這些模型的實際權重參數通常不會公開共享。
- 如果無法獲得模型權重,就不可能進行內部微調,即調整模型參數以更好地適應特定任務或資料集。
巨大的模型尺寸
- LLM通常非常大,具有數十億個參數,這使得它們資源密集。訓練甚至微調此類模型的硬體要求超出了大多數個人和小型組織的能力範圍。
- 龐大的規模也意味著將這些模型轉移到不同的硬體或在運算能力有限的環境中使用它們具有挑戰性。
情境學習 (ICL) 的局限性
- ICL 是一種技術,它在輸入的同時提供一些標記範例,以幫助模型進行預測。該方法允許模型從範例提供的上下文中學習。
- 然而,ICL 受到上下文長度的限制, LLM 可以處理。如果上下文太長,可能會超出模型的容量,並且模型將無法有效利用所有提供的範例。
- 當有大量監督資料可用時,這種限制尤其成問題,因為由於上下文長度的限制,ICL 只能使用其中的一小部分。

為了解決這些問題,一些學者提出了超級上下文學習(SuperICL),它結合了 LLM採用局部微調的較小模型。較小的模型或插件根據特定任務的數據進行微調,並在 LLM 以及當前任務的具體要求。這種方法可以更有效地進行知識轉移,提高監督任務的效能,克服 ICL 的限制以及與規模和不可訪問性相關的挑戰。 LLMs.

人們如何發現小模型是大型語言模型的有價值的插件?
在本節中,我們將討論加州大學聖地牙哥分校和微軟的 Canwen Xu、Yichong Xu、Shuohang Wang、Yang Liu、Chenguang Zhu 和 Julian McAuley 撰寫的論文「小型模型是大型語言模型的寶貴插件」。像往常一樣,如果您對研究細節不感興趣,請隨意跳到下一部分。
選項
基於對 LLM的局限性,我們在上一節已經討論過,作者提出了 SuperICL 來結合 LLM採用本地微調的較小插件模型。插件模型首先在特定任務的監督資料集上進行微調。然後,它根據該資料集中的訓練範例的置信度分數進行預測。這些預測是作為 LLM 以及測試輸入。這 LLM 利用此背景做出最終預測,並可選擇為其推理產生解釋。

實驗設計
他們在 GLUE 基準上對自然語言理解任務進行評估,並在 XNLI 上對零樣本跨語言遷移進行評估。 GPT-3.5 被用作 LLM 以及 RoBERTa-Large/XLM-R 作為插件模型。 SuperICL 與使用 GPT-3.5 的 ICL 基準進行了比較,並且僅使用插件模型。
成績
SuperICL 在 GLUE 基準測試中的表現分別優於 GPT-3.5 ICL 和插件模型。在 XNLI 資料集上,SuperICL 在大多數語言方面都比 XLM-R 有所改進,展示了有效的零樣本遷移。消融研究顯示了 SuperICL 方法中每個組件的重要性。


總結
SuperICL 結合了以下優勢,實現了卓越的性能 LLMs 和更小的插件模型根據任務資料進行微調。它透過將語言理解與特定任務的知識吸收分開來解決常規 ICL 的不穩定性問題。此外,SuperICL 還增強了較小模型的功能,例如擴展其多語言覆蓋範圍。它還提供了可解釋性,允許 LLM 在覆蓋插件預測時產生解釋。
小型模型作為大型語言模型插件的實際案例
客製化客戶服務聊天機器人
可以對小型特定領域模型進行微調,以了解特定行業的術語和背景,然後將其用作大型聊天機器人框架中的插件,以提供更準確、更相關的回應。
醫療診斷協助
一個在醫療記錄和文獻上訓練的小模型可以作為 LLM 幫助醫生更準確地診斷病情、建議治療方法和解釋醫學檢查結果。
法律文件分析
針對法律文件微調的小模型可用於增強 LLM解析和理解法律合約、提供摘要以及強調潛在問題或條款。
語言翻譯
對於資源較少的語言,可以利用現有資料訓練小型模型,然後將其作為插件使用。 LLM以提高翻譯品質並更好地處理細微差別。
教育工具
針對教育內容客製化的小型模型可以與 LLM創建智慧輔導系統,為學生提供個人化的回饋和解釋。
內容審核
經過訓練可以偵測特定類型內容(例如仇恨言論、露骨內容)的小型模型可用於增強 LLM在社群媒體平台上審核用戶產生的內容。
醫療監控
經過訓練識別患者資料模式的小型模型,與人工智慧結合,可以提供早期預警或洞察潛在的健康問題。 LLM 可以處理和分析更大的數據集。
這些應用展示瞭如何將小型模型的專業知識與廣泛的理解相結合 LLMs 可以在各種專業和個人環境中帶來更有效率、更準確、更有針對性的解決方案。
如何運行 SuperICL 的程式碼
下面的程式碼引用自 https://github.com/JetRunner/SuperICL?tab=readme-ov-file。您可以透過此連結找到下面提到的所有 Python 腳本。
設定程序
1 安裝必要的軟體包:使用 pip 套件管理器安裝 requirements.txt 文件。
pip install -r requirements.txt
2 配置 OpenAI API 金鑰:
- 複製範例設定檔來建立您自己的設定檔:
cp api_config_example.py api_config.py. - 編輯新建立的
api_config.py使用文字編輯器開啟文件vi插入您的 OpenAI API 金鑰。
運行不同任務的程式碼
1 GLUE 基準測試:
- 執行
run_glue.py使用指定參數的腳本在 GLUE 基準上執行模型。 - 包括
--model_path指向模型的位置,--model_name帶有模型標識符,以及--dataset指定 GLUE 任務。 - 為了能夠解釋模型預測,請加入
--explanation旗。
python run_glue.py \
--model_path roberta-large-mnli \
--model_name RoBERTa-Large \
--dataset mnli-m \
--explanation # Add this flag for explanations
- 對於所有支援的任務,請參閱提供的文件。
2 XNLI 基準:
- 跑過
run_xnli.py具有指定參數的跨語言自然語言推理任務的腳本。 - 指定
--model_path到模型的目錄,--model_name加上模特兒的名字,以及--lang列出資料集中包含的語言。
python run_xnli.py \
--model_path /path/to/model \
--model_name XLM-V \
--lang en,ar,bg,de,el,es,fr,hi,ru,sw,th,tr,ur,vi,zh
其他信息:
有關腳本的所有可用參數,請參閱程式碼儲存庫。
引文
如果您在研究中使用此項工作,請按以下方式引用:
@article{xu2023small,
title={Small Models are Valuable Plug-ins for Large Language Models},
author={Xu, Canwen and Xu, Yichong and Wang, Shuohang and Liu, Yang and Zhu, Chenguang and McAuley, Julian},
journal={arXiv preprint arXiv:2305.08848},
year={2023}
}
小型模型作為大型語言模型插件的局限性
依賴插件模型效能
SuperICL的整體性能仍然依賴於局部微調插件模型的品質。如果插件模型在任務上表現不佳,則可能會限制 SuperICL 的有效性。
計算成本
微調插件模型需要獲得足夠的運算資源。對於非常大的監督資料集,這種微調對於較小的研究團體或個人來說可能會變得非常昂貴。
任務普遍性
實驗重點在於 GLUE 基準中的自然語言理解任務。雖然很有前景,但仍需要進行更多評估來評估 SuperICL 在其他 NLP 任務(如生成、摘要、翻譯等)上的有效性。
跨任務轉移
目前還不清楚,在與 SuperICL 一起使用時,針對一項任務進行微調的單一插件模型能夠多好地推廣並為完全不同的任務提供有效的上下文。
多語言限制
雖然 SuperICL 增強了多語言性,但其跨語言能力仍受到 XLM-R 等插件模型原有的多語言能力的根本限制。
結語
將小模型作為插件集成 LLM正如 SuperICL 所展示的,它為大規模人工智慧的固有局限性提供了令人信服的解決方案。透過增強 LLMs,我們為更細緻、更有效率、更廣泛適用的人工智慧系統鋪平了道路。然而,對插件效能的依賴、計算成本和任務通用性等挑戰仍然存在,需要採取平衡的方法來利用這種協同作用。
請關注探索人工智慧學術界的最新發現!
Novita AI,一站式無限創意平台,讓您可以存取 100 多個 API。從影像生成和語言處理到音訊增強和視訊處理,廉價的即用即付,讓您擺脫 GPU 在建立自己的產品時避免維護麻煩。免費試用。
探索 Novita 的更多內容
訂閱以將最新貼文發送到您的電子郵件。





