OpenAI 發布 GPT-4o:使用案例、運作方式及如何取得權限

OpenAI 發布 GPT-4o:使用案例、運作方式及如何取得權限

OpenAI 於週一發表其最新的大型語言模型 GPT-4o,這標誌著從前代 GPT-4 Turbo 的進展。在後續章節中探索其功能、效率與潛在應用。

什麼是 OpenAI 的 GPT-4o?

GPT-4o 是 OpenAI 最新的語言模型。名稱中的 “o” 代表 “omni”,源自拉丁文 “every”,意指它能處理混合文字、音訊、圖像與影片的提示。過去在 ChatGPT 介面中,不同內容類型需要使用不同的模型。

例如,在 ChatGPT 的語音模式互動中,語音會透過 Whisper 轉錄為文字,然後使用 GPT-4 Turbo 生成文字回應,最後再透過 TTS 將回應文字轉回語音。

同樣地,在 ChatGPT 互動中整合圖像需要使用 GPT-4 Turbo 與 DALL-E 3 的組合。將這些功能整合到單一模型中處理多種內容格式,可望帶來更快的處理速度、更好的結果品質、更簡潔的介面以及探索新使用案例的可能性。

GPT-4o 與 GPT-4 Turbo 有何不同?

透過採用全能模型策略,GPT-4o 超越了先前語音互動功能的多項限制。

1. 現在考慮語調,能產生情緒反應

在先前 OpenAI 系統中,Whisper、GPT-4 Turbo 與 TTS 依序組合,推理引擎 GPT-4 僅能存取轉錄後的文字。這種方法導致遺漏了語調、背景噪音及不同說話者之間的區別等關鍵元素。因此,GPT-4 Turbo 難以產生具有多種情緒或語音風格的回應。

然而,透過能同時處理文字與音訊的統一模型,這些有價值的音訊資訊現在可以用來提供更高品質且風格更多樣的回應。

在 OpenAI 提供的以下 影片 中,GPT-4o 展示了它產生諷刺輸出的能力。

2. 更低的延遲實現即時對話

先前的三模型流程在與 ChatGPT 互動及接收回應之間產生了輕微的延遲(latency)。

OpenAI 揭露,語音模式的平均延遲在 GPT-3.5 為 2.8 秒,GPT-4 為 5.4 秒。相比之下,GPT-4o 的平均延遲為 0.32 秒,比 GPT-3.5 快 9 倍,比 GPT-4 快 17 倍。

這種降低的延遲接近人類平均反應時間 0.21 秒,對於對話情境尤其關鍵,因為人類與 AI 之間頻繁往返,延遲會不斷累積。

這項功能讓人回想起 Google 在 2010 年推出搜尋查詢自動完成功能 Instant。雖然搜尋通常不會耗費太多時間,但每次使用節省幾秒鐘能提升整體產品體驗。

GPT-4o 的低延遲使得一個有前景的使用案例更加可行:即時語音翻譯。OpenAI 設想了一個情境,一位說英語及一位說西班牙語的同事透過 GPT-4o 即時翻譯他們的對話進行溝通。

https://youtu.be/WzUnEfiIqP4?si=dnnqaNxT4ncX7cfJ

3. 整合視覺能力,能描述攝影機畫面

除了整合語音與文字能力,GPT-4o 也包含圖像與影片的功能。這表示當它被授予電腦螢幕存取權限時,可以描述螢幕上的內容、回答關於顯示圖像的問題,或甚至作為你工作中的支援夥伴。

在 OpenAI 發布的一段影片中,Khan Academy 的 Sal Khan 與 GPT-4o 協助 Sal 的兒子完成數學作業。

https://youtu.be/_nSmkyDNulk?si=sFvBOgk9hznhqf4f

除了螢幕互動,如果你授予 GPT-4o 攝影機存取權(例如你智慧型手機上的攝影機),它可以描述其視覺環境。

在 OpenAI 的一次全面示範中,所有這些能力都被結合。兩隻搭載 GPT-4o 的智慧型手機進行對話。一隻 GPT 有權存取其攝影機,並將其視覺觀察描述給另一隻沒有視覺能力的 GPT。

結果是一個人類與兩個 AI 之間的三方對話。影片中也包含 AI 唱歌的片段,這是先前模型無法達成的能力。

https://youtu.be/MirzFk_DSiI?si=Dv7HoVcNliXD3lJg

4. 對非羅馬字母語言的更好分詞,提供更快的速度與更高的性價比

大型語言模型(LLM)工作流程中的一個關鍵步驟是將提示文字轉換為 tokens(模型能理解的文字單位)。

在英文中,一個 token 通常對應一個單詞或標點符號,但有些單詞可能被分割成多個 tokens。平均而言,大約三個英文字詞對應約四個 tokens。

減少模型表示語言所需的 tokens 數量能減少計算量並加快文字生成。

此外,由於 OpenAI 根據輸入或輸出的 tokens 數量向 API 使用者收費,因此更少的 tokens 意味著更低的成本。

GPT-4o 具有改良的分詞模型,每個文字所需的 tokens 更少。這項改進在非使用羅馬字母的語言中尤其顯著。

例如,印度語言(包括印地語、馬拉地語、坦米爾語、泰盧固語和古吉拉特語)的 tokens 減少了 2.9 到 4.4 倍。阿拉伯語的 tokens 減少了 2 倍,而東亞語言(如中文、日文、韓文和越南文)的 tokens 減少了 1.4 到 1.7 倍。

5. 向免費方案推出

OpenAI 目前的 ChatGPT 定價結構要求使用者付費才能使用頂級模型:GPT-4 Turbo 僅限於 Plus 和 Enterprise 付費方案。

然而,這正在轉變,因為 OpenAI 承諾也會在免費方案提供 GPT-4o。Plus 使用者將獲得比免費方案使用者多五倍的消息配額。

部署將逐步進行,首先讓紅隊成員(負責識別模型漏洞的測試者)立即使用,隨後逐步向廣大使用者開放。

6. 推出 ChatGPT 桌面應用程式

雖然並非專門針對 GPT-4o,OpenAI 也推出了 ChatGPT 桌面應用程式。考慮到前述延遲和多模態能力的改進,以及應用程式的推出,很明顯與 ChatGPT 的互動模式即將轉型。例如,OpenAI 展示了一個使用語音和 ChatGPT 桌面應用程式的增強編碼工作流程示範。請向下滾動到使用案例部分,親眼見證這個範例!

GPT-4o 如何運作?

多種內容類型,單一神經網路

關於 GPT-4o 運作方式的細節仍然有限。OpenAI 在公告中唯一提供的見解是,GPT-4o 是一個統一的、經過文字、視覺和音訊輸入訓練的神經網路。

這種新方法與先前使用分別在不同資料類型上訓練的不同模型的做法不同。

然而,GPT-4o 並非首個採用多模態方法的模型。2022 年,騰訊實驗室推出了 SkillNet,這是一個結合 LLM transformer 特徵與電腦視覺技術以增強中文文字辨識的模型。

同樣地,2023 年,來自 ETH Zurich、MIT 和 Stanford University 的合作成果 WhisBERT 誕生,這是 BERT 系列大型語言模型的一個變體。雖然不是開創性的,但與這些早期努力相比,GPT-4o 因其卓越的抱負和強大性而脫穎而出。

GPT-4o 與 GPT-4 Turbo 相比是根本性的改變嗎?

GPT-4o 架構相較於 GPT-4 Turbo 的修改程度,似乎取決於諮詢的是 OpenAI 的工程團隊還是行銷團隊。四月,一個名為 “im-also-a-good-gpt2-chatbot” 的機器人出現在 LMSYS 的 Chatbot Arena(一個頂級生成式 AI 排行榜)。這個神秘的 AI 現在被揭曉為 GPT-4o。

名稱中包含 “gpt2” 具有重要意義。它將 GPT-4o 與 GPT-2(GPT-3.5 和 GPT-4 的前身)區分開來。“2” 後綴被廣泛解釋為 GPT 系列模型中全新的架構。

顯然,OpenAI 研究或工程團隊中的一些人認為將文字、視覺和音訊內容類型合併到單一模型是足夠重大的改變,足以證明六年來首次版本號碼增加是合理的。

相反,行銷團隊選擇採用相對保守的命名方式,沿用 “GPT-4” 慣例。

GPT-4o 與其他模型的效能比較

OpenAI 發布了將 GPT-4o 與其他幾個頂級模型進行比較的基準數據:

  1. GPT-4 Turbo
  2. GPT-4(初始發布)
  3. Claude 3 Opus
  4. Gemini Pro 1.5
  5. Gemini Ultra 1.0
  6. Llama 3 400B

其中,只有三個模型具有重要的比較意義:GPT-4 Turbo、Claude 3 Opus 和 Gemini Pro 1.5。這些模型在近幾個月一直在 LMSYS Chatbot Arena 排行榜上爭奪首位。

雖然 Llama 3 400B 未來可能成為競爭者,但目前仍在開發中。因此,這裡呈現的基準結果僅集中於這三個模型和 GPT-4o。

使用了六項基準進行評估:

  1. Massive Multitask Language Understanding (MMLU):涵蓋基礎數學、美國歷史、電腦科學、法律等任務。模型需具備廣泛的世界知識和解決問題的能力才能在該測試中獲得高準確度。
  2. Graduate-Level Google-Proof Q&A (GPQA):包含由生物學、物理學和化學領域專家設計的多選題。問題品質高且極度困難,在相關領域擁有或正在攻讀博士學位的專家準確度僅達 74%。
  3. MATH:包含中學與高中數學問題。
  4. HumanEval:評估電腦程式碼的功能正確性,用於評估程式碼生成。
  5. Multilingual Grade School Math (MSGM):包含翻譯成十種語言(包括孟加拉語和史瓦希里語等代表性不足的語言)的小學數學問題。
  6. Discrete Reasoning Over Paragraphs (DROP):專注於需要理解完整段落的問題,涉及跨多個句子的加法、計數或排序值等任務。

GPT-4o、GPT-4 Turbo、Gemini Pro 1.5 和 Claude 3 Opus 在六項 LLM 基準中的表現。每個基準的分數範圍從 0 到 100。根據 OpenAI 提供的數據重新建立。Gemini Pro 1.5 在 GPQA 基準中未提供數據。

GPT-4o 在四項基準中優於其他模型,但在 MSGM 基準中被 Claude 3 Opus 超越,在 DROP 基準中被 GPT-4 Turbo 超越。儘管有這些特定結果,GPT-4o 的整體表現令人印象深刻,顯示了新的多模態訓練方法的潛力。

仔細比較 GPT-4o 與 GPT-4 Turbo 的數字,效能提升相對溫和,僅相差幾個百分點。雖然這標誌著一年內的顯著進展,但並未達到從 GPT-1 到 GPT-2 或 GPT-2 到 GPT-3 所觀察到的戲劇性效能躍進。

越來越明顯的是,每年實現文字推理 10% 的改進可能成為新常態。較簡單的挑戰已被解決,在文字推理方面取得顯著進展變得越來越困難。

然而,這些 LLM 基準並未完全捕捉 AI 在多模態問題上的表現。多模態訓練的概念仍然相對新穎,而且缺乏有效的方法來衡量模型在文字、音訊和視覺方面的熟練度。

總體而言,GPT-4o 的表現令人印象深刻,展現了多模態訓練這項創新方法的潛力。

GPT-4o 使用案例

1. GPT-4o 用於數據分析與編碼任務

最近的 GPT 模型及其衍生產品(如 GitHub Copilot)已經能夠提供程式碼協助,包括撰寫程式碼、解釋錯誤和修正錯誤。GPT-4o 的多模態能力帶來了有趣的的可能性。

在一段由 OpenAI CTO Mira Murati 主持的宣傳影片中,兩位 OpenAI 研究人員 Mark Chen 和 Barret Zoph 展示了使用 GPT-4o 與 Python 程式碼互動。

程式碼以文字形式呈現給 GPT,並利用語音互動功能請求 GPT 解釋程式碼。隨後,在執行程式碼後,利用 GPT-4o 的視覺能力提供關於圖表的解釋。

總體而言,向 ChatGPT 展示螢幕並口頭提問的過程,比將圖表儲存為圖像檔案、上傳到 ChatGPT、然後輸入問題的流程更簡單。

2. GPT-4o 用於即時翻譯

準備好帶著 GPT-4o 去度假吧。憑藉其低延遲的語音能力,GPT-4o 實現了即時翻譯,使其成為可能(假設你的手機方案有漫遊數據!)。這使得在你不會說當地語言的國家旅行變得更加便利。

3. 與 GPT-4o 進行角色扮演

ChatGPT 已被證明是角色扮演場景的寶貴資源,無論是模擬你夢想中的數據職位工作面試,還是訓練你的銷售團隊以提高產品銷售。

以前它主要支援純文字角色扮演,這可能不適合某些使用案例。然而,隨著語音能力的增強,口頭角色扮演現在成為一個可行的選擇。

不過,如果你偏好傳統的文字角色扮演,可以選擇 novita.ai LLM API:

4. GPT-4o 用於協助視覺障礙使用者

GPT-4o 能夠解釋來自攝影機的影片輸入並口頭敘述場景,這項能力具有作為視覺障礙者重要功能的巨大潛力。基本上,它模仿了電視中的音訊描述功能,但擴展到現實生活情境。

在 ChatGPT 中取得 GPT-4o 存取權

ChatGPT 的網址已從 chat.openai.com 更改為 chatgpt.com,這顯示了對 AI 作為產品而非僅僅實驗的堅定投入。如果你的帳戶有 GPT-4o 存取權,它在行動應用程式和線上均可使用。

此外,Mac 應用程式已開始分發給某些使用者。但對連結要謹慎,因為詐騙者正利用此次發布在電腦上散佈惡意軟體。最安全的方式是等待 OpenAI 直接發送包含連結的電子郵件或通知。

即使你擁有應用程式的有效連結,在它被授權用於你的 OpenAI 帳戶之前,你也無法存取。如果你過早嘗試使用,將會看到錯誤訊息 “You don’t have access”。

登入 ChatGPT

無論你選擇 ChatGPT 的付費版或免費版,第一步都是登入。造訪網站或下載應用程式並連結到你的帳戶。如果你還沒有帳戶,只需註冊。

檢查你的模型選項

在螢幕頂部附近,你會找到一個包含模型列表的下拉選單。在網站上,它可能已經顯示為已選取 “GPT-4o”,但也可能顯示 “GPT-4” 或 “GPT-3.5” 等選項。如果 “GPT-4o” 沒有出現,表示你尚未擁有該模型的存取權。

在行動裝置上,如果你有存取權,你會在螢幕頂部導覽列中間看到 “ChatGPT 4o”。

開始聊天

如果你有存取權,開始像使用 GPT-4 一樣與 GPT-4o 聊天。但請注意,有速率限制,並且在免費方案中這些限制顯著較低。因此,你每天只能發送預定數量的訊息。如果你達到此限制,可以切換到 GPT-4 或 GPT-3.5 繼續對話。

在聊天中切換模型

你也可以選擇在聊天期間切換所使用的 AI 模型。例如,如果你想要控制使用 GPT-4o 發送的訊息數量,你可以先用 GPT-3.5 開啟聊天。然後,點選回應結尾處的閃光圖示。

這會開啟模型選單,選擇 GPT-4o(可能需要處理更複雜的數學問題),後續回應將使用 GPT-4o 生成。

上傳檔案

如果你有 GPT-4o 的存取權且使用免費方案,你現在可以上傳檔案進行分析。這些檔案可以包括圖像、影片或甚至 PDF。之後,你可以向 GPT-4o 提出關於內容的任何問題。

GPT-4o 限制與風險

生成式 AI 的法規仍處於起步階段,歐盟 AI 法案是目前主要的法律框架。因此,開發 AI 的公司必須自行判斷什麼是安全的 AI。

OpenAI 使用準備框架來評估新模型是否適合向公眾發布。該框架評估四個關鍵關注領域:

  1. 網路安全:評估 AI 是否可能提高網路犯罪分子的生產力或幫助創建漏洞。
  2. BCRN:檢查 AI 是否可能幫助專家設計生物、化學、放射性或核威脅。
  3. 說服力:評估 AI 生成具有說服力(可能具有互動性)內容以影響個人改變信念的潛力。
  4. 模型自主性:調查 AI 是否能夠作為自主代理,與其他軟體一起執行操作。

每個關注領域都分為低、中、高或臨界,模型的總體得分對應四個類別中的最高等級。

OpenAI 承諾不會發布構成臨界關注的模型。然而,這個安全門檻相當低,因為臨界關注被定義為能夠顯著擾亂人類文明的東西。GPT-4o 輕鬆避開了這一點,獲得了中等關注評級。

輸出不完美

與所有生成式 AI 一樣,模型可能無法總是按預期表現。電腦視覺技術並非完美無瑕,這意味著對圖像或影片的解釋不保證準確。

同樣地,語音轉錄很少是 100% 精確的,尤其是當說話者有濃厚口音或使用專業術語時。

OpenAI 發布了一段影片,展示了一些 GPT-4o 未能正常運作的片段。值得一提的失敗案例包括:兩種非英語語言之間的翻譯失敗、不適當的語調(例如聽起來居高臨下),以及使用錯誤的語言說話。

音訊深偽加速風險

OpenAI 公告承認 “GPT-4o 的音訊模態引入了多種新風險”。在很多方面,GPT-4o 有可能加速深偽詐騙電話的擴散,其中 AI 冒充名人、政治人物和個人的熟人。這是一個在有效解決之前很可能會惡化的挑戰,而 GPT-4o 有能力顯著增強深偽詐騙電話的說服力。

為了解決這個風險,音訊輸出被限制在一組預先定義的聲音中。

可以想像,技術熟練的詐騙者可以利用 GPT-4o 生成文字輸出,然後使用他們自己的文字轉語音模型。然而,不確定這種方法是否能保留 GPT-4o 在延遲和語調方面的優勢。

GPT-4o 費用是多少?

儘管速度比 GPT-4 Turbo 更快且視覺能力更強,GPT-4o 的價格將比其前代便宜約 50%。根據 OpenAI 網站說明,使用該模型將花費輸入每百萬 token 5 美元,輸出每百萬 token 15 美元。

結論

GPT-4o 代表了生成式 AI 的重大進步,將文字、音訊和視覺處理整合到一個高效的模型中。這項創新有望帶來更快的回應、更沉浸的互動以及更廣泛的應用,範圍從即時翻譯到增強的數據分析以及為視覺障礙者改善可及性。

novita.ai 是一個一站式平台,為無限創意提供入口,讓您存取超過 100 個 API。從影像生成、語言處理到音訊增強與影片編輯,採用便宜的隨用隨付模式,讓您在打造自己的產品時無需煩惱 GPU 維護。立即免費試用。

推薦閱讀

什麼是 LLM 與 GPT 的差異

LLM Leaderboard 2024 預測揭曉

Novita AI LLM 推理引擎:最大吞吐量與最便宜推理