2023.11.08 13:00

OpenAI首個開發者日:模型更強還更便宜了!自訂GPTs和GPT商店聯想到十幾年前蘋果的發表會

ADVERTISEMENT

繼今年春天發表 GPT-4 之後,OpenAI 又創造了一個讓人興奮到睡不著的夜晚。 

過去一年,ChatGPT 絕對是整個科技領域最熱的詞彙。OpenAI 也依靠 ChatGPT 取得了驚人的成績:總結來說,OpenAI 證實 ChatGPT 目前每週有超過 1 億活躍用戶,超過 200 萬開者使用 API 等進行開發,與超過 92% 的財富 500 強公司合作。

ADVERTISEMENT

作為備受期待的首屆開發者大會,Sam Altman 在昨晚帶來了一系列全新的 AI 模型和工具,包括如下: 

  • 全新的 GPT-4 Turbo 模型
  • 更可控的輸出:函式呼叫增強、JSON 模式
  • 開放新的 API:DALLE-3、GPT-4 Turbo with vision、TTS 和 Whisper V3
  • GPT-4 微調、自訂模型
  • GPTs:創建自訂版本的 ChatGPT
  • GPT Store 即將上線
  • Assistants API:更接近 AI 智慧體的體驗

從這些更新的展示中可以明顯感覺到,OpenAI 正在努力把 ChatGPT 構建成一個自動化程度更高的 AI 智慧體,這個智慧體不再是「紙上談兵」,而是越來越多地透過操縱現有應用對物理世界產生影響。例如,在活動現場,一位 OpenAI 的工作人員透過語音與 ChatGPT 對話,為在場的每一位觀眾發放了 500 美元 OpenAI 代金券。

ADVERTISEMENT

GPT-4 Turbo:128k 上下文、價格更便宜

會上首先亮相的是 GPT-4 的全新版本 GPT-4 Turbo。我們都知道,OpenAI 在今年 3 月發表了 GPT-4 初始版本,並在 7 月廣泛提供給了所有開發者。Sam Altman 在現場一一解析了 GPT-4 Turbo 的幾大亮點。

ADVERTISEMENT

首先,GPT-4 Turbo 比 GPT-4 更強大,支援 128k 上下文視窗,可以在單個 prompt 中處理超過 300 頁的文字。更長的上下文意味著模型輸出結果更加準確。

其次,GPT-4 Turbo 能夠瞭解更近、更豐富的世界知識,外部文件和資料庫的截止日期更新到了 2023 年 4 月。與之相比,GPT-4 的知識庫截止日期為 2021 年 9 月。

ADVERTISEMENT

接下來是函式呼叫更新。函式呼叫允許將應用程式函數或外部 API 描繪給模型,並讓模型智慧選擇「包含呼叫這些函數的參數」的 JSON 物件。 

今天,GPT-4 Turbo 在這方面做了幾項改進,例如在一條消息中能夠呼叫多個函數。使用者可以在發送一條消息時請求多個操作,如「打開車窗並關閉空調」。此外函式呼叫的準確性也得到提升,GPT-4 Turbo 更有可能返回正確的函數參數。

與此同時,指令遵循性能得到提升並支援了 JSON 模式。其中在需要嚴格指令遵循的任務上,GPT-4 Turbo 的表現比以往的模型更好,例如生成特定格式(始終以 XML 來回應)。 

GPT-4 Turbo 支援了新的 JSON 模式,確保模型使用有效的 JSON 進行回應。新的 API 參數 response_format 限制模型輸出以生成語法正確的 JSON 物件。該模式對開發者在聊天完成(Chat Completions)API 中生成 JSON 非常有用。

多模態能力也是大會的重點內容,為此 OpenAI 開放了全新的 API。 

GPT-4 Turbo 整合了 DALL·E 3,能夠接受並處理圖像輸入(即 GPT-4 Turbo with vision),生成標題、分析現實世界的圖像、閱讀帶圖表的文件等。 

對於 GPT-4 Turbo with vision,開發者可以透過 API 中的 gpt-4-vision-preview 來存取。OpenAI 計畫為主要的 GPT-4 Turbo 模型提供視覺支援,價格取決於輸入圖像的大小,例如像素 1080×1080 的圖像需要的成本為 0.00765 美元。

同樣地,開發者可以透過圖像 API 將 DALL・E 3 直接整合到他們的應用程式和產品中。與之前版本的 DALL・E 類似,該 API 內建審核功能,可以幫助開發者保護自己的應用程式免遭濫用。OpenAI 提供了不同的格式和品質選項,繪製一張圖像的起價為 0.04 美元。 

在文字轉換語音領域,開發者現在可透過文字到語音(text-to-speech)API,將文字轉化為人類品質的語音。全新 TTS 模型提供了 6 種預設聲音和兩種模型變體即 tts-1 和 tts-1-hd,其中 tts 針對即時應用案例進行最佳化,tts-1-hd 針對品質進行最佳化。每輸入 1000 字元的起價為 0.015 美元。

有了新版本 GPT-4 Turbo,OpenAI 也沒有「忘了」GPT-4。 

現在,GPT-4 微調正在實驗存取階段。OpenAI 正在創建一個用於 GPT-4 微調的實驗性存取程式。不過與 GPT-3.5 微調獲得的實質收益相比,GPT-4 微調需要更多工作才能對基礎模型實現有意義的改進。 

未來,隨著 GPT-4 微調在品質和安全性方面得到提升,GPT-3.5 微調的活躍使用者可以選擇在他們的微調控制中心應用 GPT-4 程式。

在微調之外,對於那些需要更多定製化功能的組織機構,OpenAI 啟動了客製化模型(Custom Models)計畫,允許組織機構與 OpenAI 研究人員一起針對特定領域來訓練定製化 GPT-4。這包括修改模型訓練過程的每一步,從額外的領域特定預訓練到運行針對特定領域的定製化 RL 訓練後(post-training)過程。 

組織機構對其定製化模型擁有獨家存取權。OpenAI 不會提供給其他客戶或與其他客戶共用,也不會用於訓練其他模型。此外提供給 OpenAI 以訓練定製化模型的專有資料不會在其他上下文中重複使用。不過,OpenAI 表示,目前自訂模型的功能有限且成本高昂。

最後是價格。如你我所見,GPT-4 Turbo 性能更強了,但價格卻被壓下來了。對比 GPT-4,GPT-4 Turbo 的輸入 token 價格是其 1/3,為 0.01 美元 / 1000token;輸出 token 價格是其 1/2,為 0.03 美元 / 1000token。

同樣地,GPT-3.5 Turbo 16K 以及 GPT-3.5 Turbo 4K、16K 微調的價格也都有一定程度的下降,具體參見下圖。

目前如何使用 GPT-4 Turbo 呢? 

所有付費開發者都可以透過 API 中的 gpt-4-1106-preview 來試用 GPT-4 Turbo。未來幾周,OpenAI 將發表穩定的生產就緒(production-ready)模型。 

GPTs 與 GPT 商店 

新模型的發表令人激動。但接下來這一發表,可能會令你聯想到十幾年前蘋果的發表會,這也是眾多網友認為的最大亮點。

Sam Atlman 發表了 GPTs,讓使用者無需程式碼,結合自己的指令、外部知識和能力創建自訂版本的 ChatGPT。 

自從推出 ChatGPT 以來,使用者們一直期待能夠定製 ChatGPT。OpenAI 在 7 月推出了自訂指令,可讓使用者設定一些首選項,但這無法完全滿足使用者。許多進階使用者會維護一份提示和指令集清單,並將它們手動複製到 ChatGPT 中。GPTs 的發表能夠自動幫使用者們完成這項工作了。

從現場展示來看,為了創建一個 GPT,OpenAI 允許使用者使用一個名為 GPT Builder 的對話式 AI 模型,讓使用者使用自然語言就能構建自訂的 GPT。

Sam Altman 現場展示如何透過自然語言構建自訂 GPT。在這個例子中,Altman 要求 ChatGPT 創建一個可以為創業者提供建議的 GPT。在接收到指令後,ChatGPT 不僅構建了這個 GPT,還提供了大頭貼、命名建議。 

除了使用內建功能之外,使用者還可以透過向 GPT 提供一個或多個 API 來定義定製化 action。與外掛程式一樣,定製 action 允許 GPTs 整合外部資料或與現實世界互動。 

此舉目的非常簡單,OpenAI 要充分挖掘社群開發者的力量,「我們相信最驚人的 GPT 產品將來自社群。無論您是教育家、教練,還是只是喜歡構建有用工具的人,您都不需要瞭解編碼來製作工具並分享您的專業知識。」 

同時,OpenAI 也會在本月底上線 GPT Store,讓開發者們分享、發表自己創建的 GPTs。這是繼這家公司宣布打造 ChatGPT 外掛程式生態系統之後的又一次嘗試。

沒錯,你是不是想到了蘋果商店?OpenAI 明確表示 GPT Store 上會有 GPT 的排行榜。活動上,Altman 表示 OpenAI 將向最常用、最有用的 GPT 支付收入的一部分,但是否會向發表 GPT 的創建者們收費還未知。 

目前,GPTs 可供 ChatGPT Plus 和企業客戶試用。

Altman表示:「最終,你只需向電腦詢問你需要什麼,它就會為你完成所有這些任務。」 

Assistants API 

在 keynote 環節,Sam Altman 還發表了「Assistants API」,這是他們幫助開發人員在自己的應用中構建類似「AI 智慧體(agent)」體驗的第一步。 

通俗點來說,「assistant」可以理解為一種為某個專門用途構建的 AI,它有特定的指令,利用額外的知識,並能呼叫模型和工具來執行任務。新的 Assistants API 提供了程式碼解譯器(Code Interpreter)、檢索(Retrieval)以及函式呼叫(function calling)等新功能,可以處理大量以前你需要自己完成的繁重工作,使你能夠構建高品質的 AI APP。

這個 API 設計靈活,使用案例包括基於自然語言的資料分析應用、編碼助手、AI 驅動的度假計畫器、聲控 DJ、智慧可視畫布等等。Assistants API 基於支援新 GPTs 產品的相同功能而構建:自訂指令和工具,如程式碼解譯器、檢索和函式呼叫。 

這個 API 引入的一個關鍵變化是持久和無限長的執行緒,它允許開發人員將執行緒狀態管理移交給 OpenAI,並繞過上下文視窗限制。使用 Assistants API,你只需將每條新消息添加到現有執行緒中即可。 

Assistants 還可根據需要呼叫新工具,包括: 

  • 程式碼解譯器(Code Interpreter):在沙箱執行環境中編寫和執行 Python 程式碼,並產生圖形和圖表,處理包含各種資料和格式的文件。它允許你的 assistants 反復執行程式碼,以解決具有挑戰性的程式碼和數學問題等。
  • 檢索(Retrieval):利用模型之外的知識(如專有領域資料、產品資訊或使用者提供的文件)增強 assistants。這意味著,你不需要運算和儲存文件的嵌入,也不需要實現分塊和搜尋演算法。Assistants API 會根據 OpenAI 在 ChatGPT 中構建知識檢索的經驗,最佳化要使用的檢索技術。
  • 函式呼叫(Function calling):使助理能夠呼叫你定義的函數,並將函數回應納入其資訊中。

 

OpenAI 表示,與平臺的其他部分一樣,傳給 OpenAI API 的資料和文件絕不會用於訓練他們的模型,開發人員可以在他們認為合適的時候刪除資料。 

開發者可以前往 Assistants playground 試用 Assistants API 測試版,無需編寫任何程式碼:https://platform.openai.com/playground?mode=assistant

從今天起,所有開發者都可以使用 Assistants API 測試版。定價參見:https://openai.com/pricing

以上就是這場 AI 盛會的重點內容了。 

據我們所知,有人在現場看,例如微軟 CEO 納德拉: 

雖然只是短暫地露面,但納德拉也認真地談到了兩家公司的持續合作關係。 

但是,也是有人選擇不看: 

資料來源: 

ADVERTISEMENT