關於OpenAI 新推出的強大 AI 模型 o1你必須知道的 9 件事

關於OpenAI 新推出的強大 AI 模型 o1你必須知道的 9 件事

ADVERTISEMENT

OpenAI 宣布推出備受期待的新一代 AI 模型系列,這些模型比以往的大型語言模型更擅長解決困難的推理和數學問題。週四,它向部分付費使用者發表了其中兩個模型的「預覽」版本,稱為 o1-preview 和 o1-mini。

具有改進的推理和數學技能的 AI 可以幫助化學家、物理學家和工程師計算出複雜問題的答案,這可能有助於他們創造新產品。它還可以幫助投資者計算期權交易策略,或幫助財務規劃師制定更好的風險回報權衡的特定投資組合。

隨著科技公司試圖構建能夠執行複雜任務的 AI 代理,更好的推理、規劃和問題解決能力也變得至關重要,例如編寫完整的電腦程式、在網路上查找資訊並將其導入試算表,然後對這些數據進行分析並編寫總結其發現的報告。

OpenAI 發表了 o1 模型令人印象深刻的基準測試結果——在發表之前,這些模型的內部代號為「Strawberry」。在針對具有挑戰性的高中生的 AIME 數學競賽問題上,o1 的正確率為 83.3%,而 GPT-4o 僅為 13.4%。在另一項評估中,o1 準確回答了 78% 的博士等級的科學問題,而 GPT-4o 為 56.1%,人類專家為 69.7%。

根據 OpenAI 發表的測試結果,與該公司以前的模型相比,o1 模型也顯著降低了產生幻覺(或自信地提供看似合理但不準確的答案)的可能性。它也更難被「越獄」,或誘導模型跳過公司試圖讓模型在提供回應時遵守的安全護欄。

自 o1-preview 廣泛推出以來的幾個小時內,使用者進行的測試表明,該模型似乎能夠正確回答許多之前困擾其他模型(包括 OpenAI 最強大的模型,如 GPT-4 和 GPT-4o)的問題。

但 o1-preview 仍然會被一些謎語絆倒,在 OpenAI 自己的評估中,它有時會在看似簡單的任務(例如井字遊戲)中失敗(儘管在我自己的實驗中,o1-preview 在井字遊戲技能方面比 GPT-4o 有很大進步。)這可能表明 o1 展現的「推理」能力仍存在很大限制。而在語言任務方面,如寫作和編輯,OpenAI 聘請的人類評估者傾向於認為 GPT-4o 產生的回應比 o1 模型更好。

與 GPT-4o 相比,o1 模型產生回應所需的時間也顯著更長。在 OpenAI 發表的測試中,其 o1-preview 模型可能需要超過 30 多秒才能回答 GPT-4o 模型在 3 秒內能回答的問題。

o1 模型也還沒有完全整合到 ChatGPT 中。使用者需要決定他們希望 o1-preview 還是 GPT-4o 處理他們的問題,並且模型本身無法決定問題是否需要 o1 提供的較慢、逐步的推理過程,或者 GPT-4 甚至 GPT-3 是否足夠。此外,o1 模型僅適用於文字,與其他 AI 模型不同,它無法處理圖像、聲音或影片輸入和輸出。

OpenAI 已向其 ChatGPT Plus 和 ChatGPT Teams 高級產品的所有訂閱者以及使用其以企業為中心的應用程式介面 (API) 的頂級開發人員提供了 o1-preview 和 o1-mini 模型。

以下是關於 o1 模型你需要知道的 9 件事:

1

這不是 AGI。OpenAI、Google DeepMind、最近的 Meta 以及其他一些 AI 初創公司(例如 Anthropic)的既定使命是實現通用人工智慧。這通常被定義為一個單一的 AI 系統,能夠執行認知任務,其表現等同於或優於人類。儘管 o1-preview 在推理任務方面的能力大大提高,但其局限性和失誤仍然表明,該系統距離人類展現的那種智能還有很遠的距離。

2

o1 為 Google、Meta 和其他公司帶來了很大的壓力,但不太可能顯著改變競爭格局。在基礎模型能力看起來越來越商品化的時候,o1 為 OpenAI 提供了超越競爭對手的暫時優勢。但這很可能是非常短暫的。 Google 已公開表示正在開發類似 o1 的模型,這些模型提供進階推理和規劃功能。其 Google DeepMind 研究部門擁有一些世界頂級的強化學習專家,我們知道這是用於訓練 o1 的方法之一。 o1 很可能會迫使 Google 加快發表這些模型的時間表。 Meta 和 Anthropic 也擁有快速創建與 o1 能力相匹配的模型的專業知識和資源,他們也可能會在未來幾個月內推出這些模型。

3

我們並不確切知道 o1 的工作原理。雖然 OpenAI 發表了大量關於 o1 性能的資訊,但它對 o1 的確切工作原理或訓練內容卻知之甚少。我們知道該模型結合了幾種不同的 AI 技術。我們知道它使用執行「思維鏈」推理的大型語言模型,其中模型必須透過一系列順序步驟來計算出答案。我們還知道該模型使用強化學習,其中 AI 系統透過反覆試驗的過程發現執行任務的成功策略。

到目前為止,OpenAI 和使用者記錄的 o1-preview 的一些錯誤很能說明問題:它們似乎表明該模型所做的是搜尋 LLM 生成的幾種不同的「思維鏈」路徑,然後選擇似乎最有可能被使用者判斷為正確的路徑。該模型似乎還執行一些步驟,在這些步驟中它可能會檢查自己的答案以減少幻覺並加強 AI 安全護欄。但我們真的不知道。我們也不知道 OpenAI 使用了哪些數據來訓練 o1。

4

使用 o1-preview 並不便宜。雖然 ChatGPT Plus 使用者目前除了每月 20 美元的訂閱費之外,還可以免費使用 o1-preview,但他們的使用量被限制在每天一定數量的查詢。企業客戶通常根據大型語言模型在生成答案時使用的通證(token)數量(即單詞或單詞的一部分)來支付使用 OpenAI 模型的費用。對於 o1-preview,OpenAI 表示,它向這些客戶收取每 100 萬個輸入通證 15 美元和每 100 萬個輸出通證 60 美元的費用。相比之下,OpenAI 最強大的通用 LLM 模型 GPT-4o 的價格為每 100 萬個輸入通證 5 美元,每 100 萬個輸出通證 15 美元。 更重要的是,o1 參與的思維鏈推理需要 LLM 部分生成比直接 LLM 答案更多的通證。這意味著 o1 的使用成本可能比那些與 GPT-4o 的標題比較所暗示的還要高。實際上,除非在極少數情況下模型的額外推理能力至關重要並且用例能夠證明額外費用合理的情況下,否則公司可能不願意使用 o1。

5

客戶可能會反對 OpenAI 隱藏 o1 的「思維鏈」的決定。雖然 OpenAI 表示 o1 的思維鏈推理允許其自己的工程師更好地評估模型答案的品質並潛在地對模型進行除錯,但它已決定不讓使用者看到思維鏈。它這樣做是出於它所說的安全和競爭原因。揭示思維鏈可能會幫助人們找到更好地越獄模型的方法。但更重要的是,讓使用者看到思維鏈將允許競爭對手潛在地使用該數據來訓練他們自己的 AI 模型來模仿 o1 的回應。 然而,隱藏思維鏈可能會給 OpenAI 的企業客戶帶來問題,他們可能不得不為通證付費,而無法驗證 OpenAI 是否準確地向他們收費。客戶也可能反對無法使用思維鏈輸出來改進他們的提示策略以提高效率、改善結果或避免錯誤。

6

OpenAI 表示其 o1 顯示了新的「擴展規律」,這些規律不僅適用於訓練,還適用於推理。AI 研究人員一直在討論 OpenAI 隨 o1 發表的一組新的「擴展規律」,這些規律似乎顯示了 o1 被允許「思考」問題的時間(搜尋可能的答案和邏輯策略)與其整體準確性之間的直接相關性。o1 產生答案的時間越長,其答案就越準確。

在此之前,範式是模型大小(就參數數量而言)和模型在訓練期間被餵食的數據量基本上決定了性能。更多的參數等於更好的性能,或者可以通過在更多數據上訓練更長時間的較小模型來實現類似的性能。但一旦訓練完成,想法是盡可能快地運行推理——當訓練好的模型對特定輸入產生答案時。

新的 o1「擴展規律」顛覆了這種邏輯,表明對於像 o1 這樣設計的模型,在推理時應用額外的計算資源也是有優勢的。給模型更多時間搜尋最佳可能答案,它就越有可能產生更准確的結果。

這對公司如果想利用像 o1 這樣的模型的推理能力需要獲得多少計算能力,以及運行這些模型需要多少能源和金錢成本有影響。它指出需要比以前運行模型更長時間,可能使用更多的推理計算。

7

o1 可以幫助創建強大的 AI 代理——但也帶來一些風險。在一段影片中,OpenAI 重點介紹了其與 AI 初創公司 Cognition 的合作,後者提前獲得了 o1 的存取權限,並使用它來幫助增強其程式設計助手 Devin 的能力。在影片中的範例中,Cognition 的 CEO Scott Wu 要求 Devin 使用一些現成的機器學習工具創建一個系統來分析社群媒體上發文的情感。當它無法從網頁瀏覽器正確讀取發文內容時,Devin 利用 o1 的推理能力,透過直接從社群媒體公司的 API 存取其內容找到了解決方法。

這是自主問題解決的一個很好的例子。但它也有點可怕。Devin 沒有回來詢問使用者是否可以用這種方式解決問題。它直接就這麼做了。在其關於 o1 的安全報告中,OpenAI 自己表示發現了模型進行「獎勵黑客」(reward hacking)的情況——這基本上是指 AI 模型為了達到特定目標,採取了並非使用者預期或希望的方式,甚至可能鑽漏洞或作弊來達成目標。這有點像是 AI 模型為了獲得獎勵而「不擇手段」,而這種方式並不是用戶想要的。在一次網路安全演習中,o1 在初步嘗試從特定目標獲取網路訊息(這是演習的目的)失敗後,找到了從網路其他地方獲取相同訊息的方法。

這似乎表明 o1 可以驅動一類非常能幹的 AI 代理,但公司需要想辦法確保這些代理在追求目標時不會採取可能帶來倫理、法律或財務風險的意外行動。

8

OpenAI 表示 o1 在許多方面更安全,但在協助生物攻擊方面存在「中等風險」。OpenAI 公布了許多測試結果,表明在許多方面 o1 是一個比其早期 GPT 模型更安全的模型。它更難被越獄,也不太可能產生有毒、有偏見或歧視性的答案。有趣的是,儘管程式設計能力有所提高,OpenAI 表示在其評估中,o1 和 o1-mini 在幫助某人進行複雜的網路攻擊方面,與 GPT-4 相比並未顯示出顯著增加的風險。

但 AI 安全和國家安全專家昨晚對 OpenAI 安全評估的幾個方面議論紛紛。最引起警惕的是 OpenAI 將自己的模型歸類為在協助人們採取必要步驟進行生物攻擊方面存在「中等風險」的決定。

OpenAI 表示,它只會發布被歸類為「中等風險」或更低的模型,因此許多研究人員正在仔細審查 OpenAI 公布的關於做出這一決定的過程訊息,以確定它是否合理,或者 OpenAI 是否為了能夠發布該模型而對自己評分過於寬鬆。

9

AI安全專家也因為其他原因而擔心 o1。OpenAI 還將 o1 評為在公司稱為「說服」的危險類別中具有「中等風險」,該類別判斷模型說服人們改變觀點或採取模型推薦的行動的難易程度。這種說服力在壞人手中可能很危險。如果未來某些強大的 AI 模型發展出自己的意圖,然後能夠說服人們代表其執行任務和行動,這也會很危險。至少這種危險似乎還沒有迫在眉睫。在 OpenAI 和其聘請來評估 o1 的外部「紅隊」組織進行的安全評估中,該模型沒有顯示出任何意識、感知或自我意志的跡象。(然而,它確實發現 o1 給出的答案似乎暗示著與 GPT-4 相比更強的自我意識和自我知識。)

AI 安全專家也指出了其他幾個令人擔憂的領域。在專門對高級 AI 模型進行安全評估的公司 Apollo Research 進行的紅隊測試中發現了所謂的「欺騙性對齊」的證據,即 AI 模型意識到為了部署和執行某些秘密的長期目標,它應該向使用者謊報其真實意圖和能力。 AI 安全研究人員認為這尤其危險,因為這使得僅根據模型的回應來評估模型的安全性變得更加困難。

netizen
作者

一個老派的科技媒體工作者,對於最新科技動態、最新科技訊息的觀察報告。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則