OpenAI發佈兩款全新推理模型o1、o1 mini,揭開Strawberry的神秘面紗、擁有類似人類思考的事實查核能力

OpenAI發佈兩款全新推理模型o1、o1 mini,揭開Strawberry的神秘面紗、擁有類似人類思考的事實查核能力

先前OpenAI傳聞已久的的「Strawberry」(草莓)專案正式亮相,OpenAI 正式發佈名為 o1 的新模型,這是計畫中的一系列"推理"模型中的第一個,這些模型經過訓練,可以比人類更快地回答更複雜的問題。它將與 o1-mini 同時發佈,後者是一個更小、更便宜的版本。

對於 OpenAI 來說,o1 代表著它向類人人工智慧的更廣泛目標邁進了一步。更實際的是,它在編寫程式碼和解決多步驟問題方面比以前的模型做得更好。但與GPT-4o 相比,它的成本更高,速度更慢。OpenAI 將這次發佈的 o1 稱為"預覽版",以強調它的雛形。

ChatGPT Plus 和 Team 使用者從今天開始可以訪問 o1-preview 和 o1-mini,而 Enterprise 和 Edu 使用者將在下周初訪問。開發者訪問 o1 的費用非常 昂貴:在 API 中,o1-preview 每 100 萬個輸入令牌(即模型解析的文字塊)收費 15 美元,每 100 萬個輸出令牌收費 60 美元。相比之下,GPT-4o 的價格為每 100 萬個輸入詞組 5 美元,每 100 萬個輸出詞組 15 美元。

OpenAI的研究負責人傑里-特沃瑞克(Jerry Tworek)告訴我,o1背後的訓練與前代產品有本質區別,不過公司對具體細節含糊其辭。他說,o1"採用了全新的最佳化演算法和專門為其定製的新訓練資料集"。

OpenAI發佈兩款全新推理模型o1、o1 mini,揭開Strawberry的神秘面紗、擁有類似人類思考的事實查核能力

OpenAI 正在培訓以前的 GPT 模型模仿訓練資料中的模式。在使用 o1 時,OpenAI 利用一種名為"強化學習"的技術訓練模型自行解決問題,該技術通過獎懲來教導系統。然後,它使用"思維鏈"來處理查詢,這與人類逐步解決問題的方式類似。

OpenAI 表示,由於採用了這種新的訓練方法,模型應該會更加精準。"我們注意到,這個模型產生幻覺的情況減少了,"Tworek 說。但問題依然存在。"我們不能說我們解決了幻覺問題"。這個新模型與 GPT-4o 不同之處主要在於,它能比前代模型更好地處理複雜問題,如編碼和數學問題,同時還能解釋自己的推理。

OpenAI的首席研究長鮑勃-麥格魯(Bob McGrew)表示:"這個模型在解決AP數學考試方面絕對比我強,而我在大學輔修的是數學。他說,OpenAI 還用國際數學奧林匹克競賽的資格考試對 o1 進行了測試,GPT-4o 只正確解決了 13% 的問題,而 o1 則達到了 83%。"

我們不能說我們解決了幻覺問題

在被稱為"Codeforces"的線上程式競賽中,這種新模型在參賽者中的排名達到了第89位,OpenAI聲稱,這種模型的下一個更新版本將在"物理、化學和生物學領域具有挑戰性的基準任務中取得與博士生類似的表現"。

同時,o1 在很多方面的能力都不如 GPT-4o。它在對世界的實際瞭解方面做得不夠好。它也不具備瀏覽網頁或處理檔案和圖像的能力。儘管如此,該公司仍認為它代表了一種全新的能力。它被命名為 o1,表示"將計數器重設回 1"。

麥克格魯說:"老實說,我認為我們在傳統命名方面做得很糟糕。所以我希望這是我們邁出的第一步,我們會用更新、更理智的名字,更好地向世界其他地方傳達我們正在做的事情。"

McGrew 和 Tworek 本週通過視訊通話展示了o1。他們要求它解決這個難題:"當公主的年齡是王子年齡的兩倍時,公主的年齡就是王子年齡的兩倍。王子和公主的年齡是多少?請提供該問題的所有答案"。

模型運算了 30 秒鐘,然後給出了正確答案。OpenAI 設計的介面可以在模型思考時顯示推理步驟。讓我印象深刻的並不是它展示了自己的工作--GPT-4o 可以在提示下做到這一點--而是 o1 是如何刻意模仿人類的思維。諸如"我很好奇"、"我正在思考"和"好的,讓我看看"這樣的句子營造出一種循序漸進的思考假象。

但這個模型不會思考,更不是人類。那麼,為什麼要把它設計得像人一樣呢?

"我很好奇"、"我正在思考"、"好的,讓我看看"等短語會讓人產生一種循序漸進的思考錯覺。

Tworek 認為,OpenAI 並不相信人工智慧模型的思維等同於人類思維。但他說,該介面旨在展示模型如何花更多時間處理和深入解決問題。"在某些方面,它比之前的模型更有人情味"。

麥克格魯說:"我想你會發現,它有很多讓人感覺有點陌生的地方,但也有讓人感覺出奇人性化的地方。該模型處理查詢的時間有限,因此它可能會說:哦,我沒時間了,讓我快點找到答案吧。早期,在它的思維鏈中,它也可能看起來像是在腦力激盪,並會說:我可以做這個或那個,我該怎麼做?"

大型語言模型並不完全智慧。它們本質上只是根據從大量資料中學到的模式來預測單詞序列以提供答案。就拿 ChatGPT 來說,它往往會誤認為"草莓"這個詞只有兩個 R,因為它沒有正確地分解這個詞。不過,新的 o1 模型已經可以正確地回答這個問題。

據報導,OpenAI希望以令人瞠目的1500億美元估值籌集更多資金,其發展勢頭取決於更多的研究突破。該公司之所以將推理能力引入 LLM,是因為它看到了自主系統或代理的未來,它們能夠代表你做出決策並採取行動。

對於人工智慧研究人員來說,破解推理是邁向人類智慧水平的重要一步。他們的想法是,如果一個模型不僅能進行模式識別,還能在醫學和工程學等領域實現突破。但目前,o1 的推理能力相對較慢,不像代理,開發人員使用起來也很昂貴。

麥格魯說:"我們已經花了好幾個月的時間來研究推理,因為我們認為這實際上是關鍵性的突破。從根本上說,這是模型的一種新模式,以便能夠解決真正困難的問題,從而向人類智慧的水準邁進。"

 

 

 

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則