ADVERTISEMENT
OpenAI宮斗大戲剛剛落幕,馬上又掀起另一場軒然大波!路透社曝光,在阿特曼被解僱之前,幾位研究人員給董事會寫的警告信可能是整個事件導火線:內部名為Q *(發音為Q-Star)的下一代AI模型,過於強大和先進,可能會威脅人類。Q*正是由這場風暴的中心人物,首席科學家Ilya Sutskever主導。
人們迅速把阿特曼此前在APEC峰會上的發言連在了一起:
「OpenAI歷史上已經有過四次,最近一次就是在過去幾週,當我們推開無知之幕並抵達探索發現的前沿時,我就在房間裡,這是職業生涯中的最高榮譽。」
ADVERTISEMENT
Q*可能有以下幾個核心特性,被認為是通往AGI或超級智慧的關鍵一步。
- 突破人類資料的限制,可以自己生產巨量訓練資料
- 有自主學習和自我改進的能力
這則消息迅速引發了巨大討論,馬斯克也帶著連結來追問。
ADVERTISEMENT
好像一夜之間,人們都從研究阿特曼和OpenAI董事會的專家,變成了Q*專家。
Q*的前身:GPT-Zero
根據來自The Information的最新消息,Q*的前身是GPT-Zero,這個項目由Ilya Sutskever發起,名字致敬了DeepMind的Alpha-Zero。
Alpha-Zero無需學習人類棋譜,透過自己跟自己博弈來掌握下圍棋。GPT-Zero讓下一代AI模型不用依賴Internet上抓取的文字或圖片等真實世界資料,而是使用合成資料訓練。
ADVERTISEMENT
2021年,GPT-Zero正式立項,此後並未有太多直接相關的消息傳出。但就在幾週前,Ilya在一次訪談中提到:「不談太多細節,我只想說資料限制是可以被克服的,進步仍將繼續。」
在GPT-Zero的基礎上,由Jakub Pachocki和Szymon Sidor開發出了Q*。
ADVERTISEMENT
兩人都是OpenAI早期成員,也都是第一批宣佈要跟著阿特曼去微軟的成員。
Jakub Pachocki上個月剛剛晉陞研究總監,過去很多突破包括Dota 2項目和GPT-4的預訓練,他都是核心貢獻者。
Szymon Sidor同樣參與過Dota 2項目,個人簡介是「正在造AGI,一行程式碼接一行程式碼」。
在路透社的消息中,提到給Q*提供龐大的計算資源,能夠解決某些數學問題。雖然目前數學能力僅達到小學水平,但讓研究者對未來的成功非常樂觀。
另外還提到了OpenAI成立了「AI科學家」新團隊,由早期的「Code Gen」和「Math Gen」兩個團隊合併而來,正在探索最佳化提高AI的推理能力,並最終開展科學探索。
Q*到底是什麼?業界的三種猜測
關於Q*到底是什麼沒有更具體的消息傳出,但一些人從名字猜測可能與Q-Learning有關。
Q-Learning可以追溯到1989年,是一種無模型強化學習演算法,不需要對環境建模,即使對帶有隨機因素的轉移函數或者獎勵函數也無需特別改動就可以適應。與其他強化學習演算法相比,Q-Learning專注於學習每個狀態-行動對的價值,以決定哪個動作在長期會帶來最大的回報,而不是直接學習行動策略本身。
第二種猜測是與OpenAI在5月發佈的透過「過程監督」而不是「結果監督」解決數學問題有關。
但這一研究成果的貢獻列表中並未出現Jakub Pachocki和Szymon Sidor的名字。
另外有人猜測,7月份加入OpenAI的「德州撲克AI之父」Noam Brown也可能與這個項目有關。
他在加入時曾表示要把過去只適用於遊戲的方法通用化,推理可能會慢1000被成本也更高,但可能發現新藥物或證明數學猜想。
符合傳言中「需要巨大計算資源」和「能解決一定數學問題」的描述。
雖然更多的都還是猜測,但合成資料和強化學習是否能把AI帶到下一個階段,已經成了業內討論最多的話題之一。
NVIDIA科學家范麟熙認為,合成資料將提供上兆高品質的訓練token,關鍵問題是如何保持品質並避免過早陷入瓶頸。
馬斯克同意這個看法,並提到人類所寫的每一本書只需一個硬碟就能裝下,合成資料將遠遠超出這個規模。
但圖靈獎三巨頭中的LeCun認為,更多合成資料只是權宜之計,最終還是需要讓AI像人類或動物一樣只需極少資料就能學習。
萊斯大學博士Cameron R. Wolfe表示,Q-Learning可能並不是解鎖AGI的秘訣。
但將「合成資料」與「資料高效的強化學習演算法」相結合,可能正是推進當前人工智慧研究範式的關鍵。
他表示,透過強化學習微調是訓練高性能大型語言模型(如ChatGPT/GPT-4)的秘訣。但強化學習本質上資料低效,使用人工手動標註資料集進行強化學習微調非常昂貴。考慮到這一點,推進AI研究(至少在當前範式中)將嚴重依賴於兩個基本目標:
- 讓強化學習在更少資料下表現更好。
- 儘可能使用大型語言模型和少量人工標註資料合成生成高品質資料。
……如果我們堅持使用Decoder-only Transformer的預測下一個token範式(即預訓練 -> SFT -> RLHF)……這兩種方法結合將使每個人都可以使用尖端的訓練技術,而不僅僅是擁有大量資金的研究團隊!
One More Thing
OpenAI內部目前還沒有人對Q*的消息發表回應。
但阿特曼剛剛透露與留在董事會的Quora創始人Adam D’Angelo進行了幾個小時的友好談話。
看來無論Adam D’Angelo是否像大家猜測的那樣是這次事件的幕後黑手,現在都達成和解了。
參考連結:
- [1]https://www.theinformation.com/articles/openai-made-an-ai-breakthrough-before-altman-firing-stoking-excitement-and-concern
- [2]https://www.reuters.com/technology/sam-altmans-ouster-openai-was-precipitated-by-letter-board-about-ai-breakthrough-2023-11-22/
- [3]https://www.youtube.com/watch?v=ZFFvqRemDv8
- [4]https://www.youtube.com/watch?v=Ft0gTO2K85A
- [5]https://x.com/cwolferesearch/status/1727727148859797600
- [6]https://twitter.com/DrJimFan/status/1727505774514180188
- 延伸閱讀:趁OpenAI內亂,對手推出Claude 2.1版再升級:一次可消化20萬個token
- 延伸閱讀:OpenAI政變結束、微軟內部備忘錄曝光,外媒質疑微軟要讓Altman過來的「先進AI研究部門」是否真的存在?
- 延伸閱讀:Altman「被離職」的原因還是個謎:曾有OpenAI研究人員致信董事會,警告AI模型“Q*”恐會危及人類
ADVERTISEMENT