GPT-5 來了？OpenAI 加快訓練多模態大型語言模型 Gobi，打算一舉狙殺 Google Gemini！

據外媒爆料，OpenAI 的全新多模態模型 Gobi 似乎已經在籌備中。Google 和 OpenAI 的這場對決，似乎已是箭在弦上了。

隨著今年秋天的臨近，Google 和 OpenAI 的多模態模型之戰，也進入到白熱化階段。就在上週，Google 已經對一些外部公司開放了多模態大型語言模型 Gemini 的功能。

而 OpenAI，當然不會坐以待斃。他們正在爭分奪秒地把多模態功能整合進 GPT-4 里，爭取推出功能與 Gemini 類似的多模態大型語言模型，一舉擊殺 Google。

傳說中的多模態功能，在今年 3 月 OpenAI 那場震驚全世界的 GPT-4 發佈會上，已經被展示過 :在紙上畫個草圖，拍個照發給 GPT-4，說一聲「給我按照這種佈局做個網站」，馬上就寫出了網頁程式碼。

不過隨後，多模態模型彷彿曇花一現，再也沒人見過產品化的實體功能。

對戰 Google，OpenAI 搶發多模態大型語言模型

面對傳聞中 Google 要擊殺自己的這款大殺器，OpenAI 當然不會無動於衷。

據外媒 The Information 爆料，一款名為 Gobi 的全新多模態大型語言模型，已經在緊鑼密鼓地籌備了。OpenAI 計畫，在 Gemini 發佈之前就推出多模態 LLM，徹底擊敗Google。

▲ OpenAI 的 Greg Brockman vs Google的 Demis Hassabis

其實，在 3 月份推出 GPT-4 多模態功能的預覽後，OpenAI 已經向一家名為 Be My Eyes 的公司推出了這項功能，但並沒有向其他公司提供。從名字就可以看出來，這家公司在研發讓盲人或視力不佳人群看得更清楚的技術。最近，OpenAI 打算更廣泛地推出名為 GPT-Vision 的功能。

OpenAI 為什麼花了這麼長時間？最主要的原因，是他們擔心新的視覺功能會被不法分子利用，比如通過自動破解驗證碼來冒充人類，或者通過臉部辨識來追蹤人類。

不過，對於這些法律上的安全風險，OpenAI 的工程師們似乎已經解決了。同樣，一位 Google 發言人也表示：「Google 已經採取了一些措施，防止 Gemini 被濫用」。

Gobi 能成為 GPT-5 嗎？

在 GPT-Vision 之後，OpenAI 有可能會推出更強大的多模態大型語言模型，代號為 Gobi。跟 GPT-4 不同，Gobi 從一開始就是按多模態模型建構的。

所以，Gobi 就是傳說中的 GPT-5 嗎？

現在，我們還無法知曉。Gobi 訓練到哪一步了，也沒有確切消息。

在 9 月初，DeepMind 聯合創始人、現 Inflection AI 的 CEO Mustafa Suleyman，在受訪時放出一枚重磅炸彈 —— 據他猜測，OpenAI 正在秘密訓練 GPT-5。

Suleyman 認為，Sam Altman 最近說過他們沒有訓練 GPT-5，可能沒有說實話。（原話是：Come on. I don't know. I think it's better that we're all just straight about it.）

根據試用過 Gemini 的人士表示，Gemini 產生的錯誤，會比現有的模型都更少。總之，Google和 OpenAI 的這場多模態模型大戰，可以說是 AI 版的 iPhone 和 Android 對決。一個是稱霸 AI 領域多年的矽谷巨頭，一個是風頭無兩的頂流 AI 新創公司，二者差距很大，但是大家都還在等待一個對決的結果。

Google 秘密測試 Gemini

另一邊，Google 也在開始邀請部分外部開發者加急測試，即將推出的下一代多模態大型語言模型 Gemini。上週，The Information 獨家報導稱，Gemini 可能很快準備好進行測試發布，並會內建到像 Google Cloud Vertex AI 等服務中。

在今年的 Google I / O 開發者大會上，曾公開介紹 Gemini，是一個多模態模型、高效內建工具、API。為了合力幹大事，Google 還將 Google 大腦，與 DeepMind 實驗室進行了合併。

據稱，至少有 20 多位高層參與了 Gemini 的研發，DeepMind 的創始人 Demis Hassabis 領導，Google 創始人 Sergey Brin 參與研發。

還有 Google DeepMind 組成的數百名員工，其中包括前 Google 大腦主管 Jeff Dean 等等。

一位測試過的人士說，Gemini 至少在一個方面比 GPT-4 有優勢：除了網路上的公開資訊外，該模型還利用了大量 Google 消費產品（搜尋、Youtube）的專有資料。

因此，Gemini 在理解使用者對特定查詢的意圖時應該特別精準，而且它產生的錯誤答案(幻覺)，似乎更少。

據此前 SemiAnalysis 分析師的爆料，Google 的下一代大型語言模型 Gemini，已經開始在新的 TPUv5 Pod 上進行訓練，算力高達~1e26 FLOPS，比訓練 GPT-4 的算力還要大 5 倍。

另外，Gemini 的訓練資料庫包含 Youtube 上 936 億分鐘的視訊字幕，總資料集規模約為 GPT-4 的兩倍。

據稱，Google 下一代大型語言模型也是由多種規模組成，可能使用了 MoE 架構，以及投機採樣技術。通過小模型提前生成 token 並傳遞給大型語言模型進行評估，以提高模型的總體推理速度。

Google DeepMind 的負責人 Hassabis 在採訪中曾表示，Gemini 預計花費數千萬到數億美元，與開發 GPT-4 的成本相當。

Gemini 會整合 AlphaGo 中使用的技術，這將賦予系統全新的規劃、解決問題的能力。

可以這麼說，Gemini 把 AlphaGo 系統的一些優勢，和大型語言模型驚人的語言能力結合在一起了。並且，我們還有一些其他有趣的創新。

AlphaGo 背後的技術，就是強化學習，這是 DeepMind 首創的技術。

RL 代理隨著時間的推移與環境互動，通過反覆試驗來學習策略，從而最大限度地提高長期累積獎勵。

通過強化學習，AI 能夠通過反覆嘗試和接受反饋來調整自己的表現，因而學會處理很棘手的問題，比如在圍棋或電子遊戲中選擇如何採取下一步行動。

另外，AlphaGo 還使用了 MCTS 搜尋方法，來探索和記住棋盤上所有可能的動作。

與現有模型相比，Gemini 將大大提高軟體開發人員的程式碼生成能力，Google 希望用它來追趕微軟的 GitHub Copilot 程式碼助手。

Google 內部還討論了，使用 Gemini 來實現圖表分析等功能，比如要求模型解釋完成圖表的含義，以及使用文字或語音指令來瀏覽網頁瀏覽器或其他軟體。

Google 雲開發者平台 Google Cloud Vertex AI 也將得到 Gemini 加持，大小版本都有，這樣開發人員就可以付費購買小模型在個人裝置上運行。

現在，Google 已經在全力備戰，就等著 Gemini 開啟逆襲之路。

gpt-3.5-turbo-instruct 發佈

7 月，OpenAI 曾公佈 GPT-4 API 全面開放使用，並且在接下來幾個月要推出新模型。

就在今天，網友紛紛收到了 gpt-3.5-turbo-instruct 新模型發佈的郵件，以代替舊模型 text-davinci-003。

據介紹，gpt-3.5-turbo-instruct 是一個 InstructGPT 風格的模型，其訓練方式與 text-davinci-003 類似。

使用方法和以前的 Prompt-Completion 類似，根據提示詞的指令補全。

就價格來說，gpt-3.5-turbo 4K 保持一致。

有網友已經開始用上了最新模型，去玩 1800 Elo 左右的西洋棋。而他此前還發現 GPT 根本做不到這一點，但現在看來這只是 RLHF 聊天模型的問題，純 Completion 模型就成功了。

在對弈中，gpt-3.5-turbo-instruct 輕鬆擊敗了 Stockfish 4 級（1700 分），在 5 級（2000 分）的比賽中仍不落下風。

它從不走非法棋步，使用巧妙的開局犧牲，以及令人難以置信的戰術將國王逼入絕境。

網友用的是如下 PGN 風格的提示來模擬大師級遊戲。GPT 自己走棋，他手動輸入了 Stockfish 的棋步。

最後順帶一提，OpenAI 即將在 11 月召開的首屆開發者大會，已經開始註冊了，趕快加緊腳步申請吧。

參考資料：

FB 建議貼文