ADVERTISEMENT
微軟和Google正在搜尋引擎領域拿刀互砍,Meta冷不防拋出一篇新論文,頓時吸引所有人目光: 瞄準ChatGPT的「弱點」,讓大語言模型自行學會了使用工具!
🎉 New paper 🎉 Introducing the Toolformer, a language model that teaches itself to use various tools in a self-supervised way. This significantly improves zero-shot performance and enables it to outperform much larger models.
— Timo Schick (@timo_schick) February 10, 2023
🔗 Link: https://t.co/FvjzhysMze pic.twitter.com/sBSGaQIABI
簡單來說,基於Meta的這個思考方式,ChatGPT這些大語言模型可以缺什麼補什麼:
不會算數,就自己掏出計算機來計算;需要最新資訊,就自己連接搜尋引擎搜尋資料……
這感覺就像是AI自己操作自己的那個感覺?
論文一出,不少AI研究者就將其視作「過去幾周裡最重要的論文」。
My thoughts on Toolformer
— Jay Hack (@mathemagic1an) February 12, 2023
IMO the most important paper in the past few weeks.https://t.co/4IDciigbkc
Teach an LLM to use tools, like a calculator or search engine, in a *self-supervised manner*
Interesting hack to resolve many blind spots of current LLMs
Here's how 👇 pic.twitter.com/zXveKAfQDa
自學工具用法的大語言模型
這一回,Meta為這個會使用工具的語言模型起名Toolformer。 Toolformer的核心邏輯,總結下來很簡單,就是:
專業的任務交給專業的工具來做。
在產生文字的過程中,遇到特定的任務,Toolformer會直接呼叫所需工具的API。
例如說,在執行這個任務:1400名參與者,有400人通過了測試,占多大比例?(為了讓ChatGPT掌握數學運算,OpenAI可沒少下功夫)
Toolformer絲毫不慌,直接「拿出」計算機,現場計算得出結果:29%。
又或者說,想要備註事情,只知道是週五,但確實是哪天還不知道? 沒關係,翻出日曆查一下就好了。
甚至翻譯任務也可以直接丟給它,各國語言都能夠辨識並翻譯,直接省去了在軟體切換語言的工夫。
除了這些工具之外,Toolformer還能夠呼叫Q&A以及搜尋引擎等工具。
這時,就已經有網友開始想: 現在,ChatGPT版Bing能幫你比較酒店價格,那未來有了Toolformer,預定性價比高的酒店豈不是也可以丟給AI去做了。
不過話說回來,Toolformer面對不同的任務都能行雲流水般地呼叫對應的工具,它是怎麼做到的呢? 一言以蔽之,Toolformer經過訓練,能夠在產生的文字中插入API呼叫,直接將任務外包出去。
在這其中,訓練的過程是以自監督的方式完成的。這意味著無需大量人類標注好的資料,Toolformer只需要少量示範就能學會呼叫API。具體來說,先給Toolformer提供少量已經手動標注好的例子,然後讓語言模型在實踐中產生一個更大的包含示例的資料集。
這個過程主要分成三步:
首先是取樣,通俗點講就是看輸入的文字提示中,哪個地方需要使用哪種工具,然後直接將「呼叫的API」插入到對應的地方;
其次是執行,執行上一步的「呼叫API」任務,將產生的文字直接插入進去;
最後是過濾,上一步中工具產生的文字如果對輸入文字來說用處不大的話,就可以直接pass掉,保留對文字有用的地方。
這樣一來,基於這些有用的資料集,Toolformer便可以對預先訓練好的大語言模型進行微調。
講了這麼多,Toolformer的真實效果到底如何,有沒有一個橫向的資料對比?
論文將Toolformer和多個其他大語言模型,包括GPT-J,OPT(66B)以及GPT-3(175B)進行了對比,比較了它們在數學、Q&A以及機器翻譯等方面的能力。
結果顯示,在學習使用工具後,GPT-J的零樣本學習性能的到了顯著的提高。
並且在大多數任務上性能都有明顯提高,在一些下游任務中Toolformer甚至已經超過了GPT-3。
「未來大語言模型發展的重要分支」
說到這裡,不知道你怎麼看這件事。有不少網友是已經按捺不住,想著去拔AI電源了。
而引發更多討論的,是這樣一種觀點:Toolformer可能是未來LLM(大語言模型)發展的一個重要分支。
大語言模型進化出使用工具的能力,知道應該在何時、使用何種工具來實現需求,也就意味著許多在今天還需要人類和AI協作完成的工作,未來AI都能自己搞定了。
比如現在還多少有些「人工智障」的語音助手,如果背後有ChatGPT+Toolformer的技術能力支撐,那麼從挑選符合需求的餐廳,到直接訂座,這一系列動作都可以被順暢地串聯起來。
又比如微軟的Bing搜尋接入ChatGPT。如果這些大語言模型能充分呼叫各種API、使用UI,那它不僅能幫人們完成搜尋,還能完全改變人們操作網頁的方式——一切輸入都可以化簡為自然語言。
甚至,ChatGPT這樣的模型,借助各種API重寫自己的程式碼,也將成為可能。
事實上,讓AI掌握工具的使用方法這個研究方向,也並不只有Meta在做。
例如Google即將嵌入到搜尋中的Bard,背後模型LaMDA就內建了一套工具箱,包括計算機、翻譯器和連結搜尋引擎獲取外部資訊的介面。
還有開源專案LangChain,也致力於將大語言模型與外部的運算、知識來源相結合,以開發真正可用的應用程式。
而現在,Meta又使大模型對工具的使用「熟練度」、「自主性」,更上一層樓。
不過,也有網友指出,Toolformer所展現出的「自學」能力,還是一個初級、「狹義」的版本。
這些模型本身仍然是純粹的函數:給定相同的輸入(包括採樣時的隨機值),它將總是產生相同的輸出。
有點像是在說,一個大語言模型能學會將特定領域的語言作為其自然語言的一部分,以此納入來自外部工具的知識。
One More Thing
Meta新論文炸場,還挑動了人類的「反思」神經。
不過,新鮮梗圖已經出爐:
人類在沉迷,而機器在學習。
論文連結:
參考連結:
- https://twitter.com/timo_schick/status/1624058382142345216
- https://twitter.com/mathemagic1an/status/1624870248221663232
- https://twitter.com/Tisoga/status/1624543837745192960
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!