Hyena可達到與 GPT-4 同等的準確性,但使用的算力少 100 倍

Hyena可達到與 GPT-4 同等的準確性,但使用的算力少 100 倍

ADVERTISEMENT

名為 Hyena(意為「鬣狗」)的新型技術,可達到與 GPT-4 同等的準確性,但使用的算力比後者減少了 100 倍。 

儘管 Open AI 推出的人工智慧聊天機器人 ChatGPT 及其最新一代人工智慧語言模型 GPT-4 引起了全球範圍內的轟動,但說到底,這些語言模型只是軟體應用程式。與所有應用程式一樣,它們也有技術限制。 

今年 3 月,史丹佛大學(Stanford University)和加拿大 MILA 人工智慧研究所(MILA institute for AI)的人工智慧科學家聯合發表了一篇論文,並提出了一種新技術(Hyena)。此項技術甚至比 GPT-4 或任何類似 AI 技術都要高效,它可以吸收大量資料並將其轉化為使用者想要的答案。 

這項被稱為 Hyena 的技術只使用其一小部分運算能力,就能夠在問答等基準測試中達到與 GPT-4 同等的準確性。在某些情況下,Hyena 能夠處理大量的文本,而 GPT-4 每次最多只能處理不超過 25000 個單詞。 

Hyena可達到與 GPT-4 同等的準確性,但使用的算力少 100 倍

谷歌的科學家 Ashish Vaswani 和他的同事於 2017 年發表了一篇名為《Attention Is All You Need》(《注意力就是你的全部所需》)的論文,它在人工智慧研究領域具有里程碑的意義。該論文對 Transformer 模型(一種神經網路結構)作了十分詳細的介紹,一個基於 Transformer 的可訓練的神經網路可以透過堆疊 Transformer 的形式進行搭建,擅長處理語言理解任務,所需運算能力更少。作者在論文中寫道:「基於十億參數級模型的運行結果顯示,注意力可能並不是我們所需要的全部。」Transformer 潛力巨大,目前已成為了許多大型語言模型的基礎,比如 ChatGPT。 

但是 Transformer 神經網路模型有一個很大的缺陷,當它處理大量的輸入資訊時需要借鑒人腦的「注意力機制」,即只選擇一些關鍵資訊輸入進行處理,以此提高神經網路的效率。 

這種注意力機制具有「二次型運算複雜性」,其時間和儲存複雜度在序列長度上屬於二次型,處理長文本序列的能力很差,這種內在缺陷是包括 ChatGPT 和 GPT-4 在內的所有大型語言程式都具備的。這種二次複雜性意味著 ChatGPT 產生答案所需的時間會隨著輸入資料量的增多而增加。 

在某種程度上,如果提示內容輸入過多,要嘛程式無法提供答案,要嘛它必須具備足夠的運算能力才能滿足運行需求,進而導致人工智慧聊天機器人運算需求激增。 

在 the arXiv pre-print server(由美國國家科學基金會和美國能源部資助,在美國洛斯阿拉莫斯國家實驗室建立的免費電子預印本文獻庫)上發表的新論文《Hyena 層次結構:邁向更大的卷積語言模型》(Towards Larger Convolutional Language Models')中,史丹佛大學的主要作者 Michael Poli 和他的同事建議使用「次二次函數」,即 Hyena 來取代 Transformer 的注意力函數。 

作者並沒有解釋「Hyena」的名字由來,但人們大致可以想像出各種緣由。Hyena,又譯為「鬣狗」,它是一種生活在非洲的動物,可以捕獵數英里。從某種意義上說,一個非常強大的語言模型可以像鬣狗一樣,為了尋找「答案」而處理數以萬計的文本內容。 

但正如標題所示,作者真正關心的是「等級制度」。鬣狗家族有一個嚴格的等級制度,一般來說鬣狗女王最高貴,其次是幼崽,地位最低的是雄性鬣狗。鬣狗女王領導並且支配著整個族群,享有最高的地位,這樣的「等級制度」確立了鬣狗女王的統治地位。正如你將看到的那樣,Hyena 程式會以某種類似的方式一次又一次地應用一系列非常簡單的操作,將它們結合起來形成一種資料處理的層次結構。正因為如此才給這個程式起名「Hyena」。 

這篇論文的特約作者有眾多來自人工智慧領域的傑出人士,比如加拿大 MILA 人工智慧研究所的科學主任約書亞·班吉歐(Yoshua Bengio),他是 2019 年圖靈獎(相當於電腦領域的諾貝爾獎)的獲得者。早在 Vaswani 及其團隊將注意力機制應用於 Transformer 之前,班吉歐就因開發了注意力機制而廣受讚譽。史丹佛大學電腦科學副教授 Christopher Ré 也是作者之一,他近年來幫助推動了人工智慧作為「軟體 2.0」的概念。 

為了找到注意力機制「二次型運算複雜性」的替代方案,Poli 及其團隊開始研究注意力機制是如何發揮作用的。 

人工智慧科學領域最近的一項被稱為機械可解釋性(mechanistic interpretability)的實踐研究正在深入瞭解神經網路內部結構,即注意力機制是如何運作的。你可以把它想像成拆開一台電腦,看看它的各個元件部分,並弄清楚它是如何工作的。 

波利及其團隊引用的是人工智慧初創公司 Anthropic 的研究員尼爾森·艾爾哈格(Nelson Elhage)的一系列實驗,這些實驗對 Transformer 的演算法結構進行了全域分析,從根本上理清了 Transformer 在處理和生成文本時的工作內容是什麼,並深入探究了其背後注意力機制的工作原理。 

從本質上講,艾爾哈格和他的團隊發現,注意力在最基本的層面上是通過非常簡單的電腦操作來發揮作用的。假設給定一個輸入,「Teacher Judy is so busy……because Teacher X…」,X 指向「Judy」。注意力機制就是查看上下文中的最後一個單詞「Teacher」,並在上下文中搜索與最後一個單詞相關聯的特定單詞,再將這個關聯單詞作為模型輸出。 

再例如,如果一個人在 ChatGPT 中輸入《哈利波特與魔法石》(Harry Potter and the Sorcerer's Stone)中的一句話,比如「Mr. Dursley was the director of a firm called Grunnings…」,那麼只要輸入「D-u-r-s」,這個名字的開頭,可能就足以提示程式完成「Dursley」這個名字,因為它在《哈利波特與魔法石》這本書中看到過這個名字。系統能夠從記憶中複製字元「l-e-y」的記錄來自動完成句子的輸出。 

然而,隨著單詞數量的增多,注意力機制會遇到二次複雜性問題。更多的文本需要更多的「權重」或參數來運行。 

正如作者所寫:「Transformer 塊是序列建模的強大工具,但它並非沒有局限性。其中最值得注意的是運算成本,隨著輸入序列內容長度的增加,運算成本會迅速增長。」 

雖然 OpenAI 尚未披露 ChatGPT 和 GPT-4 的技術細節,但據悉它們可能有一兆或更多這樣的參數。運行這些參數需要更多的 GPU 晶片,進而增加了運算成本。 

為了降低二次運算成本,Poli 和團隊用所謂的「卷積模型」替代了注意力機制,這是人工智慧程式中最古老的運算模型之一,早在 20 世紀 80 年代就進行了改進。卷積模型等同於一個篩檢程式,可以從資料中挑選出專案,無論是圖片像素還是文本格式均支援。 

Poli 和他的團隊做了一種混合研究,即將史丹佛大學研究員 Daniel Y. Fu 及其團隊所做的工作與阿姆斯特丹自由大學的學者 David Romero 及其同事的研究結合起來,讓該程式可以動態改變濾波器大小。這種靈活適應的能力減少了程式需要的參數或權重的數量。

Hyena 模型是卷積篩檢程式的組合,每一個卷積層中使用的篩檢程式中的參數都是一樣的。它們彼此建立在一起,而不會引起神經網路參數的大量增加。

 

卷積模型可以應用於無限量的文本,而不需要越來越多的參數來保證程式的運行。正如作者所說,這是一種「不需要集中注意力」的方法。

 Poli 及其團隊寫道:「Hyena 能夠顯著縮小與注意力機制的差距,以較小的算力預算來解決同等的困惑。」 

為了證明 Hyena 的能力,作者根據一系列基準測試了該程式,這些基準決定了一個語言程式在各種人工智慧任務中的表現。 

其中一個測試是 The Pile,這是一個由非營利人工智慧研究機構 Eleuther.ai 在 2020 年收集的包含有 825 GiB 的開來源語言建模資料集。這些文本是由 22 個較小的高品質資料集組合而成的,比如 PubMed、arXiv、GitHub、美國專利局等,相比其他資料集更專業。 

該程式面臨的主要挑戰是,當輸入一堆新句子時,如何生成一個新單詞。研究人員寫道,從 2018 年開始,在運算運行操作減少 20% 的前提下,Hyena 能夠達到與 OpenAI 原始 GPT 程式相當的準確性。它是第一個與 GPT 品質相匹配的無注意力機制的卷積模型。 

Hyena可達到與 GPT-4 同等的準確性,但使用的算力少 100 倍

接下來,作者在被稱為 SuperGLUE 的推理任務上測試了該程式,該任務是 2019 年由紐約大學、Facebook 人工智慧研究、穀歌 DeepMind 部門和華盛頓大學的學者共同推出的。 

例如,當給定「我的身體在草地上投下陰影」這個假設,並給出造成這一現象的兩種原因:「太陽升起來了」或「草被割了」,並要求程式選擇其中一種合理原因時,其會將「太陽升起來了」作為輸出文本。 

在處理多工時,Hyena 模型的得分達到了或接近 GPT 版本的分數,然而其使用的訓練資料不及 GPT 的一半。更有趣的是,當作者想試試增加輸入字串長度時會有何變化,結果發現:字元越多,其表現就越好,所需時間就越少。 

Poli 和團隊認為,他們不僅對 Hyena 嘗試了不同的方法,還解決了二次運算複雜性的難題,使程式運算結果的難度發生了質的變化。 

他們認為,在未來的道路上,打破二次運算障礙是邁向深度學習的關鍵一步,例如使用整本教科書作為上下文提示,來創作長段音樂或處理十億像素級圖像。 

作者寫道,Hyena 能夠使用一個可以更有效地擴展成千上萬個單詞的篩檢程式,這意味著查詢語言程式的上下文實際上沒有限制,它甚至可以回憶起文本或先前對話的內容。 

他們提出,Hyena 不受人為限制,並且可以學習「輸入提示」中的任何元素。此外,除了文字,該程式還可以應用於不同形式的資料,例如圖像,也許還有視頻和聲音。 

值得注意的是,與 GPT-4 甚至 GPT-3 相比,論文中顯示的 Hyena 程式規模較小。GPT-3 有 1750 億個參數或權重,而 Hyena 最多只有 13 億個參數。因此,Hyena 在與 GPT-3 或 GPT-4 進行全面比較時的表現還有待觀察。 

但如果 Hyena 程式在更大規模層面的應用上也被證明是高效的話,這一程式會廣泛流行開的——媲美注意力機制在這過去十年中所達到的那種流行程度。 

正如 Poli 及其團隊總結的那樣:「更簡單的二次模型,如 Hyena,基於一套簡單的指導原則和機械可解釋性基準,將可以成為大型高效語言模型的基礎。」

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則