下一代AI發展需要數萬TB訓練資料,能源也不夠,只有等待新的架構和硬體

下一代AI發展需要數萬TB訓練資料,能源也不夠,只有等待新的架構和硬體

ADVERTISEMENT

過去幾個月,對AI的炒作已經到了瘋狂的地步。像是特斯拉在一兩年內就要實現全自動駕駛了,AI明年將會變得比人類更聰明了,到 2040 年會有十億台AI機器人取代人類工人了,這些還只是伊隆‧馬斯克今年迄今為止對AI誇下的海口之一。整個AI圈都充斥著這樣的預測和承諾,給人感覺AI的發展已走上不可阻擋的指數軌跡曲線上,已經到了我們人類根本無法阻止的地步。但是事實並非如此。真要說,AI正開始觸碰到收益遞減的發展天花板,進而令這些誇張的承諾變成一張廢紙。下面我會解釋的。 

要想理解這個問題,我們得先瞭解一點AI的基本工作原理。現代AI運用的是深度學習演算法與人工神經網路,借此來發現資料當中的趨勢。然後,AI就可以根據這些資料推斷或沿著同一趨勢線生成新的資料。這首先需要「訓練」AI,將大量資料餵給它進行分析,讓它去發現這些趨勢。之後,你就可以拋問題給AI來獲得輸出。這個基本概念為電腦視覺、自動駕駛汽車、聊天機器人以及生成式AI提供了動力。這個解釋有點簡化了,但現在我們只需要瞭解這些就夠了。 

過去幾年,AI的能力有了顯著增強。這部分要歸功於有了更好的程式設計和演算法。但 90% 要歸功於用了更大的資料集對AI進行訓練。進而使得AI可以更準確地瞭解資料趨勢,進而更準確地生成結果。但有個問題:我們正目睹相對於所需的資料和算力,訓練AI帶來的回報正在急劇遞減。

我們先從資料講起。假設我們開發了一個簡單的電腦視覺AI,它可以辨識出狗和貓,我們已經用 100 張狗和貓的圖像和影片對其進行了訓練,它可以在 60% 的時間內正確辨識這些動物。如果我們將訓練的圖像和影片數量增加一倍,達到 200 個,其辨識率就會提高,但只能略微提高到 65% 左右。如果我們再次將訓練圖像和影片增加一倍,達到 400 個,那麼其改進將更加微乎其微,只能達到 67.5% 左右。 

這其中的部分原因在於,如果你手頭的資料集比較小時,相對於較大的資料集,在裡面加入一張新的訓練圖像,所提供的新資料會更多。不過,這也是因為AI處理小的資料集可以迅速建立新的連接與趨勢,因為它只需找到適用於幾個示例的趨勢即可。但隨著資料集的增長,找到對整個資料集都適用的新趨勢和連接變得越來越難。這些來自較更大資料集的新趨勢和連接讓AI變得更好、能力更強。因此,隨著訓練AI的收益遞減,我們看到將AI改進到一定程度所需要的訓練資料量急劇增加。 

但這裡面還有一個問題。訓練AI對算力的需求非常大。AI必須將每個單獨的資料點與資料集所有其他資料點進行比較,這樣才能找到它們的關聯和趨勢。這意味著,每往AI訓練資料庫加入一位資料,用這個資料庫訓練AI所需的運算工作量都會呈指數級增長。因此,就算你有能力獲取到訓練這些不斷改進的AI所需的大量資料,它所需的物理運算能力和能源最終也會增長到難以為繼的地步。

可悲的是,有證據表明,我們現在正處在這樣一個階段:一方面訓練資料集擴大帶硬剛性的上限。

就拿 OpenAI 的旗艦AI產品 ChatGPT4 來說吧,但它相對於 ChatGPT3 的改進要小於 ChatGPT3 相對於 ChatGPT2 的改進,儘管它的準確率提高了,但仍然存在跟 ChatGPT3 一樣的幻覺與缺乏理解的問題。雖說OpenAI 對自己的AI開發方式守口如瓶,但專家調查發現,ChatGPT3 使用的訓練資料集比 ChatGPT2 大了 78 倍,而ChatGPT4 所用的資料集比 ChatGPT3 要大 571 倍!可是,儘管訓練資料集的大小有了顯著提升, 但ChatGPT4 仍然存在重大缺陷,大大限制了它的使用場景。比方說,還是不能信任它能寫出任何以事實為基礎的東西,因為它仍然在編造事實。 

有人估計 ChatGPT4 的原始訓練資料集有 45 TB 的純文字。這意味著,下一次迭代要想取得 ChatGPT4 相對於 ChatGPT3 那樣的巨大進步,訓練資料集需要達數萬 TB 之巨 。即便採用OpenAI 存疑的方法,獲取和準備如此大量的純文字資料也很不切實際。然而,就算真用這個資料集來訓練AI也可能要消耗大量能源,大到這種成本令AI變得完全不可行的地步,那怕你是一家非營利組織也不可行。 

這麼說並不誇張。 OpenAI 首席執行長山姆‧阿特曼 (Sam Altman) 就曾公開表示,先進的AI要想變得可行,需要能源技術取得突破,比如核融合。可悲的是,就算我們確實實現了核融合,在本世紀乃至下世紀這種技術也不太可能比我們目前的能源便宜。事實上,任何形式的能源都不會比我們目前所擁有的能源便宜得多。因此,針對AI能源問題提出的解決方案具有很大的誤導性。 

這個觀點得到了一些非常嚴肅的研究的支持。麻塞諸塞大學阿默斯特分校曾做過一項研究,他們分析了將圖像辨識AI性能提高到準確率達 95% 以上所需的計算和能源成本。研究發現,訓練這樣一個模型將需要花費 1000 億美元,其所產生的碳排放量相當於紐約市一個月的碳排放量。請記住,這是針對仍有 5% 的時間會出現災難性錯誤的AI而言的。該研究還強調,將準確率提高到 99% 需要的成本和碳排放還會成倍增加。 

這就是為什麼特斯拉永遠不會用當前的方式開發全自動駕駛汽車的原因所在。他們的Autopilot和FSD只能透過這種AI電腦視覺來感知周圍的世界,而FSD要想實現全自動駕駛,其圖像辨識精度需要接近100%的準確度。正如那項研究所表明那樣,要想讓特斯拉的AI變得那麼好,其所需要的資金也許遠非特斯拉能負擔得起。 

換句話說,除非AI行業能夠找到一種更高效的方法來提高訓練AI以及計算負載的效率,否則就無法突破這個限制,然後AI的發展就將完全停滯。目前可能的解決方案即將出現,比方說結合了模擬與量子技術的更高效的AI硬體,以及需要訓練資料集個更小的新的AI架構。不過,這些概念仍處在起步階段,距離應用到現實世界可能還需要幾十年的時間。 

簡而言之,大家得有個心理準備,未來幾年AI的發展肯能會大幅低於預期。

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則