人類用自己不理解的GPT-4,去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

人類用自己不理解的GPT-4,去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

ADVERTISEMENT

 

打開AI黑盒子這件事,可能還要靠AI自己來實現了。 

OpenAI的最新的研究做了一波大膽嘗試: 

讓GPT-4去解釋GPT-2的行為模式。

結果顯示,超過1000個神經元的解釋得分在0.8以上——也就是說GPT-4能理解這些神經元。 

人類用自己不理解的GPT-4,去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

 

要知道,「AI黑箱難題」長期以來是一個熱議話題,尤其是大語言模型領域,人類對其內部工作原理的理解還非常有限,這種「不透明化」也進一步引發了人類對AI的諸多擔憂。 

目前推進AI可解釋性研究的一個簡單辦法,就是逐個分析大模型中的神經元,手動檢查以確定它們各自所代表的資料特徵。 但對於規模已經達到百億、千億等級的大規模神經網路來說,工作量和工作難度已經是難以想像的。 因此,OpenAI的研究人員想到,為什麼不讓AI去自動化搞定這個大工程?

人類用自己不理解的GPT-4,去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

在這項最新的研究中,他們將GPT-4打造成了一個理解AI行為模式的工具,把GPT-2超過30萬個神經單元都解釋了一遍,並和實際情況比對進行評分。 

最終產生的解釋資料集和工具程式碼,已對外開源。 

研究人員表示:未來,這種AI工具可能在改善LLM性能上發揮巨大作用,比如減少AI偏見和有害輸出。 

解釋接近人類水準

具體來看,整個研究的步驟可以分為3個步驟。 

第一步,先給GPT-4一段文本,並展示GPT-2在理解這段文本時啟動的神經元情況。 

然後讓GPT-4來解釋,這段文本中神經元的啟動情況。

人類用自己不理解的GPT-4,去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

 

比如示例中給出了一段漫威複聯的文本,GPT-4分析的啟動神經元為: 

電影、角色和娛樂

第二步,讓GPT-4開始模擬,這些被解釋的神經元接下來會做什麼。 

GPT-4給出了一段內容。

人類用自己不理解的GPT-4,去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

 

第三步,讓GPT-2真實的神經元被啟動來產生結果,然後和GPT-4模擬的結果進行比對,研究人員會對此評分。

人類用自己不理解的GPT-4,去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

 

在部落格給出的示例中,GPT-4的得分為0.34. 

使用這個辦法,研究人員讓GPT-4解釋了GPT-2一共307200個神經元。 

OpenAI表示,使用這一基準,AI解釋的分數能接近人類水準。 

從總體結果來看,GPT-4在少數情況下的解釋得分很高,在0.8分以上。 

人類用自己不理解的GPT-4,去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

 

他們還發現,不同層神經元被啟動的情況,更高層的會更抽象。 

人類用自己不理解的GPT-4,去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

 

此外,團隊還總結了如下幾點結論: 

  • 如果讓GPT-4重複解釋,它的得分能更高
  • 如果使用更強大的模型來解釋,得分也會上升
  • 用不同的啟動函數訓練模型,能提高解釋分數

總結來看就是,雖然GPT-4目前的表現一般,但是這個方法和想法的提升空間還有很大。 團隊也強調,現在在GPT-2上的表現都不太好,如果換成更大、更複雜的模型,表現也會比較堪憂。 

同時這種模式也能適用於聯網的LLM,研究人員認為可以透過簡單調整,來弄清楚神經元如何決策搜尋內容和造訪的網站。此外他們還表示,在創建這個解釋系統時並沒有考慮商業化問題,理論上除了GPT-4,其他LLM也能實現類似效果。 

接下來,他們打算解決研究中的這幾個問題: 

  • AI神經元行為十分複雜,但GPT-4給的解釋非常簡單,所以有些複雜行為還無法解釋;
  • 希望最終自動找到並解釋複雜的整個神經回路,神經元和注意力一起工作;
  • 目前只解釋了神經元的行為,但沒解釋行為背後的機制;
  • 整個過程算力消耗巨大。

網友:快轉到AI創造AI

意料之中,這項研究馬上在網路上引發熱議。 

大家的馬上聯想到:「AI教人類理解AI。」

人類用自己不理解的GPT-4,去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

 

「AI教人類關掉AI中存在風險的神經元。」 

人類用自己不理解的GPT-4,去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

還有人開始暢想,AI理解AI會快速發展為AI訓練AI(已經開始了),然後再過不久就是AI創造新的AI了。

人類用自己不理解的GPT-4,去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

 

當然這也引發了不少擔憂,畢竟GPT-4本身也還是個黑盒子啊。 

人類拿著自己不理解的東西,讓它解釋另一個自己不理解的東西,這個風險……

人類用自己不理解的GPT-4,去解釋自己同樣搞不懂的GPT-2在理解文本時30萬個神經元啟動的情況

 

這項研究由OpenAI負責校準的團隊提出。 

他們表示,這部分工作是他們對齊研究的第三大支柱的一部分: 

我們想要實現自動化對齊。這種想法一個值得思考的方面是,它可能隨著AI的發展而擴展更多。隨著未來AI模型變得越來越智慧,我們也能找到對AI更好的解釋。

論文地址:

資料來源:

Qbitai
作者

量子位(Qbitai)專注於人工智慧及前沿科技領域,提供技術研發趨勢、科技企業動態、新創公司報道等最新資訊,以及機器學習入門資源、電腦科學最新研究論文、開源程式碼和工具的相關報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則