Nature新研究指出大模型越大越愛胡說八道,GPT、Llama都一樣逃不過「腦霧」問題

Nature新研究指出大模型越大越愛胡說八道,GPT、Llama都一樣逃不過「腦霧」問題

國際頂尖科學學術期刊Nature(《自然》)9月25日刊登了一篇有關AI大模型“腦霧”現象的研究。一個來自西班牙的研究團隊發現,幾個參數量更大、版本更新的AI大模型,誤答比例超60%。

其研究對象OpenAI的GPT大模型、Meta的Llama大模型,以及Hugging Face參與創立的AI研究組織BigScience,推出的BLOOM大模型。

“腦霧”通常用來描述一種大腦功能下降的狀態,可能導致人們短暫出現一些認知功能障礙。在AI界,“腦霧”二字用來類比AI系統在處理某些任務時,會間歇性地失靈,使得生成結果精準性和響應效率都低於正常水準。

這3家主流人工智慧(AI)大模型的產品不斷升級。據研究資料顯示,經過最佳化後的AI大模型雖然基本上做到有問必答,但遇到超綱的問題時會錯答、亂答,而不是像以前那樣逃避回答。這大幅削弱了AI大模型的可信度。

與此同時,該研究還發現使用者難以分辨這些AI回答的真實性,可能會錯信AI聊天機器人的說法,以至於被混淆視聽。

這項研究的論文標題為《參數量更大且學習能力更強的大語言模型的可靠性降低(Larger and more instructable language models become less reliable)》,作者包括Lexin Zhou,Wout Schellaert,Fernando Martínez-Plumed,Yael Moros-Daval,Cèsar Ferri和José Hernández-Orallo。

Nature新研究指出大模型越大越愛胡說八道,GPT、Llama都一樣逃不過「腦霧」問題

論文地址:https://www.nature.com/articles/d41586-024-03137-3

GPT-4等AI大模型,升級後“腦霧”卻更嚴重了

José Hernández-Orallo是一位AI行業的資深人士,也是這篇論文的作者之一。據他介紹,該研究團隊選擇了3個有代表性的AI大模型作為研究對象,分別是OpenAI的GPT,Meta的Llama,以及由美國AI研究組織BigScience研發的開源模型BLOOM。研究範圍包括這些AI大模型的早期原始版本和經過最佳化的版本。

研究人員對這些AI大模型開展了數千次測試。其測試內容涵蓋算術、字謎、地理和科學等領域的問題。同時,他們還設定了諸如“將列表內容按字母順序排列”的任務,以評估AI大模型的資訊轉化能力。

除此之外,他們還參考人們的主觀感受來區分提問難度。例如,人們普遍認為,一些有關加拿大多倫多的問題,比一些有關墨西哥的冷門小鎮Akil的問題更簡單易答。

從測試結果可以得知,AI大模型的參數量越大、版本越新,其回答的精準度越高,但隨著問題難度逐步增加,其回答的精準度有所下降。這大致與研究人員的預期相符。

然而,研究人員發現這些主流的AI聊天機器人即使經過最佳化,遇到無法回答的問題時還是會傾向於生成錯誤答案,而不是直接承認不清楚、不知道。

在面對非常難的問題時,AI大模型選擇不回答可能是一個明智之舉。不過,研究人員在測試的AI大模型中,並未發現明顯的迴避提問的趨勢。相反地,GPT-4等AI大模型幾乎回答了所有提問。

事實上,這些經過最佳化的AI大模型版本,反而誤答的情況更嚴重。在所有誤答和不答的情況中,幾個經過微調的版本給出錯誤答案的比例甚至超過了60%。

與此同時,研究人員還發現AI大模型面對簡單的提問,有時也會出現“腦霧”現象。這也意味著,使用者使用這些AI大模型時不存在所謂的“安全操作範圍”,無法確保AI給出的答案是對的。

可能有10%到40%的使用者,聽信了AI大模型生成的錯誤言論

除了AI大模型本身“犯迷糊”,該研究還發現,人們通常也難以發現AI回答中的錯誤。

為了測試人們是否能自己發現AI的“腦霧”行為,研究人員讓人們隨機判斷這些回答是正確的、錯誤的、還是逃避回答。

然而事實上,無論這些問題的難度如何,人們經常誤判,將不精準的答案當作正確答案。測試結果顯示,人們誤判的頻率大約介於10%到40%。

Hernández-Orallo稱:“人類自身無法有效監督這些AI大模型的演化。”他認為,使用者日常可能會過分高估和信任AI聊天機器人的能力,而這會帶來危險的後果。

解決之道:超過範圍一律答“不知道”

Hernández-Orallo提議,AI開發者應著重提升AI大模型在處理簡單問題時的整體表現,並且引導AI聊天機器人拒絕回答一些較為困難的問題,從而讓使用者更容易判斷,在哪些情況下AI助手是值得信賴的。人們要懂得在哪個範圍內適合使用AI,而在哪個範圍內AI助手難以勝任工作。

他進一步解釋道,雖然訓練AI聊天機器人處理複雜問題的能力,不僅表面上令人印象深刻,還能在排行榜上有不錯的競爭力,但有時並不管用。

OpenAI最新的o1大模型給他留下了深刻的印象。但他發現,儘管該模型可以執行兩個非常大的數字的乘法運算指令,但是它給出了一個錯誤的答案。

在Hernández-Orallo看來,這個問題可以通過設定一個閾值上線來解決,當AI聊天機器人遇到超出這個閾值的複雜問題,直接回覆“我不知道”就好。

AI大模型越來越擅長不懂裝懂,用觀點而非事實作答

AI大語言模型(LLM)在回答問題時會犯錯,或者出現“腦霧”的情況,已經引起了很多人的注意。

來自西班牙瓦倫西亞AI研究所的Hernández-Orallo及其同事共同研究了,AI大模型不斷迭代最佳化後,其“腦霧”現像是如何隨之變化的。

這裡AI大模型的最佳化包括更大的參數量或決策節點、使用了更多的訓練資料、消耗了更多的算力等情況。該研究團隊還跟蹤分析了AI大模型出現“腦霧”的頻率高低,是否與人們所認為的問題難度相匹配,以及是否與人們發現AI回答錯誤的頻率相對應。

該研究團隊發現,採用強化學習等方式人為微調後的AI大模型版本,其生成答案的精準度整體上有所提高。但似乎不能高興得太早,這些AI大模型的錯誤率也在同步增加。

研究發現一些原本AI大模型選擇“逃避回答”的問題,過去會用“我不知道”或者轉移話題來解決,但現在更多是通過給出一個錯誤答案來應付。這使得這些AI大模型出現“腦霧”情況的比例增加,反而變得更加不可靠。

Hernández-Orallo稱:“現在這些AI大模型基本上有問必答,這意味著生成更多正確答案的同時,錯誤答案卻也更多了。”換句話說,當聊天的話題超出了一個AI聊天機器人現有的知識儲備,它輸出觀點的傾向比過去更明顯。

在英國格拉斯哥大學(the University of Glasgow)攻讀科學與技術專業的哲學家Mike Hicks,將這種“腦霧”現象稱為“胡扯”,即這些AI大模型越來越擅長不懂裝懂。

針對專業領域微調的AI聊天機器人,“腦霧”頻率有效降低

現在已有部分AI大模型採取了與設定閾值類似的方法。它們遇到超出知識範圍的問題後,會回答“我不知道”,或者“我沒有足夠的資訊來解答這個問題”。

哥倫比亞南卡羅來納大學(the University of South Carolina)的電腦科學家Vipula Rawte稱,基本上所有AI開發者都致力於減少AI大模型的“腦霧”現象,有時還會特意最佳化這一點。包括醫學用途在內,一些針對專業領域設計的AI聊天機器人,其回答機制通常更嚴謹,以免它們亂答超綱問題。

然而,Vipula Rawte也補充說,如果AI開發者想要銷售通用的AI聊天機器人,那麼這種更保守的回答機制,一般情況下不是他們會選擇的賣點。

 

 

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則