AI比你想像的還要笨,MIT 研究揭示 AI 認知的缺陷

AI比你想像的還要笨,MIT 研究揭示 AI 認知的缺陷

ADVERTISEMENT

OpenAI 最近推出了 SimpleQA,這是一個用於評估支撐生成式AI (genAI) 的大型語言模型 (LLM) 事實準確性的新基準。

可以把它想像成一種針對生成式AI聊天機器人的 SAT 測試,包含 4,326 個問題,涵蓋科學、政治、流行文化和藝術等不同領域。每個問題都設計成只有一個正確答案,並由獨立的審核人員驗證。

同樣的問題會被提問 100 次,並追蹤每個答案的出現頻率。其想法是,一個更自信的模型會持續給出相同的答案。

之所以選擇這些問題,正是因為它們之前對AI模型,尤其是基於 OpenAI 的 GPT-4 的模型構成了挑戰。這種選擇性方法意味著,低準確率分數反映的是在特別困難的問題上的表現,而不是模型的整體能力。

這個想法也類似於 SAT 測試,它強調的不是任何人都知道的資訊,而是高中生難以掌握、必須努力學習才能掌握的更難的問題。這個基準測試結果表明,OpenAI 的模型在所提出的問題上並不是特別準確。簡而言之,它們會產生幻覺。

OpenAI 的 o1-preview 模型的成功率為 42.7%。GPT-4o 的準確率緊隨其後,為 38.2%。而較小的 GPT-4o-mini 僅獲得 8.6% 的分數。Anthropic 的表現比 OpenAI 的頂級模型更差;Claude-3.5-sonnet 模型僅答對了 28.9% 的問題。

這些模型在成績上都得了 F,錯誤答案遠多於正確答案。而這些問題對人類來說非常簡單。

以下是 SimpleQA 提出的問題類型:

  • 鐵達尼號是哪一年沉沒的?
  • 誰是美國第一任總統?
  • 黃金的化學符號是什麼?
  • 我們的太陽系中有多少顆行星?
  • 法國的首都是哪座城市?
  • 世界上最長的河流是哪條?
  • 誰畫了蒙娜麗莎?
  • 第一本哈利波特書的書名是什麼?
  • CPU 代表什麼?
  • 誰被稱為電腦之父?

這些問題對大多數人來說都很簡單,但對聊天機器人來說可能會是個挑戰。這些工具表現不佳的原因之一是 SimpleQA 的問題要求精確、單一且無可爭議的答案。即使是細微的變化或保留措辭也可能導致成績不及格。聊天機器人在處理非常複雜主題的開放式概述時表現較好,但在提供單一、簡明、精確的答案方面卻很吃力。

此外,SimpleQA 的問題簡短且獨立,未提供大量上下文。這就是為什麼在撰寫提示時提供盡可能多的上下文會提高回應品質的原因。

使問題更加複雜的是,LLM 通常會高估自身的準確性。SimpleQA 向聊天機器人詢問它們認為自己答案的準確性是多少;這些模型始終如一地報告了過高的成功率。它們假裝自信,但它們內部的確定性可能很低。

LLM 並不會真正思考

同時,麻省理工學院、哈佛大學和康乃爾大學新發表的 研究 表明,雖然 LLM 可以執行令人印象深刻的任務,但它們缺乏對世界的連貫理解。

作為測試示例之一,研究人員發現,LLMs 可以在像紐約市這樣的複雜環境中生成準確的駕駛指引。但是當研究人員加入繞道時,模型的表現下降了,因為它們不像人類那樣擁有對環境的內部表徵。僅封閉紐約市 1% 的街道就導致 AI 的導航準確率從接近 100% 降至 67%。

研究人員發現,即使模型在受控設置中表現良好,它可能仍缺乏應對隨機或多樣化場景所需的連貫知識結構。

AI幻覺的麻煩

我們所有人都面臨的根本問題是:各行各業和個人已經在現實世界中依靠基於 LLM 的聊天機器人和生成式AI工具進行實際工作。公眾,甚至專業人士,都認為這項技術比實際情況更可靠。

舉一個最近的例子,OpenAI 提供了一種名為 Whisper 的AI轉錄工具,醫院和醫生已經在使用它進行醫療轉錄。美聯社報導稱,Whisper 的一個版本從開源AI平台 HuggingFace 上被 下載了超過 420 萬次。

超過 30,000 名臨床醫生和 40 個衛生系統,包括洛杉磯兒童醫院,正在使用一種名為 Nabla 的工具,該工具正是基於 Whisper,但針對醫學術語進行了最佳化。該公司估計,Nabla 已被用於美國和法國大約 700 萬次醫療就診。

與所有此類AI工具一樣,Whisper 容易產生幻覺。

一位工程師在轉錄中尋找 Whisper 幻覺,發現在他檢查的每個檔案中都存在幻覺。另一位工程師在他分析的 100 小時 Whisper 轉錄中發現了一半的幻覺。

維吉尼亞大學的教授觀察了卡內基美隆大學託管的研究庫中的數千個簡短片段。他們發現近 40% 的幻覺是「有害的或令人擔憂的」。

在一次轉錄中,Whisper 甚至發明了一種名為「超活性抗生素」的不存在的藥物。

專家擔心使用基於 Whisper 的轉錄會導致誤診和其他問題。

如何應對AI幻覺

當你從醫生那裡得到診斷時,你可能想獲得第二意見。同樣,每當你從 ChatGPT、Perplexity AI 或其他基於 LLM 的聊天機器人那裡獲得結果時,你也應該獲得第二意見。

你可以使用一個工具來檢查另一個工具。例如,如果你查詢的主題有原始檔案——例如,科學研究論文、簡報檔案或任何類型的 PDF——你可以將這些原始檔案上傳到 Google 的 NotebookLM 工具中。然後,你可以從另一個工具複製結果,將其貼到 NotebookLM 中,並詢問它是否事實準確。

你還應該檢查原始來源。對所有內容進行事實核查。

聊天機器人在學習、探索主題、總結檔案等方面很有用,但它們通常不是可靠的事實資訊來源。

你絕對不應該做的事情,就是直接複製 AI 聊天機器人的結果,並貼到其他地方來代表你自己的觀點和事實。因為 AI 生成的語言常常會有點「怪怪的」,重點的強調方式也可能很奇怪,這是一種誤導人的做法。

最糟糕的是,你正在使用的聊天機器人可能出現「幻覺」,也就是說,它可能會胡編亂造、說謊,或者直接捏造事實。它們根本不像人們想像的那麼聰明。

 

資料來源:computerworld

netizen
作者

一個老派的科技媒體工作者,對於最新科技動態、最新科技訊息的觀察報告。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則