人工智慧的「智商」迷思：為什麼 IQ 並非衡量 AI 能力的標準？

近期，OpenAI 執行長 Sam Altman 在一次新聞發布會上表示，他觀察到人工智慧的「智商」在過去幾年快速提升。他甚至以非科學的方式比喻，感覺每年人工智慧的智商都提高了一個標準差。然而，許多專家學者卻認為，用人類的智商來衡量人工智慧的能力，不僅會產生誤導，也並非一個準確的評估標準。

智商測試的侷限性

牛津大學研究科技與監管的學者 Sandra Wachter 指出，用人類的標準來描述人工智慧的能力，就像是拿蘋果跟橘子比較一樣，兩者本質上就不同。智商測試是評估人類智力的一種相對標準，而非客觀標準。雖然智商測試在邏輯和抽象推理方面具有一定的參考價值，但它無法測量實用智力，也無法完整呈現人類智力的複雜性。

Wachter 認為，智商測試是基於科學家對人類智力的理解而設計的，但人工智慧的能力卻不能用同樣的方式來描述。就像汽車比人類快、潛水艇比人類潛水能力強，但這並不代表它們超越了人類智慧。將人類智力的某個面向與人類的整體表現進行比較，會忽略人類智力的複雜度。

智商測試的歷史與爭議

智商測試的起源可以追溯到優生學，這是一種備受爭議的科學理論，認為可以透過選擇性繁殖來提高人類智商。智商測試不僅需要受測者具備良好的工作記憶能力，還需要了解西方文化規範，這使得智商測試容易產生偏見。也因此，有心理學家將智商測試稱為「意識形態敗壞的智力機械模型」。

華盛頓大學研究人工智慧倫理的博士候選人 Os Keyes 認為，人工智慧在智商測試中表現出色，更多的是反映了測試本身的缺陷，而不是人工智慧的能力。Keyes 認為，如果擁有無限的記憶力和耐心，智商測試很容易就能刷分。早在數位電腦發明之前，我們就已經知道智商測試是一種非常有限的認知、智商和智力衡量方式。

人工智慧在智商測試中的優勢

人工智慧在智商測試中可能具有不公平的優勢，因為它們擁有海量記憶體和內化知識。人工智慧通常在公共網路資料上進行訓練，而網路上有許多從智商測試中擷取的例題。倫敦國王學院的人工智慧研究員 Mike Cook 表示，智商測試經常重複相似的模式，而人工智慧可以透過大量練習來提高分數。Cook 認為，人類在學習時，不會像人工智慧一樣將資訊清晰地輸入大腦數百萬次，也不可能在沒有雜訊或訊號損失的情況下處理資訊。

歸根結底，智商測試是為人類設計的，旨在評估一般問題解決能力。對於解決問題方式與人類截然不同的技術來說，這些測試並不適用。Cook 認為，就像烏鴉可以使用工具從盒子裡找到食物，但這並不代表它可以進入哈佛大學學習。人類在解決問題時，大腦需要處理更多的事情，例如正確閱讀文字、思考回家路上的事情等。換句話說，人類大腦在解決問題時，需要處理更多干擾因素，並且比人工智慧得到的幫助要少得多。

AI Now 研究所的首席人工智慧科學家 Heidy Khlaaf 認為，這一切都表明我們需要更好的人工智慧測試方式。在歷史上我們從未將機器的計算能力與人類的計算能力進行比較，因為計算的本質意味著系統總是能夠完成超出人類能力的任務。我們直接將系統效能與人類能力進行比較的想法是最近才出現的現象，這種現象備受爭議，也是圍繞著不斷擴大和移動的基準所產生的爭議來評估人工智慧系統。