ADVERTISEMENT
OpenAI 發布其首個「推理」人工智慧模型 o1 後不久,人們開始注意到一個奇怪的現象。該模型有時會開始用中文、波斯語或其他語言進行「思考」——即使被問到的是英語問題。
如果要解決一個問題,例如「『草莓』這個詞有幾個 R?」——o1 會開始「思考」,透過一系列推理步驟得出答案。如果問題是用英語寫的,那麼 o1 的最終回答也將是英語。但在得出結論之前,模型會用另一種語言執行一些步驟。
ADVERTISEMENT
用戶在 X 上的貼文 (舊稱推特) 中問道:「為什麼 [o1] 突然開始用中文思考?對話的任何部分(5 條以上訊息)都沒有使用中文。」
OpenAI 還沒有對 o1 的奇怪行為做出解釋,甚至也沒有承認。那麼這到底是怎麼回事呢?
事實上,人工智慧專家也不清楚。但他們有一些理論。
ADVERTISEMENT
包括 Hugging Face 執行長克萊門特·德朗格(Clément Delangue)在內的一些人在 X 上暗示,像 o1 這樣的推理模型是在包含大量漢字的資料集上訓練出來的。Google DeepMind 的研究員 Ted Xiao 聲稱,包括 OpenAI 在內的公司都使用第三方中文資料標註服務,o1 轉用中文是「中文語言對推理的影響」的一個例子。
「(像) OpenAI 和 Anthropic 這樣的實驗室利用第三方資料標籤服務來獲取科學、數學和程式碼方面的博士級推理資料,」肖在 X 上的一篇貼文中寫道。「由於專家勞動力的可用性和成本原因,這些資料提供商很多都在中國。」
標籤也稱為標記或註解,有助於模型在訓練過程中理解和解釋資料。例如,用於訓練圖像辨識模型的標籤可以是物體周圍的標記,也可以是對圖像中描述的每個人、地點或物體的說明。
ADVERTISEMENT
研究顯示,有偏差的標籤會產生有偏差的模型。例如,平均註解者更有可能將非裔美國人白話英語(AAVE)(一些美國黑人使用的非正式文法)中的片語標註為有毒,從而導致根據標籤訓練的人工智慧毒性檢測器將非裔美國人白話英語視為毒性過高。
不過,其他專家並不相信 o1 中文資料標籤的假設。他們指出,o1 同樣有可能在找出解決方案的過程中切換到印地語、泰語或中文以外的語言。
這些專家表示,o1 和其他推理模型可能只是使用他們認為最有效的語言來實現目標(或幻覺)。
ADVERTISEMENT
亞伯達大學的人工智慧研究員兼助理教授馬修·古茲迪爾(Matthew Guzdial)認為:「模型不知道語言是什麼,也不知道語言是不同的。對它來說,一切都只是文字。」
事實上,模型並不直接處理文字。它們使用符記來代替。符記可以是單字,如「fantastic」。也可以是音節,如「fan」、「tas」和「tic」。它們甚至可以是單字中的單個字元,如「f」、「a」、「n」、「t」、「a」、「s」、「t」、「i」、「c」。
與標註一樣,符記也會帶來偏差。例如,儘管並非所有語言都使用空格來分隔單字,但許多單字到符記的翻譯器會認為句子中的空格表示一個新單字。
人工智慧新創公司 Hugging Face 的軟體工程師王鐵真同意古茲迪爾的觀點,即推理模型的語言不一致性可能是由模型在訓練過程中產生的聯想造成的。
「例如,我更喜歡用中文做數學題,因為每個數字都只有一個音節,這樣計算起來既簡潔又高效。但當涉及到無意識偏見等話題時,我會自動切換到英語,主要是因為這是我最初學習和吸收這些觀點的地方。」
王的理論看似有理。畢竟,模型是一種機率機器。透過對許多例子的訓練,它們可以學習模式來進行預測,比如電子郵件中「給誰」通常會出現在「可能涉及」之前。
但非營利機構艾倫人工智慧研究所(Allen Institute for AI)的研究科學家盧卡·索爾達尼(Luca Soldaini)提醒說,我們還不能確定。「他表示,」由於這些模型的不透明性,這種對已部署的人工智慧系統的觀察是不可能得到證實的。」這就是為什麼人工智慧系統建構過程中的透明度至關重要的眾多案例之一。」
由於 OpenAI 沒有給出答案,我們只能思考為什麼 o1 會用法語思考歌曲,而用普通話思考合成生物學。
ADVERTISEMENT