9.11與9.9哪一個數字比較大,為什麼這麼簡單的問題連ChatGPT、Claude都答錯?

9.11與9.9哪一個數字比較大,為什麼這麼簡單的問題連ChatGPT、Claude都答錯?

邏輯推理被認為是當前大型語言模型最難以攻克的一道關卡。一道小學數學題,就有可能難倒了超過一半的大型語言模型。

根據外媒報導,在「9.11和9.9兩個數字哪個更大」這個基礎的數學題上,許多大型語言模型都不一定答對。因此,我們也挑選了國人常用的幾個大型語言模型來試試看。

ChatGPT 3.5:通過測試

首先,我們使用免費版的ChatGPT 3.5,他懂得將整數以及小數部分來分開比較,並且分析0.9大於0.11,而成功得到結論。

9.11與9.9哪一個數字比較大,為什麼這麼簡單的問題連ChatGPT、Claude都答錯?

ChatGPT-4o:失敗

有趣的是,當我們登入帳號,使用ChatGPT-4o來問同樣的問題時,竟然回答是9.11比9.9大。

9.11與9.9哪一個數字比較大,為什麼這麼簡單的問題連ChatGPT、Claude都答錯?

Copilot:失敗

因為Copilot採用的也是ChatGPT-4o核心,因此回答錯誤一點也不令人意外。

9.11與9.9哪一個數字比較大,為什麼這麼簡單的問題連ChatGPT、Claude都答錯?

Claude:失敗

Claude也是失敗了,不過你看看他的回答,真的是差點能把你呼弄過去。

一本正經的回答9.11比9.9大也就算了,還跟你說「我可以詳細解釋一下嗎?」而且還說出一大串看起來相當有道理的內容,堪稱老千中的老千。

9.11與9.9哪一個數字比較大,為什麼這麼簡單的問題連ChatGPT、Claude都答錯?

Gemini:成功

Gemini回答不但正確,而且出乎意外的是,他竟然還知道我們問這一題的「意圖」,這點真的令人印象深刻。

9.11與9.9哪一個數字比較大,為什麼這麼簡單的問題連ChatGPT、Claude都答錯?

「這道題目之所以會引起一些大型語言模型的錯誤回答,是因為它們在處理多位數時可能會出現錯誤。例如,在早期的大型語言模型中,它們的Tokenizer通常不會對數字進行特殊處理,而是將連續的數字切成一個或多個Token。在這種情況下,9.11可能會被切成兩個Token:9和11。這就導致了大型語言模型在比較這兩個數字時,可能會將9.11視為一個整體,而不是將其拆分為9和11進行逐位比較。因此,它們可能會錯誤地認為9.11大於9.9。

隨著大型語言模型的不斷發展,它們在處理數字方面的能力也在不斷提高。在當今的大型語言模型中,它們通常能夠正確處理多位數,因此這類錯誤回答的可能性已經大大降低。」

Gemini的回答,或許可以當作是幫他的AI同伴們所發生的錯誤,做出的一番答辯。

 

 

 

janus
作者

PC home雜誌、T客邦產業編輯,曾為多家科技雜誌撰寫專題文章,主要負責作業系統、軟體、電商、資安、A以及大數據、IT領域的取材以及報導,以及軟體相關教學報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則