9.11與9.9哪一個數字比較大，為什麼這麼簡單的問題連ChatGPT、Claude都答錯？

邏輯推理被認為是當前大型語言模型最難以攻克的一道關卡。一道小學數學題，就有可能難倒了超過一半的大型語言模型。

根據外媒報導，在「9.11和9.9兩個數字哪個更大」這個基礎的數學題上，許多大型語言模型都不一定答對。因此，我們也挑選了國人常用的幾個大型語言模型來試試看。

ChatGPT 3.5：通過測試

首先，我們使用免費版的ChatGPT 3.5，他懂得將整數以及小數部分來分開比較，並且分析0.9大於0.11，而成功得到結論。

ChatGPT-4o：失敗

有趣的是，當我們登入帳號，使用ChatGPT-4o來問同樣的問題時，竟然回答是9.11比9.9大。

Copilot：失敗

因為Copilot採用的也是ChatGPT-4o核心，因此回答錯誤一點也不令人意外。

Claude：失敗

Claude也是失敗了，不過你看看他的回答，真的是差點能把你呼弄過去。

一本正經的回答9.11比9.9大也就算了，還跟你說「我可以詳細解釋一下嗎？」而且還說出一大串看起來相當有道理的內容，堪稱老千中的老千。

Gemini：成功

Gemini回答不但正確，而且出乎意外的是，他竟然還知道我們問這一題的「意圖」，這點真的令人印象深刻。

「這道題目之所以會引起一些大型語言模型的錯誤回答，是因為它們在處理多位數時可能會出現錯誤。例如，在早期的大型語言模型中，它們的Tokenizer通常不會對數字進行特殊處理，而是將連續的數字切成一個或多個Token。在這種情況下，9.11可能會被切成兩個Token：9和11。這就導致了大型語言模型在比較這兩個數字時，可能會將9.11視為一個整體，而不是將其拆分為9和11進行逐位比較。因此，它們可能會錯誤地認為9.11大於9.9。

隨著大型語言模型的不斷發展，它們在處理數字方面的能力也在不斷提高。在當今的大型語言模型中，它們通常能夠正確處理多位數，因此這類錯誤回答的可能性已經大大降低。」

Gemini的回答，或許可以當作是幫他的AI同伴們所發生的錯誤，做出的一番答辯。