邏輯推理被認為是當前大型語言模型最難以攻克的一道關卡。一道小學數學題,就有可能難倒了超過一半的大型語言模型。
根據外媒報導,在「9.11和9.9兩個數字哪個更大」這個基礎的數學題上,許多大型語言模型都不一定答對。因此,我們也挑選了國人常用的幾個大型語言模型來試試看。
ChatGPT 3.5:通過測試
首先,我們使用免費版的ChatGPT 3.5,他懂得將整數以及小數部分來分開比較,並且分析0.9大於0.11,而成功得到結論。
ChatGPT-4o:失敗
有趣的是,當我們登入帳號,使用ChatGPT-4o來問同樣的問題時,竟然回答是9.11比9.9大。
Copilot:失敗
因為Copilot採用的也是ChatGPT-4o核心,因此回答錯誤一點也不令人意外。
Claude:失敗
Claude也是失敗了,不過你看看他的回答,真的是差點能把你呼弄過去。
一本正經的回答9.11比9.9大也就算了,還跟你說「我可以詳細解釋一下嗎?」而且還說出一大串看起來相當有道理的內容,堪稱老千中的老千。
Gemini:成功
Gemini回答不但正確,而且出乎意外的是,他竟然還知道我們問這一題的「意圖」,這點真的令人印象深刻。
「這道題目之所以會引起一些大型語言模型的錯誤回答,是因為它們在處理多位數時可能會出現錯誤。例如,在早期的大型語言模型中,它們的Tokenizer通常不會對數字進行特殊處理,而是將連續的數字切成一個或多個Token。在這種情況下,9.11可能會被切成兩個Token:9和11。這就導致了大型語言模型在比較這兩個數字時,可能會將9.11視為一個整體,而不是將其拆分為9和11進行逐位比較。因此,它們可能會錯誤地認為9.11大於9.9。
隨著大型語言模型的不斷發展,它們在處理數字方面的能力也在不斷提高。在當今的大型語言模型中,它們通常能夠正確處理多位數,因此這類錯誤回答的可能性已經大大降低。」
Gemini的回答,或許可以當作是幫他的AI同伴們所發生的錯誤,做出的一番答辯。
- 延伸閱讀:AI Overview 荒謬回答惹爭議,Google搜尋主管回應:AI出錯不可能避免,想進化有些風險必須得冒
- 延伸閱讀:ChatGPT 回答程式問題錯誤率其實超過 50%,但是即便錯得離譜還總有人會相信他而不信真人的答案
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!