GPT-4o vs. Claude 3.5 實測:圖片、檔案分析力誰比較厲害?

GPT-4o vs. Claude 3.5 實測:圖片、檔案分析力誰比較厲害?

隨著 AI 的日漸普及,各聊天機器人也相繼推出除了聊天以外的功能,包括可上傳圖片及檔案,並進行摘要、分析等。其中 GPT-4o、Claude 3.5 更是將這些功能免費開放給所有使用者,也不用另外下載 App、打開網頁並且登入後就能直接上傳開始分析。不過究竟哪一個比較好用,就讓我們來比較看看吧!

文章目錄

AI 模型各有所長,可以混用進行多方比較

ChatGPT 在提供給免費用戶的全新模型 GPT-4o 中,新增了文件、圖片分析的功能,隨後 Claude 3.5 更新也針對視覺能力增強。不過其實還有其它的AI模型有提供上傳外部資料的功能,那為什麼這次是比較這兩種呢?我們先來分別介紹一下各自的特色。

GPT-4o:具備跨多種媒體的能力

ChatGPT 就是 AI 聊天機器人中的老字號,而 OpenAI 在 5 月中推出全新模型GPT-4o,更宣布免費向所有使用者開放,同時也包括可以在提示中上傳圖片、支援文件分析等功能。因為在發表會上 GPT-4o 展現令人眼睛為之一亮的跨媒體能力,不僅反應速度更快、更自然、更像是在與真人對談,官網更表示模型在「視覺方面」展現了最先進的性能。

不過就在這時,Claude 3.5 以「最強視覺模型」之姿登場,甚至宣稱多項能力皆優於 GPT-4o。Claude 3.5 是何方神聖,真的有這麼強嗎?

GPT-4o 推出時,在視覺理解任務中展現了與當時其它模型相比最佳的性能。

Claude 3.5:最強的視覺模型

Claude 是在目前主流常見的 AI 工具中,最早支援上傳 PDF、Word、TXT 等文件檔功能,且開放給免費用戶使用的聊天機器人。而 6 月推出的全新 Claude 3.5 Sonnet 模型,Anthropic 官方宣稱它是迄今為止最強的視覺模型,不僅在各方面均優於自家的付費版 Claude 3 Opus,更在數理辨識、科學圖表辨識、圖表、文件理解四項測試中勝過 GPT-4o,只有在視覺問答(MMMU)以 68.3% 些微落後 GPT-4o 的 69.1%。

然而這也只是 Anthropic 官方公開的數據,所以我們後面就要來測試在圖片的辨識以及文件分析中,GPT-4o 與 Claude 3.5 實際的效果如何。

在 5 個不同的視覺理解任務中,除了視覺問答是以 GPT-4o 表現最佳,其餘皆為 Claude 3.5 Sonnet 領先。

Gemini:Google 最強 AI 模型

講到 AI 模型,怎麼能少了剛推出時造成不小轟動的 Google Gemini。在 Gemini發 表時,Google 表示它們的訓練數據量是 ChatGPT 的兩倍,於多項 AI 測試中表現也優於 GPT-4,標榜 Gemini 是他們最強大的 AI 模型,可以進行程式碼、文字、圖片、影音等多模態的學習。

功能強大的 Gemini 當然也不落人後的有支援圖片及文件的上傳,不過目前檔案上傳與分析需要升級至付費版的 Gemini Advanced 才能使用。現在 Google 也有提供一個月的免費試用期,Gemini Advanced 除了可以上傳 Google 文件、PDF、Word 檔案等,也能體驗到 Google 新一代 AI 模型 Gemini1.5 Pro,有興趣的人可以趁著免費去試用看看。

Gemini Advanced 也可以使用上傳文件的功能。不過筆者在撰寫時,免費試用從兩個月減至一個月,難保後面不會繼續減少,想要體驗的可以趁早。

Copilot:與 Edge 瀏覽器整合

同樣有做搜尋引擎的微軟,當然也有推出自己的 AI 助手 Copilot。Copilot 的底層模型其實就是 OpenAI 的 ChatGPT,免費版可使用包含透過文字、語音和影像功能聊天,可建立文件和網頁摘要等。不過由於 Copilot 的優勢是強調與微軟自家的瀏覽器整合,因此如果要進行如 PDF 的檔案分析,則需要從 Microsoft Edge 中下載並開啟,才能透過內建的「詢問 Copilot」問問題。除了沒有辦法在其它瀏覽器如 Chrome 上使用外,目前看下來也沒有「直接上傳檔案」的選項。

Copilot 目前無法直接上傳檔案,而是要從 Edge 下載並開啟,然後使用內建的「詢問 Copilot」功能。

實測結果:多方比對避免偏誤

從上述介紹可知,其實目前不只有 GPT-4o、Claude 3.5 可以上傳圖片、檔案進行分析,另外兩大 AI 工具 Google Gemini 以及 Copilot 也都有推出相同的功能,不過就「免費」與「使用方便性」的基準點來看,GPT-4o、Claude 3.5 較為相像,因此後續才會挑選這兩者進行比較。

在圖片分析功能中,筆者進行了文字與圖像分辨以及圖表分析的測試。總體而言,GPT-4o 的視覺能力較 Claude 3.5 更為準確,不過相差不大;而當圖表中沒有標示確切數字,僅以間隔呈現數值範圍時,雖然以肉眼可以推算出大致的結果,但兩個AI模型都無法順利辨識並進行計算。

文件分析則是測試了大綱摘要與關鍵字抓取,在文本理解的部分,GPT-4o 同樣也比 Claude 3.5 表現更佳;不過若要搜尋關鍵字所出現的頁數,則是 Claude 3.5 能夠準確搜索,而 GPT-4o 總是回答錯誤。

可以發現不同的模型擅長的領域不盡相同,而且也可能會因為時空背景不同,得到不一樣的測試結果。因此大家在使用的時候,其實也可以多上傳到不同的模型給它分析,更重要的是不能完全相信 AI,記得都還要再進行二次確認。另外,因為免費版也都有額度限制,可能完整分析完一個檔案差不多就額滿了,所以輪著用也不失為一個好方法。後面就是更詳細的測試過程與內容,我們一起看下去吧!

GPT-4o、Claude 3.5 的額度是浮動的,會依據當時平台使用情形有所不同。如果臨時有需求但額度不夠,可以不同模型輪著用,或是多辦幾支帳號。

GPT-4o、Claude3.5 圖片分析比一比

測試文字與圖像分辨

Test 1:將圖中的文字轉為文字檔

Test 2:以文字解釋圖片中的配圖 

過往 AI 聊天機器人僅能透過輸入文字與它對談,所以如果像是遇到不會的數學問題,就要把題目打下來才能問;且若是遇到有配圖的題目,可能就很難直接尋求 AI 的幫助。因此這裡拿了一題帶有配圖的學測數學,分別要求 GPT-4o 及 Claude 3.5 將圖中的題目轉為文字檔,並且要求以文字解釋圖片中的配圖,來測試其文字與圖像的分辨能力。

一開始筆者先是上傳印刷字體的電子檔截圖,GPT-4o 及 Claude 3.5 皆能幾乎完整無誤地將內容成功轉換成文字檔,除了一些符號偶爾會有誤植或缺漏,不過通常不會影響 AI 分析題目。所以後來筆者又重新手抄一份題目,就連配圖也是手工繪製。

經過多次的試驗,在文字辨識方面 GPT-4o 的準確性比 Claude 3.5 來得高一些,且 GPT-4o 每次的辨識結果品質也比較一致,不過也就會幾乎每次都錯同樣的地方;Claude 3.5 每次嘗試的結果相差就比較大,但也不會錯得太離譜。另外實測文字中若有塗改的痕跡,兩個 AI 模型都有成功辨認,並會自動跳過被刪改的字。而在圖像解釋上,GPT-4o 及 Claude 3.5 則是都能完全理解所繪製的圖形,然後以列點的形式進行說明。

GPT-4o 及 Claude 3.5 皆能幾乎無誤地辨識印刷字體,Claude 3.5 還會自動以文字解釋配圖,不過沒有特別下指令的話,很容易自己跑出簡體字。

Claude 3.5 除了會出現簡體字外,在辨識手寫文字時比較容易出現完全不相關的字詞,但筆者個人認為出錯率是在可接受的範圍內。

GPT-4o 的準確度相對較高,每次辨識的結果相差也較小,不過就也容易出現相同的錯誤。像是選項 2 的斜率 3/4,GPT-4o 就沒有成功辨認出來過。

在幾次的實測經驗中,GPT-4o 與 Claude 3.5 都會以列點形式描述圖形,而GPT-4o 的描述通常會比較冗長但詳細。

測試圖表分析

Test 1:請分辨三張圖表的不同處,並綜合所有圖表進行解析,描述圖表中所呈現的現象

Test 2:補上圖表的標題,並計算扶養比(包括扶老、扶幼) 

在 AI 模型的視覺測試中還有一類「圖表問答」,且不管是在學校還是職場也不乏會遇到需要分析圖表的工作或報告,因此接著我們就來測試 AI 模型圖表分析的能力。筆者從國家發展委員會人口推估查詢系統上,截取了台灣 1960 年、2020 年、2070 年(推估)的人口金字塔,圖表上方的資訊僅有年份,以及男女性各年齡層的人口數,並未包含圖表的標題。

結果不管是 GPT-4o 還是 Claude 3.5,皆能辨識出圖表為不同年份的人口年齡結構變化,並指出各自是哪種類型的人口金字塔;在大方向分析上兩者也是基本無誤,同時都有點出人口老化可能會帶來的社會、經濟、醫療等問題。不過有趣的是,在沒有給任何其它提示詞及請求下,GPT-4o 和 Claude 3.5 都曾直接將圖表解釋為是日本的年齡結構圖。

接著再進一步要求計算「扶養比」時,由於需要更精確的人口數據,這時就會發現 GPT-4o 和 Claude 3.5 皆無法透過圖表中的間隔,去推算出大致的數字;就連先舉例前三項,再要 AI 類推其它部份的人數也都不成功。因此如果想要利用 AI 分析圖表,尤其是需要計算數據類的,建議圖中的內容不能過於精簡。

在未顯示標題的圖表中,GPT-4o 和 Claude 3.5 皆能辨識出圖表為不同年份的人口金字塔。

要進一步計算扶養比時,AI 無法透過圖表自行推斷出人口數據,因此結果有誤。另外,GPT-4o 和 Claude 3.5 都曾不約而同的表示圖表是日本人口。

GPT-4o 和 Claude 3.5 在大方向的分析上基本無誤,不僅都會列點呈現,也會點出進一步點出可能帶來的社會問題、或可制定的政策。

人口金字塔的人數是利用橫軸長條計數,目測可以透過間隔推算大概的數值。但就算是給予 AI 前三項的人數,它依舊無法正確推算。

GPT-4o、Claude3.5 文件分析比一比

測試文本理解與摘要

Test 1:統整文本整理成摘要

Test 2:時間電價的申請流程是什麼?

Test 3:對誰來說採用時間電價會比較省錢? 

有時候一些很長的資料沒時間看,但內容又不是只有純文字,沒辦法直接複製貼上,這時候就會需要透過上傳檔案的功能。筆者準備了 5 月號 PC home 雜誌「時間電價」特別企劃的文章,來測試兩個 AI 模型分別對文本的理解與摘要性能如何。而由於是雜誌的 PDF 檔,因此內頁除了內文外,也包含表格、配圖、美編設計等元素。

在沒有給任何提示下,GPT-4o 即可理解文章並列點摘要,且內容也並無錯誤;而 Claude 3.5 雖然也有列點說明,不過經多次嘗試,可能因為檔案的組成元素相較複雜,在沒有給其它額外資訊下,Claude 3.5 沒有辦法在第一次就直接順利地抓到文章的主軸,需要加以引導再重新下指令,才能產出摘要。

接著在文本理解部分分別問了聊天機器人「時間電價的申請流程是什麼?」、「對誰來說採用時間電價會比較省錢?」兩個問題,GPT-4o 和 Claude 3.5 都可以正確回答,不過兩者的方向有點差異。GPT-4o 會針對文章所提及的資訊進行回應,正確性很高,不會給出文本以外的內容;而 Claude 3.5 則還會根據現有的資料做進一步推論,提供延伸的解答,但也會因此出現一些不確定性較高的回答。

實測時,Claude 3.5 需要比較多的提示,如文章類型、主軸等,才能更好地整理出摘要。

在文本理解測試中,Claude 3.5 會根據檔案的內容進行推斷,除了文章內有提及的部分外,還會提供更多衍伸的資訊。

只要在提示詞打上「統整文本整理成摘要」,GPT-4o 即可很好地列出該篇文章的大綱。

在提問與檔案內容相關的問題時,GPT-4o 會完全根據擁有的資訊進行回覆,不會給予文本以外的解答。

測試特定關鍵字抓取

Test 1:研究中有提到 Star Trek 的部分嗎?

Test 2:相關的內容是在第幾頁?

Test 3:詳細描述該段內容

雖然 AI 在整理文章大綱大致沒有問題,但有時候只是要提取一小部份的內容來看,所以接下來就來測試 AI 是否能在檔案中找到特定關鍵字。筆者準備了一篇在探討「不同提示詞對大型語言模型的影響」的論文,研究有提到要求 AI 模仿《星際爭霸戰》(Star Trek)能提升模型的數學推理效能。不過因為這並非研究重點,所以 Star Trek 的關鍵字在論文中僅出現過一次。

以實測經驗來看,GPT-4o 可以一次就直接搜索到相關內容,Claude 3.5 則不一定每次都可以找到,偶爾會需要進一步的引導,而在詢問出現在何處時,兩者都能回答出確切的章節。不過頁數部分,無論檔案中是否有頁碼,GPT-4o 都無法給出正確位置;Claude 3.5 則可以在檔案中有頁碼資訊時,準確地回應。

也因為 GPT-4o 和 Claude 3.5 都能順利找到關鍵字,因此在第三題「詳細描述該段內容」時,兩者的回答皆無誤。但要特別注意,筆者也有拿上一個測試的雜誌 PDF 檔進行實測,然而可能因為關鍵字是出現在相較複雜的表格中,GPT-4o 和 Claude 3.5 皆未能給出正確資訊;相比之下,Claude 3.5 準確率高一點,但還是建議讓 AI 處理大方向的綱要比較合適,且生成的內容也都要再進行檢查。

Claude 3.5 的長度限制是浮動的,實測當下因為檔案內容過長無法上傳,所以後續是將 37 頁的內容縮減成 10 頁進行實測。

若檔案中有頁碼資訊,Claude 3.5 可以準確回答出關鍵字所在的頁數,不過一樣可能會需要經過引導或要多詢問幾次。

不用特別給額外的資訊,GPT-4o 就能順利找到關鍵字。不過偶爾也會出現簡體字的回覆,可以重新下指令要它再回答一次。

GPT-4o 和 Claude 3.5 都能找到關鍵字所出現的章節。不過在頁數部分,無論如何引導,實測經驗中 GPT-4o 都會給出錯的答案。

本文同步刊載於 PC home 雜誌

GPT-4o vs. Claude 3.5 實測:圖片、檔案分析力誰比較厲害?

歡迎加入 PC home 雜誌粉絲團

ycr
作者

PC home 雜誌、T 客邦產業編輯,也負責 T 客邦影新聞 YouTube 頻道短影音製作。關注 AI 相關應用,並有軟體教學報導。(大頭貼為 AI 生成)

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則