GPT-4o vs. Claude 3.5 實測：圖片、檔案分析力誰比較厲害？

隨著 AI 的日漸普及，各聊天機器人也相繼推出除了聊天以外的功能，包括可上傳圖片及檔案，並進行摘要、分析等。其中 GPT-4o、Claude 3.5 更是將這些功能免費開放給所有使用者，也不用另外下載 App、打開網頁並且登入後就能直接上傳開始分析。不過究竟哪一個比較好用，就讓我們來比較看看吧！

文章目錄

AI 模型各有所長，可以混用進行多方比較

ChatGPT 在提供給免費用戶的全新模型 GPT-4o 中，新增了文件、圖片分析的功能，隨後 Claude 3.5 更新也針對視覺能力增強。不過其實還有其它的AI模型有提供上傳外部資料的功能，那為什麼這次是比較這兩種呢？我們先來分別介紹一下各自的特色。

GPT-4o：具備跨多種媒體的能力

ChatGPT 就是 AI 聊天機器人中的老字號，而 OpenAI 在 5 月中推出全新模型GPT-4o，更宣布免費向所有使用者開放，同時也包括可以在提示中上傳圖片、支援文件分析等功能。因為在發表會上 GPT-4o 展現令人眼睛為之一亮的跨媒體能力，不僅反應速度更快、更自然、更像是在與真人對談，官網更表示模型在「視覺方面」展現了最先進的性能。

不過就在這時，Claude 3.5 以「最強視覺模型」之姿登場，甚至宣稱多項能力皆優於 GPT-4o。Claude 3.5 是何方神聖，真的有這麼強嗎？

▲ GPT-4o 推出時，在視覺理解任務中展現了與當時其它模型相比最佳的性能。

Claude 3.5：最強的視覺模型

Claude 是在目前主流常見的 AI 工具中，最早支援上傳 PDF、Word、TXT 等文件檔功能，且開放給免費用戶使用的聊天機器人。而 6 月推出的全新 Claude 3.5 Sonnet 模型，Anthropic 官方宣稱它是迄今為止最強的視覺模型，不僅在各方面均優於自家的付費版 Claude 3 Opus，更在數理辨識、科學圖表辨識、圖表、文件理解四項測試中勝過 GPT-4o，只有在視覺問答（MMMU）以 68.3% 些微落後 GPT-4o 的 69.1%。

然而這也只是 Anthropic 官方公開的數據，所以我們後面就要來測試在圖片的辨識以及文件分析中，GPT-4o 與 Claude 3.5 實際的效果如何。

▲ 在 5 個不同的視覺理解任務中，除了視覺問答是以 GPT-4o 表現最佳，其餘皆為 Claude 3.5 Sonnet 領先。

Gemini：Google 最強 AI 模型

講到 AI 模型，怎麼能少了剛推出時造成不小轟動的 Google Gemini。在 Gemini發表時，Google 表示它們的訓練數據量是 ChatGPT 的兩倍，於多項 AI 測試中表現也優於 GPT-4，標榜 Gemini 是他們最強大的 AI 模型，可以進行程式碼、文字、圖片、影音等多模態的學習。

功能強大的 Gemini 當然也不落人後的有支援圖片及文件的上傳，不過目前檔案上傳與分析需要升級至付費版的 Gemini Advanced 才能使用。現在 Google 也有提供一個月的免費試用期，Gemini Advanced 除了可以上傳 Google 文件、PDF、Word 檔案等，也能體驗到 Google 新一代 AI 模型 Gemini1.5 Pro，有興趣的人可以趁著免費去試用看看。

▲ Gemini Advanced 也可以使用上傳文件的功能。不過筆者在撰寫時，免費試用從兩個月減至一個月，難保後面不會繼續減少，想要體驗的可以趁早。

Copilot：與 Edge 瀏覽器整合

同樣有做搜尋引擎的微軟，當然也有推出自己的 AI 助手 Copilot。Copilot 的底層模型其實就是 OpenAI 的 ChatGPT，免費版可使用包含透過文字、語音和影像功能聊天，可建立文件和網頁摘要等。不過由於 Copilot 的優勢是強調與微軟自家的瀏覽器整合，因此如果要進行如 PDF 的檔案分析，則需要從 Microsoft Edge 中下載並開啟，才能透過內建的「詢問 Copilot」問問題。除了沒有辦法在其它瀏覽器如 Chrome 上使用外，目前看下來也沒有「直接上傳檔案」的選項。

▲ Copilot 目前無法直接上傳檔案，而是要從 Edge 下載並開啟，然後使用內建的「詢問 Copilot」功能。

實測結果：多方比對避免偏誤

從上述介紹可知，其實目前不只有 GPT-4o、Claude 3.5 可以上傳圖片、檔案進行分析，另外兩大 AI 工具 Google Gemini 以及 Copilot 也都有推出相同的功能，不過就「免費」與「使用方便性」的基準點來看，GPT-4o、Claude 3.5 較為相像，因此後續才會挑選這兩者進行比較。

在圖片分析功能中，筆者進行了文字與圖像分辨以及圖表分析的測試。總體而言，GPT-4o 的視覺能力較 Claude 3.5 更為準確，不過相差不大；而當圖表中沒有標示確切數字，僅以間隔呈現數值範圍時，雖然以肉眼可以推算出大致的結果，但兩個AI模型都無法順利辨識並進行計算。

文件分析則是測試了大綱摘要與關鍵字抓取，在文本理解的部分，GPT-4o 同樣也比 Claude 3.5 表現更佳；不過若要搜尋關鍵字所出現的頁數，則是 Claude 3.5 能夠準確搜索，而 GPT-4o 總是回答錯誤。

可以發現不同的模型擅長的領域不盡相同，而且也可能會因為時空背景不同，得到不一樣的測試結果。因此大家在使用的時候，其實也可以多上傳到不同的模型給它分析，更重要的是不能完全相信 AI，記得都還要再進行二次確認。另外，因為免費版也都有額度限制，可能完整分析完一個檔案差不多就額滿了，所以輪著用也不失為一個好方法。後面就是更詳細的測試過程與內容，我們一起看下去吧！

▲ GPT-4o、Claude 3.5 的額度是浮動的，會依據當時平台使用情形有所不同。如果臨時有需求但額度不夠，可以不同模型輪著用，或是多辦幾支帳號。

GPT-4o、Claude3.5 圖片分析比一比

測試文字與圖像分辨

Test 1：將圖中的文字轉為文字檔

Test 2：以文字解釋圖片中的配圖

過往 AI 聊天機器人僅能透過輸入文字與它對談，所以如果像是遇到不會的數學問題，就要把題目打下來才能問；且若是遇到有配圖的題目，可能就很難直接尋求 AI 的幫助。因此這裡拿了一題帶有配圖的學測數學，分別要求 GPT-4o 及 Claude 3.5 將圖中的題目轉為文字檔，並且要求以文字解釋圖片中的配圖，來測試其文字與圖像的分辨能力。

一開始筆者先是上傳印刷字體的電子檔截圖，GPT-4o 及 Claude 3.5 皆能幾乎完整無誤地將內容成功轉換成文字檔，除了一些符號偶爾會有誤植或缺漏，不過通常不會影響 AI 分析題目。所以後來筆者又重新手抄一份題目，就連配圖也是手工繪製。

經過多次的試驗，在文字辨識方面 GPT-4o 的準確性比 Claude 3.5 來得高一些，且 GPT-4o 每次的辨識結果品質也比較一致，不過也就會幾乎每次都錯同樣的地方；Claude 3.5 每次嘗試的結果相差就比較大，但也不會錯得太離譜。另外實測文字中若有塗改的痕跡，兩個 AI 模型都有成功辨認，並會自動跳過被刪改的字。而在圖像解釋上，GPT-4o 及 Claude 3.5 則是都能完全理解所繪製的圖形，然後以列點的形式進行說明。

▲ GPT-4o 及 Claude 3.5 皆能幾乎無誤地辨識印刷字體，Claude 3.5 還會自動以文字解釋配圖，不過沒有特別下指令的話，很容易自己跑出簡體字。

▲ Claude 3.5 除了會出現簡體字外，在辨識手寫文字時比較容易出現完全不相關的字詞，但筆者個人認為出錯率是在可接受的範圍內。

▲ GPT-4o 的準確度相對較高，每次辨識的結果相差也較小，不過就也容易出現相同的錯誤。像是選項 2 的斜率 3/4，GPT-4o 就沒有成功辨認出來過。

▲ 在幾次的實測經驗中，GPT-4o 與 Claude 3.5 都會以列點形式描述圖形，而GPT-4o 的描述通常會比較冗長但詳細。

測試圖表分析

Test 1：請分辨三張圖表的不同處，並綜合所有圖表進行解析，描述圖表中所呈現的現象

Test 2：補上圖表的標題，並計算扶養比（包括扶老、扶幼）

在 AI 模型的視覺測試中還有一類「圖表問答」，且不管是在學校還是職場也不乏會遇到需要分析圖表的工作或報告，因此接著我們就來測試 AI 模型圖表分析的能力。筆者從國家發展委員會人口推估查詢系統上，截取了台灣 1960 年、2020 年、2070 年（推估）的人口金字塔，圖表上方的資訊僅有年份，以及男女性各年齡層的人口數，並未包含圖表的標題。

結果不管是 GPT-4o 還是 Claude 3.5，皆能辨識出圖表為不同年份的人口年齡結構變化，並指出各自是哪種類型的人口金字塔；在大方向分析上兩者也是基本無誤，同時都有點出人口老化可能會帶來的社會、經濟、醫療等問題。不過有趣的是，在沒有給任何其它提示詞及請求下，GPT-4o 和 Claude 3.5 都曾直接將圖表解釋為是日本的年齡結構圖。

接著再進一步要求計算「扶養比」時，由於需要更精確的人口數據，這時就會發現 GPT-4o 和 Claude 3.5 皆無法透過圖表中的間隔，去推算出大致的數字；就連先舉例前三項，再要 AI 類推其它部份的人數也都不成功。因此如果想要利用 AI 分析圖表，尤其是需要計算數據類的，建議圖中的內容不能過於精簡。

▲ 在未顯示標題的圖表中，GPT-4o 和 Claude 3.5 皆能辨識出圖表為不同年份的人口金字塔。

▲ 要進一步計算扶養比時，AI 無法透過圖表自行推斷出人口數據，因此結果有誤。另外，GPT-4o 和 Claude 3.5 都曾不約而同的表示圖表是日本人口。

▲ GPT-4o 和 Claude 3.5 在大方向的分析上基本無誤，不僅都會列點呈現，也會點出進一步點出可能帶來的社會問題、或可制定的政策。

▲ 人口金字塔的人數是利用橫軸長條計數，目測可以透過間隔推算大概的數值。但就算是給予 AI 前三項的人數，它依舊無法正確推算。

GPT-4o、Claude3.5 文件分析比一比

測試文本理解與摘要

Test 1：統整文本整理成摘要

Test 2：時間電價的申請流程是什麼？

Test 3：對誰來說採用時間電價會比較省錢？

有時候一些很長的資料沒時間看，但內容又不是只有純文字，沒辦法直接複製貼上，這時候就會需要透過上傳檔案的功能。筆者準備了 5 月號 PC home 雜誌「時間電價」特別企劃的文章，來測試兩個 AI 模型分別對文本的理解與摘要性能如何。而由於是雜誌的 PDF 檔，因此內頁除了內文外，也包含表格、配圖、美編設計等元素。

在沒有給任何提示下，GPT-4o 即可理解文章並列點摘要，且內容也並無錯誤；而 Claude 3.5 雖然也有列點說明，不過經多次嘗試，可能因為檔案的組成元素相較複雜，在沒有給其它額外資訊下，Claude 3.5 沒有辦法在第一次就直接順利地抓到文章的主軸，需要加以引導再重新下指令，才能產出摘要。

接著在文本理解部分分別問了聊天機器人「時間電價的申請流程是什麼？」、「對誰來說採用時間電價會比較省錢？」兩個問題，GPT-4o 和 Claude 3.5 都可以正確回答，不過兩者的方向有點差異。GPT-4o 會針對文章所提及的資訊進行回應，正確性很高，不會給出文本以外的內容；而 Claude 3.5 則還會根據現有的資料做進一步推論，提供延伸的解答，但也會因此出現一些不確定性較高的回答。

▲ 實測時，Claude 3.5 需要比較多的提示，如文章類型、主軸等，才能更好地整理出摘要。

▲ 在文本理解測試中，Claude 3.5 會根據檔案的內容進行推斷，除了文章內有提及的部分外，還會提供更多衍伸的資訊。

▲ 只要在提示詞打上「統整文本整理成摘要」，GPT-4o 即可很好地列出該篇文章的大綱。

▲ 在提問與檔案內容相關的問題時，GPT-4o 會完全根據擁有的資訊進行回覆，不會給予文本以外的解答。

測試特定關鍵字抓取

Test 1：研究中有提到 Star Trek 的部分嗎？

Test 2：相關的內容是在第幾頁？

Test 3：詳細描述該段內容

雖然 AI 在整理文章大綱大致沒有問題，但有時候只是要提取一小部份的內容來看，所以接下來就來測試 AI 是否能在檔案中找到特定關鍵字。筆者準備了一篇在探討「不同提示詞對大型語言模型的影響」的論文，研究有提到要求 AI 模仿《星際爭霸戰》（Star Trek）能提升模型的數學推理效能。不過因為這並非研究重點，所以 Star Trek 的關鍵字在論文中僅出現過一次。

以實測經驗來看，GPT-4o 可以一次就直接搜索到相關內容，Claude 3.5 則不一定每次都可以找到，偶爾會需要進一步的引導，而在詢問出現在何處時，兩者都能回答出確切的章節。不過頁數部分，無論檔案中是否有頁碼，GPT-4o 都無法給出正確位置；Claude 3.5 則可以在檔案中有頁碼資訊時，準確地回應。

也因為 GPT-4o 和 Claude 3.5 都能順利找到關鍵字，因此在第三題「詳細描述該段內容」時，兩者的回答皆無誤。但要特別注意，筆者也有拿上一個測試的雜誌 PDF 檔進行實測，然而可能因為關鍵字是出現在相較複雜的表格中，GPT-4o 和 Claude 3.5 皆未能給出正確資訊；相比之下，Claude 3.5 準確率高一點，但還是建議讓 AI 處理大方向的綱要比較合適，且生成的內容也都要再進行檢查。

▲ Claude 3.5 的長度限制是浮動的，實測當下因為檔案內容過長無法上傳，所以後續是將 37 頁的內容縮減成 10 頁進行實測。

▲ 若檔案中有頁碼資訊，Claude 3.5 可以準確回答出關鍵字所在的頁數，不過一樣可能會需要經過引導或要多詢問幾次。

▲ 不用特別給額外的資訊，GPT-4o 就能順利找到關鍵字。不過偶爾也會出現簡體字的回覆，可以重新下指令要它再回答一次。

▲ GPT-4o 和 Claude 3.5 都能找到關鍵字所出現的章節。不過在頁數部分，無論如何引導，實測經驗中 GPT-4o 都會給出錯的答案。

本文同步刊載於 PC home 雜誌

歡迎加入 PC home 雜誌粉絲團！

延伸閱讀：現在ChatGPT免費版也能用GPTs/GPT-4o/資料分析/檔案上傳功能
延伸閱讀：Anthropic發佈其最強大AI模型Claude 3.5，對自然語言的理解更出色
延伸閱讀：OpenAI 新模型 GPT-4o 登場！能算數、口譯、插話再聊且速度更快，免費開放全用戶使用