2024.08.21 14:30

GPT-4o vs. Claude 3.5 實測:圖片、檔案分析力誰比較厲害?

ADVERTISEMENT

隨著 AI 的日漸普及,各聊天機器人也相繼推出除了聊天以外的功能,包括可上傳圖片及檔案,並進行摘要、分析等。其中 GPT-4o、Claude 3.5 更是將這些功能免費開放給所有使用者,也不用另外下載 App、打開網頁並且登入後就能直接上傳開始分析。不過究竟哪一個比較好用,就讓我們來比較看看吧!

文章目錄

AI 模型各有所長,可以混用進行多方比較

ChatGPT 在提供給免費用戶的全新模型 GPT-4o 中,新增了文件、圖片分析的功能,隨後 Claude 3.5 更新也針對視覺能力增強。不過其實還有其它的AI模型有提供上傳外部資料的功能,那為什麼這次是比較這兩種呢?我們先來分別介紹一下各自的特色。

GPT-4o:具備跨多種媒體的能力

ChatGPT 就是 AI 聊天機器人中的老字號,而 OpenAI 在 5 月中推出全新模型GPT-4o,更宣布免費向所有使用者開放,同時也包括可以在提示中上傳圖片、支援文件分析等功能。因為在發表會上 GPT-4o 展現令人眼睛為之一亮的跨媒體能力,不僅反應速度更快、更自然、更像是在與真人對談,官網更表示模型在「視覺方面」展現了最先進的性能。

ADVERTISEMENT

不過就在這時,Claude 3.5 以「最強視覺模型」之姿登場,甚至宣稱多項能力皆優於 GPT-4o。Claude 3.5 是何方神聖,真的有這麼強嗎?

Claude 3.5:最強的視覺模型

Claude 是在目前主流常見的 AI 工具中,最早支援上傳 PDF、Word、TXT 等文件檔功能,且開放給免費用戶使用的聊天機器人。而 6 月推出的全新 Claude 3.5 Sonnet 模型,Anthropic 官方宣稱它是迄今為止最強的視覺模型,不僅在各方面均優於自家的付費版 Claude 3 Opus,更在數理辨識、科學圖表辨識、圖表、文件理解四項測試中勝過 GPT-4o,只有在視覺問答(MMMU)以 68.3% 些微落後 GPT-4o 的 69.1%。

ADVERTISEMENT

然而這也只是 Anthropic 官方公開的數據,所以我們後面就要來測試在圖片的辨識以及文件分析中,GPT-4o 與 Claude 3.5 實際的效果如何。

Gemini:Google 最強 AI 模型

講到 AI 模型,怎麼能少了剛推出時造成不小轟動的 Google Gemini。在 Gemini發 表時,Google 表示它們的訓練數據量是 ChatGPT 的兩倍,於多項 AI 測試中表現也優於 GPT-4,標榜 Gemini 是他們最強大的 AI 模型,可以進行程式碼、文字、圖片、影音等多模態的學習。

ADVERTISEMENT

功能強大的 Gemini 當然也不落人後的有支援圖片及文件的上傳,不過目前檔案上傳與分析需要升級至付費版的 Gemini Advanced 才能使用。現在 Google 也有提供一個月的免費試用期,Gemini Advanced 除了可以上傳 Google 文件、PDF、Word 檔案等,也能體驗到 Google 新一代 AI 模型 Gemini1.5 Pro,有興趣的人可以趁著免費去試用看看。

Copilot:與 Edge 瀏覽器整合

同樣有做搜尋引擎的微軟,當然也有推出自己的 AI 助手 Copilot。Copilot 的底層模型其實就是 OpenAI 的 ChatGPT,免費版可使用包含透過文字、語音和影像功能聊天,可建立文件和網頁摘要等。不過由於 Copilot 的優勢是強調與微軟自家的瀏覽器整合,因此如果要進行如 PDF 的檔案分析,則需要從 Microsoft Edge 中下載並開啟,才能透過內建的「詢問 Copilot」問問題。除了沒有辦法在其它瀏覽器如 Chrome 上使用外,目前看下來也沒有「直接上傳檔案」的選項。

ADVERTISEMENT

實測結果:多方比對避免偏誤

從上述介紹可知,其實目前不只有 GPT-4o、Claude 3.5 可以上傳圖片、檔案進行分析,另外兩大 AI 工具 Google Gemini 以及 Copilot 也都有推出相同的功能,不過就「免費」與「使用方便性」的基準點來看,GPT-4o、Claude 3.5 較為相像,因此後續才會挑選這兩者進行比較。

在圖片分析功能中,筆者進行了文字與圖像分辨以及圖表分析的測試。總體而言,GPT-4o 的視覺能力較 Claude 3.5 更為準確,不過相差不大;而當圖表中沒有標示確切數字,僅以間隔呈現數值範圍時,雖然以肉眼可以推算出大致的結果,但兩個AI模型都無法順利辨識並進行計算。

文件分析則是測試了大綱摘要與關鍵字抓取,在文本理解的部分,GPT-4o 同樣也比 Claude 3.5 表現更佳;不過若要搜尋關鍵字所出現的頁數,則是 Claude 3.5 能夠準確搜索,而 GPT-4o 總是回答錯誤。

可以發現不同的模型擅長的領域不盡相同,而且也可能會因為時空背景不同,得到不一樣的測試結果。因此大家在使用的時候,其實也可以多上傳到不同的模型給它分析,更重要的是不能完全相信 AI,記得都還要再進行二次確認。另外,因為免費版也都有額度限制,可能完整分析完一個檔案差不多就額滿了,所以輪著用也不失為一個好方法。後面就是更詳細的測試過程與內容,我們一起看下去吧!

GPT-4o、Claude3.5 圖片分析比一比

測試文字與圖像分辨

Test 1:將圖中的文字轉為文字檔

Test 2:以文字解釋圖片中的配圖 

過往 AI 聊天機器人僅能透過輸入文字與它對談,所以如果像是遇到不會的數學問題,就要把題目打下來才能問;且若是遇到有配圖的題目,可能就很難直接尋求 AI 的幫助。因此這裡拿了一題帶有配圖的學測數學,分別要求 GPT-4o 及 Claude 3.5 將圖中的題目轉為文字檔,並且要求以文字解釋圖片中的配圖,來測試其文字與圖像的分辨能力。

一開始筆者先是上傳印刷字體的電子檔截圖,GPT-4o 及 Claude 3.5 皆能幾乎完整無誤地將內容成功轉換成文字檔,除了一些符號偶爾會有誤植或缺漏,不過通常不會影響 AI 分析題目。所以後來筆者又重新手抄一份題目,就連配圖也是手工繪製。

經過多次的試驗,在文字辨識方面 GPT-4o 的準確性比 Claude 3.5 來得高一些,且 GPT-4o 每次的辨識結果品質也比較一致,不過也就會幾乎每次都錯同樣的地方;Claude 3.5 每次嘗試的結果相差就比較大,但也不會錯得太離譜。另外實測文字中若有塗改的痕跡,兩個 AI 模型都有成功辨認,並會自動跳過被刪改的字。而在圖像解釋上,GPT-4o 及 Claude 3.5 則是都能完全理解所繪製的圖形,然後以列點的形式進行說明。

測試圖表分析

Test 1:請分辨三張圖表的不同處,並綜合所有圖表進行解析,描述圖表中所呈現的現象

Test 2:補上圖表的標題,並計算扶養比(包括扶老、扶幼) 

在 AI 模型的視覺測試中還有一類「圖表問答」,且不管是在學校還是職場也不乏會遇到需要分析圖表的工作或報告,因此接著我們就來測試 AI 模型圖表分析的能力。筆者從國家發展委員會人口推估查詢系統上,截取了台灣 1960 年、2020 年、2070 年(推估)的人口金字塔,圖表上方的資訊僅有年份,以及男女性各年齡層的人口數,並未包含圖表的標題。

結果不管是 GPT-4o 還是 Claude 3.5,皆能辨識出圖表為不同年份的人口年齡結構變化,並指出各自是哪種類型的人口金字塔;在大方向分析上兩者也是基本無誤,同時都有點出人口老化可能會帶來的社會、經濟、醫療等問題。不過有趣的是,在沒有給任何其它提示詞及請求下,GPT-4o 和 Claude 3.5 都曾直接將圖表解釋為是日本的年齡結構圖。

接著再進一步要求計算「扶養比」時,由於需要更精確的人口數據,這時就會發現 GPT-4o 和 Claude 3.5 皆無法透過圖表中的間隔,去推算出大致的數字;就連先舉例前三項,再要 AI 類推其它部份的人數也都不成功。因此如果想要利用 AI 分析圖表,尤其是需要計算數據類的,建議圖中的內容不能過於精簡。

GPT-4o、Claude3.5 文件分析比一比

測試文本理解與摘要

Test 1:統整文本整理成摘要

Test 2:時間電價的申請流程是什麼?

Test 3:對誰來說採用時間電價會比較省錢? 

有時候一些很長的資料沒時間看,但內容又不是只有純文字,沒辦法直接複製貼上,這時候就會需要透過上傳檔案的功能。筆者準備了 5 月號 PC home 雜誌「時間電價」特別企劃的文章,來測試兩個 AI 模型分別對文本的理解與摘要性能如何。而由於是雜誌的 PDF 檔,因此內頁除了內文外,也包含表格、配圖、美編設計等元素。

在沒有給任何提示下,GPT-4o 即可理解文章並列點摘要,且內容也並無錯誤;而 Claude 3.5 雖然也有列點說明,不過經多次嘗試,可能因為檔案的組成元素相較複雜,在沒有給其它額外資訊下,Claude 3.5 沒有辦法在第一次就直接順利地抓到文章的主軸,需要加以引導再重新下指令,才能產出摘要。

接著在文本理解部分分別問了聊天機器人「時間電價的申請流程是什麼?」、「對誰來說採用時間電價會比較省錢?」兩個問題,GPT-4o 和 Claude 3.5 都可以正確回答,不過兩者的方向有點差異。GPT-4o 會針對文章所提及的資訊進行回應,正確性很高,不會給出文本以外的內容;而 Claude 3.5 則還會根據現有的資料做進一步推論,提供延伸的解答,但也會因此出現一些不確定性較高的回答。

測試特定關鍵字抓取

Test 1:研究中有提到 Star Trek 的部分嗎?

Test 2:相關的內容是在第幾頁?

Test 3:詳細描述該段內容

雖然 AI 在整理文章大綱大致沒有問題,但有時候只是要提取一小部份的內容來看,所以接下來就來測試 AI 是否能在檔案中找到特定關鍵字。筆者準備了一篇在探討「不同提示詞對大型語言模型的影響」的論文,研究有提到要求 AI 模仿《星際爭霸戰》(Star Trek)能提升模型的數學推理效能。不過因為這並非研究重點,所以 Star Trek 的關鍵字在論文中僅出現過一次。

以實測經驗來看,GPT-4o 可以一次就直接搜索到相關內容,Claude 3.5 則不一定每次都可以找到,偶爾會需要進一步的引導,而在詢問出現在何處時,兩者都能回答出確切的章節。不過頁數部分,無論檔案中是否有頁碼,GPT-4o 都無法給出正確位置;Claude 3.5 則可以在檔案中有頁碼資訊時,準確地回應。

也因為 GPT-4o 和 Claude 3.5 都能順利找到關鍵字,因此在第三題「詳細描述該段內容」時,兩者的回答皆無誤。但要特別注意,筆者也有拿上一個測試的雜誌 PDF 檔進行實測,然而可能因為關鍵字是出現在相較複雜的表格中,GPT-4o 和 Claude 3.5 皆未能給出正確資訊;相比之下,Claude 3.5 準確率高一點,但還是建議讓 AI 處理大方向的綱要比較合適,且生成的內容也都要再進行檢查。

本文同步刊載於 PC home 雜誌

歡迎加入 PC home 雜誌粉絲團

ADVERTISEMENT