外媒用7道題目測試Gemini和ChatGPT，找出誰才是最聰明的那個？

Google Gemini大型語言模型和OpenAI的GPT誰更出色？Gemini相比Google之前的模型有了多大進步？目前，公司自己吹噓能吊打GPT-4的Gemini Ultra還得等明年才能上線，但Google Bard聊天機器人已經換上了低配版本Gemini Pro（對標GPT-3.5）。

科技評論網站ARS TECHNICA，讓Gemni Pro、GPT-3.5和GPT-4在數學、程式、文字生成等方面進行了一次全面PK，同時還附上了4月份對舊版本Bard（運行PaLM 2模型）的測試結果，來展現GoogleBard取得的進步，並展現這些AI助手到底哪一個對普通人的工作效率提升最大。

文章目錄

結果顯示，雖然有了Gemini Pro的加持，但Google Bard聊天機器人在大部分項目上還是打不過ChatGPT。不過相比8個月前的舊版Bard，已經有了質的飛躍。

第一題幽默

prompt：寫5個原創冷笑話

（從上至下分別為Gemini Pro、舊版Bard、GPT-4和GPT-3.5的回答）

從答案來看，幾個AI大型語言模型的笑話在「原創性」上全軍覆沒。經作者查證，所有生成的冷笑話都可以在網上查到，或者只是稍微改動了幾個字。

Gemini和ChatGPT-4 寫出了一模一樣的笑話——「我手裡有本講反重力的書，我根本沒法把它放下來」。而GPT-3.5 和GPT-4也有兩個笑話重複了。

PK結果：平局

第二題辯論

prompt：寫一篇PowerPC處理器擁躉與英特爾處理器擁躉之間的5行辯論發言，時間約為2000年

相比舊版Bard， Gemini Pro進步明顯，至少多了很多行業術語，比如AltiVec 指令、RISC 與CISC設計以及 MMX 技術，這在那個時代的許多技術論壇討論中都不會顯得突兀。

而且，Gemini Pro雖然只按要求列出五行，但所撰寫的辯論內容還可以一直延續下去。而舊版Bard則直接第五行收尾了。

相比之下，GPT系列生成的回答都沒有使用太多專業術語，而把重點放在「功率與相容性」上，對非技術極客來說，GPT系列的論點更容易理解。不過，GPT-3.5的回答相當冗長，GPT-4的論證相比之下更加簡明扼要。

PK結果：GPT勝出

第三題數學

prompt：如果用3.5英吋磁片來安裝微軟Windows 11，一共需要多少張磁片？

舊版 Bard 給出的答案是「15.11張」，這是一個完全錯誤的答案。而Gemini則正確估計了 Windows 11 的安裝大小（20 至 30GB，並按照20GB的估計值正確計算出需要14223張1.44MB 磁片。Gemini還根據Google搜尋進行了「雙重檢查」，有助於增強使用者對答案的信心。

相比之下，ChatGPT就顯得有些力不從心了。在ChatGPT-3.5把Windows 11的大小錯誤估算成了10個G，另一方面，GPT-4也估算成了錯誤的64GB（這似乎是最低儲存空間要求，而不是作業系統在安裝時實際使用的空間）。

PK結果：Google勝出

第四題總結段落

promp：總結一段關於AI監管的文章

Gemini Pro生成的文章十分簡潔，並且給出了引文的連結。但它的總結似乎過於簡潔了，甚至刪除了舊版Bard原來有的一些關鍵細節，比如視訊是由十個兩秒鐘的片段拼接而成的。雖然改寫在一定程度上提高了可讀性，但卻犧牲了完整性。

ChatGPT的摘要因為不夠簡潔而丟了一些分：生成的摘要從 99 個字（GPT-4）到 108 個字（GPT-3.5）不等，而Google新舊版Bard的摘要分別只有 63 到 66 個字。

不過，ChatGPT總結了更多重要的細節，如媒體的反應、原發文人的名字和subreddit等，而這些都被Gemini忽略了。

PK結果：GPT勝

第五題事實檢索

prompt：誰發明了電子遊戲？

Bard 在這道題上又有了重大改進。舊版Bard 只關注 Ralph Baer 的Brown Box和 Magnavox Odyssey 作品（資訊似乎直接摘自維基百科），而新版 Gemini Pro則精準而簡潔地指出了 William Higinbotham早先「雙人網球」的貢獻。

隨後， Gemini又從「發明」擴展到了諾蘭·布希內爾、泰德·達布尼和艾倫·奧爾康等「對電子遊戲的早期發展做出了重大貢獻」的人物，並提供了關於每個人的基本精準的相關資訊。

不過，緊接著Gemini又對蘋果的兩位創始人賈伯斯和史蒂夫·沃茲尼克的工作進行了一番胡扯，卻沒有提及他們早年在遊戲公司雅達利公司的工作。

GPT-3.5 和舊版 Bard 一樣，也是以 Ralph Baer 為中心。雖然它提到「多年來，不同的個人和公司都為該行業做出了貢獻」，但沒有提及這些重要人物的名字。

而GPT-4首先指出電子遊戲的發明「不能歸功於某一個人」，並將其總結擴展到威廉·希金伯泰、諾蘭·布希內爾，以及至關重要的史帝芬·羅素 1962 年在 PDP-1 上創造的《太空戰爭！》。

PK結果：GPT勝（但Gemini表現比GPT-3.5更好）

第六題創意寫作

prompt：寫兩段關於林肯發明籃球的虛構故事。

舊版Bard的寫作很出色，但遺憾的是篇幅嚴重超出要求，有太多冗長的句子。Gemini Pro相比之下寫得更加簡潔，重點更加突出。而GPT寫的故事也都有其獨特的魅力和令人回味的語句。

PK結果：平局

第七題程式碼能力

prompt：編寫一個 Python 指令碼，在其中輸入「Hello World」，然後無休止地建立一個隨機重複字串。

雖然Bard從6月份開始就能生成程式碼，Google也曾吹噓Gemini的AlphaCode 2系統能夠幫助程式設計師，但這次測試讓人大跌眼鏡。

Gemini一直給出「資訊可能有誤，無法生成」的回覆。如果堅持要求它生成程式碼，則會乾脆當機，並提示「Bard仍在實驗中」。

與此同時，GPT-3.5 和 GPT-4模型下生成了相同的程式碼。這些簡單明了的程式碼無需任何編輯就能完美運行，順利通過試用。

PK結果：GPT勝

最終，在七項測試中，GPT取得了4勝1負2平的碾壓式勝利。但我們也能看到，Google AI大型語言模型生成的結果，在品質上有了明顯的進步。在數學、總結資訊、事實檢索和創意寫作測試，配備Gemini的Bard都比8個月前有了顯著飛躍。

當然，評判這樣的比賽有一定的主觀性。具體孰優孰劣還需要更全面、更詳盡的測試。無論如何，至少，以Google目前展現出來的實力來看，即將推出的Gemini Ultra勢必會成為GPT-4的有力競爭對手。

延伸閱讀：Google Bard導入新的Gemini模型：非文字互動功力將大增、真要超車 OpenAI ChatGPT ？
延伸閱讀：Google最強AI模型Gemini 1.0版發佈，支援在PC或手機獨立運作、性能甚至超越GPT-4
延伸閱讀：Gemini是Google迄今為止最強大的AI模型，宣稱比ChatGPT好得多

文章目錄

第一題 幽默

第二題 辯論

第三題 數學

第四題 總結段落

第五題 事實檢索

第六題 創意寫作

第七題 程式碼能力