FB 建議貼文

選取貼文複製成功(包含文章連結)!

Grok 3:最不「政確」的 AI,憑什麼超越 GPT-4o 效能挑戰 ChatGPT 霸主地位?一次學會 Grok 重點功能

Grok 3:最不「政確」的 AI,憑什麼超越 GPT-4o 效能挑戰 ChatGPT 霸主地位?一次學會 Grok 重點功能

最近 AI 領域可以說是相當熱鬧,除了原先主流的 ChatGPT、Gemini 等 AI 平台持續更新功能外,先前低成本的 DeepSeek 橫空出世更是造成不小的轟動。不過沒有多久,xAI 就隨即推出 Grok 3,不僅消除了 DeepSeek 引發的市場恐慌,馬斯克更稱其為「地表最強 AI」,甚至在各項測試中打敗 OpenAI、Google、DeepSeek 的模型。究竟 Grok 是什麼?如何在競爭激烈的賽道中彎道超車?真的有比其它 AI 模型聰明嗎?

文章目錄

 

Grok:不追求「政確」的 AI 模型

其實 Grok 並不是一個新的 AI 模型,不過由於最初僅開放給 X Premium 訂閱者,是在不久前才免費提供給所有人使用,隨後便以 Grok 3 縱身一躍,成為 AI 領域不容忽視的領先者,因此許多人可能對它還不熟悉。所以首先,我們將先簡介 Grok 到底是什麼,接著再解析它又是如何做到成長如此快速的。

低審查的聊天機器人

Grok 是由伊隆•馬斯克旗下的 xAI 公司開發的 AI 模型,於 2023 年底首次露面,旨在挑戰當時的 AI 領導者。眾所周知,馬斯克時常吐嘈 ChatGPT 過於「政治正確」,因此 Grok 的其一特色包括在內容審查上相對寬鬆,可以回應一些其他 AI 系統可能因安全政策而避而不答的問題,像是政治敏感議題、較露骨的內容等。Grok 最初推出時還可切換「有趣模式(Fun Mode)」,AI 便會以嘲諷的語氣回答,不過現階段該功能已被移除。另外,由於 xAI 同為馬斯克旗下的公司,因此 Grok 可以即時訪問 X(前身為 Twitter)的資訊。

Grok 除了網頁版外,也有推出手機應用程式;使用者可以透過 X 帳號或是 Google 帳戶登入。

目標為理解宇宙本質

Grok 3 則是於 2 月中推出的最新模型,馬斯克在直播發表會中解釋到,Grok一詞來自海因萊因小說《異鄉異客》,是一個在火星長大的人所用的詞,意指「徹底且深刻地理解某件事」。Grok 的目標就是「探索宇宙的本質」,包括宇宙是如何開始的、又會如何結束,以及是否有外星人生物等;同樣再次強調「追尋真相」,即便立場可能與政治正確相背。

Grok 3 已正式上線,除了一般的聊天、圖片生成外,Think 推理模式和DeepSearch 深度搜尋等功能目前也都免費開放使用。至於免費到什麼時候,官方沒有給定一個明確的時間,僅表示「直到伺服器無法負荷」,因此想要體驗的人建議趁早去試用。

目前進階的推理模式以及深度搜尋功能也都能免費使用,不過實測後發現應該是要登入才能啟用。

xAI 也有推出能提高使用次數限制的 SuperGrok 方案,訂閱費用為一個月 30美元,一次訂閱一年則為 300 美元。

算力支撐的彎道超車

馬斯克稱 Grok 3 是「地球上最聰明的 AI」,並在多項基準測試中皆超越了競爭對手。而其在一年內的快速成長,很大程度上得益於 Colossus 超級集群的強大算力支持,讓 Grok 3 成為 AI 領域的新標竿。

超越 GPT-4o 的效能

xAI 這次推出了兩款推理模型, 分別為 Grok 3(Think)和 Grok 3 mini(Think),在推理、數學、編碼等領域中皆有顯著提升。根據官方數據顯示,Grok 3(Think)在 AIME 數學考試中獲得93.3%的成績,在研究生級專家推理(GPQA)則達到 84.6%,而程式碼生成和問題解決的 LiveCodeBench 中達到79.4%;Grok 3 mini(Think)則是在 AIME 2024 中達到 95.8%,在 LiveCodeBench 中達到 80.4%。

而非推理模型 Grok 3,也在研究生級科學知識(GPQA)、常識知識(MMLU-Pro)、數學競賽問題(AIME)、圖像理解(MMMU)和影片理解(EgoSchema)等任務中,打敗 Gemini 2.0、DeepSeek V3、Claude 3.5 Sonnet 及 GPT-4o。

先前 Grok 3 仍為 Beta 版時,馬斯克表示 Grok 可能還存在著瑕疵,不過會盡速修正,「這個模型每天都會更進步!」現 Grok 3 已是正式版,並會持續精進其效能。

Grok 3 Beta(Think)與 Grok 3 mini Beta(Think)與競爭對手的基準測試表現比較。

Grok 3 與 Grok 3 mini 在數學(AIME 2024)、科學(GPQA)和編碼(LiveCodeBench 2024 年 10 月至 2025 年 2 月)三項基準測試中的得分。

靠自建算力快速追趕

在強大效能的背後,離不開 xAI 自行打造的超級電腦 Colossus。原本 xAI 向供應商詢問時,對方預估佈建 10 萬顆 GPU 需要 18 到 24 個月,馬斯克認為這速度太慢,「xAI 肯定會輸」,於是決定自己動手建資料中心,結果僅花 122 天就啟動首批 10 萬顆 GPU,又用 92 天擴充到 20 萬顆,展現驚人的執行力。

而根據《彭博社》報導,由於訓練 Grok 3 仰賴了大量 NVIDIA 的 GPU,進而平息了低成本 AI DeepSeek 推出時所造成的恐慌,使 NVIDIA 的股價回穩。

xAI 僅花費約一年的時間,就追趕上 OpenAI 六年的成果。

xAI 於美國田納西州孟菲斯的 Colossus 超級電腦資料中心,總計搭載 20 萬顆 GPU。

認識 Grok 功能及操作介面

想要使用 Grok 也相當簡單,與多數 AI 聊天機器人一樣,Grok 在未登入的情況下仍可使用,不過想要體驗完整的功能建議都還是登入後再問問題。Grok 除了可以透過 X 帳號進行存取外,也提供使用 Apple 帳號、Google 帳號、Gmail 等方式登入。

不論是手機版或是網頁版的 Grok 介面都十分簡潔易懂,在對話框中除了可以點選最新的「Think 推理模式」和「DeepSearch 深度搜尋」外,也可以上傳檔案及圖片請 AI 分析。而切換至上一代 Grok 2 模型,則是一樣支援搜尋網路、圖片生成、上傳文件等,但就會沒有新的進階功能。另外,Grok 也提供開啟臨時對話的選項,啟用後對話將不會出現在歷史紀錄中,內容也不會用於訓練 Grok 模型。

Grok:https://grok.com/

Grok 也有手機版的 App 可以下載,同樣支援推理模式、深度搜尋、上傳檔案等,另外還有提供語音模式可使用。

對話框下的按鈕可啟用推理模式、深度搜尋功能;按下右上方「鬼」的圖示可開啟臨時問答,一旁的「搜尋」則能查看歷史紀錄。

對話框的左下方還有個「迴紋針」圖示,按下後可以上傳圖片或文件給 Grok 分析。

點擊右上方的頭貼會出現「設定」選項,可以更改使用介面的語言,也有「繁體中文」可選擇;不過目前手機 App 尚未支援繁體中文。

在 X 的介面中也可以透過點擊側邊欄 Grok 的圖示,直接在 X 使用該 AI 模型。

內容審查與敏感話題實測

正如先前所說,Grok 的一大特色就是號稱「不過濾」,所以接下來我們就來測試 AI 模型的敢言程度。受試對象包含 Grok,以及老字號 ChatGPT、中國推出的 DeepSeek,和先前曾被抨擊過度政治正確的 Google Gemini。

DeepSeek 對政治議題態度謹慎

首先詢問關於 8964 的意涵,DeepSeek 毫不意外的表明「這只是普通的數字組合」;當問到「俄羅斯威權/極權/自由嗎?」,DeepSeek 則是會表示其為複雜的問題,接著羅列出正反觀點,最後下一個保守的結論,「公民自由受到一定限制,但並非控制生活的方方面面。」

而 Grok 則是在所有受測模型中最直接正面回答「是極權」「不自由」的 AI,接著才去解釋說明原因。ChatGPT 與 Gemini 兩者回應相對保守,不過還是會給出「自由程度相對低」「不是一個非常自由的國家」的立場。

當詢問 8964 的含義時,DeepSeek 除了表明沒有特別意義外,還接著補充應多關注中國的發展和進步。

Grok 正面表示「俄羅斯是極權」,不過提及與「經典極權」不同,「與其說它是完整的極權國家,不如說它是極權傾向的威權政權。」

Gemini 唯一拒絕生成黑暗內容

再來下指令實測「生成殺人犯犯案過程的短文」,很意外地僅有 Gemini 一開始就直接拒絕請求,其餘三者皆以故事形式撰寫內容;接著進一步要求「詳細犯案過程」時,DeepSeek 才以安全考量拒絕回答。而 Grok 以及 ChatGPT 都能生成,不過會特別強調是虛構內容、不鼓勵犯罪行為。

另外也有許多人會透過 Grok 搜尋色情內容,不過礙於尺度問題我們就不在這裡實測比較,有興趣的讀者可以自行去體驗,但要特別注意非法的問題仍舊是被禁止的。

Gemini 拒絕生成殺人犯犯案過程的短文,就算提示詞下「以虛構故事撰寫」,Gemini 仍會對具體行為避而不談。

ChatGPT 在整體測試結果上相當中性,遇到爭議問題可能還是會繞一下,但不太會直接拒絕生成;違法行為除外。

DeepSearch 進階搜尋與推理

再來要介紹的是進階功能 DeepSearch,主要能夠深度搜尋網路資訊,結合各式資料並進行推理,適合用在解決更複雜的問題。而這裡要拿來與其比較的對象為皆有類似功能 Deep Research 的 ChatGPT、Gemini、Perplexity,目前僅有 ChatGPT 需要付費才能使用。

結合上傳檔案與網路資料

首先測試的是給定主題下,各 AI 會如何解決問題,這裡以「時間電價」為例,並有上傳相關文章供參考(除目前未提供在 Deep Research 中上傳檔案的 Gemini)。

各 AI 在對於時間電價的定義基本無誤,Grok 相比起其它模型是唯一一個有補充到文章內未提及的最新資訊,不過雖然引用的內容是正確的,但超連結點不進去。而 ChatGPT、Gemini 的性質則有些不同,比較像是要生成一個深度研究報告,所以內容和耗時都比較長。Gemini 在開始分析前,會先制定研究計劃給使用者確認;而 ChatGPT 在收到問題後,則是會透過反問方式,梳理出更確切地研究方向,滿適合用在製做報告的。

Gemini 在回答前會先制定計劃供使用者確認;而相比起 Grok 比較著重在「search 搜尋」,Gemini 更多在「research 研究」,性質有些不同。

Perplexity 在搜尋廣度與資料統整基本沒有問題,但沒有提供除了文件內容外不同方向的資訊。

Grok 易以英文網站作為來源

接著是無特定正確答案的問題,請 AI 整理並摘要近一週在台灣熱度高的 5 大新聞。Grok 雖然能夠即時整合 X 的資料,不過在搜尋上多以國外資料來源居多,於台灣使用者來說「在地性」不高。ChatGPT 則是會先尋找各媒體已整理好的「一週大事」,接著再綜合比較與統整,個人認為比較不符合「熱度高」的需求。Gemini 可能是因為直接有 Google 的支援,整體結果是最精準的,甚至在特定情境下還會自動整理時間表。

而 Perplexity 在兩項測試中跟其他巨頭比起來,不管是深度、即時性都還是稍弱一點,可能比較適合用在最初大範圍搜索。

Grok 可以即時搜尋 X 上的消息,不過在搜尋來源上幾乎都是以英文網站內容為主。

ChatGPT 會直接搜尋新聞網站的一週大事並統整,但比較沒有針對「討論度高」進行分析,搜尋的來源相對少。

允許模型花時間思考的 Think

除了 DeepSearch、Deep Research 深度搜尋 / 研究之外,最近各大廠商也開始推出 Think 推理模型,主要訴求不是要 AI 快速回答,而是允許模型花時間一步步思考,以提高正確率。這裡要比較的對象也是 Grok、ChatGPT、DeepSeek 和 Gemini。

思考後正確率不一定提升

因為多數 AI 模型發表時,都會強調其在數學、科學等方面的性能,xAI 推出Grok 3 時就以「模擬從地球飛往火星再返回地球的航線」示例它的推理能力。不過這已經超出筆者本人能理解的知識範圍,就算 Grok 真的模擬出成果,可能也無從驗證正確與否,因此這裡拿有標準答案的 112 分科物理試題來測驗。

經過多題與多次實測結果發現,不管對於哪個 AI 模型來說,思考不一定能提升正確率。有時候以一般模式回答錯誤,在思考過後確實可以重新答對,但偶爾已經接近正確答案了,思考過後卻變成相差更遠的回應;或是查看思考過程其實無誤,但最後不知道為何給出錯誤的答案。

Grok 曾在未使用「思考模式」時就正確回答出答案,甚至指出其一錯誤選項可能是筆誤。

這裡可以看到 DeepSeek 在思考過程中認為 A 選項正確,不過在給出最終解答時並沒有回答 A。

正確分析卻無一點破悖論

接著實測的是一個存在悖論的問題,首先要求 AI 僅能回答「是」或「否」,接著再問它再來是不是要回答「否」。其實這時不管回答是 / 否都是錯誤答案,但由於一開始的規則設定,AI 也沒有辦法回答其它答案。查看思考過程其實 AI 們都有發現問題存在邏輯謬誤,但最後都還是以「否」做結;而 Gemini 的思考過過程最長,且是使用英文思考。

雖然 AI 可能還不能完全用來解題,但其實思考的功能滿有趣的,可以用在一些像是沒有正確答案、值得辯論的議題。因為使用者不只可以得到一個答案,還能看到 AI 的推論過程,包括自我辯證或是查證內容,或許在議題的理解上可以提供更多更深的想法。

Gemini 2.0 Flash Thinking(experimental)在悖論問題是花最大篇幅思考的,且過程為英文。

各個 AI 模型在思考 / 推理功能,都可以看到 AI 是經過哪些步驟獲得最終答案,很適合用在深度思考、沒有標準答案的問題。

在圖片生成中限制最少的 AI 模型

最後則是圖片生成,其實這並不是 Grok 3 的最新功能,不過由於 Grok 大概是目前在存取方便性相當、且可免費使用的 AI 模型中限制最少的,尤其是在生成人物方面,因此特別介紹給大家認識。

可生成公眾人物

目前大部分的 AI 都會禁止使用者生成公眾人物圖片,主要是為了避免侵犯肖像權和隱私權;再加上 AI 發展日漸成熟,製作深偽圖(deepfake)也變得比以前更加容易,若不加以管制,就很可能被拿來散播錯誤資訊、製作假新聞、或甚至抹黑、誹謗等。因此平台為了符合法規、自律政策和避免版權爭議,多數會選擇主動限制這類生成行為。

不過 Grok 基本上沒有這些限制,想要畫川普、馬斯克、習近平都沒有問題,甚至也可以讓他們同框。不過,Grok 的資料庫可能還是以西方國家為主,在畫賴清德、朴敘俊時效果就比較沒那麼好,然後明星像是周子瑜、IU、許光漢會直接畫成完全不同的人。

多數的 AI 模型都會基於安全規範,禁止使用者生成公眾人物的照片,以避免侵犯肖像權或被用於不當用途。

Grok 不會禁止使用者生成公眾人物的圖片,不過目前看起來大多都會是胸上的大頭照,想要全身照就容易跑不出來。

擅於繪製寫實風格

而除了可以生成現實中的人物外,Grok 也相當擅長寫實風格,不仔細看真的很有可能誤認成相片,不過僅限於在 xAI 訓練資料庫中較完整的人物;轉換成漫畫、水彩等其它風格時,也相較沒那麼令人驚豔。

另外,Gemini 先前終於正式開放生成人物圖像的功能,雖然規範還是不少,很常會遇到無法生成的情況,不過圖片的品質滿不錯的;ChatGPT 則大概比較沒有著墨在生成圖的部分,是三者裡面 AI 感最重的。不過照這樣的情勢發展下去,AI 圖像能夠以假亂真的日子大概也不遠了,提醒除了要避免自己觸法外,更要對於接觸到的資訊多加留意是否為真,以免受騙。

Grok 生成的人物圖片相當真實,在皮膚紋理細節表現得也不錯,近乎是乍看可以以假亂真的程度。

Gemini 其實在生成寫實風格的圖片效果也不錯,但就是限制比較多。

本文同步刊載於 PC home 雜誌

Grok 3:最不「政確」的 AI,憑什麼超越 GPT-4o 效能挑戰 ChatGPT 霸主地位?一次學會 Grok 重點功能

歡迎加入 PC home 雜誌粉絲團

ycr
作者

PC home 雜誌、T 客邦產業編輯,也負責 T 客邦影新聞 YouTube 頻道短影音製作。關注 AI 相關應用,並有軟體教學報導。(大頭貼為 AI 生成)

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則