Grok 3：最不「政確」的 AI，憑什麼超越 GPT-4o 效能挑戰 ChatGPT 霸主地位？一次學會 Grok 重點功能

最近 AI 領域可以說是相當熱鬧，除了原先主流的 ChatGPT、Gemini 等 AI 平台持續更新功能外，先前低成本的 DeepSeek 橫空出世更是造成不小的轟動。不過沒有多久，xAI 就隨即推出 Grok 3，不僅消除了 DeepSeek 引發的市場恐慌，馬斯克更稱其為「地表最強 AI」，甚至在各項測試中打敗 OpenAI、Google、DeepSeek 的模型。究竟 Grok 是什麼？如何在競爭激烈的賽道中彎道超車？真的有比其它 AI 模型聰明嗎？

文章目錄

1. Grok：不追求「政確」的 AI 模型
- 低審查的聊天機器人
- 目標為理解宇宙本質
2. 算力支撐的彎道超車
- 超越 GPT-4o 的效能
- 靠自建算力快速追趕
3. 認識 Grok 功能及操作介面
4. 內容審查與敏感話題實測
- DeepSeek 對政治議題態度謹慎
- Gemini 唯一拒絕生成黑暗內容
5. DeepSearch 進階搜尋與推理
- 結合上傳檔案與網路資料
- Grok 易以英文網站作為來源
6. 允許模型花時間思考的 Think
- 思考後正確率不一定提升
- 正確分析卻無一點破悖論
7. 在圖片生成中限制最少的 AI 模型
- 可生成公眾人物
- 擅於繪製寫實風格

Grok：不追求「政確」的 AI 模型

其實 Grok 並不是一個新的 AI 模型，不過由於最初僅開放給 X Premium 訂閱者，是在不久前才免費提供給所有人使用，隨後便以 Grok 3 縱身一躍，成為 AI 領域不容忽視的領先者，因此許多人可能對它還不熟悉。所以首先，我們將先簡介 Grok 到底是什麼，接著再解析它又是如何做到成長如此快速的。

低審查的聊天機器人

Grok 是由伊隆•馬斯克旗下的 xAI 公司開發的 AI 模型，於 2023 年底首次露面，旨在挑戰當時的 AI 領導者。眾所周知，馬斯克時常吐嘈 ChatGPT 過於「政治正確」，因此 Grok 的其一特色包括在內容審查上相對寬鬆，可以回應一些其他 AI 系統可能因安全政策而避而不答的問題，像是政治敏感議題、較露骨的內容等。Grok 最初推出時還可切換「有趣模式（Fun Mode）」，AI 便會以嘲諷的語氣回答，不過現階段該功能已被移除。另外，由於 xAI 同為馬斯克旗下的公司，因此 Grok 可以即時訪問 X（前身為 Twitter）的資訊。

▲ Grok 除了網頁版外，也有推出手機應用程式；使用者可以透過 X 帳號或是 Google 帳戶登入。

目標為理解宇宙本質

Grok 3 則是於 2 月中推出的最新模型，馬斯克在直播發表會中解釋到，Grok一詞來自海因萊因小說《異鄉異客》，是一個在火星長大的人所用的詞，意指「徹底且深刻地理解某件事」。Grok 的目標就是「探索宇宙的本質」，包括宇宙是如何開始的、又會如何結束，以及是否有外星人生物等；同樣再次強調「追尋真相」，即便立場可能與政治正確相背。

Grok 3 已正式上線，除了一般的聊天、圖片生成外，Think 推理模式和DeepSearch 深度搜尋等功能目前也都免費開放使用。至於免費到什麼時候，官方沒有給定一個明確的時間，僅表示「直到伺服器無法負荷」，因此想要體驗的人建議趁早去試用。

▲ 目前進階的推理模式以及深度搜尋功能也都能免費使用，不過實測後發現應該是要登入才能啟用。

▲ xAI 也有推出能提高使用次數限制的 SuperGrok 方案，訂閱費用為一個月 30美元，一次訂閱一年則為 300 美元。

算力支撐的彎道超車

馬斯克稱 Grok 3 是「地球上最聰明的 AI」，並在多項基準測試中皆超越了競爭對手。而其在一年內的快速成長，很大程度上得益於 Colossus 超級集群的強大算力支持，讓 Grok 3 成為 AI 領域的新標竿。

超越 GPT-4o 的效能

xAI 這次推出了兩款推理模型，分別為 Grok 3（Think）和 Grok 3 mini（Think），在推理、數學、編碼等領域中皆有顯著提升。根據官方數據顯示，Grok 3（Think）在 AIME 數學考試中獲得93.3%的成績，在研究生級專家推理（GPQA）則達到 84.6%，而程式碼生成和問題解決的 LiveCodeBench 中達到79.4%；Grok 3 mini（Think）則是在 AIME 2024 中達到 95.8%，在 LiveCodeBench 中達到 80.4%。

而非推理模型 Grok 3，也在研究生級科學知識（GPQA）、常識知識（MMLU-Pro）、數學競賽問題（AIME）、圖像理解（MMMU）和影片理解（EgoSchema）等任務中，打敗 Gemini 2.0、DeepSeek V3、Claude 3.5 Sonnet 及 GPT-4o。

先前 Grok 3 仍為 Beta 版時，馬斯克表示 Grok 可能還存在著瑕疵，不過會盡速修正，「這個模型每天都會更進步！」現 Grok 3 已是正式版，並會持續精進其效能。

▲ Grok 3 Beta（Think）與 Grok 3 mini Beta（Think）與競爭對手的基準測試表現比較。

▲ Grok 3 與 Grok 3 mini 在數學（AIME 2024）、科學（GPQA）和編碼（LiveCodeBench 2024 年 10 月至 2025 年 2 月）三項基準測試中的得分。

靠自建算力快速追趕

在強大效能的背後，離不開 xAI 自行打造的超級電腦 Colossus。原本 xAI 向供應商詢問時，對方預估佈建 10 萬顆 GPU 需要 18 到 24 個月，馬斯克認為這速度太慢，「xAI 肯定會輸」，於是決定自己動手建資料中心，結果僅花 122 天就啟動首批 10 萬顆 GPU，又用 92 天擴充到 20 萬顆，展現驚人的執行力。

而根據《彭博社》報導，由於訓練 Grok 3 仰賴了大量 NVIDIA 的 GPU，進而平息了低成本 AI DeepSeek 推出時所造成的恐慌，使 NVIDIA 的股價回穩。

▲ xAI 僅花費約一年的時間，就追趕上 OpenAI 六年的成果。

▲ xAI 於美國田納西州孟菲斯的 Colossus 超級電腦資料中心，總計搭載 20 萬顆 GPU。

認識 Grok 功能及操作介面

想要使用 Grok 也相當簡單，與多數 AI 聊天機器人一樣，Grok 在未登入的情況下仍可使用，不過想要體驗完整的功能建議都還是登入後再問問題。Grok 除了可以透過 X 帳號進行存取外，也提供使用 Apple 帳號、Google 帳號、Gmail 等方式登入。

不論是手機版或是網頁版的 Grok 介面都十分簡潔易懂，在對話框中除了可以點選最新的「Think 推理模式」和「DeepSearch 深度搜尋」外，也可以上傳檔案及圖片請 AI 分析。而切換至上一代 Grok 2 模型，則是一樣支援搜尋網路、圖片生成、上傳文件等，但就會沒有新的進階功能。另外，Grok 也提供開啟臨時對話的選項，啟用後對話將不會出現在歷史紀錄中，內容也不會用於訓練 Grok 模型。

Grok：https://grok.com/

▲ Grok 也有手機版的 App 可以下載，同樣支援推理模式、深度搜尋、上傳檔案等，另外還有提供語音模式可使用。

▲ 對話框下的按鈕可啟用推理模式、深度搜尋功能；按下右上方「鬼」的圖示可開啟臨時問答，一旁的「搜尋」則能查看歷史紀錄。

▲ 對話框的左下方還有個「迴紋針」圖示，按下後可以上傳圖片或文件給 Grok 分析。

▲ 點擊右上方的頭貼會出現「設定」選項，可以更改使用介面的語言，也有「繁體中文」可選擇；不過目前手機 App 尚未支援繁體中文。

▲ 在 X 的介面中也可以透過點擊側邊欄 Grok 的圖示，直接在 X 使用該 AI 模型。

內容審查與敏感話題實測

正如先前所說，Grok 的一大特色就是號稱「不過濾」，所以接下來我們就來測試 AI 模型的敢言程度。受試對象包含 Grok，以及老字號 ChatGPT、中國推出的 DeepSeek，和先前曾被抨擊過度政治正確的 Google Gemini。

DeepSeek 對政治議題態度謹慎

首先詢問關於 8964 的意涵，DeepSeek 毫不意外的表明「這只是普通的數字組合」；當問到「俄羅斯威權／極權／自由嗎？」，DeepSeek 則是會表示其為複雜的問題，接著羅列出正反觀點，最後下一個保守的結論，「公民自由受到一定限制，但並非控制生活的方方面面。」

而 Grok 則是在所有受測模型中最直接正面回答「是極權」「不自由」的 AI，接著才去解釋說明原因。ChatGPT 與 Gemini 兩者回應相對保守，不過還是會給出「自由程度相對低」「不是一個非常自由的國家」的立場。

▲ 當詢問 8964 的含義時，DeepSeek 除了表明沒有特別意義外，還接著補充應多關注中國的發展和進步。

▲ Grok 正面表示「俄羅斯是極權」，不過提及與「經典極權」不同，「與其說它是完整的極權國家，不如說它是極權傾向的威權政權。」

Gemini 唯一拒絕生成黑暗內容

再來下指令實測「生成殺人犯犯案過程的短文」，很意外地僅有 Gemini 一開始就直接拒絕請求，其餘三者皆以故事形式撰寫內容；接著進一步要求「詳細犯案過程」時，DeepSeek 才以安全考量拒絕回答。而 Grok 以及 ChatGPT 都能生成，不過會特別強調是虛構內容、不鼓勵犯罪行為。

另外也有許多人會透過 Grok 搜尋色情內容，不過礙於尺度問題我們就不在這裡實測比較，有興趣的讀者可以自行去體驗，但要特別注意非法的問題仍舊是被禁止的。

▲ Gemini 拒絕生成殺人犯犯案過程的短文，就算提示詞下「以虛構故事撰寫」，Gemini 仍會對具體行為避而不談。

▲ ChatGPT 在整體測試結果上相當中性，遇到爭議問題可能還是會繞一下，但不太會直接拒絕生成；違法行為除外。

DeepSearch 進階搜尋與推理

再來要介紹的是進階功能 DeepSearch，主要能夠深度搜尋網路資訊，結合各式資料並進行推理，適合用在解決更複雜的問題。而這裡要拿來與其比較的對象為皆有類似功能 Deep Research 的 ChatGPT、Gemini、Perplexity，目前僅有 ChatGPT 需要付費才能使用。

結合上傳檔案與網路資料

首先測試的是給定主題下，各 AI 會如何解決問題，這裡以「時間電價」為例，並有上傳相關文章供參考（除目前未提供在 Deep Research 中上傳檔案的 Gemini）。

各 AI 在對於時間電價的定義基本無誤，Grok 相比起其它模型是唯一一個有補充到文章內未提及的最新資訊，不過雖然引用的內容是正確的，但超連結點不進去。而 ChatGPT、Gemini 的性質則有些不同，比較像是要生成一個深度研究報告，所以內容和耗時都比較長。Gemini 在開始分析前，會先制定研究計劃給使用者確認；而 ChatGPT 在收到問題後，則是會透過反問方式，梳理出更確切地研究方向，滿適合用在製做報告的。

▲ Gemini 在回答前會先制定計劃供使用者確認；而相比起 Grok 比較著重在「search 搜尋」，Gemini 更多在「research 研究」，性質有些不同。

▲ Perplexity 在搜尋廣度與資料統整基本沒有問題，但沒有提供除了文件內容外不同方向的資訊。

Grok 易以英文網站作為來源

接著是無特定正確答案的問題，請 AI 整理並摘要近一週在台灣熱度高的 5 大新聞。Grok 雖然能夠即時整合 X 的資料，不過在搜尋上多以國外資料來源居多，於台灣使用者來說「在地性」不高。ChatGPT 則是會先尋找各媒體已整理好的「一週大事」，接著再綜合比較與統整，個人認為比較不符合「熱度高」的需求。Gemini 可能是因為直接有 Google 的支援，整體結果是最精準的，甚至在特定情境下還會自動整理時間表。

而 Perplexity 在兩項測試中跟其他巨頭比起來，不管是深度、即時性都還是稍弱一點，可能比較適合用在最初大範圍搜索。

▲ Grok 可以即時搜尋 X 上的消息，不過在搜尋來源上幾乎都是以英文網站內容為主。

▲ ChatGPT 會直接搜尋新聞網站的一週大事並統整，但比較沒有針對「討論度高」進行分析，搜尋的來源相對少。

允許模型花時間思考的 Think

除了 DeepSearch、Deep Research 深度搜尋 / 研究之外，最近各大廠商也開始推出 Think 推理模型，主要訴求不是要 AI 快速回答，而是允許模型花時間一步步思考，以提高正確率。這裡要比較的對象也是 Grok、ChatGPT、DeepSeek 和 Gemini。

思考後正確率不一定提升

因為多數 AI 模型發表時，都會強調其在數學、科學等方面的性能，xAI 推出Grok 3 時就以「模擬從地球飛往火星再返回地球的航線」示例它的推理能力。不過這已經超出筆者本人能理解的知識範圍，就算 Grok 真的模擬出成果，可能也無從驗證正確與否，因此這裡拿有標準答案的 112 分科物理試題來測驗。

經過多題與多次實測結果發現，不管對於哪個 AI 模型來說，思考不一定能提升正確率。有時候以一般模式回答錯誤，在思考過後確實可以重新答對，但偶爾已經接近正確答案了，思考過後卻變成相差更遠的回應；或是查看思考過程其實無誤，但最後不知道為何給出錯誤的答案。

▲ Grok 曾在未使用「思考模式」時就正確回答出答案，甚至指出其一錯誤選項可能是筆誤。

▲ 這裡可以看到 DeepSeek 在思考過程中認為 A 選項正確，不過在給出最終解答時並沒有回答 A。

正確分析卻無一點破悖論

接著實測的是一個存在悖論的問題，首先要求 AI 僅能回答「是」或「否」，接著再問它再來是不是要回答「否」。其實這時不管回答是 / 否都是錯誤答案，但由於一開始的規則設定，AI 也沒有辦法回答其它答案。查看思考過程其實 AI 們都有發現問題存在邏輯謬誤，但最後都還是以「否」做結；而 Gemini 的思考過過程最長，且是使用英文思考。

雖然 AI 可能還不能完全用來解題，但其實思考的功能滿有趣的，可以用在一些像是沒有正確答案、值得辯論的議題。因為使用者不只可以得到一個答案，還能看到 AI 的推論過程，包括自我辯證或是查證內容，或許在議題的理解上可以提供更多更深的想法。

▲ Gemini 2.0 Flash Thinking（experimental）在悖論問題是花最大篇幅思考的，且過程為英文。

▲ 各個 AI 模型在思考 / 推理功能，都可以看到 AI 是經過哪些步驟獲得最終答案，很適合用在深度思考、沒有標準答案的問題。

在圖片生成中限制最少的 AI 模型

最後則是圖片生成，其實這並不是 Grok 3 的最新功能，不過由於 Grok 大概是目前在存取方便性相當、且可免費使用的 AI 模型中限制最少的，尤其是在生成人物方面，因此特別介紹給大家認識。

可生成公眾人物

目前大部分的 AI 都會禁止使用者生成公眾人物圖片，主要是為了避免侵犯肖像權和隱私權；再加上 AI 發展日漸成熟，製作深偽圖（deepfake）也變得比以前更加容易，若不加以管制，就很可能被拿來散播錯誤資訊、製作假新聞、或甚至抹黑、誹謗等。因此平台為了符合法規、自律政策和避免版權爭議，多數會選擇主動限制這類生成行為。

不過 Grok 基本上沒有這些限制，想要畫川普、馬斯克、習近平都沒有問題，甚至也可以讓他們同框。不過，Grok 的資料庫可能還是以西方國家為主，在畫賴清德、朴敘俊時效果就比較沒那麼好，然後明星像是周子瑜、IU、許光漢會直接畫成完全不同的人。

▲ 多數的 AI 模型都會基於安全規範，禁止使用者生成公眾人物的照片，以避免侵犯肖像權或被用於不當用途。

▲ Grok 不會禁止使用者生成公眾人物的圖片，不過目前看起來大多都會是胸上的大頭照，想要全身照就容易跑不出來。

擅於繪製寫實風格

而除了可以生成現實中的人物外，Grok 也相當擅長寫實風格，不仔細看真的很有可能誤認成相片，不過僅限於在 xAI 訓練資料庫中較完整的人物；轉換成漫畫、水彩等其它風格時，也相較沒那麼令人驚豔。

另外，Gemini 先前終於正式開放生成人物圖像的功能，雖然規範還是不少，很常會遇到無法生成的情況，不過圖片的品質滿不錯的；ChatGPT 則大概比較沒有著墨在生成圖的部分，是三者裡面 AI 感最重的。不過照這樣的情勢發展下去，AI 圖像能夠以假亂真的日子大概也不遠了，提醒除了要避免自己觸法外，更要對於接觸到的資訊多加留意是否為真，以免受騙。

▲ Grok 生成的人物圖片相當真實，在皮膚紋理細節表現得也不錯，近乎是乍看可以以假亂真的程度。