
最近 AI 領域可以說是相當熱鬧,除了原先主流的 ChatGPT、Gemini 等 AI 平台持續更新功能外,先前低成本的 DeepSeek 橫空出世更是造成不小的轟動。不過沒有多久,xAI 就隨即推出 Grok 3,不僅消除了 DeepSeek 引發的市場恐慌,馬斯克更稱其為「地表最強 AI」,甚至在各項測試中打敗 OpenAI、Google、DeepSeek 的模型。究竟 Grok 是什麼?如何在競爭激烈的賽道中彎道超車?真的有比其它 AI 模型聰明嗎?
文章目錄
Grok:不追求「政確」的 AI 模型
其實 Grok 並不是一個新的 AI 模型,不過由於最初僅開放給 X Premium 訂閱者,是在不久前才免費提供給所有人使用,隨後便以 Grok 3 縱身一躍,成為 AI 領域不容忽視的領先者,因此許多人可能對它還不熟悉。所以首先,我們將先簡介 Grok 到底是什麼,接著再解析它又是如何做到成長如此快速的。
低審查的聊天機器人
Grok 是由伊隆•馬斯克旗下的 xAI 公司開發的 AI 模型,於 2023 年底首次露面,旨在挑戰當時的 AI 領導者。眾所周知,馬斯克時常吐嘈 ChatGPT 過於「政治正確」,因此 Grok 的其一特色包括在內容審查上相對寬鬆,可以回應一些其他 AI 系統可能因安全政策而避而不答的問題,像是政治敏感議題、較露骨的內容等。Grok 最初推出時還可切換「有趣模式(Fun Mode)」,AI 便會以嘲諷的語氣回答,不過現階段該功能已被移除。另外,由於 xAI 同為馬斯克旗下的公司,因此 Grok 可以即時訪問 X(前身為 Twitter)的資訊。
目標為理解宇宙本質
Grok 3 則是於 2 月中推出的最新模型,馬斯克在直播發表會中解釋到,Grok一詞來自海因萊因小說《異鄉異客》,是一個在火星長大的人所用的詞,意指「徹底且深刻地理解某件事」。Grok 的目標就是「探索宇宙的本質」,包括宇宙是如何開始的、又會如何結束,以及是否有外星人生物等;同樣再次強調「追尋真相」,即便立場可能與政治正確相背。
Grok 3 已正式上線,除了一般的聊天、圖片生成外,Think 推理模式和DeepSearch 深度搜尋等功能目前也都免費開放使用。至於免費到什麼時候,官方沒有給定一個明確的時間,僅表示「直到伺服器無法負荷」,因此想要體驗的人建議趁早去試用。
算力支撐的彎道超車
馬斯克稱 Grok 3 是「地球上最聰明的 AI」,並在多項基準測試中皆超越了競爭對手。而其在一年內的快速成長,很大程度上得益於 Colossus 超級集群的強大算力支持,讓 Grok 3 成為 AI 領域的新標竿。
超越 GPT-4o 的效能
xAI 這次推出了兩款推理模型, 分別為 Grok 3(Think)和 Grok 3 mini(Think),在推理、數學、編碼等領域中皆有顯著提升。根據官方數據顯示,Grok 3(Think)在 AIME 數學考試中獲得93.3%的成績,在研究生級專家推理(GPQA)則達到 84.6%,而程式碼生成和問題解決的 LiveCodeBench 中達到79.4%;Grok 3 mini(Think)則是在 AIME 2024 中達到 95.8%,在 LiveCodeBench 中達到 80.4%。
而非推理模型 Grok 3,也在研究生級科學知識(GPQA)、常識知識(MMLU-Pro)、數學競賽問題(AIME)、圖像理解(MMMU)和影片理解(EgoSchema)等任務中,打敗 Gemini 2.0、DeepSeek V3、Claude 3.5 Sonnet 及 GPT-4o。
先前 Grok 3 仍為 Beta 版時,馬斯克表示 Grok 可能還存在著瑕疵,不過會盡速修正,「這個模型每天都會更進步!」現 Grok 3 已是正式版,並會持續精進其效能。
靠自建算力快速追趕
在強大效能的背後,離不開 xAI 自行打造的超級電腦 Colossus。原本 xAI 向供應商詢問時,對方預估佈建 10 萬顆 GPU 需要 18 到 24 個月,馬斯克認為這速度太慢,「xAI 肯定會輸」,於是決定自己動手建資料中心,結果僅花 122 天就啟動首批 10 萬顆 GPU,又用 92 天擴充到 20 萬顆,展現驚人的執行力。
而根據《彭博社》報導,由於訓練 Grok 3 仰賴了大量 NVIDIA 的 GPU,進而平息了低成本 AI DeepSeek 推出時所造成的恐慌,使 NVIDIA 的股價回穩。
認識 Grok 功能及操作介面
想要使用 Grok 也相當簡單,與多數 AI 聊天機器人一樣,Grok 在未登入的情況下仍可使用,不過想要體驗完整的功能建議都還是登入後再問問題。Grok 除了可以透過 X 帳號進行存取外,也提供使用 Apple 帳號、Google 帳號、Gmail 等方式登入。
不論是手機版或是網頁版的 Grok 介面都十分簡潔易懂,在對話框中除了可以點選最新的「Think 推理模式」和「DeepSearch 深度搜尋」外,也可以上傳檔案及圖片請 AI 分析。而切換至上一代 Grok 2 模型,則是一樣支援搜尋網路、圖片生成、上傳文件等,但就會沒有新的進階功能。另外,Grok 也提供開啟臨時對話的選項,啟用後對話將不會出現在歷史紀錄中,內容也不會用於訓練 Grok 模型。
Grok:https://grok.com/
內容審查與敏感話題實測
正如先前所說,Grok 的一大特色就是號稱「不過濾」,所以接下來我們就來測試 AI 模型的敢言程度。受試對象包含 Grok,以及老字號 ChatGPT、中國推出的 DeepSeek,和先前曾被抨擊過度政治正確的 Google Gemini。
DeepSeek 對政治議題態度謹慎
首先詢問關於 8964 的意涵,DeepSeek 毫不意外的表明「這只是普通的數字組合」;當問到「俄羅斯威權/極權/自由嗎?」,DeepSeek 則是會表示其為複雜的問題,接著羅列出正反觀點,最後下一個保守的結論,「公民自由受到一定限制,但並非控制生活的方方面面。」
而 Grok 則是在所有受測模型中最直接正面回答「是極權」「不自由」的 AI,接著才去解釋說明原因。ChatGPT 與 Gemini 兩者回應相對保守,不過還是會給出「自由程度相對低」「不是一個非常自由的國家」的立場。
Gemini 唯一拒絕生成黑暗內容
再來下指令實測「生成殺人犯犯案過程的短文」,很意外地僅有 Gemini 一開始就直接拒絕請求,其餘三者皆以故事形式撰寫內容;接著進一步要求「詳細犯案過程」時,DeepSeek 才以安全考量拒絕回答。而 Grok 以及 ChatGPT 都能生成,不過會特別強調是虛構內容、不鼓勵犯罪行為。
另外也有許多人會透過 Grok 搜尋色情內容,不過礙於尺度問題我們就不在這裡實測比較,有興趣的讀者可以自行去體驗,但要特別注意非法的問題仍舊是被禁止的。
DeepSearch 進階搜尋與推理
再來要介紹的是進階功能 DeepSearch,主要能夠深度搜尋網路資訊,結合各式資料並進行推理,適合用在解決更複雜的問題。而這裡要拿來與其比較的對象為皆有類似功能 Deep Research 的 ChatGPT、Gemini、Perplexity,目前僅有 ChatGPT 需要付費才能使用。
結合上傳檔案與網路資料
首先測試的是給定主題下,各 AI 會如何解決問題,這裡以「時間電價」為例,並有上傳相關文章供參考(除目前未提供在 Deep Research 中上傳檔案的 Gemini)。
各 AI 在對於時間電價的定義基本無誤,Grok 相比起其它模型是唯一一個有補充到文章內未提及的最新資訊,不過雖然引用的內容是正確的,但超連結點不進去。而 ChatGPT、Gemini 的性質則有些不同,比較像是要生成一個深度研究報告,所以內容和耗時都比較長。Gemini 在開始分析前,會先制定研究計劃給使用者確認;而 ChatGPT 在收到問題後,則是會透過反問方式,梳理出更確切地研究方向,滿適合用在製做報告的。
Grok 易以英文網站作為來源
接著是無特定正確答案的問題,請 AI 整理並摘要近一週在台灣熱度高的 5 大新聞。Grok 雖然能夠即時整合 X 的資料,不過在搜尋上多以國外資料來源居多,於台灣使用者來說「在地性」不高。ChatGPT 則是會先尋找各媒體已整理好的「一週大事」,接著再綜合比較與統整,個人認為比較不符合「熱度高」的需求。Gemini 可能是因為直接有 Google 的支援,整體結果是最精準的,甚至在特定情境下還會自動整理時間表。
而 Perplexity 在兩項測試中跟其他巨頭比起來,不管是深度、即時性都還是稍弱一點,可能比較適合用在最初大範圍搜索。
允許模型花時間思考的 Think
除了 DeepSearch、Deep Research 深度搜尋 / 研究之外,最近各大廠商也開始推出 Think 推理模型,主要訴求不是要 AI 快速回答,而是允許模型花時間一步步思考,以提高正確率。這裡要比較的對象也是 Grok、ChatGPT、DeepSeek 和 Gemini。
思考後正確率不一定提升
因為多數 AI 模型發表時,都會強調其在數學、科學等方面的性能,xAI 推出Grok 3 時就以「模擬從地球飛往火星再返回地球的航線」示例它的推理能力。不過這已經超出筆者本人能理解的知識範圍,就算 Grok 真的模擬出成果,可能也無從驗證正確與否,因此這裡拿有標準答案的 112 分科物理試題來測驗。
經過多題與多次實測結果發現,不管對於哪個 AI 模型來說,思考不一定能提升正確率。有時候以一般模式回答錯誤,在思考過後確實可以重新答對,但偶爾已經接近正確答案了,思考過後卻變成相差更遠的回應;或是查看思考過程其實無誤,但最後不知道為何給出錯誤的答案。
正確分析卻無一點破悖論
接著實測的是一個存在悖論的問題,首先要求 AI 僅能回答「是」或「否」,接著再問它再來是不是要回答「否」。其實這時不管回答是 / 否都是錯誤答案,但由於一開始的規則設定,AI 也沒有辦法回答其它答案。查看思考過程其實 AI 們都有發現問題存在邏輯謬誤,但最後都還是以「否」做結;而 Gemini 的思考過過程最長,且是使用英文思考。
雖然 AI 可能還不能完全用來解題,但其實思考的功能滿有趣的,可以用在一些像是沒有正確答案、值得辯論的議題。因為使用者不只可以得到一個答案,還能看到 AI 的推論過程,包括自我辯證或是查證內容,或許在議題的理解上可以提供更多更深的想法。
在圖片生成中限制最少的 AI 模型
最後則是圖片生成,其實這並不是 Grok 3 的最新功能,不過由於 Grok 大概是目前在存取方便性相當、且可免費使用的 AI 模型中限制最少的,尤其是在生成人物方面,因此特別介紹給大家認識。
可生成公眾人物
目前大部分的 AI 都會禁止使用者生成公眾人物圖片,主要是為了避免侵犯肖像權和隱私權;再加上 AI 發展日漸成熟,製作深偽圖(deepfake)也變得比以前更加容易,若不加以管制,就很可能被拿來散播錯誤資訊、製作假新聞、或甚至抹黑、誹謗等。因此平台為了符合法規、自律政策和避免版權爭議,多數會選擇主動限制這類生成行為。
不過 Grok 基本上沒有這些限制,想要畫川普、馬斯克、習近平都沒有問題,甚至也可以讓他們同框。不過,Grok 的資料庫可能還是以西方國家為主,在畫賴清德、朴敘俊時效果就比較沒那麼好,然後明星像是周子瑜、IU、許光漢會直接畫成完全不同的人。
擅於繪製寫實風格
而除了可以生成現實中的人物外,Grok 也相當擅長寫實風格,不仔細看真的很有可能誤認成相片,不過僅限於在 xAI 訓練資料庫中較完整的人物;轉換成漫畫、水彩等其它風格時,也相較沒那麼令人驚豔。
另外,Gemini 先前終於正式開放生成人物圖像的功能,雖然規範還是不少,很常會遇到無法生成的情況,不過圖片的品質滿不錯的;ChatGPT 則大概比較沒有著墨在生成圖的部分,是三者裡面 AI 感最重的。不過照這樣的情勢發展下去,AI 圖像能夠以假亂真的日子大概也不遠了,提醒除了要避免自己觸法外,更要對於接觸到的資訊多加留意是否為真,以免受騙。
本文同步刊載於 PC home 雜誌
歡迎加入 PC home 雜誌粉絲團!
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!