DeepSeek-R1-Lite-Preview：中國AI推理模型新星，挑戰OpenAI霸主地位

在人工智慧領域，OpenAI一直是扮演龍頭的角色，其推出的各個大型語言模型（LLM）如GPT系列和最新的o1，都引領著技術的發展方向。然而，中國的AI研究機構也正在急起直追，不斷推出具有競爭力的模型。近日，由量化交易者資助的中國AI研究公司DeepSeek，就發表了號稱能與OpenAI的o1匹敵的「推理模型」——DeepSeek-R1-Lite-Preview，引起了業界的廣泛關注。

什麼是「推理模型」？

傳統的大型語言模型（LLM）主要依賴於大量的數據和算力，透過學習巨量的文本數據，來預測下一個詞彙或句子，進而生成流暢的文本。然而，這種方法往往缺乏深度推理和邏輯分析能力，容易受到數據偏差和誤導性信息的影響，導致模型產生不準確或不合理的回答。

與傳統的LLM不同，推理模型更注重模型的「思考」過程。它們會花費更多時間來分析問題，並像人類一樣進行推理和演繹，進而避免一些常見的錯誤和陷阱。OpenAI的o1就是一個典型的推理模型，它能夠透過「思維鏈」（Chain-of-Thought）技術，將複雜的任務分解成多個步驟，逐步解決問題，就像人類在思考問題時會一步一步地分析和推導一樣。

DeepSeek-R1-Lite-Preview也採用了類似的技術，它能夠模擬人類的思維方式，進行前瞻性規劃和多步驟操作，最終得出答案。這個過程可能需要一些時間，模型可能會「思考」數十秒才能做出回應，但這也正是推理模型的優勢所在，它能夠更準確、更可靠地解決問題。

DeepSeek-R1-Lite-Preview的性能表現

DeepSeek宣稱，DeepSeek-R1的性能已經達到甚至超越了o1-preview模型的水平。在兩個常見的AI基準測試中，DeepSeek-R1展現了卓越表現：

AIME（美國數學邀請賽）：這是一個利用其他AI模型進行評估的基準測試，主要衡量AI的數學推理能力。
MATH（數學題庫測試）：該測試收錄了多種數學問題，用於評估模型的解題能力。

在上述測試中，DeepSeek-R1均取得了令人矚目的成績。然而，並非所有問題都難不倒這款模型。部分評論者指出，DeepSeek-R1在處理簡單的邏輯問題（如井字遊戲）時表現仍有不足，而這也是包括o1模型在內的推理型AI的共同挑戰。

DeepSeek-R1採用了「鏈式思考（Chain-of-Thought）」推理技術，能夠清晰展示模型解答問題的每一步驟，並向使用者解釋其邏輯過程。例如，它能夠正確回答一些「陷阱題」，這些問題曾讓GPT-4o和Claude等其他強大的AI模型感到困惑，例如「Strawberry這個單詞中有多少個字母R？」和「9.11和9.9哪個更大？」

此外，DeepSeek-R1-Lite-Preview還具有高度的透明度。使用者可以看到模型的思考過程，了解它是如何一步一步解決問題的，這也增加了使用者對模型的信任度和可靠性。

DeepSeek-R1-Lite-Preview的局限性

儘管DeepSeek-R1-Lite-Preview表現出色，但它也並非完美無缺。一些評論者指出，該模型在處理井字遊戲和其他邏輯問題時仍然存在困難，o1也存在類似問題。這可能是因為推理模型的發展還處於初期階段，模型的邏輯推理能力還有待進一步提升。

此外，DeepSeek-R1-Lite-Preview也容易被「越獄」，也就是說，使用者可以透過特定的提示，讓模型忽略安全措施。例如，一位X使用者就成功地讓模型提供了一份詳細的冰毒製作配方。這也凸顯了AI安全性的重要性，開發者需要不斷加強模型的安全防護措施，防止模型被濫用。

更值得注意的是，DeepSeek-R1-Lite-Preview似乎會封鎖被認為政治敏感的查詢。在測試中，該模型拒絕回答有關中國領導人習近平、天安門廣場以及中國入侵台灣的地緣政治影響等問題。

這種行為可能是中國政府對AI專案施壓的結果。中國的AI模型必須經過中國網際網路監管機構的基準測試，以確保其回應「體現社會主義核心價值觀」。據報導，政府甚至提議建立一份黑名單，禁止使用這些來源來訓練模型，導致許多中國的AI系統拒絕回應可能引起監管機構不滿的話題。

DeepSeek：一家雄心勃勃的AI公司

DeepSeek計畫將DeepSeek-R1開源，並釋出API，這與該公司支持開源AI社群的歷史一致。DeepSeek的第一個模型DeepSeek-V2，是一個通用的文字和圖像分析模型，它的出現迫使字節跳動、百度和阿里巴巴等競爭對手降低了部分模型的使用價格，甚至將其他模型完全免費。

DeepSeek的母公司High-Flyer Capital Management是一家中國量化對沖基金，利用AI來輔助其交易決策。High-Flyer自行構建伺服器叢集來訓練模型，據報導，其最新的叢集擁有10,000個Nvidia A100 GPU，耗資10億日元（約1.38億美元）。High-Flyer的創始人梁文鋒是一位電腦科學研究生，他的目標是透過DeepSeek實現「超級智慧」AI。

▲ DeepSeek-R1-Lite-Preview 基準測試結果發表在 X 上。

推理模型的崛起

近年來，人們越來越關注推理模型，因為傳統的「規模法則」（即透過增加數據和算力來提升模型能力）的可行性受到了質疑。許多新聞報導指出，OpenAI、Google和Anthropic等主要AI實驗室的模型，其性能提升速度已經不如以往。

這促使人們開始尋找新的AI方法、架構和開發技術。其中之一就是「測試時計算」（test-time compute），o1和DeepSeek-R1等模型都採用了這種技術。測試時計算也稱為推理計算，它允許模型在回答問題時使用更多的計算資源和時間，相當於給模型更多的時間來「思考」，進而提高模型的推理能力和準確性。

微軟執行長薩蒂亞·納德拉在本週的微軟Ignite大會主題演講中也提到了測試時計算，他表示：「我們正在見證一種新的規模法則的出現。」

DeepSeek-R1-Lite-Preview的意義

DeepSeek-R1-Lite-Preview的推出，象徵著中國AI研究在推理模型領域取得了重大進展。它不僅挑戰了OpenAI的o1模型，也為開源AI社群提供了新的選擇。

DeepSeek-R1-Lite-Preview的透明度、高性能和開源特性，使其成為AI發展的重要里程碑。隨著企業和研究人員不斷探索推理密集型AI的應用，DeepSeek的開放模式將確保其模型仍然是發展和創新的重要資源。

DeepSeek-R1-Lite-Preview目前已開放公眾測試，預計後續將會釋出開源模型和API，進一步鞏固DeepSeek在可訪問的先進AI技術領域的領導地位。

未來展望

目前，DeepSeek-R1-Lite-Preview已通過DeepSeek Chat（chat.deepseek.com）提供免費試用，使用者每日可使用50次「深度思考」模式。DeepSeek表示，未來將發布R1系列模型的開源版本及相關API，這與該公司一貫支持開源社區的宗旨一致。

DeepSeek此前的模型，如DeepSeek-V2.5，因其語言處理與代碼編寫能力備受讚譽，成為當時最強大的開源AI模型之一。隨著R1-Lite-Preview的問世，DeepSeek再次突破界限，將推理能力推向新的高度。

延伸閱讀：中國利用本土國產算力，打造1000億參數的人工智慧模型TeleChat2
延伸閱讀：恐懼的總合？中國AI地質聊天機器人GeoGPT，導致歐洲地球科學聯盟主席被解僱
延伸閱讀：阿里雲發佈AI繪畫創作大模型「通義萬相」，助企業釋放創造力及生產力
資料來源：techcrunch、venturebeat