
今天凌晨 1 點半,Meta 生成式 AI 領導者 Ahmad Al-Dahle 在社群平台發布了一篇長文,對前天剛開源的 Llama 4 提出的質疑進行了官方回應。Ahmad 表示,Llama 4 一開發完就發布了,所以不同服務中模型的品質難免會有一些差異。Meta 很快會修復這些漏洞並提升效能。同時否認在測試集上進行了預訓練。
但 Meta 在官網發布時特地點名 DeepSeek,說他們新開源的 Llama 4 Maverick 在程式碼能力上可以媲美其新開源的 V3 模型,現在看來 Meta 首次反擊是失敗了,期待他們後續的優化以及正在訓練的 2 兆參數的教師模型。
以下是 Ahmad 完整聲明:
「我們很高興能開始讓大家都用上 Llama 4。我們已經聽說很多人使用這些模型取得了不錯的成果。
話雖如此,我們也聽到了一些關於不同服務中模型品質參差不齊的報告。由於模型一準備好我們就發布了,所以我們預計所有公開的應用程式實作都需要幾天時間進行最佳化調整。我們會繼續進行漏洞修復工作,並與合作夥伴完成對接流程。
我們還聽到有人聲稱 Llama 4 在測試集上進行了訓練,這純屬無稽之談,我們絕對不會這麼做。據我們的判斷,人們所看到的品質差異是由於需要對應用程式實作進行穩定化處理造成的。
我們相信 Llama 4 模型是一項重大的技術進步,我們期待著與社群合作,充分挖掘其價值。」
其實,在 Llama 4 開源當天就有人質疑其效能。其程式碼能力比 Grok 3、DeepSeek V3、Sonnet 3.5/7 差很多。
無論是 Scout 還是 Maverick 模型,我使用了詳盡的提示詞,在實際編碼方面似乎都幾乎無法使用。
考慮到 Meta 公司付出的努力,我很驚訝一個 4000 億參數的模型(即便它是混合專家模型)表現竟如此糟糕。它與 DeepSeekV3 相較之下差距甚遠。
我們對不同平台提供的 Scout 和 Maverick 進行了測試,結果發現這兩款模型表現都不佳,甚至被參數規模更小的模型比下去了。
在基礎程式設計任務之外,它們就會出錯,而且在遵循指令方面能力也很弱。Maverick 的排名接近 Google 的 Gemini 2.5,這一點令人擔憂。它們給人的感覺就像是處於 GPT-3.5 時代的模型。很高興 Meta 正在採取措施讓情況穩定下來。
能夠提前使用 Llama 4 固然很棒,但這裡有個關鍵事實:一個強大的模型,其實際效果取決於它的應用程式實作情況。
你在實驗室裡測試的效果,並不等同於使用者在實際使用中所體驗到的效果。在過度炒作和實際操作之間存在的差距,才是真正需要努力去填補的地方。
鑒於許多執行環境都是開源的,或許未來在發布產品以免陷入如此混亂的局面之前,你們能夠確保那些修復措施已經落實到位?「是你使用方式不對」這種說法可不大好聽。
也有網友質疑 Meta 衝榜:「品質參差不齊」??我看到的每一項基準測試中,Llama 4 的表現都糟透了,除非你參考的是 LMSYS 的「1417 eon」基準測試結果。
你們向 LMSYS 開放了哪個 API 呢?因為目前 LMSYS 那邊的模型列表中的表現也非常差。
Llama 4 就是垃圾,你們在這件事上搞砸得太厲害了。與其誤導大家,還不如承認錯誤。不確定在測試集上動手腳這件事是不是真的,但鑒於它在基準測試中的高分以及在現實世界中糟糕的表現,這種可能性似乎很大。
在聊天機器人競技場的大型語言模型排行榜上,Meta 公司的 Llama 4 Maverick 在程式設計方面排名第一。
然而,幾乎我給出的每一個難的程式設計提示或中等難度的程式設計提示,它都無法完成。在程式設計方面,它比 DeepSeek V3 - 0324、Claude 3.5/3.7 Sonnet 或 Gemini 2.0 Pro 差得多。
所以,這位網友也在質疑 Meta 衝榜的問題。
其實從發布的時間點就能看出來,Meta 這次並沒有準備好。作為類 ChatGPT 的開源鼻祖之一,Llama 4 這麼重磅的開源模型,居然放在了美國週六的晚上發布(台灣的週日凌晨 3 點),這太不符合常規了。
按照他們以往發布的 Llama 系列模型,一般會放在美國週二、週三早上 10 點左右。所以,在發布 Llama 4 時他們本身就心虛。
DeepSeek 的橫空出世給 Meta 造成了巨大的壓力,其使用者、口碑正在嚴重流失,他們急需一款重磅產品挽回敗局。在今年過年 DeepSeek 瘋狂洗版的那段時間,Meta 還特地組建了「作戰研究室」來研究其模型。但從最終結果來看,依然不是很理想。
此外,由於關稅大戰的原因,Meta 的股票遭遇重創,他們也需要一個利多消息來拉抬股票,現在適得其反。
- 延伸閱讀:Llama 4發布開啟開源多模態時代:採用混合專家(MoE)架構,最大模型超越GPT-4o
- 延伸閱讀:祖克柏表示期待今年 Meta AI 助手用戶可達到10億人、Llama 4 蓄勢待發
- 延伸閱讀:Meta 開放 AI 模型給美國軍方使用,面對 AI 軍備競賽 Meta 加速推動 Llama 成全球 AI 標準
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!