AI 開源戰！Meta 釋出性能匹敵 ChatGPT 的 Llama 3.1 模型，免費開放將重塑 AI 市場格局

本週稍早，Meta 開源並釋出了 Llama 3.1 的模型權重，這是一個極其強大的大型語言模型（LLM），其能力可與 Open AI 的 ChatGPT 和 Anthropic 的 Claude 等最佳模型相媲美。

釋出的條款（如同先前的 Llama 版本）非常慷慨。任何月活躍使用者少於 7 億的組織都可以隨意使用 Llama 3.1，這意味著除了 Google、Apple、Microsoft 和 Netflix 外，幾乎所有公司都可以開始將 Llama 直接整合到他們的產品中。

但是，為什麼 Meta 要免費釋出這個模型呢？是出於純粹的利他主義嗎？也許是為了改善公司形象的策略，因為過去幾年來，該公司因隱私問題而承受了兩黨的政治憤怒？

這種看似慷慨的釋出讓人想起矽谷一個非常經典的商業策略——「讓互補產品變成商品」（commoditize your complement）。這個概念最早由 Joel Spolsky 在22 年前提出的「策略信函 V」中闡述，簡單來說，當一個產品的互補品的價值降低到最低可持續的「商品價格」時，對這個產品本身的需求反而會增加。

例如，在 90 年代，Microsoft 主要是靠銷售 Windows 作業系統賺錢，所以透過盡可能的降低 PC 的成本（透過推動所有 PC 零組件的標準化/模組化），Microsoft 同時降低了 PC 硬體零組件的成本，並增加了對其軟體產品的需求。同樣，當 Google 向智慧型手機廠商釋出其 Android 作業系統時，它並不一定是考慮這些手機製造商的利益。事實上，智慧型手機——可能是有史以來最先進的技術硬體——被商品化到幾乎任何第三世界的人都可以花不到 20 美元買到的程度，將製造商的利潤率壓縮到極低的水準。然而，智慧型手機的普及將 Google 的搜尋產品和廣告銷售市場擴大到遠超桌上型電腦市場的規模。

延伸閱讀：Meta發布Llama 3.1開源AI模型挑戰行業巨頭！祖克柏力推開源AI的5大理由
延伸閱讀：Mistral AI 開源釋出強大程式碼生成 AI 模型 Codestral Mamba，挑戰 Transformer 架構霸主地位

LLMs 正在被商品化

我認為，現在我們正處於處於通用大型語言模型（LLMs）的類似的十字路口。根據 Sequoia 最近的一篇文章，僅僅為了收回最近在基於 NVIDIA GPU 的數據中心支出上的 AI 投資，就需要超過 6000 億美元。為了收回這些巨額成本，企業需要賺取遠超過這個數字的金額才能證明支出的合理性，然而 OpenAI 的訂閱收入據報導僅約 34 億美元，其他同類型的公司收入金額可能遠遠落後。隨著 Meta 釋出一個本質上免費的 LLM，既開源又開放權重，所有人都可以自由的使用 meta.ai ，我們預計在接下來的幾個月裡，這個模型的價值會下降而不是上升。

然而，更大的模型即將出現。根據 Jensen Huang 2024 年 3 月的 GTC 主題演講，僅需約 8000 個 H100 GPU 90 天就可以訓練一個 1.8 兆參數的 GPT-4 規模的混合專家模型。根據 Meta 的 Llama 白皮書，Llama 3.1 405B 模型使用 16,000 個 H100 GPU 進行了 54 天的預訓練。

▲ 在 16,000 個 H100 GPU 上訓練 Llama 3.1 的挑戰

儘管訓練如此大型模型存在巨大的技術挑戰，但根據 Meta 的工程部落格，到 2024 年底，Meta 將擁有相當於 600,000 個 H100 的算力！如果這些全部用於預訓練 LLMs（而不是用於推理或構建 Instagram Reels 的推薦系統），那麼相當於每 90 天就能產出 75 個 GPT-4 規模的模型，或者每年約 300 個這樣的模型！

這意味著（假設擴展定律持續存在，並且可以獲得更多的 token）下一代正在訓練的多模態超大規模 transformer 模型將遠遠超以往的模型，比之前的模型更加強大……而像 OpenAI 和 Anthropic 這樣的新來者可能甚至無法與 Meta 等較大公司接下來釋出的任何模型抗衡。即使是像中國這樣的國家也可能會屈服於 600,000 個 H100 的威力！

▲ 根據NVIDIA的說法，Blackwell GPU 的表現非常出色

而 Meta 並不是唯一一家開源 LLM 模型的大型科技公司。NVIDIA 釋出了 Nemotron-3（340B），Microsoft 釋出了 Phi 和 Florence 模型，Google 釋出了 Gemma，甚至像 Cohere 和 Mistral 這樣的較小公司也釋出了他們的模型權重。

延伸閱讀：蘋果發表可在終端設備上運行的開源AI大語言模型，不用透過雲端伺服器
延伸閱讀：Google推出最強免費開源AI模型Gemma，與Gemini系出同門、性能超越Llama可在筆電單獨運行

LLMs 的互補品是什麼？

既然有多家公司免費提供大型語言模型（LLM），那麼 LLM 的天然互補產品是什麼？對於 Google、Microsoft、NVIDIA 和 Amazon 這樣的公司來說，答案很簡單——伺服器。更大的模型需要更多的 GPU（或 TPU）來運行，所以如果你出租伺服器空間或銷售 GPU，免費提供「AI」是一個好生意（先把安全問題放在一邊去！）。

最近 Llama 3.1 釋出的有趣之處在於，Meta 並不出租其伺服器。事實上，幾乎每一個主要的雲端提供商——AWS、Google Cloud、Azure——都能從 Llama 3.1 的釋出中獲得比 Meta 更大的金錢利益，因為他們可以立即開始將數據中心出租給運行這個更大的 Llama 模型及其微調衍生版本進行推理的較小公司。

祖克柏解釋了 Meta 開源最大 LLM 背後看似矛盾的原因之一是標準化。Meta 有長期開源（和商品化）內部工具（如 Presto 和 React）的傳統，這些工具隨後在市場上成為標準。

然而，開源 Llama 等工具還有一些更令人信服的理由，祖克柏在接受彭博社採訪時給出了解釋。那就是使用者內容生成。透過讓使用者能夠創建 AI 生成的內容並獨立微調預訓練模型（否則訓練成本將高得令人難以承受），獨特使用者生成內容的數量可能會增加，使用者與 Meta 平臺的互動也可能會增加。這對於像 Meta 這樣透過其使用者網路銷售廣告來賺取大部分收入的公司來說可能才是最終目標。

另一個可能的理由是，成為第二名通用大型語言模型並沒有真正的價值，尤其是對於像 Meta 這樣的公司，使用者可能不夠信任，無法依靠基於訂閱的 API 存取。這很可能是 Mistral、Cohere、Google 等公司得出的相同結論。事實上，就在寫這篇文章的時候，Mistral 剛剛以研究許可釋出了其 Mistral Large 2 模型。

AI 新創公司會發生什麼？

LLMs 商品化的最大輸家最終可能是當前炙手可熱的顛覆性 AI 新創公司——像 OpenAI、Anthropic、Character.ai、Cohere 和 Mistral 這樣的公司。當標準普爾500 中最大的 5 家公司開始免費贈送你的主要產品時，一場清算可能即將來臨。

最大科技公司的 CEO 們不需要害怕規模，他們唯一需要擔心的是被別人超越而變得無關緊要。

現在還有一個問題是：不斷擴大規模的多模態 Transformer 模型是否最終會導致人工通用智慧（AGI）甚至人工超級智慧（ASI）。如果這些較小的公司擁有某種建模或研發優勢，而不僅僅是擁有大量 GPU，那麼它們或許仍有機會超越大型企業。畢竟，OpenAI 最初從事基礎研究 - Dota 2 機器人、機器人技術和強化學習研究。最初的 GPT 模型只是一个附屬專案。也許這些大型語言模型甚至會分散注意力，讓我們忽略了可能會帶來更強大模型和研究方向的基礎研究。

無論如何，目前基礎設施建設的巨大規模讓人充滿希望。2001 年網路泡沫破滅之前也經歷了大規模的基礎設施建設。光纖電纜和寬頻基礎設施的鋪設為 Facebook 和 Google 等 Web 2.0 公司鋪平了道路，即使經歷了股市的大幅下跌。就像當年的基礎設施建設使雲端運算和串流媒體影音成為可能一樣，目前的 AI 基礎設施建設也可能在機器人技術、自動駕駛汽車和藥物開發等其他領域取得突破。

▲ 根據黃仁勳的說法，下一個重大事件是機器人……絕對是機器人。希望不是魔鬼終結者。

延伸閱讀：專攻程式碼生成的基礎模型 Code Llama開源：免費商用，神秘版本接近GPT-4
延伸閱讀：大型語言模型大亂鬥！近90個模型對戰 75 萬輪，GPT-4 奪冠、Llama 3 位列第五
延伸閱讀：Llama 3 最強開源大語言模型王者歸來，這次表現直逼 GPT-4
資料來源：dublog