FB 建議貼文

選取貼文複製成功(包含文章連結)!

Llama 4發布開啟開源多模態時代:採用混合專家(MoE)架構,最大模型超越GPT-4o

Llama 4發布開啟開源多模態時代:採用混合專家(MoE)架構,最大模型超越GPT-4o

Meta於2025年4月5日正式推出Llama 4系列首批模型,標誌著原生多模態AI時代的來臨,為個人化體驗開闢全新可能。

這一系列包括三款矚目模型:

  • Llama 4 Scout擁有170億活躍參數與16個專家,是同級最強多模態模型,支援1000萬token超長上下文,僅需單顆NVIDIA H100 GPU即可運行,效能超越Gemma 3與Mistral 3.1;
  • Llama 4 Maverick同樣具170億活躍參數,但配備128個專家,性能擊敗GPT-4o與Gemini 2.0 Flash,推理與編碼能力媲美DeepSeek v3,成本卻不到其一半,其聊天版本在LMArena的ELO得分高達1417;
  • Llama 4 Behemoth則是擁有2880億活躍參數的「巨獸」,在STEM領域表現勝過GPT-4.5與Claude Sonnet 3.7,目前仍在訓練中,令人期待。

Meta表示,Llama 4 Scout與Llama 4 Maverick兩款開源多模態模型,採用混合專家(MoE)架構,支援超長上下文與圖像理解能力。Llama 4 Scout與Llama 4 Maverick即日起可在llama.com與Hugging Face下載,用戶也能透過WhatsApp、Messenger及Meta.AI網站搶先體驗這項尖端技術。並且預告超強大的Llama 4 Behemoth,堪稱全球頂尖的大型語言模型(LLM)。

預訓練:Llama 4的技術基石

Llama 4系列展現了Llama家族的頂尖水準,以誘人的成本提供多模態智能,甚至超越許多規模更大的模型。要打造這一代新模型,Meta在預訓練階段採用了多項創新方法,讓Llama 4在性能與效率上都脫穎而出。

這次推出的Llama 4是Meta首次採用混合專家(MoE)架構的模型。簡單來說,MoE不像傳統模型每次都動用全部參數,而是讓每個輸入單元(token)只啟動一部分參數。這種設計讓訓練和推理更省力,在相同計算資源下,品質比傳統密集模型更高。以Llama 4 Maverick為例,它擁有170億活躍參數,總參數卻高達4000億。團隊巧妙地在模型中交錯使用密集層與MoE層,MoE層包含128個專門專家和1個共享專家,每個token會被送到共享專家以及其中一個專門專家處理。這樣一來,雖然所有參數都存在記憶體中,但實際運作時只用一小部分,不僅降低服務成本與延遲,還能輕鬆在單顆NVIDIA H100 DGX主機上運行,甚至支援分散式推理來追求極致效率。

Llama 4發布開啟開源多模態時代:採用混合專家(MoE)架構,最大模型超越GPT-4o

Llama 4的另一大亮點是原生多模態設計。透過「早期融合」技術,模型將文字與圖像資料無縫整合到同一個核心結構中。這是個重大進步,因為它讓團隊能用大量未標記的文字、圖像和視頻資料一起預訓練模型。為了提升圖像處理能力,Llama 4的視覺編碼器也升級了。這套編碼器以MetaCLIP為基礎,但在訓練時與凍結的Llama模型搭配調整,讓它更適配語言模型的需求。

為了讓模型更穩定,Meta開發了一種名為MetaP的新訓練技巧,用來精準設定關鍵參數,例如每層的學習率和初始規模。測試發現,這些參數在不同批量大小、模型寬度、深度和訓練資料量下都能表現出色。Llama 4還支援200種語言的預訓練,其中超過100種語言的資料量超過10億token,總多語言資料量比Llama 3多了10倍,為開源社群的後續微調打下堅實基礎。

效率也是重點。團隊採用FP8精度訓練,既不犧牲品質,又確保高效能。以Llama 4 Behemoth為例,使用FP8精度和3.2萬顆GPU訓練時,每顆GPU達到390 TFLOPs的驚人表現。訓練數據總量超過30兆token,是Llama 3的兩倍多,涵蓋多元的文字、圖像和視頻資料,讓模型的知識庫更加豐富。

多模態與MoE混合專家架構:技術雙突破

Llama 4的最大特色是「原生多模態」設計。過去的AI模型多專注於單一領域(如文字或圖像),而Llama 4透過早期融合(early fusion)技術,將文字、圖像甚至視頻整合進單一模型。這讓它能同時處理多種輸入,例如看懂照片並寫出描述,或根據長文生成相關圖像概念。對台灣企業來說,這意味著從客服聊天機器人到影像分析,都能用一套模型搞定,省下不少開發成本。

以Llama 4 Scout為例,它的視覺編碼器經過升級,能精準理解圖像細節並與文字對應。在測試中,它能根據指令在圖片中定位特定物件,並給出詳細回答。這對醫療影像分析或教育內容生成特別有幫助。Llama 4 Maverick更進一步,支援一次處理8張圖片,適合需要多圖分析的場景,例如監控視頻或設計提案。台灣的醫療科技與文創產業,或許能從中找到新靈感。

另一大突破是混合專家(MoE)架構。簡單來說,MoE讓模型不必每次都用全部參數,而是根據任務動態啟用部分「專家」,大幅提升效率。以Llama 4 Maverick為例,總參數4000億,但活躍參數僅170億,成本低卻效能高,單顆NVIDIA H100就能跑得動。對台灣中小企業或新創來說,這種高效設計降低了AI部署門檻,讓更多人能用上頂尖技術。

Llama 4發布開啟開源多模態時代:採用混合專家(MoE)架構,最大模型超越GPT-4o

1000萬token超長上下文:解鎖新應用

Llama 4 Scout的1000萬token上下文窗口,讓人驚嘆。相較Llama 3的12.8萬token,這是質的飛躍。什麼是上下文窗口?簡單說,就是模型一次能「看懂」多少內容。1000萬token約等於數百萬字,足以涵蓋整套文件或超大代碼庫。對台灣學術界來說,這能用來分析跨領域文獻;對軟體業來說,則能一次解析整個專案代碼,提升開發效率。

測試顯示,Llama 4 Scout在「干草堆找針」任務中,能從1000萬token中精準挖出關鍵資訊,準確率超過95%。在代碼推理上,它也能跨檔案理解邏輯,生成一致性高的程式碼。台灣的IC設計與軟體外包產業,可能因此受益,加速產品開發時程。未來,這技術或許還能用在法律文件審查或財報分析,應用潛力無限。

Llama 4發布開啟開源多模態時代:採用混合專家(MoE)架構,最大模型超越GPT-4o

Llama 4 Behemoth:AI巨獸初現

Llama 4 Behemoth是系列中的「巨無霸」,擁有2880億活躍參數與近2萬億總參數。它在數學與科學基準測試中表現亮眼,例如MATH-500正確率達87%,超越GPT-4.5的83%。這款模型目前作為「教師」,透過知識蒸餾(distillation)提升Scout與Maverick的品質。Meta透露,訓練Behemoth用了3.2萬顆GPU,每顆達390 TFLOPs,顯示其技術實力。

對台灣來說,Behemoth雖未開放,但其成果已間接惠及Llama 4其他模型。未來若釋出完整版,可能成為學術研究或高階應用的利器,例如氣候模擬或生物資訊分析。台灣的半導體與AI硬體產業,也有望從中找到合作機會。

Meta強調Llama 4的開源策略,Scout與Maverick已上線llama.com與Hugging Face,免費下載。這對AI生態是大利多。過去,頂尖模型多由大廠壟斷,中小企業難以入手;如今,台灣新創與開發者能直接用上Llama 4,打造客製化應用。例如,電商可開發圖文結合的推薦系統,教育業可推出多模態學習工具。

Meta還攜手全球夥伴(如AWS、NVIDIA)推廣Llama 4,台灣的雲端服務商與硬體廠商也有望加入生態圈。對重視創新的台灣來說,這是搶進AI前沿的絕佳時機。4月29日的LlamaCon將公布更多細節,台灣企業不妨密切關注。

安全與偏見:Meta的承諾

AI雖強大,安全與公平性也不容忽視。Meta表示,Llama 4遵循嚴格的安全規範,從預訓練過濾有害數據,到後訓練加入防護工具,如Llama Guard(檢測違規內容)與Prompt Guard(防範惡意指令)。他們還開發了GOAT測試,模擬攻擊場景,確保模型穩健性。

在偏見問題上,Llama 4也有進展。過去模型常因訓練數據偏左,如今拒答率從7%降至2%以下,政治傾向率減半,與Grok相當。這意味著AI能更客觀回應敏感話題,例如兩岸議題或社會爭議,減少爭端。

Llama 4的多模態與長上下文能力,對各行各業都有啟發。以下是幾個可能場景:

  1. 醫療:結合影像與病歷分析,協助醫師快速診斷,提升偏鄉醫療效率。
  2. 教育:生成多媒體教材,讓偏遠學生也能享受個人化學習。
  3. 科技業:加速IC設計與軟體開發,縮短產品上市時間。
  4. 文化創意:結合圖文生成內容,助力台灣故事走向國際。

對一般民眾來說,Llama 4已嵌入Meta應用程式,用戶可透過WhatsApp或Messenger體驗。例如問它「這張照片是什麼地方?」或「幫我寫篇旅遊文章」,都能得到驚艷回應。

Llama 4系列的問世,不只是技術突破,更是對未來的邀請。對台灣來說,這是提升競爭力的機會,也是挑戰。政府、企業與學界能否抓住這波AI浪潮,開發在地應用,將決定台灣在全球科技版圖的地位。即日起,Llama 4 Scout與Maverick開放下載,台灣用戶也能在Meta平台體驗。我們期待,這不僅是Meta的成功,更是台灣AI生態的起飛。

janus
作者

PC home雜誌、T客邦產業編輯,曾為多家科技雜誌撰寫專題文章,主要負責作業系統、軟體、電商、資安、A以及大數據、IT領域的取材以及報導,以及軟體相關教學報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則