2024.09.26 11:12

Meta發佈最強開源AI模型 Llama 3.2:視覺模型趕超GPT-4o mini,還有可單獨安裝在手機上的版本

ADVERTISEMENT

在Meta Platforms(META.O)舉行的Meta Connect 2024活動上,祖克柏親自發佈了全新多模態大型語言模型Llama 3.2

Llama 3.2有90B和11B兩種參數規格的視覺大型語言模型,還有能在裝置端本地運行的1B和3B輕量級純文字模型,包括預訓練和指令調整版。

 4 個版本 AI 模型簡介如下:

ADVERTISEMENT

  • Llama 3.2 90B Vision(文本 + 圖像輸入):Meta   最先進的模型,是企業級應用的理想選擇。該模型擅長常識、長文本生成、多語言翻譯、編碼、數學和高級推理。它還引入了圖像推理功能,可以完成圖像理解和視覺推理任務。該模型非常適合以下用例:圖像標題、圖像文本檢索、視覺基礎、視覺問題解答和視覺推理,以及文檔視覺問題解答。

  • Llama  3.2 11B  Vision(文本 + 圖像輸入):非常適合內容創建、對話式人工智能、語言理解和需要視覺推理的企業應用。該模型在文本摘要、情感分析、代碼生成和執行指令方面表現出色,並增加了圖像推理能力。該模型的用例與  90B 版本類似:圖像標題、圖像文本檢索、視覺基礎、視覺問題解答和視覺推理,以及文檔視覺問題解答。

  • Llama 3.2 3B(文本輸入):專為需要低延遲推理和有限計算資源的應用而設計。它擅長文本摘要、分類和語言翻譯任務。該模型非常適合以下用例:在筆電上的AI寫作助手和客戶服務應用。

  • Llama 3.2 1B(文本輸入):Llama 3.2 模型系列中最輕量級的模型,非常適合邊緣設備和移動應用程序的檢索和摘要。該模型非常適合以下用例:手機上的個人資訊管理和多語言知識檢索。

1B和3B模型支援128K tokens上下文,適配高通和聯發科硬體,並針對Arm處理器做了最佳化。

ADVERTISEMENT

3B模型在遵循指令、總結、快速重寫和工具使用等任務上的表現優於Gemma 2 2.6B、Phi 3.5-mini模型。1B模型的表現媲美Gemma。

90B和11B視覺模型是其相應文字模型的直接替代品,同時在圖像理解任務上的表現優於封閉模型,如Claude 3 Haiku、GPT-4o mini。

ADVERTISEMENT

比如問企業去年哪個月的銷售額最高,Llama 3.2可根據可用圖表進行推理並快速提供答案。

ADVERTISEMENT

它還能使用地圖進行推理並幫助回答問題,例如地圖上標記的特定路徑的距離。

視覺模型也能通過從圖像中提取細節、理解場景,然後製作一兩句話作為圖像字幕來幫助講述故事。

與其他開放多模態模型不同,預訓練和對齊模型都可以使用torchtune針對自訂應用程式進行微調,並使用torchchat在本地部署。

11B和90B參數的多模態模型需要支援圖像推理的全新模型架構

根據介紹,Meta的訓練流程由多個階段組成,從預訓練的Llama 3.1文字模型開始,首先新增圖像介面卡和編碼器,然後通過大規模噪聲對資料進行預訓練,接下來在中等規模的高品質領域內和知識增強的資料上進行訓練。

在後期訓練中,Meta使用與文字模型類似的方法,在監督微調、拒絕採樣和直接偏好最佳化方面進行多輪對齊。最終得到這一組可以同時接收圖像和文字提示並深入理解和推理兩者組合的模型。

對於1B和3B參數的輕量級模型,Meta使用了利用強大的教師模型來建立性能更佳的小型模型的方法,使得其成為首批能夠高效適應裝置的高性能輕量級Llama模型。

Meta通過縮小Llama現有模型的大小,同時儘可能多地恢復知識和性能,其採用了從Llama 3.1 8B中一次性使用結構化修剪的方法。

在後期訓練中,研究人員使用與Llama 3.1類似的方法,通過在預訓練模型的基礎上進行幾輪對齊來生成最終的聊天模型。

Meta正在分享首個官方Llama Stack發行版,將極大簡化開發人員在單節點、本地、雲和裝置端等不同環境中使用Llama模型的方式,從而實現檢索增強生成(RAG)和內建安全性的工具支援應用程式的交鑰匙部署。

 

 

ADVERTISEMENT