ADVERTISEMENT
今年以來,蘋果顯然已經加大了對生成式人工智慧(GenAI)的重視和投入。之前在 2024 蘋果股東大會上,蘋果 CEO 提姆·庫克表示,今年將在 GenAI 領域實現重大進展。此外,蘋果宣佈放棄 10 年之久的造車專案之後,一部分造車團隊成員也開始轉向 GenAI。
如此種種,蘋果向外界傳達了加注 GenAI 的決心。目前多模態領域的 GenAI 技術和產品非常火爆,尤以 OpenAI 的 Sora 為代表,蘋果當然也想要在該領域有所建樹。
今日,在一篇由多位作者署名的論文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中,蘋果正式公佈自家的多模態大模型研究成果 —— 這是一個具有高達 30B 參數的多模態 LLM 系列。
該團隊在論文中探討了不同架構元件和資料選擇的重要性。並且,透過對圖像編碼器、視覺語言連接器和各種預訓練資料的選擇,他們總結出了幾條關鍵的設計準則。具體來講,本文的貢獻主要體現在以下幾個方面。
首先,研究者在模型架構決策和預訓練資料選擇上進行小規模消融實驗,並發現了幾個有趣的趨勢。建模設計方面的重要性按以下順序排列:圖像解析度、視覺編碼器損失和容量以及視覺編碼器預訓練資料。
其次,研究者使用三種不同類型的預訓練資料:圖像字幕、交錯圖像文本和純文字資料。他們發現,當涉及少樣本和純文字性能時,交錯和純文字訓練資料非常重要,而對於零樣本性能,字幕資料最重要。這些趨勢在監督式微調是(Supervised Fine-Tuning:SFT)之後仍然存在,這表明預訓練期間呈現出的性能和建模決策在微調後得以保留。
最後,研究者構建了 MM1,一個參數最高可達 300 億(其他為 30 億、70 億)的多模態模型系列, 它由密集模型和混合專家模型(MoE)變體組成,不僅在預訓練指標中實現 SOTA,在一系列已有多模態基準上監督式微調後也能保持有競爭力的性能。
具體來講,預訓練模型 MM1 在少樣本設定下的字幕和問答任務上,要比 Emu2、Flamingo、IDEFICS 表現更好。監督式微調後的 MM1 也在 12 個多模態基準上的結果也頗有競爭力。
得益於大規模多模態預訓練,MM1 在上下文預測、多圖像和思維鏈推理等方面具有不錯的表現。同樣,MM1 在指令調優後展現出了強大的少樣本學習能力。
方法概覽:構建 MM1 的秘訣
構建高性能的 MLLM(Multimodal Large Language Model,多模態大型語言模型) 是一項實踐性極高的工作。儘管高層次的架構設計和訓練過程是清晰的,但是具體的實現方法並不總是一目了然。這項工作中,研究者詳細介紹了為建立高性能模型而進行的消融。他們探討了三個主要的設計決策方向:
- 架構:研究者研究了不同的預訓練圖像編碼器,並探索了將 LLM 與這些編碼器連接起來的各種方法。
- 數據:研究者考慮了不同類型的資料及其相對混合權重。
- 訓練程式:研究者探討了如何訓練 MLLM,包括超參數以及在何時訓練模型的哪些部分。
消融設定
由於訓練大型 MLLM 會耗費大量資源,研究者採用了簡化的消融設定消融設定(Ablation Setting)。消融的基本配置如下:
- 圖像編碼器:在 DFN-5B 和 VeCap-300M 上使用 CLIP loss 訓練的 ViT-L/14 模型;圖像大小為 336×336。
- 視覺語言連接器:C-Abstractor ,含 144 個圖像 token。
- 預訓練數據:混合字幕圖像(45%)、交錯圖像文本檔案(45%)和純文字(10%)數據。
- 語言模型:1.2B 變壓器解碼器語言模型。
為了評估不同的設計決策,研究者使用了零樣本和少樣本(4 個和 8 個樣本)在多種 VQA 和圖像描述任務上的性能:COCO Cap tioning 、NoCaps 、TextCaps 、VQAv2 、TextVQA 、VizWiz 、GQA 和 OK-VQA。
模型架構消融試驗
研究者分析了使 LLM 能夠處理視覺資料的元件。具體來說,他們研究了(1)如何以最佳方式預訓練視覺編碼器,以及(2)如何將視覺特徵連接到 LLM 的空間(見圖 3 左)。
- 圖像編碼器預訓練。在這一過程中,研究者主要消融了圖像解析度和圖像編碼器預訓練目標的重要性。需要注意的是,與其他消融試驗不同的是,研究者本次使用了 2.9B LLM(而不是 1.2B),以確保有足夠的容量來使用一些較大的圖像編碼器。
- 編碼器經驗:圖像解析度的影響最大,其次是模型大小和訓練資料組成。如表 1 所示,將圖像解析度從 224 提高到 336,所有架構的所有指標都提高了約 3%。將模型大小從 ViT-L 增加到 ViT-H,參數增加了一倍,但性能提升不大,通常不到 1%。最後,加入 VeCap-300M (一個合成字幕資料集)後,在少樣本場景中性能提升超過了 1%。
- 視覺語言連接器和圖像解析度。該元件的目標是將視覺表徵轉化為 LLM 空間。由於圖像編碼器是 ViT,因此其輸出要嘛是單一的嵌入,要嘛是一組與輸入圖像片段相對應的網格排列嵌入。因此,需要將圖像 token 的空間排列轉換為 LLM 的順序排列。與此同時,實際的圖像 token 表徵也要映射到詞嵌入空間。
- VL 連接器經驗:視覺 token 數量和圖像解析度最重要,而 VL 連接器的類型影響不大。如圖 4 所示,隨著視覺 token 數量或 / 和圖像解析度的增加,零樣本和少樣本的辨識率都會提高。
預訓練資料消融試驗
通常,模型的訓練分為兩個階段:預訓練和指令調優。前一階段使用網路規模的資料,後一階段則使用特定任務策劃的資料。下面重點討論了本文的預訓練階段,並詳細說明研究者的資料選擇(圖 3 右)。
有兩類資料常用於訓練 MLLM:由圖像和文本對描述組成的字幕資料;以及來自網路的圖像 - 文本交錯檔案。表 2 是資料集的完整列表:
- 資料經驗 1:交錯資料有助於提高少樣本和純文字性能,而字幕資料則能提高零樣本性能。圖 5a 展示了交錯資料和字幕資料不同組合的結果。
- 資料經驗 2:純文字資料有助於提高少樣本和純文字性能。如圖 5b 所示,將純文字資料和字幕資料結合在一起可提高少樣本性能。
- 資料經驗 3:謹慎混合圖像和文本資料可獲得最佳的多模態性能,並保留較強的文本性能。圖 5c 嘗試了圖像(標題和交錯)和純文字資料之間的幾種混合比例。
- 資料經驗 4:合成資料有助於少樣本學習。如圖 5d 所示,人工合成資料確實對少數幾次學習的性能有不小的提升,絕對值分別為 2.4% 和 4%。
最終模型和訓練方法
研究者收集了之前的消融結果,確定 MM1 多模態預訓練的最終配方:
- 圖像編碼器:考慮到圖像解析度的重要性,研究者使用了解析度為 378x378px 的 ViT-H 模型,並在 DFN-5B 上使用 CLIP 目標進行預訓練;
- 視覺語言連接器:由於視覺 token 的數量最為重要,研究者使用了一個有 144 個 token 的 VL 連接器。實際架構似乎不太重要,研究者選擇了 C-Abstractor;
- 數據:為了保持零樣本和少樣本的性能,研究者使用了以下精心組合的資料:45% 圖像 - 文本交錯檔案、45% 圖像 - 文本對檔案和 10% 純文字檔案。
為了提高模型的性能,研究者將 LLM 的大小擴大到 3B、7B 和 30B 個參數。所有模型都是在序列長度為 4096、每個序列最多 16 幅圖像、解析度為 378×378 的情況下,以 512 個序列的批量大小進行完全解凍預訓練的。所有模型均使用 AXLearn 框架進行訓練。
他們在小規模、9M、85M、302M 和 1.2B 下對學習率進行網格搜尋,使用對數空間的線性回歸來推斷從較小模型到較大模型的變化(見圖 6),結果是在給定(非嵌入)參數數量 N 的情況下,預測出最佳峰值學習率 η:
透過專家混合(MoE)進行擴充。在實驗中,研究者進一步探索了透過在語言模型的 FFN 層添加更多專家來擴充密集模型的方法。
要將密集模型轉換為 MoE,只需將密集語言解碼器替換為 MoE 語言解碼器。為了訓練 MoE,研究者採用了與密集骨幹 4 相同的訓練超參數和相同的訓練設定,包括訓練資料和訓練 token。
關於多模態預訓練結果,研究者透過適當的提示對預先訓練好的模型在上限和 VQA 任務上進行評估。表 3 對零樣本和少樣本進行了評估:
監督式微調結果
最後,研究者介紹了預訓練模型之上訓練的監督式微調(SFT)實驗。
他們遵循 LLaVA-1.5 和 LLaVA-NeXT,從不同的資料集中收集了大約 100 萬個 SFT 樣本。鑒於直觀上,更高的圖像解析度會帶來更好的性能,研究者還採用了擴充到高解析度的 SFT 方法。
監督式微調結果如下:
表 4 展示了與 SOTA 比較的情況,「-Chat」表示監督式微調後的 MM1 模型。
首先,平均而言,MM1-3B-Chat 和 MM1-7B-Chat 優於所有列出的相同規模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench 以及最近的基準測試(MMMU 和 MathVista)中表現尤為突出。
其次,研究者探索了兩種 MoE 模型:3B-MoE(64 位專家)和 6B-MoE(32 位專家)。在幾乎所有基準測試中,蘋果的 MoE 模型都比密集模型取得了更好的性能。這顯示了 MoE 進一步擴充的巨大潛力。
第三,對於 30B 大小的模型,MM1-30B-Chat 在 TextVQA、SEED 和 MMMU 上的表現優於 Emu2-Chat37B 和 CogVLM-30B。與 LLaVA-NeXT 相比,MM1 也取得了具有競爭力的全面性能。
不過,LLaVA-NeXT 不支援多圖像推理,也不支援少樣本提示,因為每幅圖像都表示為 2880 個發送到 LLM 的 token,而 MM1 的 token 總數只有 720 個。這就限制了某些涉及多圖像的應用。
圖 7b 顯示,輸入圖像解析度對 SFT 評估指標平均性能的影響,圖 7c 顯示,隨著預訓練資料的增加,模型的性能不斷提高。
圖像解析度的影響。圖 7b 顯示了輸入圖像解析度對 SFT 評估指標平均性能的影響。
預訓練的影響:圖 7c 顯示,隨著預訓練資料的增加,模型的性能不斷提高。
更多研究細節,可參考原論文。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!