NVIDIA推出全新視覺AI語音模型NVEagle，可以看圖聊天

NVIDIA聯合 Georgia Tech、UMD 和 HKPU 的研究團隊推出了全新的視覺語言模型 ——NVEagle。據悉，NVEagle 能夠理解複雜的現實場景，通過視覺輸入進行更好的解讀和回應。

多模態大語言模型（MLLM）透過結合視覺和語言資訊來更好地理解和解釋複雜的現實世界場景，代表了人工智慧的重大飛躍。這些模型旨在查看、理解和推理視覺輸入，這使得它們在光學字元辨識 (OCR) 和文件分析任務中具有無價的價值。這些 MLLM 的核心在於它們的視覺編碼器，它將圖像轉換為視覺標記，然後與文字嵌入整合。這種整合使模型能夠解釋視覺輸入並有效響應。然而，設計和優化這些視覺編碼器仍然是一個嚴峻的挑戰，特別是在處理需要細粒度視覺感知的高解析度影像時。

MLLM 的發展面臨一些挑戰，特別是在提高其視覺感知能力方面。一個關鍵問題是幻覺的發生，即模型根據視覺輸入產生不準確或無意義的輸出。這個問題在需要高解析度影像處理的任務中尤其成問題，例如 OCR 和文件理解。由於設計視覺編碼器以及用於整合視覺和文字資料的方法的限制，現有模型通常需要協助來完成這些任務。此外，雖然目前許多 MLLM 採用單視覺編碼器，但這種方法通常需要捕獲準確解釋所需的全方位視覺訊息，從而導致錯誤和性能下降。

研究人員探索了各種提高 MLLM 效能的方法。一種常見的方法是使用在大型資料集上預先訓練的單視覺編碼器，例如 CLIP，它通常因其對齊視覺和文字表示的能力而被選擇。然而，這種方法有缺點，特別是在處理高解析度影像處理任務時。另一種方法涉及複雜的融合策略，該策略結合了來自多個編碼器的視覺特徵。雖然這些方法可以提高效能，但它們通常需要大量的運算資源，有時只能在不同類型的視覺任務中提供一致的結果。例如，Flamingo 和 LLaVA-HR 等模型的開發是為了回應 MLLM 設計中的特定挑戰。然而，它們在效率和效果方面仍有改進的空間。

來自 NVIDIA、喬治亞理工學院、UMD 和 HKPU 的研究人員開發了Eagle 系列 MLLM。這種新方法透過對各種視覺編碼器進行基準測試、試驗不同的融合策略並逐步確定視覺專家的最佳組合，系統地探索了 MLLM 的設計空間。

研究人員引入了一種方法，只需連接來自互補視覺編碼器的視覺標記，該方法與更複雜的混合架構一樣有效。這種方法簡化了設計過程，同時保持了高性能。他們引入了預對齊階段，在整合之前將非文字對齊的視覺專家與語言模型進行對齊，從而增強了模型的一致性和性能。

NVEagle的設計核心在於將圖像轉化為視覺標記，再與文字嵌入相結合，進而提升了對視覺資訊的理解。NVEagle包括了三個版本:Eagle-X5-7B、Eagle-X5-13B 以及 Eagle-X5-13B-Chat。其中，7B 和13B 版本主要用於一般的視覺語言任務，而13B-Chat 版本則專門針對對話式 AI 進行了微調，能夠更好地進行基於視覺輸入的互動。

NVEagle 的一個亮點在於採用了混合專家（MoE）機制，能夠根據不同任務動態選擇最合適的視覺編碼器，這極大提升了對複雜視覺資訊的處理能力。該模型已在 Hugging Face 上發佈，方便研究人員和開發者使用。

總之，Eagle 系列模型解決了視覺感知的許多關鍵挑戰。研究人員創建了一個模型，透過系統地探索設計空間並優化多個視覺編碼器的整合來應對這些挑戰。 Eagle 型號透過精簡高效的設計在各種任務中實現了最先進的性能。事實證明，使用簡單而有效的融合策略並結合預對齊階段的引入是增強 MLLM 效能的有效方法。