超越 GPT-4？Nvidia 開源 720 億參數 AI 模型 NVLM-D-72B，圖像理解、文字能力全面升級！

Nvidia 發表了一款強大的開源人工智慧模型，足以與 OpenAI 和 Google 等行業領導者的專有系統相抗衡。

該公司全新的 NVLM 1.0 系列大型多模態語言模型，以 720 億參數的 NVLM-D-72B 為首，在視覺和語言任務中展現出卓越的性能，同時也增強了純文字功能。

「我們推出了 NVLM 1.0，這是一系列尖端的多模態大型語言模型，在視覺語言任務上取得了最先進的成果，可與領先的專有模型（例如 GPT-4）和開放模型相媲美。」研究人員在他們的論文中解釋道。

Nvidia 將模型權重公開，並承諾發表訓練程式碼，打破了將先進 AI 系統封閉的趨勢。這一決定賦予研究人員和開發者前所未有的機會，讓他們能夠接觸到尖端技術。

▲ 將 NVIDIA 的 NVLM-D 模型與 GPT-4、Claude 3.5 和 Llama 3-V 等 AI 巨頭進行比較的基準結果，顯示了 NVLM-D 在各種視覺和語言任務中的競爭表現。資料來源：arxiv.org

NVLM-D-72B：視覺和文字任務的多功能執行者

NVLM-D-72B 模型在處理複雜的視覺和文字輸入方面展現出令人印象深刻的適應性。研究人員提供的示例突顯了該模型能夠解讀迷因、分析圖像和逐步解決數學問題。

值得注意的是，NVLM-D-72B 在經過多模態訓練後，提高了其在純文字任務上的性能。雖然許多類似的模型在文字性能方面有所下降，但 NVLM-D-72B 在關鍵文字基準測試中的準確度平均提高了 4.3 個百分點。

「我們的 NVLM-D-1.0-72B 在純文字數學和編碼基準測試中，相較於其文字骨幹模型展現出顯著的改進。」研究人員強調了他們方法的一個關鍵優勢。

▲ NVIDIA 的新 AI 模型分析了一個迷因，將學術摘要與全文進行比較，展示了其解釋視覺幽默和學術概念的能力。圖片來源：arxiv.org

AI 社群對此發表表示積極的反應。一位在社群媒體上發表評論的 AI 研究人員觀察到：「哇！Nvidia 剛剛發表了一個 72B 的模型，它在數學和編碼評估方面與 Llama 3.1 405B 不相上下，而且還具有視覺功能？」

Nvidia 決定將如此強大的模型公開，可能會加速整個領域的 AI 研究和發展。透過提供一個可與資金雄厚的科技公司專有系統相媲美的模型，Nvidia 或許能讓規模較小的組織和獨立研究人員對 AI 的進步做出更大的貢獻。

NVLM 項目還引入了創新的架構設計，包括結合不同多模態處理技術的混合方法。這一發展可能會塑造該領域未來研究的方向。

Nvidia 發表 NVLM 1.0 標誌著 AI 發展的關鍵時刻。透過開源一個可與專有巨頭匹敵的模型，Nvidia 不僅僅是分享程式碼——它正在挑戰 AI 產業的結構。

此舉可能會引發連鎖反應。其他科技領導者可能會感受到開放其研究成果的壓力，進而可能加速 AI 的整體進展。它也讓競爭環境更加公平，允許規模較小的團隊和研究人員使用曾經只有科技巨頭才能擁有的工具進行創新。

然而，NVLM 1.0 的發表並非沒有風險。隨著強大的 AI 變得更容易取得，人們對濫用和倫理影響的擔憂可能會加劇。AI 社群現在面臨著促進創新，同時為負責任的使用建立規範的複雜任務。

Nvidia 的決定也引發了關於 AI 商業模式未來的問題。如果最先進的模型可以免費獲得，公司可能需要重新思考如何在 AI 領域創造價值和保持競爭優勢。

NVLM 1.0 的真正影響將在未來幾個月和幾年內顯現。它可能迎來 AI 領域前所未有的合作與創新時代。或者，它可能迫使人們正視廣泛使用先進 AI 帶來的意想不到的後果。

有一件事是肯定的：Nvidia 已經向 AI 產業發出了挑戰。現在的問題不是 AI 格局是否會改變，而是會發生多大的變化——以及誰能快速適應並在這個 AI 開源的新世界中蓬勃發展。