阿里雲推出全新視覺語言模型Qwen2-VL，可分析超過 20 分鐘長的影片，實現AI「類人視覺感知」 | T客邦

阿里雲推出全新視覺語言模型Qwen2-VL，可分析超過 20 分鐘長的影片，實現AI「類人視覺感知」

ADVERTISEMENT

中國電子商務巨頭阿里巴巴的雲端服務和儲存部門阿里雲宣布推出其最新先進的視覺語言模型 Qwen2-VL，旨在增強視覺理解、影片理解和多語言文本圖像處理。

並且，與 Meta 的 Llama 3.1、OpenAI 的 GPT-4o、Anthropic 的 Claude 3 Haiku 和 Google 的 Gemini-1.5 Flash 等其他領先的最先進模型相比，它在第三方基準測試中已經擁有令人印象深刻的表現。你可以在 Hugging Face 上試用該模型。

Qwen 2VL 7B & 2B are here - Apache 2.0 licensed smol Vision Language Models competitive with GPT 4o mini - w/ video understanding, function calling and more! 🔥

> 72B (to be released later) beats 3.5 Sonnet & GPT 4o
> Can understand up to 20 min of video
> Handles arbitrary… pic.twitter.com/JmP6zpGNml
— Vaibhav (VB) Srivastav (@reach_vb) August 29, 2024

目前支援的語言包括英語、中文、大多數歐洲語言、日語、韓語、阿拉伯語和越南語。

卓越的圖像和影片分析能力，甚至可用於即時技術支援

透過新的 Qwen-2VL，阿里巴巴正在尋求為 AI 模型與視覺數據的互動設定新標準，包括分析和辨識多種語言手寫的能力、辨識、描述和區分靜態圖像中的多個物體，甚至分析近即時直播影片，提供可能開啟其用於技術支持和其他有用的即時操作的摘要或回饋。

正如 Qwen 研究團隊在 GitHub 上關於新的 Qwen2-VL 模型系列的部落格文章中所寫：「除了靜態圖像，Qwen2-VL 還將其能力擴充到影片內容分析。它可以總結影片內容、回答相關問題，並保持即時連續的對話，提供即時聊天功能。這一功能使其能夠充當個人助理，透過直接從影片內容中獲取見解和信息來幫助使用者。」

此外，阿里巴巴還表示，它可以分析超過 20 分鐘以上的影片並回答有關內容的問題。

阿里巴巴甚至展示了一個範例，該模型正確分析並描述了以下影片：

以下是 Qwen-2VL 的摘要：

影片一開始，一名男子對著鏡頭說話，接著是一群人坐在控制室裡。然後鏡頭切到兩個男人漂浮在太空站內，他們在那裡對著鏡頭說話。這些人似乎是太空人，他們穿著太空服。太空站裡裝滿了各種設備和機械，鏡頭環顧四周，展示了太空站的不同區域。這些人繼續對著鏡頭說話，他們似乎在討論他們的任務和他們正在執行的各種任務。總的來說，該影片讓我們得以一窺太空探索的世界和太空人的日常生活。

三種大小，其中兩種完全開源

阿里巴巴的新模型有三種不同參數大小的變體——Qwen2-VL-72B（720 億個參數）、Qwen2-VL-7B 和 Qwen2-VL-2B。（參數描述了模型的內部設定，更多參數通常意味著更強大和更有能力的模型。）

7B 和 2B 變體在開源的 Apache 2.0 許可證下可供使用，允許企業自由用於商業用途，這使其成為潛在決策者的吸引選項。它們旨在以更易於接觸的規模提供競爭性能，並可在 Hugging Face 和 ModelScope 等平台上使用。

然而，最大的 72B 模型尚未公開發布，稍後將僅透過阿里巴巴的單獨許可證和應用程式介面（API）提供。

呼叫函數和類人視覺感知

Qwen2-VL 系列建立在 Qwen 模型系列的基礎上，在幾個關鍵領域帶來了重大進步：

這些模型可以整合到手機和機器人等設備中，允許基於視覺環境和文本指令進行自動操作。

這一功能突出了 Qwen2-VL 作為需要複雜推理和決策任務的強大工具的潛力。

Qwen2-VL 支援呼叫函數，這代表它可以與其他的第三方軟體、應用程式和工具進行整合。同時模型能夠從這些第三方來源中，透過視覺的方式提取資訊。例如，它可以「看」並且理解航班狀態、天氣預報或是包裹追蹤資訊。阿里巴巴表示，這樣的功能讓 Qwen2-VL 能夠實現更接近人類對世界感知方式的互動。也就是說，它不僅能理解文字和圖像，還能像人類一樣從各種來源獲取並理解資訊，讓互動更自然、更人性化。

Qwen2-VL 引入了多項架構改進，旨在增強模型處理和理解視覺數據的能力。

Naive Dynamic Resolution讓模型能夠處理不同解析度的圖像，確保在視覺解讀上的一致性和準確性。也就是說，無論圖像是高解析度還是低解析度，模型都能夠正確地理解其內容。而多模態旋轉位置嵌入（M-ROPE）系統使模型能夠同時捕捉並整合文字、圖像和影片中的位置資訊。這意味著模型能夠理解不同模態（例如文字描述和相應的圖片）之間的關聯，並利用這些關聯來更準確地理解整體內容。

Qwen 團隊的下一步是什麼？

阿里巴巴的 Qwen 團隊致力於進一步提升視覺語言模型的能力，在 Qwen2-VL 的成功基礎上，計劃整合更多模態並增強模型在更廣泛應用範圍內的效用。Qwen2-VL 模型現已可用，Qwen 團隊鼓勵開發人員和研究人員探索這些尖端工具的潛力。

延伸閱讀：蘋果研究人員開發出可「看」到並理解螢幕內容的AI
延伸閱讀：Google AI已經能理解100多種語言，通用語言模型語意理解表現極佳
延伸閱讀：Shy Kids揭秘使用Sora製作短片的製作過程！AI 影片產生器的驚人進步與局限性
資料來源：venturebeat

#開源 #人工智慧 #ai #阿里巴巴 #阿里雲 #圖像辨識 #qwen2-vl #視覺語言模型 #影片理解 #多模態

使用 Facebook 留言

謹慎發言，尊重彼此。按此展開留言規則