微軟開源了 OmniParser：可以讓視覺語言模型看懂介面、秒懂螢幕截圖，可操控手機 / 電腦

科技媒體 marktechpost 報導指出，微軟宣佈開源 OmniParser，是一款解析和識別螢幕上可互動圖示的 AI 工具。

傳統的自動化方法通常依賴於解析 HTML 或檢視層次結構，從而限制了其在非網路環境中的適用性。而包括 GPT-4V 在內的現有的視覺語言模型（VLMs），並不擅長解讀複雜 GUI 元素，導致動作定位不精準。

OmniParser是什麼？

微軟為了克服這些障礙，推出了 OmniParser，是一種純視覺基礎的工具，旨在填補當前螢幕解析技術中的空白。

該工具並不需要依賴額外的上下文資料，可以理解更複雜的圖形使用者介面（GUI），是智慧 GUI 自動化領域的一項令人興奮的進展。

OmniParser 結合可互動區域檢測模型、圖示描述模型和 OCR 模組等，不需要 HTML 標籤或檢視層次結構等顯式基礎資料，能夠在桌面、移動裝置和網頁等上跨平台工作，提高使用者介面的解析精準性。

OmniParser 除了識別螢幕上的元素，還能將這些元素轉換成結構化的資料。

測試表現

OmniParser 在多個基準測試中顯示出優越的性能。例如，在 ScreenSpot 資料集中，其精準率提高了 73%，顯著超越依賴 HTML 解析的模型。

這一設計不僅能生成類似文件對象模型（DOM）的結構化表示，還能通過疊加邊界框和功能標籤來引導語言模型做出更準確的使用者動作預測。

同時，GPT-4V 在使用 OmniParser 輸出後，圖示的正確標記率從 70.5% 提升至 93.8%。這些改進表明，OmniParser 能夠有效解決當前 GUI 互動模型的根本缺陷。

OmniParser 的發佈不僅拓寬了智慧體的應用範圍，也為開發者提供了一個強大的工具，助力建立更智慧、更高效的使用者介面驅動智慧體。微軟目前已在 Hugging Face 上發佈 OmniParser，普及這一前沿技術，將進一步推動多模態 AI 的發展，特別是在無障礙、自動化和智慧使用者輔助等領域。

參考網址