微軟 Phi-3-vision 基準測試:和 Claude 3-haiku、Gemini 1.0 Pro 相當

微軟 Phi-3-vision 基準測試:和 Claude 3-haiku、Gemini 1.0 Pro 相當

微軟在 Build 2024 大會上發佈了 Phi-3 家族的最新成員--Phi-3-vision,主打視覺能力,能夠理解圖文內容,同時據稱可以在行動平台上流暢高效運行。

Phi-3-vision 是一款多模態小型語言模型(SLM),主要用於本機的 AI 情境應用,該模型參數量為 42 億,上下文長度為 128k token,能夠為常規視覺推理任務和其他任務提供支援。

那麼 Phi-3-vision 有多厲害?微軟公布了新的論文 [PDF],從其中的基準測試可以看出,表示該 SLM 和 Claude 3-haiku、Gemini 1.0 Pro 等其他模型不相上下。

微軟 Phi-3-vision 基準測試:和 Claude 3-haiku、Gemini 1.0 Pro 相當

微軟在論文中對比了 ScienceQA、MathVista 和 ChartQA 等模型,Phi-3-vision 的參數雖然不多,但性能非常優秀。

微軟提供了 Phi-3-vision 相較於字節跳動 Llama3-Llava-Next(8B)、微軟研究院和威斯康星大學、哥倫比亞大學合作的 LlaVA-1.6(7B)、阿里巴巴通義千問 QWEN-VL-Chat 模型等競品模型的比較圖表,其中顯示 Phi-3-vision 模型在多個項目上表現優異。

微軟 Phi-3-vision 基準測試:和 Claude 3-haiku、Gemini 1.0 Pro 相當

目前微軟已經將該模型上傳至 Hugging Face,可以點此進入

 

 

 

cnBeta
作者

cnBeta.COM(被網友簡稱為CB、cβ),官方自我定位「中文業界資訊站」,是一個提供IT相關新聞資訊、技術文章和評論的中文網站。其主要特色為遊客的匿名評論及線上互動,形成獨特的社群文化。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則