Meta 攜手史丹佛大學,推出全新 AI 模型系列 Apollo,顯著提升機器對影片的理解能力。
儘管人工智慧在處理圖像和文字方面取得了巨大進步,但讓機器真正理解影片仍然是一個重大挑戰。因為影片包含複雜的動態資訊,人工智慧更難處理這些資訊,不僅需要更多的計算能力,而且如何設計最佳 AI 影片解讀系統,也存在諸多困難。
在影片處理方面,研究人員發現,保持每秒恆定的幀採樣率能獲得最佳結果。因此 Apollo 模型使用兩個不同的元件,一個處理單獨的影片幀,而另一個跟蹤對象和場景如何隨時間變化。目前最常可以處理一小時的長影片。
此外,在處理後的影片片段之間新增時間戳,有助於模型理解視覺資訊與文字描述之間的關係,保持時間感知。
在模型訓練方面,團隊研究表明訓練方法比模型大小更重要。Apollo 模型採用分階段訓練,按順序啟動模型的不同部分,比一次性訓練所有部分效果更好。
此外 Meta 公司還不斷最佳化資料組合,發現 10~14% 的文字資料,其餘部分略微偏向影片內容,可以更好地平衡語言理解和影片處理能力。
Apollo 模型在不同規模上均表現出色,較小的 Apollo-3B 超越了 Qwen2-VL 等同等規模的模型,而 Apollo-7B 超過更大參數的同類模型,Meta 已開源 Apollo 的程式碼和模型權重,並在 Hugging Face 平台提供公開展示。
參考
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!