法國新創Mistral推出首款多模態AI模型Pixtral 12B，圖像文本一把抓，開源免費任你用

法國人工智慧新創公司Mistral發布了其第一個可以處理圖像和文字的模型。

這款名為Pixtral 12B的模型擁有120億個參數，大小約為24GB。參數大致上可以對應模型的解決問題的能力，參數更多的模型通常比參數少的模型表現更好。

Pixtral 12B 是基於 Mistral 另一款文本模型 Nemo 12B構建的，這個新模型可以回答關於任意數量和大小的圖像的問題，無論是給定URL還是使用base64編碼的圖像。與其他多模態模型（如Anthropic的Claude家族和OpenAI的GPT-4o）相似，Pixtral 12B理論上應該能夠執行圖像字幕和計算照片中物體數量等任務。

Pixtral 12B可透過GitHub和AI及機器學習開發平台Hugging Face上的torrent連結下載、微調和使用，並且不受限制地採用Apache 2.0許可證。（Mistral發言人透過電子郵件確認了Pixtral 12B所採用的許可證。）

遺憾的是，但目前還沒法親自體驗Pixtral 12B，因為在發表時沒有任何可用的網路示範。Mistral開發者關係負責人Sophia Yang在X上的一篇文章中表示，Pixtral 12B將很快在Mistral的聊天機器人和API服務平台Le Chat和Le Plateforme上提供測試。

目前尚不清楚Mistral可能使用了哪些圖像數據來開發Pixtral 12B。

大多數生成式 AI 模型，包括 Mistral 的其他模型，都是通過大量網路公開數據訓練的，這些數據通常是受版權保護的。一些模型供應商認為「合理使用」權賦予他們抓取任何公開數據的權利，但許多版權持有者不同意，並已對 OpenAI 和 Midjourney 等大型供應商提起訴訟，以阻止這種做法。

Pixtral 12B的發表是在Mistral完成由General Catalyst領投的6.45億美元融資之後，該輪融資對公司的估值達到60億美元。成立剛一年多的Mistral（微軟持有少數股權）被AI社群中的許多人視為歐洲對OpenAI的回應。這家年輕公司的戰略迄今為止涉及發布免費的「開放」模型，對這些模型的託管版本收費，並為企業客戶提供諮詢服務。

延伸閱讀：Mistral AI 開源釋出強大程式碼生成 AI 模型 Codestral Mamba，挑戰 Transformer 架構霸主地位
延伸閱讀：歐洲版OpenAI「Mistral AI」爆紅！創業180天估值20億美元！連NVIDIA都入股了
延伸閱讀：微軟繼OpenAI後再與法國Mistral AI建立合作關係：最新AI模型 Mistral Large 僅次於GPT-4
資料來源：techcrunch