2024.09.13 13:00

法國新創Mistral推出首款多模態AI模型Pixtral 12B,圖像文本一把抓,開源免費任你用

ADVERTISEMENT

法國人工智慧新創公司Mistral發布了其第一個可以處理圖像和文字的模型。

這款名為Pixtral 12B的模型擁有120億個參數,大小約為24GB。參數大致上可以對應模型的解決問題的能力,參數更多的模型通常比參數少的模型表現更好。

Pixtral 12B 是基於 Mistral 另一款文本模型 Nemo 12B構建的,這個新模型可以回答關於任意數量和大小的圖像的問題,無論是給定URL還是使用base64編碼的圖像。與其他多模態模型(如Anthropic的Claude家族和OpenAI的GPT-4o)相似,Pixtral 12B理論上應該能夠執行圖像字幕和計算照片中物體數量等任務。

ADVERTISEMENT

Pixtral 12B可透過GitHub和AI及機器學習開發平台Hugging Face上的torrent連結下載、微調和使用,並且不受限制地採用Apache 2.0許可證。(Mistral發言人透過電子郵件確認了Pixtral 12B所採用的許可證。)

遺憾的是,但目前還沒法親自體驗Pixtral 12B,因為在發表時沒有任何可用的網路示範。Mistral開發者關係負責人Sophia Yang在X上的一篇文章中表示,Pixtral 12B將很快在Mistral的聊天機器人和API服務平台Le Chat和Le Plateforme上提供測試。

目前尚不清楚Mistral可能使用了哪些圖像數據來開發Pixtral 12B。

ADVERTISEMENT

大多數生成式 AI 模型,包括 Mistral 的其他模型,都是通過大量網路公開數據訓練的,這些數據通常是受版權保護的。一些模型供應商認為「合理使用」權賦予他們抓取任何公開數據的權利,但許多版權持有者不同意,並已對 OpenAI 和 Midjourney 等大型供應商提起訴訟,以阻止這種做法。

Pixtral 12B的發表是在Mistral完成由General Catalyst領投的6.45億美元融資之後,該輪融資對公司的估值達到60億美元。成立剛一年多的Mistral(微軟持有少數股權)被AI社群中的許多人視為歐洲對OpenAI的回應。這家年輕公司的戰略迄今為止涉及發布免費的「開放」模型,對這些模型的託管版本收費,並為企業客戶提供諮詢服務。

ADVERTISEMENT