Google的下一個主要人工智慧模型已經到來,以對抗來自 Open AI 的新產品的夾擊。本週三,Google 發佈了 Gemini 2.0 Flash,該公司稱其除文字外,還能原生生成圖像和音訊。 2.0 Flash 還可以呼叫第三方應用程式和服務,使其能夠接入 Google 搜尋、執行程式碼等。
2.0 Flash 的實驗版本將從今天開始透過 Gemini API 和 Google 的人工智慧開發者平台AI Studio 和Vertex AI 提供。 不過,音訊和圖像生成功能僅針對部分「合作夥伴」推出,要等到 1 月份才會全面推出。
Google表示,在未來幾個月內,它將為Android Studio、Chrome DevTools、Firebase, Gemini Code Assist等產品帶來各種版本的 2.0 Flash。
Gemini 2.0 Flash相較於前代的優勢
第一代 Flash(1.5 Flash)只能生成文字,並不是為要求特別高的工作負載而設計的。 Google 表示,這種新模式更具通用性,部分原因在於它可以呼叫搜尋等工具並與外部 API 進行互動。
產品主管圖爾西-多希(Tulsee Doshi)在週二的發佈會上說:"我們知道,Flash 在速度和性能之間取得了平衡,因此深受開發人員的歡迎。有了 2.0 版 Flash,它的速度一如既往,而且功能更加強大。"
Google聲稱,根據自己的測試,2.0 Flash 在某些基準測試中的速度是該公司 Gemini 1.5 Pro 模型的兩倍,而且在程式和圖像分析等方面有了"顯著"改進。 事實上,該公司表示,2.0 Flash 憑藉其卓越的數學能力和"事實性",取代 1.5 Pro 成為 Gemini 的旗艦模型。
如前所述,2.0 Flash 可以生成並修改文字和圖像。 該模型還能採集照片和影片以及錄音,以回答相關問題(例如"他說了什麼?)
音訊生成是 2.0 Flash 的另一項主要功能,多希將其描述為"可操縱"和"可定製"。 例如,該模型可以使用針對不同口音和語言"最佳化"的八種聲音之一來敘述文字。
她補充說:"你可以讓它說得慢一點,也可以讓它說得快一點,甚至可以讓它說像海盜一樣的話。"
目前Google沒有提供 2.0 Flash 的圖像或音訊樣本。 目前還無法得知其品質與其他模型的輸出相比如何。
針對深度偽造問題提供標記
Google 表示將使用其SynthID技術對 2.0 Flash 生成的所有音訊和圖像進行數位浮水印處理。 在支援 SynthID 的軟體和平台上(即選定的 Google 產品),模型的輸出將被標記為合成。
這是為了消除對濫用的擔憂。 事實上,深度偽造是一種日益嚴重的威脅。 根據身份驗證服務公司Sumsub的資料,從2023年到2024年,全球檢測到的深度偽造增加了4倍。
2.0 Flash 的正式版本將於 1 月份發佈。 但與此同時,Google將發佈一個應用程式介面(API)--多模態即時應用程式介面(Multimodal Live API),以幫助開發人員建立具有即時音訊和視訊流功能的應用程式。
Google表示,通過使用多模態即時 API,開發人員可以建立即時、多模態的應用程式,並通過鏡頭或螢幕輸入音訊和視訊。 該 API 支援內建各種工具來完成任務,並且可以處理"自然對話模式",例如中斷,這與 Open AI 的 Realtime API 大體一致。
多模態即時 API 已於今天上午全面推出。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!