Google推出全新人工智慧模型 Gemini 2.0 Flash，用途更為廣泛 | T客邦

T客邦為提供您更多優質的內容，採用網站分析技術，若您點選「我同意」或繼續瀏覽本網站，即表示您同意我們的隱私權政策。

我同意

半導體/電子產業 5G/網路 AI/大數據電動車/交通

加密貨幣/區塊鏈遊戲/電競雲端/資訊安全商業/金融

尖端科技 3C新品趨勢

抽獎/得獎公告體驗試玩活動課程講座

2024科技趨勢金獎

Google推出全新人工智慧模型 Gemini 2.0 Flash，用途更為廣泛

Google的下一個主要人工智慧模型已經到來，以對抗來自 Open AI 的新產品的夾擊。本週三，Google 發佈了 Gemini 2.0 Flash，該公司稱其除文字外，還能原生生成圖像和音訊。 2.0 Flash 還可以呼叫第三方應用程式和服務，使其能夠接入 Google 搜尋、執行程式碼等。

2.0 Flash 的實驗版本將從今天開始透過 Gemini API 和 Google 的人工智慧開發者平台AI Studio 和Vertex AI 提供。不過，音訊和圖像生成功能僅針對部分「合作夥伴」推出，要等到 1 月份才會全面推出。

Google表示，在未來幾個月內，它將為Android Studio、Chrome DevTools、Firebase， Gemini Code Assist等產品帶來各種版本的 2.0 Flash。

Gemini 2.0 Flash相較於前代的優勢

第一代 Flash（1.5 Flash）只能生成文字，並不是為要求特別高的工作負載而設計的。 Google 表示，這種新模式更具通用性，部分原因在於它可以呼叫搜尋等工具並與外部 API 進行互動。

產品主管圖爾西-多希（Tulsee Doshi）在週二的發佈會上說："我們知道，Flash 在速度和性能之間取得了平衡，因此深受開發人員的歡迎。有了 2.0 版 Flash，它的速度一如既往，而且功能更加強大。"

Google聲稱，根據自己的測試，2.0 Flash 在某些基準測試中的速度是該公司 Gemini 1.5 Pro 模型的兩倍，而且在程式和圖像分析等方面有了"顯著"改進。事實上，該公司表示，2.0 Flash 憑藉其卓越的數學能力和"事實性"，取代 1.5 Pro 成為 Gemini 的旗艦模型。

如前所述，2.0 Flash 可以生成並修改文字和圖像。該模型還能採集照片和影片以及錄音，以回答相關問題（例如"他說了什麼？）

音訊生成是 2.0 Flash 的另一項主要功能，多希將其描述為"可操縱"和"可定製"。例如，該模型可以使用針對不同口音和語言"最佳化"的八種聲音之一來敘述文字。

她補充說："你可以讓它說得慢一點，也可以讓它說得快一點，甚至可以讓它說像海盜一樣的話。"

目前Google沒有提供 2.0 Flash 的圖像或音訊樣本。目前還無法得知其品質與其他模型的輸出相比如何。

針對深度偽造問題提供標記

Google 表示將使用其SynthID技術對 2.0 Flash 生成的所有音訊和圖像進行數位浮水印處理。在支援 SynthID 的軟體和平台上（即選定的 Google 產品），模型的輸出將被標記為合成。

這是為了消除對濫用的擔憂。事實上，深度偽造是一種日益嚴重的威脅。根據身份驗證服務公司Sumsub的資料，從2023年到2024年，全球檢測到的深度偽造增加了4倍。

2.0 Flash 的正式版本將於 1 月份發佈。但與此同時，Google將發佈一個應用程式介面（API）--多模態即時應用程式介面（Multimodal Live API），以幫助開發人員建立具有即時音訊和視訊流功能的應用程式。

Google表示，通過使用多模態即時 API，開發人員可以建立即時、多模態的應用程式，並通過鏡頭或螢幕輸入音訊和視訊。該 API 支援內建各種工具來完成任務，並且可以處理"自然對話模式"，例如中斷，這與 Open AI 的 Realtime API 大體一致。

多模態即時 API 已於今天上午全面推出。

#人工智慧 #ai

送【10個ChatGPT的好工具】電子書 Line brand icon

使用 Facebook 留言

謹慎發言，尊重彼此。按此展開留言規則