過去這一年應該有很多人看到 AI 可以取代部分插畫家的工作，透過文字指令創作出完成度相當高的手繪圖片，也有不少人應用大型語言模型產生出短篇小說，或甚至 OpenAI 還展示出 SORA 影片生成技術，現在 Google 也加入這個戰局，提供使用者 AI 工具來產生素材。

Google 將推出 Veo 視訊生成模型以及 Imagen 3 文生圖模型，並展示了 Music AI Sandbox 協助創作者錄音的過程。

Veo：Google 影片生成模型

Veo 是 Google 最新的影片生成模型，可以產生出不同視覺風格的 1080p 解析度影片，影片長度還可以超過一分鐘，直接對標 OpenAI 推出的 Sora 影片模型。

根據 Google 表示，Veo 可以理解自然語言，甚至還可以理解專業的拍攝術語，例如縮時錄影、空拍等等，創造出符合真實世界的物理原理影片，同時可提供連貫而且一致性高的影像。

Google 也找來了電影製作 Donald Glover 和其工作室嘗試在某部電影裡使用 Veo 創作：

Veo 影片生成模型結合了 Google 多年來的視訊技術包含生成查詢網路（GQN）、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere 等，未來會將 Veo 部分功能開放給 YouTube Shorts 使用。

Imagen 3：Google 的文生圖模型

既然有 AI 影片模型，當然也有文字生圖片模型，Google 把它取名為 Imaen 3，官方表示可以產生細節栩栩如生、逼真的照片，跟之前的圖片模型相比，一些不合理的細節會少很多。

Google 表示 Imagen 3 可以更準確地理解自然語言，甚至知道語言背後的意圖，還會融合提示詞中的細節，讓創作出的照片可以更精確。

▲ 這四張圖都是由 Imagen 3 生成。

有 AI 生成影片、AI 生成圖片後，Google 也和音樂家、歌曲創作者、製作人合作，發展 AI 生成音樂，Google 開發出名為 Music AI Sandbox 的音樂 AI 工具，讓創作者可以應用 AI 改變聲音、或是產生出新的樂器音樂等。

Google 也提供了一段由 AI 輔助創作的音樂：

為了要幫助使用者辨識出哪些影像、照片、音樂是由 AI 創作，Google 開發出 SynthID，以數位浮水印的方式嵌入上述這些 AI 產生的內容。