在 Midjourney、Leonargo.AI 等各種 AI 繪圖工具方興未艾之際,市場似乎早已經等不及朝下一步邁進,開始謀求運用 AI 來生成各式動態影片。臉書母公司 Meta,早在去年便發表相關研究論文,並透過網站展示其在 T2V(Text- to-Video)模型所取得的重大進展。而在今年4月時,更有網友透過 Stable Diffusion 的外掛套件,將真人跳舞影片轉換為舞蹈動作一致的動畫片段,引起網路一片熱議。另一方面,坊間也有許多新創團隊對於「Text- to-Video」躍躍欲試,紛紛開展了文字生成影片的 AI 服務,準備搶佔這塊新藍海。
文章目錄
文字生成影片的發展與優勢
此處所提的文字生成影片,同樣屬於 AIGC(Artificial Intelligence Generated Content)的範疇,也就是人工智慧自動生成內容,在各家科技巨頭的 AI 軍備競賽之下,除了 Meta 的「Make-A-Video」之外;Google同樣在去年稍晚發表了名為「Imagen Video」的文字生成影片工具;至於 Nvidia 也在近期發表與康乃爾大學合作的推出 AI 影片生成模型 VideoLDM。
以T2I(Text-to-Image)為基礎
上述的共通點都是奠基於文字生成圖片技術,畢竟所謂的影片,其實就是透過一格一格的圖片組合成連續動作,然後再透過訓練過的擴散模型,依據時間與空間資訊,針對每一格圖片進行微調並保持其連貫性。說起來簡單,但想要無中生有產出時間長、解析度高,且內容元素較複雜的影片,依然具有相當高的難度。而在技術尚未完全成熟前,為避免內容造成爭議,Meta、Google 以及 Nvidia 目前都並未打算要向大眾開放,或將其技術開源。
商用領域首先受惠
雖然如此,但 AI 生成影片依舊是接下來 AIGC 的主要發展方向,畢竟自 YouTube 乃至 TikTok,影片內容已經成為社群中接受度與擴散性最高的一種媒體,如果能藉由 AI 快速產出大量不重複的內容,那麼對於商業宣傳來說,就是絕佳的行銷手段。雖然拍攝影片對於智慧手機盛行的現在,並非難事,但若想要讓影片脫穎而出,那麼演員、設備、剪輯以及素材皆是不可或缺的支出,尤其在動畫領域更是如此,傳統上要製作動畫是相當耗時費力的,而 AI 生成影片的優勢之處,就是能大幅降低影片製作的時間與成本。從另一層面來說,AI 生成影片與 AI 繪圖一樣,都能夠促進創作的多樣性及普及化,任何人都能都依靠自己的創意,獨立產出任何風格的影片,而不必受到專業技術與器材的限制。
仍以輔助為主要應用
其實純粹的 AI 生成影片,在技術上還有不少問題需要解決,無論是最先進 Meta、Google 或是 Nvidia,所產出的影片長度都是以秒為計算單位,還無法進入到商用階段,因此目前由各新創公司所推出的 AI 生成影片工具,大多是作為一種輔助型的角色,目的在幫助有需求者快速產出影片,例如辨識文字內容生成影片腳本、建立類簡報型態的動畫作品,或者根據輸入的文本,剪輯適合的素材並進行合成等等,應用形式不盡相同,端看使用者的取捨。
Pictory:把線上文章轉為影片
Pictory 的核心概念,是想要把各類長篇文本轉化為多媒體的影片內容,開發團隊認為,唯有影片類型的內容,才能在社交媒體上提供更高的用戶參與度,於是2019年在西雅圖舉辦的黑客松活動上,首次推出了 Pictory 的原型,藉由 AI 的幫助,能把冗長的內容快速轉換成影片,同時 Pictory 也提供了音樂曲目及 AI 轉語音等功能可供使用,無須額外支付版稅,免費版允許用戶建立3個影片專案,每個影片不超過10分鐘,用量更大則可加入付費訂閱,最低每月19美元起。至於 Pictory 的影片生成功能共有四大類,包含以腳本生成影片、以文章生成影片、以文字編輯影片,也能透過上傳圖像或影片檔來生成短影音。
特色1.影片生成方式
Pictory 提供了4種主要的影片生成以及編輯功能,每一種對應的用途與情境略有差異。
特色2.文章轉影片
除了自己輸入文本外,也可以輸入線上文章的網址,Pictory 會自己抓取文章重點,不過以英文較為準確。
特色3.範本套用
依據文章的內容選擇適合的風格範本,可以還可以選擇輸出影片的比例,來對應不同的觀看平台。
特色4.編輯器
所有已生成元素都可以再進行後續的編輯修改,包括字型、配樂、視覺效果及影片比例等等。
Steve AI:5分鐘產出卡通影片
Steve AI 是一個基於 AI 的線上影片生成平台,主要目的是想要讓任何人都能夠輕鬆生成影片與動畫,可為影片創作者、自媒體或行銷人員節省時間成本。開發團隊將其命名為 Steve,是因為它是美國最常見的人名之一,藉此表達一種隨意、親和的感覺。除了既有的文字生成影片之外,能夠生成動畫可以說是 Steve AI 功能上最為特殊之處,其動畫較偏向於 Flash 卡通風格,不過在配色、動作、角色方面都能自由調整,運用得宜也能創造出不錯的效果。Steve AI 在未來也準備推出聲音轉影片(Voice to video)、推特轉影片(Tweet to video)及簡報轉影片(Powerpoint to video)等多項創新功能,一般用戶均可免費使用,如需更多功能與模組,基本方案是每月15美元起。
特色1.影片生成方式
支援多種來源的文本內容,未來甚至可以直接把簡報檔變成影片。
特色2.腳本編輯器
除了自行輸入腳本的內容之外,甚至也有提供對應各種主題的罐頭內容,方便使用者直接套用修改。
特色3.動畫風格
免費版就已經提供多種風格的動畫範本,可對應不同影片主題使用。
特色4.人物動作
只要是動畫類型的影片,當中的人物動作以及物件均可進行替換。
Deepbrain AI:結合ChatGPT生成腳本
與上述幾家公司不太相同,主要鎖定企業端客戶的 Deepbrain AI,其技術核心是所謂的 AI 虛擬化身(Avatar)解決方案,該公司將其稱之為 AI Human,是透過深度學習技術所製作的虛擬人類動態圖像,搭配語音合成技術,就能實現諸如 AI 銀行員、AI 客服等無人服務的相關應用,如中國的 CCTV 就曾應用此技術打造電視新聞節目的 AI 主播。而同樣由 Deepbrain AI 所推出的 AI Studios,則是一款結合 ChatGPT 與自家 AI Human 的 AI 影片生成工具,其特點是直接透過 ChatGPT 自動生成腳本,還可支援轉換80多種文字的語音,選擇適合的版型後,搭配虛擬化身作為影片解說者,如此就能快速產出一段專業等級的影片。
特色1.整合ChatGPT
只需輸入要製作的影片主題或提問,就能藉由 ChatGPT 的 AI 生成功能來建立影片內容。
特色2.AI人物形象
提供多種國家、種族、與性別的 AI 虛擬人物,並可選擇以頭像、全身半身或僅以聲音來呈現。
特色3.語音套用
透過 AI 語音合成功能,可以支援80多種語音,並可完美對應虛擬人物的嘴型。
特色4.影片編輯器
編輯器也提供即時字幕生成、插入圖片與上傳影像、字型調整等功能,並可以依需求添加或刪減 Slide。
D-ID:運用AI繪圖自訂AI虛擬主播
坊間以 AI 虛擬化身為主題的影片生成工具,其實並不在少數,除了前述的 Deepbrain AI 之外,像是 Synthesia、Colossyan 等都是相當熱門的線上服務,這類型工具的客群較偏向於專業人士與公司組織機構。成立於2017年的 D-ID,也提供類似的 AI 虛擬化身方案,不過其技術的特殊之處,是能夠透過上傳自己的照片,或是以 AI 繪圖方式生成人物圖像,再藉由 D-ID 的Creative Reality Studio 工具,就能讓原本是靜態的人物動起來,透過鍵入文字稿或上傳個人的錄音檔,即可讓自訂的 AI 虛擬人物說起話來,語音生成支援多國語言,也支援國語。免費版本只支援14天試用,不過 Lite 版訂閱每月只需要5.99美元,算是較為經濟實惠的選擇。
特色1.腳本生成
D-ID 的編輯器的右側腳本欄位,除了自行輸入文字外,還能透過 AI 來幫你接續生成更多內容。
特色2.語音生成
藉由文字轉語音功能,可讓虛擬人物開口說話,語音方面也支援台灣所慣用的國語。
特色3.導入 AI 繪圖
如果沒有喜歡的 AI 虛擬化身,亦可透過輸入 Prompt 來生成獨一無二的 AI 角色。
特色4.影片生成
由於編輯器功能較為簡潔,生成的人物影片,可再自行搭配其他主題影片進行合成。
Kaiber:助你實現動畫創作夢想
美國搖滾樂團聯合公園於今年初重新發行單曲〈Lost〉,其音樂 MV 採用了類似蒙太奇手法的動畫風格,不過實際上,這部 MV 是透過 AI 生成的,背後的技術支援就是 Kaiber。藉由 Kaiber 的 AI 影片工具,使用者除了可以透過輸入 Prompt 生成獨特的動畫影片,也能上傳影像並將其轉換為全然不同的風格創作,亦支援與上傳的音軌進行影像的匹配,更能控制影片中的攝影機角度、縮放等細節。相較於前述作為輔助用途的各種 AI 影片工具,Kaiber 其實更貼近於以 AI 繪圖為基礎的動畫製作工具,就連付費方式也很類似,訂閱者每月都有固定的點數額度,一旦用畢就必須再等下個月才會重新發放,基本方案為每月5美元,擁有300點數可使用。
特色1.影片生成
提供上傳圖片、影音檔或者透過文字的 Prompt 來進行動畫的生成。
特色2.Prompt類型
需輸入兩種 Prompt,第一個是描述影片的主題,另一個是針對影片打算呈現的藝術風格。
特色3.影像格式設定
可以設定影片時長、畫面比例,包括鏡頭的拍攝、移動方式皆可選擇。
特色4.關鍵幀預覽
由於影片生成較為耗時,所以會提供預覽用的關鍵幀以方便選擇,並能繼續加入新的分鏡(Storyboard)。
Genmo:引入對話式AI協作修片
由 Ajay Jain 與 Paras Jain 等 AI 研究者所創立的 Genmo,是一個專注於生成模型技術,並藉以創建和共享生成藝術的工具平台,其目的是成為使用者的創意助手,其影片生成方式是先透過使用者的 Prompt 描述,先算繪出一張圖片,接著在編輯的欄位中,輸入你想要如何修改這張圖片,例如轉換物件形狀或變更背景,並進行相關參數的調整,就能讓靜態圖片轉化成動態的影片。免費用戶每日都能取得100點數用以生成影片,而訂閱用戶除了可以獲得更多點數外,還可使用進階的 Genmo Chat 功能,使用者可以直接與 AI 進行對話,讓 Genmo 根據用戶提出的主題生成影片腳本,再轉換為一整部影片,並透過自然語言來指導 Genmo 如何修改影片中的特定細節。
特色1.啟始圖片
需使用圖片作為影片的首張畫格,圖片的生成可以透過 Prompt 進行 AI 算繪,也支援上傳圖片。
特色2.指定區域動畫
當算繪出圖片後,還可以透過畫筆指定圖中的特定部分生成動畫,其餘區域則會維持不變。
特色3.編輯故事
替生成的圖片加入文本描述,通常是說明圖片要怎麼變化,讓 AI 據此描述生成動畫。
特色4.自訂參數
包括影片長度、畫面變化的權重、畫面過渡的平滑度等等,均可再進行微調。
本文同步刊載於PC home雜誌
歡迎加入PC home雜誌粉絲團!
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!