Shy Kids揭秘使用Sora製作短片的製作過程!AI 影片產生器的驚人進步與局限性

Shy Kids揭秘使用Sora製作短片的製作過程!AI 影片產生器的驚人進步與局限性

ADVERTISEMENT

2月初,OpenAI發表的Sora驚豔了全世界,它在文生影片上的革命性突破,一度被視為吹向好萊塢的一場大風暴。 

Sora是一種擴散模型,與以往的 AI 影片生成器相比,Sora 能夠依據提示詞生成長達一分鐘的影片內容,保持視覺品質和一致性,並且實現鏡頭的切換和構圖調整,它還能使影片與背景相關的主題細節準確符合,產生的影片更加逼真,仿佛是現實世界的延伸。 

當時,OpenAI還發表了技術說明,表明它未來可以將生成的影片延長或無縫混合兩個影片。 

3月起,Sora對一些藝術家開放了使用權限,月底,OpenAI在官網發表了幾位藝術家使用Sora生成的超現實影片作品。近日,這些作品之一《氣球人》背後的藝術家團隊 Shy Kids 全揭秘了使用Sora的製作過程。

 

整體看下來,真正投入到影視製作中的Sora並沒有當初那麼驚豔,但它已經足夠令人震撼——能讓一個僅有三人的團隊,在大約1.5至2周的時間內便製作出了一部精彩短片。 

在該團隊看來,當前形態的Sora在特定的圖像生成方面取得了令人難以置信的進步;但對於相對複雜的專案,可能還需要一段時間的進化才能滿足導演的具體需求。除了Sora的使用,這部《Air Head》依然使用了大量的編輯和人為指導才製作完成。團隊表示,「將Sora融入創作流程是一種很真實的工作方式,但如果不這麼做,好像也沒什麼關係。」  

以下為 fxguide 與 Shy Kids 就 Sora 目前的工作原理進行討論的內容整理: 

作為獲得了Sora的有限存取權限的製作團隊之一,Shy Kids團隊製作了Sora短片《Air Head》。Shy Kids是一家加拿大製作公司,以其多樣化和創新的媒體制作方法而聞名。 

Sora目前正在開發中,並通過像Shy Kids這樣的團隊的回饋積極改進。重要的是要認識到:Sora尚處於非常早期的發展時期,幾乎可以稱之為前阿爾法階段。 

Shy Kids中負責後期製作的派屈克評論道,使用Sora是很有趣的過程,Sora是一個非常強大的工具,「我們已經在夢想著它可以如何融入我們現有的流程。但我認為對於任何生成性AI工具來說;控制力仍然是最令人嚮往的,也是目前最難捉摸的東西。」 

使用者介面和互動:為提升一致性,僅支援文字輸入 

Sora的使用者介面設計簡潔,它允許藝術家通過輸入文字提示來啟動影片片段的生成過程。 

藝術家輸入想要的場景描述後,OpenAI的ChatGPT技術會將其轉換成更長的字串,這一步驟是觸發Sora生成影片片段的關鍵。 

目前,Sora僅支援文字輸入,尚未整合多模態輸入方式,也就是說,除了文字描述外,使用者無法透過其他形式如圖像或聲音來提供輸入。 

這種設計的重要性在於,儘管Sora在保持影片鏡頭內物件的一致性方面做得非常出色,但系統目前還無法確保第一個鏡頭中的內容與隨後的鏡頭完全匹配。 

換句話說,即使是使用相同的文字提示,Sora在不同時間產生的影片片段也可能存在差異。為了盡可能保持一致性,使用者需要在文字提示中盡可能詳細地描述場景,包括角色的服裝和道具的類型等。然而,即便如此,Sora在鏡頭之間的一致性控制方面仍然存在局限,因為它尚未具備完整的功能集來實現完全的控制。 

「我們能做的最接近的事情就是在我們的提示中加入更詳細地描述,」派屈克解釋道。「解釋角色的服裝,以及氣球的類型,是我們實現一致性的方式,因為因為目前還沒有完整的功能集來完全控制鏡頭到鏡頭的一致性。」 

Sora生成的每個獨立片段,就其所代表的技術而言,都是令人驚歎的。然而,如何有效利用這些片段,取決於使用者對Sora隱式或顯式鏡頭生成方式的理解。 

例如,如果你要求Sora生成一個在廚房裡長距離跟蹤的鏡頭,並且鏡頭中包含一個放在桌上的香蕉,Sora將依賴於其對「香蕉」這一概念的隱式理解來生成一個顯示香蕉的影片。 

透過訓練資料,Sora已經學習了香蕉性的隱式特性:例如「黃色」、「彎曲」、「末端有深色」等。但它沒有香蕉的實際記錄圖像,也沒有「香蕉」資料庫;它有一個更小的壓縮隱藏或「潛在空間」來代表香蕉的概念。因此,每次生成的運行都會展示出這個潛在空間的不同解釋,這意味著使用者輸入的提示必須基於對這些隱式特徵的理解。 

角色Sonny的一致性:

團隊試圖在不同鏡頭中保持黃色氣球頭Sonny的一致性,但Sora無法確保每個鏡頭中的氣球顏色和樣式完全相同。有時氣球的顏色或樣式與提示不符,甚至出現意外的臉部圖案。 

Sora輸出並不需要出現的臉部圖案。圖片來源:fxguide

解析度和影像處理:

《Air Head》使用了Sora生成的鏡頭,但其中很多都被分級、處理和穩定化了,所有鏡頭都被放大或提升了解析度。團隊處理的片段都是以較低解析度生成的,然後使用Sora或OpenAI之外的AI工具進行了放大。「我們所有的《Air Head》都是以480的速度製作的,然後使用Topaz進行校正。」 

時間控制的不精確性:

Shy Kids使用的是最早的原型(Sora仍在不斷改進中),儘管可以在時間線上對關鍵影格進行調整,但對於動作發生的確切時間點控制並不精確,結果具有一定的不確定性。 

寬高比的選擇:

Sora允許使用者選擇不同的寬高比,如肖像或風景模式,這一功能對於特定的鏡頭設計至關重要。儘管Sora提供了靈活性,但它在原生算繪某些複雜鏡頭動作方面存在限制。例如,當需要從角色Sonny的牛仔褲向上搖攝到他的氣球頭時,Sora無法直接產生這樣的鏡頭。為了解決這一限制,團隊先以肖像模式算繪了鏡頭,然後透過後期裁剪手動創建了後期的全景。

Sora生成的鏡頭需要後期手動裁剪。圖片來源:fxguide

 

相機方向的提示:

Sora在理解和執行相機運動指令方面還不夠成熟。儘管使用者可以輸入如「相機平移」的提示,但Sora並不總是能夠準確執行。 

算繪時長:

 

根據不同的使用需求和時間,算繪一個片段可能需要10到20分鐘。團隊傾向於算繪更長的片段,以便在後期製作中有更多編輯和調整的空間。 

旋轉: 

雖然所有的圖像都是在Sora中生成的,但氣球仍然需要大量的後製工作。除了隔離氣球以便重新上色外,還需要移除一些不應該出現的臉部圖案或其他痕跡。

Sora的原始輸出。圖片來源:fxguide

後製成品頁面。圖片來源:fxguide

素材與成品比例: 

派屈克估計,最終影片成品中一分半鐘的鏡頭,是基於「數百次生成,每次10到20秒」的素材製作的,大約是300:1的源材料與最終成品比例。 

拍攝合成和重新定時: 

在《Air Head》中,大多數鏡頭是一次性生成的,沒有將多次拍攝合成在一起。 

許多由Sora生成的影片片段似乎被自動處理成了慢動作,速度只有正常速度的50%到75%。團隊需要重新定時,以讓它們看起來像是即時拍攝的。 

版權:

Sora不允許生成會構成侵犯版權或看起來像是模仿特定作品的內容。 

例如輸入以下提示詞:「在一艘未來主義的太空船中,使用35mm底片拍攝,一個男人手持光劍向前走」,Sora將不允許生成片段,因為這樣的內容太接近《星際大戰》。 

Shy Kids在早期測試中也遇到了這個問題。派屈克回憶說,「我輸入了『艾洛諾夫斯基式的鏡頭』,結果收到了無法執行的回饋。」他還提到,「希區考克式變焦」也是一個會被Sora 拒絕的提示。 

小結

 

去年,大模型的快速發展引起了一場好萊塢大編劇罷工,電影行業對於這項技術的擔憂開始增多。今年2月,OpenAI 推出的 Sora 被視為矽谷再次對好萊塢發起衝擊的訊號。3月初,更是有計劃了4年,資金規模約8億美元,場地面積高達 330 英畝的 12 個攝影棚的設計和建造等一系列的影視工作室擴建計畫,因為Sora的出現被迅速擱淺。一時間,似乎好萊塢人人自危。  

但當使用Sora製作了短片的Shy Kids對這一技術進行了全揭秘,人工後期被大量使用,Sora還不能完成一些高級的複雜需求,這些似乎又都給了好萊塢更多緩衝的時間——畢竟Sora目前尚處於非常早期的階段,還遠遠不能在電影工業的各個環節替代人工。 

但值得注意的是:人工智慧正在以比過去摩爾定律更快的速度提升智慧,這點在以 GPT 為代表的大語言模型已經得到了驗證。今天 Sora 的出現意味著影片生成模型已經來到了拐點,或許用不了多久我們就能看到可以用於影片產業甚至電影工業的影片大模型。

geekpark
作者

極客公園(www.geekpark.net)成立於2010年,是中國創新者的大本營。透過對前沿科技的觀察報告,在內容媒體、會展公關、創業服務三大業務協同發展下連結資源,讓優秀的科技新創更快速的成長。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則