OpenAI的AI影片生成模型Sora出道,生成的影片無論是清晰度、連貫性和時間上都令人驚豔。Sora是如何實現如此顛覆性的能力呢?這就不得不提到其背後的兩項核心技術突破——Spacetime Patch(時空Patch)技術和Diffusion Transformer(DiT,或擴散型 Transformer)架構。
《每日經濟新聞》記者查詢這兩項技術的原作論文發現,時空Patch的技術論文實際上是由Google DeepMind的科學家們於2023年7月發表的。DiT架構技術論文的一作則是Sora團隊領導者之一William Peebles,但戲劇性的是,這篇論文曾在2023年的電腦視覺會議上因「缺少創新性」而遭到拒絕。不過,就在僅僅1年之後,就成為Sora的核心理論之一。
如今,Sora團隊毫無疑問已經成為世界上最受關注的技術團隊。記者查詢OpenAI官網發現,Sora團隊由Peebles等3人領導,核心成員包括12人,值得注意的是,這支團隊十分年輕,成立時間還尚未超過1年。
核心突破一:時空Patch,站在Google肩膀上
此前,OpenAI在X平台上展示了Sora將靜態圖像轉換為動態影片的幾個案例,其逼真程度令人驚嘆。Sora是如何做到這一點的呢?這就不得不提到該AI影片模型背後的兩項核心技術——DiT架構和Spacetime Patch(時空Patch)。
據外媒報導,Spacetime Patch是Sora創新的核心之一,該項技術是建立在Google DeepMind對NaViT(原生解析度視覺Transformer)和ViT(視覺Transformer)的早期研究基礎上。
Patch可以理解為Sora的基本單元,就像GPT-4 的基本單元是Token。Token是文字的片段,Patch則是視訊的片段。GPT-4被訓練以處理一串Token,並預測出下一個Token。Sora遵循相同的邏輯,可以處理一系列的Patch,並預測出序列中的下一個Patch。
Sora之所以能實現突破,在於其通過Spacetime Patch將影片視為更新序列,Sora保持了原始的寬高比和解析度,類似於NaViT對圖像的處理。這對於捕捉視覺資料的真正本質至關重要,使模型能夠從更準確的表達中學習,從而賦予Sora近乎完美的精準性。由此,Sora能夠有效地處理各種視覺資料,而無需調整大小或填充等預處理步驟。
OpenAI發佈的Sora技術報告中透露了Sora的主要理論基礎,其中Patch的技術論文名為Patch n‘ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution。記者查詢預印本網站arxiv後發現,該篇研究論文是由Google DeepMind的科學家們於2023年7月發表的。
圖片來源:arxiv.org
圖片來源:Google Scholar
核心突破二:擴散型Transformer架構,相關論文曾遭拒絕
除此之外,Sora的另一個重大突破是其所使用的架構,傳統的文字到影片模型(如Runway、Stable Diffusion)通常是擴散模型(Diffusion Model),文字模型例如GPT-4則是Transformer模型,而Sora則採用了DiT架構,融合了前述兩者的特性。
據報導,傳統的擴散模型的訓練過程是通過多個步驟逐漸向圖片增加噪點,直到圖片變成完全無結構的噪點圖片,然後在生成圖片時,逐步減少噪點,直到還原出一張清晰的圖片。
Sora採用的架構是通過Transformer的編碼器-解碼器架構處理包含噪點的輸入圖像,並在每一步預測出更清晰的圖像。DiT架構結合時空Patch,讓Sora能夠在更多的資料上進行訓練,輸出品質也得到大幅提高。
OpenAI發佈的Sora技術報告透露,Sora採用的DiT架構是基於一篇名為Scalable diffusion models with transformers的學術論文。記者查詢預印本網站arxiv後發現,該篇原作論文是2022年12月由柏克萊大學研究人員William (Bill) Peebles和紐約大學的一位研究人員Saining Xie共同發表。
William (Bill) Peebles之後加入了OpenAI,領導Sora技術團隊。
圖片來源:arxiv.org
然而,戲劇化的是,Meta的AI科學家Yann LeCun在X平台上透露,「這篇論文曾在2023年的電腦視覺會議(CVR2023)上因‘缺少創新性’而遭到拒絕,但在2023年國際電腦視覺會議(ICCV2023)上被接受發表,並且構成了Sora的基礎。」
圖片來源:X平台
作為最懂DiT架構的人之一,在Sora發佈後,Saining Xie在X平台上發表了關於Sora的一些猜想和技術解釋,並表示,「Sora確實令人驚嘆,它將徹底改變影片生成領域。」
「當Bill和我參與DiT項目時,我們並未專注於創新,而是將重點放在了兩個方面:簡潔性和可擴展性。」他寫道。
「簡潔性代表著靈活性。關於標準的ViT,人們常忽視的一個亮點是,它讓模型在處理輸入資料時變得更加靈活。例如,在遮蔽自編碼器(MAE)中,ViT幫助我們只處理可見的區塊,忽略被遮蔽的部分。同樣,Sora可以通過在適當大小的網格中排列隨機初始化的區塊來控制生成視訊的尺寸。」
圖片來源:X平台
不過,他認為,關於Sora仍有兩個關鍵點尚未被提及。一是關於訓練資料的來源和建構,這意味著資料很可能是Sora成功的關鍵因素;二是關於(自回歸的)長影片生成,Sora的一大突破是能夠生成長影片,但OpenAI尚未揭示相關的技術細節。
年輕的開發團隊:應屆博士帶隊
隨著Sora的爆火,Sora團隊也來到世界舞台的中央,引發了持續的關注。查詢OpenAI官網發現,Sora團隊由William Peebles等3人領導,核心成員包括12人。從團隊領導和成員的畢業和入職時間來看,這支團隊成立的時間較短,尚未超過1年。
圖片來源:OpenAI官網
從年齡上來看,這支團隊也非常年輕,兩位研究負責人都是在2023年才剛剛博士畢業。William (Bill) Peebles於去年5月畢業,其與Saining Xie合著的擴散Transformer論文成為Sora的核心理論基礎。Tim Brooks於去年1月畢業,是DALL-E 3的作者之一,曾在Google和NVIDIA就職。
圖片來源:William (Bill) Peebles個人首頁
團隊成員中甚至還有00後。團隊中的Will DePue生於2003年,2022年剛從密西根大學電腦系本科畢業,在今年1月加入Sora項目組。
圖片來源:Will DePue個人首頁
- 延伸閱讀:Sora 證明馬斯克是對的!特斯拉與OpenAI如何嘗試讓AI從影片生成到理解真實世界
- 延伸閱讀:開發文字生成影片AI模型Sora,OpenAI 就像在對著真實世界比中指
- 延伸閱讀:OpenAI 推出AI生成影片模型 Sora:光憑文字無中生有60秒影片,生成內容幾乎如真人實拍
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!