CityNeRF模型從單一建築到整個地球都能算繪出來，可用於各種尺寸場景還原

你相信這是AI利用圖像重建出來的3D場景嗎？

這麼大規模的場景竟然還能保持這麼高的清晰度，確定不是和Google地圖嗎？

還真的不是！這是港中大團隊提出的一個模型：BungeeNeRF（也稱CityNeRF），適用於各種尺度的場景還原。目前，這篇論文已經被ECCV2022收錄。

從單個建築到整個地球等大規模的場景，都可以通過多個2D圖片還原為3D場景，細節算繪也很到位。

網友對BungeeNeRF這一研究成果也很興奮。

這或許就是我最近幾周最喜歡的 NeRF 專案之一，這是非常有趣和令人興奮的成果！

BungeeNeRF是怎麼做到的？

多級監督的漸進式模型

多尺度還原3D場景，會導致大規模的資料發生變化，這也意味會增大學習難度和改變圖像的焦點。BungeeNeRF以漸進的方式建立和訓練模型，用一個漸進的神經輻射場來表示多種尺度之下的場景，用於產生3D場景的照片包括各種視角和距離。

這種漸進的方式劃分了各個網路層的工作，並且使位置編碼在不同尺度下可以啟動不同頻帶通道，釋放每個尺度下相應的細節。它不僅可以很好地算繪大規模場景的細節，而且能夠保持小尺度下場景的細節。

具體來說，這個模型能很好地還原各種尺度之下的3D場景主要歸功於以下兩個部分：

首先是它具有殘差塊結構的漸進生長模型，這可以解決以往模型大尺度之下會出現偽影的問題。

BungeeNeRF模型先預設訓練階段的總數（Lmax），而這個訓練的次數就是將攝像機與場景之間連續距離離散之後的段數。

換句話說，模型各個階段的訓練就是指在不同尺度之下的訓練。

然後從遠端視圖(L=1)開始，隨著訓練的進行，BungeeNeRF在每個訓練階段都會納入一個更近的尺度（L+1）。

透過允許模型在早期訓練階段對週邊區域投入更多的成本來彌補樣本分佈的偏差。

在訓練階段，訓練集的增長伴隨著殘差塊的增加。

每個殘差塊都有自己的輸出頭，可以用來預測連續階段之間的顏色和密度殘差，在近距離觀察時，捕獲場景中新出現的複雜細節。

其次是BungeeNeRF具有包容的多層監督結構。

因為要保持所有尺度下圖像算繪品質保持一致，所以在訓練階段，輸出頭是之前更大尺度的圖像聯合監督的，這個階段損失會匯總在之前所有尺度的輸出頭上。

多層次監督的設計在更深層次的輸出頭上考慮到了細節的複雜性，因此算繪的視圖也會更加清晰真實。

相較於其他模型在各種尺度上的細節算繪效果，BungeeNeRF的效果更加明顯。

全尺度細節算繪

研究團隊在論文中給出了BungeeNeRF產生的3D場景與其他模型的比較，BungeeNeRF明顯優於其他模型，並且很接近真實場景。

此外，BungeeNeRF允許從不同的殘差塊靈活退出來控制LOD（細節水準）。

在放大圖像時，後一種輸出頭逐漸向前一階段的粗輸出添加更複雜的幾何和紋理細節，同時保持在較淺層學習的特徵對早期的輸出頭有意義。

How to build a NeRF from a building to the whole planet? We study such extreme multi-scale scene modeling in our #ECCV2022 paper BungeeNeRF (aka CityNeRF), inspired by movie effects.

參考連結：