奧推網

選單
科技

一個NeRF搞定全尺度:港中大團隊BungeeNeRF從建築到地球都能渲染

Pine 發自 凹非寺

量子位 | 公眾號 QbitAI

你敢相信這是AI利用影象重建出來的3D場景嗎?

這麼大規模的場景竟然還能保持這麼高的清晰度,確定不是和谷歌地圖搞錯了?

並沒有!這是港中大團隊提出的一個模型:BungeeNeRF(也稱CityNeRF),適用於各種尺度的場景還原。

目前,這篇論文已經被ECCV2022收錄。

從單個建築到整個地球等大規模的場景,都可以透過多個2D圖片還原為3D場景,細節渲染也很到位。

網友們對BungeeNeRF這一研究成果也很興奮。

這或許就是我最近幾周最喜歡的 NeRF 專案之一,這是非常有趣和令人興奮的成果!

這麼厲害,BungeeNeRF是怎麼做到的?

多級監督的漸進式模型

多尺度還原3D場景,會導致大規模的資料發生變化,這也意味會增大學習難度和改變影象的焦點。

BungeeNeRF以

漸進

的方式建立和訓練模型,用一個漸進的神經輻射場來表示多種尺度之下的場景,用於生成3D場景的照片包括各種視角和距離。

這種漸進的方式劃分了各個網路層的工作,並且使位置編碼在不同尺度下可以啟用不同頻帶通道,釋放每個尺度下相應的細節。

它不僅可以很好地渲染大規模場景的細節,而且能夠保持小尺度下場景的細節。

具體來說,這個模型能很好地還原各種尺度之下的3D場景主要歸功於以下兩個部分:

首先是它具有

殘差塊結構的漸進生長模型

,這可以解決以往模型大尺度之下會出現偽影的問題。

BungeeNeRF模型先預設訓練階段的總數(Lmax),而這個訓練的次數就是將攝像機與場景之間連續距離離散之後的段數。

換句話說,模型各個階段的訓練就是指在不同尺度之下的訓練。

然後從遠端檢視(L=1)開始,隨著訓練的進行,BungeeNeRF在每個訓練階段都會納入一個更近的尺度(L+1)。

透過允許模型在早期訓練階段對外圍區域投入更多的成本來彌補樣本分佈的偏差。

在訓練階段,訓練集的增長伴隨著殘差塊的增加。

每個殘差塊都有自己的輸出頭,可以用來預測連續階段之間的顏色和密度殘差,在近距離觀察時,捕獲場景中新出現的複雜細節。

其次是BungeeNeRF具有

包容的多層監督結構

因為要保持所有尺度下影象渲染質量保持一致,所以在訓練階段,輸出頭是之前更大尺度的影象聯合監督的,這個階段損失會彙總在之前所有尺度的輸出頭上。

多層次監督的設計在更深層次的輸出頭上考慮到了細節的複雜性,因此渲染的檢視也會更加清晰真實。

相較於其他模型在各種尺度上的細節渲染效果,BungeeNeRF的效果更加明顯。

全尺度細節渲染

研究團隊在論文中給出了BungeeNeRF生成的3D場景與其他模型的比較,BungeeNeRF明顯優於其他模型,並且很接近真實場景。

此外,BungeeNeRF允許從不同的殘差塊靈活退出來控制LOD(細節水平)。

在放大影象時,後一種輸出頭逐漸向前一階段的粗輸出新增更復雜的幾何和紋理細節,同時保持在較淺層學習的特徵對早期的輸出頭有意義。

如果你感興趣,可以戳下文連結瞭解更多~

參考連結:

[1] https://arxiv。org/pdf/2112。05504v2。pdf

[2] https://city-super。github。io/citynerf/

[3] https://twitter。com/XingangP/status/1553014023871922176

— 完 —

量子位 QbitAI · 頭條號簽約