Meta AI提出視頻摳圖新方法OmnimatteRF:結合動態2D前景圖層和3D背景模型
要點:
馬里蘭大學和Meta AI研究人員提出視頻摳圖新方法OmnimatteRF,同時利用2D前景圖層和3D背景模型。
2D前景圖層記錄運動物體及影響,3D背景模型適用于復雜幾何和非旋轉攝像運動,擴展適用視頻種類。
在兩個視頻數據集上,與先前方法相比,該方法取得更好表現,無需每個視頻單獨參數調整。
微新創想(idea2003.com)9月20日 消息:Omnimatte是迄今為止最有前景的視頻摳圖方法。它使用單應性建模背景,因此只適用于背景為平面或僅有旋轉運動的視頻。D2NeRF通過獨立建模場景的動態和靜態成分,使用兩個輻射場來解決這個問題。它在復雜的大范圍運動場景中表現強勁,不需要任何遮擋輸入,完全自監督。但是如何融合視頻中的2D guidance尚不清楚。
項目地址:https://github.com/facebookresearch/OmnimatteRF
馬里蘭大學和Meta AI的最新研究提出一種集兩者優點于一體的方法,使用3D背景模型與2D前景層。2D前景層表示難以用3D建模的物體、動作和效果。3D背景建模可以處理復雜幾何形狀和非旋轉攝像機運動,擴展適用的視頻種類。該方法稱為OmnimatteRF。在兩個視頻數據集上的實驗表明,它在各種視頻上都有出色表現,無需針對每個視頻調參。
OmnimatteRF能夠分離前景中的主體部分和背景場景。它使用二維層保留主體的細節,同時利用三維背景模型對復雜場景進行重建。相比僅使用二維圖像層表示視頻背景的方法,三維建模極大地提升了對真實世界視頻的適應能力。
該方法首先使用傳統視頻遮罩技術分離出動態的前景層。然后,利用這些遮罩結果和單目深度估計,訓練一個表征背景的神經輻射場模型TensoRF。最后,將動態前景層和靜態三維背景模型聯合,重建復雜的真實場景。
研究者在各類真實視頻上進行了大量試驗,結果證明相比僅使用二維層的方法,OmnimatteRF能夠得到更優質的重建效果。該技術對視頻制作專業人員具有重要應用價值,可用于拍攝的影片中添加有趣的效果。同時,它也可助力構建沉浸式的虛擬環境。