Rerender A Video源代碼放出!解決AI視頻閃爍問題
微新創想(idea2003.com)9月26日 消息:Rerender A Video是一項令人印象深刻的技術成果,它旨在將大型文本到圖像擴散模型的能力擴展到視頻領域。該項目提出了一種零訓練的文本引導視頻到視頻翻譯框架,能夠在視頻幀之間確保時間一致性,這一直是一個巨大的挑戰。
它包括兩個主要部分:關鍵幀翻譯和完整視頻翻譯。第一部分使用適應的擴散模型生成關鍵幀,通過應用層次交叉幀約束來強化形狀、紋理和顏色的連貫性。
項目地址:https://github.com/williamyang1991/Rerender_A_Video
第二部分則通過時間感知的補丁匹配和幀混合將關鍵幀傳播到其他幀。這個框架以較低的成本實現了全局樣式和局部紋理的時間一致性,而無需重新訓練或優化。
它還與現有的圖像擴散技術兼容,可以利用它們,例如使用LoRA自定義特定主題,或者使用ControlNet引入額外的空間引導。大量的實驗結果證明了該框架在渲染高質量和時間一致性視頻方面的有效性。
核心功能:
時間一致性: 通過交叉幀約束實現低級別時間一致性,確保生成的視頻幀之間的平滑過渡。
零訓練: 無需對模型進行訓練或微調,使其適用于各種視頻翻譯任務。
靈活性: 與現成的模型(如ControlNet、LoRA等)兼容,可以根據需求自定義翻譯過程。
WebUI界面: 提供了用戶友好的Web界面,使用戶可以輕松上傳視頻、輸入提示、選擇種子等,并運行不同的翻譯步驟。
命令行支持: 提供了靈活的命令行腳本,允許用戶通過命令行參數控制翻譯過程。