vivo手機影像的未來方向,要靠生成式AI和3D模型了
時間進入 2023 年,盡管智能手機市場還在持續疲軟,但手機廠商在產品競爭絲毫沒有放緩,甚至在影像上還有增無減。更大面積的傳感器、光學防抖、全焦段覆蓋,高端智能手機的影像配置基本都上了一個臺階。
不過一方面,硬件上的提升容易帶來同質化的競爭,很難拉開體驗上的差異。另一方面,更豪華的硬件規格,也會影響到機身重量和內部空間設計,就比如小米 13 Ultra,在影像上確實帶來了相當驚艷的體驗,但同時,機身重量的增加和碩大的相機模組,都極大影響到了日常的手持體驗。
所以在軟件與算法等其他層面加大投入,幾乎就成為了手機廠商一種的共識。但問題在于往什么方向做?又怎么做?
在 7 月底舉辦的 2023 vivo 影像盛典特別活動上,vivo 影像產品高級總監李卓表示,手機影像技術目前是三個領域同時走路:光學、算力、算法。
2023 vivo 影像盛典特別活動,圖/vivo
具體到當前的技術背景下,光學到了一定瓶頸之后,突破起來難度非常大,可能需要材料學和基礎物理的突破才行。但與此相對,一旦突破光學瓶頸就會帶來全新的世界。二九目前,算力和算法帶來的進步和突破則是非常明顯。
從光學到算法,vivo 一個都不想放過。
在 3D 模型里沉淀算法,在手機上應用算法
不久前,雷科技受邀參觀了位于 vivo 重慶智能制造中心內的 3D 影像實驗室。在 vivo 3D 影像實驗室,可以看到由 175 臺單反相機,配合閃光燈、處理器、控制器和服務器組成的 3D 影像系統。
采集人體信息時,vivo 3D 影像實驗室會同時調動 174 臺單反相機從不同的角度進行拍攝,生成 100 余張 2D 圖片(另外 1 臺負責控制),隨后通過局域網上傳至存儲服務器,再通過一連串的計算處理,最終生成一個 3D 模型。
vivo 3D 影像實驗室內,圖/雷科技
vivo 在現場展示了整個流程以及生成的 3D 模型。盡管與實際「拍攝」的媒體老師還有明顯的區別,但模型的精細程度也足以讓在場觀眾感到些許驚艷。不過,這種方式顯然不可能復制到智能手機上。vivo 也明白這一點。
實際上,vivo 的目的在于通過 3D 模型采集大量且精準的人體軀干與面部信息,不斷優化算法,最終實現對智能手機影像的提高。
眾所周知,傳統的智能手機人像虛化算法,往往是在 2D 層面判斷人的輪廓來實現虛化,不具備 3D 層面的深度信息,因此主體與背景之間的過渡往往比較生硬,背景也會缺少層次。
vivo 希望能通過大量的 3D 模型進行預訓練,讓 vivo 的算法變得更加智能,讓手機可以更好地判斷人體的深度信息,使得人像虛化更加細膩與自然。
vivo X90 Pro+ 拍攝的人像照片,圖/雷科技
此外,3D 模型的加入也讓手機人像虛化算法應用范圍可以進一步擴大。目前人像虛化算法由于缺乏深度方向的信息,只能拍攝全身像或是半身像,未來則可能拍攝眼睛的特寫虛化畫面。
而在 3D 模型之外,vivo 3D 影像實驗室內還有一套「重打光」系統——由 96 個可編程的同步光源搭配工業相機,工作站以及服務器共同組成。這套系統可以模擬不同光照條件下的成像圖片,為自研人像算法做數據支撐,提升手機上的算法效果。
3D 模型計算處理過程,圖/雷科技
但不同于 iPhone 上的「人像光效」,未來在加入重打光技術后,vivo 手機可以對前期拍攝到的「逆光黑臉」進行高精度補光,調整光線的冷暖色溫。甚至還能通過紋理重建與光照估計算法等技術,讓用戶基于自身喜好對光照、年齡、發型、表情等方面進行重新編輯。
「未來以算法為龍頭,也并不是它自己往前跑,未來算法要去給傳統的光學賦能,這是它里面的邏輯關系,」vivo 影像副總裁于猛說。
我們有理由相信,這些技術應該會在不久后就能實現落地,而按照 vivo 工作人員的透露,它們將會在 vivo X 系列上率先應用。
不過 vivo 3D 影像實驗室的目的還不止于此。
未來的「影像」,未必是實拍
隨著生成式 AI 的普及,手機和芯片廠商都在陸續加速相關技術投入。高通、榮耀強調了端側 AI 大模型的概念,谷歌宣布將在下一款 Pixel 機型中加入最新的 PaLM2 大模型(壁虎版),華為也于最近宣布在鴻蒙 4 中結合了自家的盤古大模型,率先應用在語音助手小藝上。
vivo 自然也不例外。不同的是,vivo 想要抓住移動影像這個生成式 AI 的最佳「試驗場」。
在海外,Midjourney、Stable Diffusion 以及 DALL·E 2(OpenAI 旗下) 都在繪畫、圖片等應用上取得了突破性進展。在國內,一款名為「妙鴨相機」的 AI 繪畫小程序,也憑借精準的應用場景、較低的價格以及不俗的生成效果,迅速吸引了大量用戶。
「妙鴨相機」用戶體驗,圖/即刻@烏云花栗鼠
作為 vivo 布局 3D 影像技術的重要平臺,重慶 3D 影像實驗室通過搭建影視級光場系統,可重建出「毛孔級」人體 3D 模型,實現了更具真實感的高保真渲染視效。同時基于人像 3D 重建感知能力,vivo 也在探索疊加 AIGC 算法,通過手機即可「拍攝」虛實結合更為自然的照片,實現「足不出戶拍大片」的體驗。
在參觀 3D 影像實驗室后的閉門會議上,vivo 就展示一張由 3D 模型結合 AI 繪畫能力生成的「照片」,畫面里是一個極具真實感的賽博朋克世界以及人物。
vivo 不允許拍攝,類似將一個人塞入《賽博朋克 2077》世界。圖/Fun Academy
不同于我們之前見過的 AI 繪畫,借由工業級相機系統拍攝處理得出的精細化真人模型,vivo 這張「照片」里的人物不僅足夠真實,理論上各種姿勢與動作也都可以比較完美地呈現。
某種程度上,你可以將其理解為「妙鴨相機」的進階版,除了精細上的巨大優勢,更核心的還是「人」。「妙鴨相機」利用 20 多張人像照片在大模型上進行訓練微調,vivo 則是直接拍攝計算得出的 3D 模型,更接近真人,適用范圍也更廣。
不過就像前文所提,這終究只能在實驗室環境下產生,vivo 最后還是要落地到手機等個人終端上,否則只能是空中樓閣。
另外值得一提的是,3D 影像的相關技術可以應用在虛擬人應用上。包括近期比較火熱的 3D 數字人直播、3D 表情驅動、3D 的虛擬場景編輯以及相應的動畫制作等領域。而基于 3D 影像衍生的 3D 換裝應用,可以根據采集者的人體模型,在虛擬場景內實現足球游戲,目前已經可以在 vivo 手機和平板電腦上進行演示。
無論如何,vivo 展示了一種未來。未來我們的拍照方式或許被徹底顛覆,拍照不再是拍照,而是基于 3D 模型、生成式 AI 技術的一種新的創作方式。