從馬賽克到高清圖,AI生圖能力變強了,但如何取得美感與失真的平衡?
聲明:本文來自于微信公眾號 機器之心(ID:almosthuman2014),作者:機器之心,授權微新創(chuàng)想轉載發(fā)布。
讓圖像看起來更好的 AI 工具,往往會導致圖像失真,而讓圖像看起來更真實時,往往會缺少美感,這一問題該如何權衡?
在懸疑和科幻作品中,我們經(jīng)常能看到這樣的場景:計算機屏幕上顯示出一張模糊的照片,然后調(diào)查人員要求增強圖像,然后圖像就神奇的變得清晰,揭示出重要線索。
這看起來很棒,但其實幾十年來這一直是完全虛構的情節(jié)。即使在 AI 生成能力開始增長的一段時間內(nèi)也很難做到:「如果你只是單純地將圖像放大,它會變得模糊。確實會有很多細節(jié),但都是錯誤的,」英偉達應用深度學習研究副總裁 Bryan Catanzaro 說道。
不過,研究人員最近開始將 AI 算法融入圖像增強工具,使這一過程變得更加簡便和強大,但從任何圖像中檢索的數(shù)據(jù)仍然存在限制。但隨著研究人員不斷推動增強算法的發(fā)展,他們正在尋找應對這些限制的新方法,甚至找到了克服這些限制的方法。
過去十年,研究人員開始使用生成對抗網(wǎng)絡(GAN)模型來增強圖像,這種模型能夠生成詳細而令人印象深刻的圖片。
以色列特奧尼恩理工學院的電氣工程師 Tomer Michaeli 表示:「圖像突然變得好看多了。」但他同時驚訝地發(fā)現(xiàn),由 GAN 生成的圖像顯示出很高的失真水平,失真水平衡量了增強圖像與所顯示的底層現(xiàn)實之間的接近程度。GAN 生成的圖像看起來漂亮自然,但實際上它們在「虛構」或「幻想」那些不準確的細節(jié),這導致了高度的失真。
Michaeli 觀察到照片修復領域分為兩大類:一種展示了漂亮的圖片,其中許多是由 GAN 生成的。另一種展示了數(shù)據(jù),但沒有展示很多圖片,因為看起來不好看。
2017年,Michaeli 和他的研究生 Yochai Blau 更正式地探究了各種圖像增強算法在失真與感知質量上的表現(xiàn),使用了與人類主觀判斷相關的感知質量已知度量。正如 Michaeli 所預期的,一些算法的視覺質量非常高,而其他一些算法非常準確,失真很低。但是沒有一個同時具備這兩種優(yōu)勢,你必須選擇其中之一。這被稱為感知失真權衡。
Michaeli 還向其他研究人員發(fā)起挑戰(zhàn),要求他們提出能夠在給定失真水平下產(chǎn)生最佳圖像質量的算法,以便在漂亮圖片算法和良好統(tǒng)計數(shù)據(jù)算法之間進行公平比較。從那時起,數(shù)百名 AI 研究人員提出了他們的算法的失真和感知質量,并引用了描述這種權衡的 Michaeli 和 Blau 的論文。
有時感知失真權衡的影響并不可怕。例如,英偉達發(fā)現(xiàn)高清屏幕不能很好地渲染一些低清視覺內(nèi)容,因此在2023年2月份推出了一款使用深度學習來提升流媒體視頻畫質的工具。在這種情況下,英偉達的工程師選擇了感知質量而不是準確性,他們接受了這樣一個事實,即當算法提升視頻分辨率時,它會生成一些原始視頻中沒有的視覺細節(jié)。
「模型是在進行幻想。這完全是猜測,」Catanzaro 說道。「超分辨率模型大部分時間猜錯都沒關系,只要是一致的就行?!?/p>
小鼠大腦血流的視圖(左)以及使用 AI 工具提高圖像質量和準確性后得到的相同視圖。圖源:杜克大學 Junjie Yao、Xiaoyi Zhu 。
特別是,研究和醫(yī)學領域的應用會要求更高的準確性。AI 技術在成像方面取得了重大進展,但杜克大學的生物醫(yī)學工程師 Junjie Yao 表示:「它有時會帶來不希望的副作用,比如過度擬合或添加虛假特征,因此需要極其謹慎地對待?!?/p>
去年,他在論文中描述了如何利用 AI 工具改進現(xiàn)有的大腦血流和新陳代謝測量方法,同時在感知失真權衡的準確一側安全運行。
繞過從圖像中提取多少數(shù)據(jù)的限制的一種方法是簡單地合并來自更多圖像的數(shù)據(jù)。此前,通過衛(wèi)星圖像研究環(huán)境的研究人員已經(jīng)在整合不同來源的視覺數(shù)據(jù)方面取得了一些進展:在2021年,中國和英國的研究人員將來自兩種不同類型衛(wèi)星的數(shù)據(jù)融合在一起,以更好地觀察剛果盆地的森林砍伐情況。剛果盆地是世界上第二大熱帶雨林,也是生物多樣性最豐富的地區(qū)之一。研究人員獲取了兩顆 Landsat 衛(wèi)星的數(shù)據(jù),這些衛(wèi)星數(shù)十年來一直在測量森林砍伐情況,并使用深度學習技術將圖像的分辨率從30米提高到10米。然后,他們將這組圖像與兩顆 Sentinel-2衛(wèi)星的數(shù)據(jù)融合在一起,這些衛(wèi)星具有稍有不同的探測器陣列。他們的實驗表明這種綜合圖像「使得比單獨使用 Sentinel-2或 Landsat-7/8圖像時能夠檢測到11% 至21% 更多的受干擾區(qū)域」。
如果不能直接突破,Michaeli 提出了另一種硬性限制信息可獲取性的方法。與其就如何增強低質量圖像尋求確定的答案,不如讓模型展示對原始圖像的多種不同解釋。在論文《Explorable Super Resolution》中,他展示了圖像增強工具如何向用戶提供多個建議。一個模糊的、低分辨率的穿著似乎是灰色襯衫的人的圖像可以被重建成更高分辨率的圖像,在這個圖像中,襯衫可以是黑白垂直條紋、水平條紋或格子,所有這些都同樣合理。
在另一個例子中,Michaeli 拍攝了一張低質量的車牌照片,并使用 AI 圖像增強處理,結果顯示車牌上的數(shù)字1最像是0。但當圖像經(jīng)過 Michaeli 設計的不同的、更加開放式的算法處理時,這個數(shù)字看起來同樣有可能是0、1或8。這種方法可以幫助排除其他數(shù)字,而不會錯誤地得出這個數(shù)字是0的結論。
我們可以減輕這些幻覺,但是那個強大的、解決犯罪的「增強」按鈕仍是一個夢想。
在不同的領域中,各種學科以各自的方式在感知失真權衡方面進行探討,從 AI 圖像中能夠提取多少信息,以及能夠信任這些圖像的程度仍然是核心問題。
「我們應該牢記,為了輸出這些漂亮的圖像,算法只是編造了細節(jié),」Michaeli 說道。
原文鏈接:https://www.quantamagazine.org/the-ai-tools-making-images-look-better-20230823/