ADVERTISEMENT
讓圖像看起來更好的 AI 工具,往往會導致圖像失真,而讓圖像看起來更真實時,往往會缺少美感,這一問題該如何權衡?
在懸疑和科幻作品中,我們經常能看到這樣的場景:電腦螢幕上顯示出一張模糊的照片,然後調查人員要求增強圖像,然後圖像就神奇的變得清晰,揭示出重要線索。
這看起來很棒,但其實幾十年來這一直是完全虛構的情節。即使在 AI 生成能力開始增長的一段時間內也很難做到:「如果你只是單純地將圖像放大,它會變得模糊。確實會有很多細節,但都是錯誤的,」NVIDIA應用深度學習研究副總裁 Bryan Catanzaro 說道。
不過,研究人員最近開始將 AI 演算法融入圖像增強工具,使這一過程變得更加簡便和強大,但從任何圖像中檢索的資料仍然存在限制。但隨著研究人員不斷推動增強演算法的發展,他們正在尋找應對這些限制的新方法,甚至找到了克服這些限制的方法。
過去十年,研究人員開始使用生成對抗網路(GAN)模型來增強圖像,這種模型能夠產生詳細而令人印象深刻的圖片。
以色列特奧尼恩理工學院的電氣工程師 Tomer Michaeli 表示:「圖像突然變得好看多了。」但他同時驚訝地發現,由 GAN 生成的圖像顯示出很高的失真水準,失真水準衡量了增強圖像與所顯示的底層現實之間的接近程度。GAN 生成的圖像看起來漂亮自然,但實際上它們在「虛構」或「幻想」那些不準確的細節,這導致了高度的失真。
Michaeli 觀察到照片修復領域分為兩大類:一種展示了漂亮的圖片,其中許多是由 GAN 生成的。另一種展示了資料,但沒有展示很多圖片,因為看起來不好看。
2017 年,Michaeli 和他的研究生 Yochai Blau 更正式地探究了各種圖像增強演算法在失真與感知品質上的表現,使用了與人類主觀判斷相關的感知品質已知度量。正如 Michaeli 所預期的,一些演算法的視覺品質非常高,而其他一些演算法非常準確,失真很低。但是沒有一個同時具備這兩種優勢,你必須選擇其中之一。這被稱為感知失真權衡。
- 延伸閱讀:如何利用雲端AI工具無損放大圖片?
Michaeli 還向其他研究人員發起挑戰,要求他們提出能夠在給定失真水準下產生最佳圖像品質的演算法,以便在漂亮圖片演算法和良好統計資料演算法之間進行公平比較。從那時起,數百名 AI 研究人員提出了他們的演算法的失真和感知品質,並引用了描述這種權衡的 Michaeli 和 Blau 的論文。
有時感知失真權衡的影響並不可怕。例如,NVIDIA發現高解析螢幕不能很好地算繪一些低解析視覺內容,因此在 2023 年 2 月份推出了一款使用深度學習來提升串流媒體影片畫質的工具。在這種情況下,NVIDIA的工程師選擇了感知品質而不是準確性,他們接受了這樣一個事實,即當演算法提升影片解析度時,它會產生一些原始影片中沒有的視覺細節。
「模型是在進行幻想。這完全是猜測,」Catanzaro 說道。「超解析度模型大部分時間猜錯都沒關係,只要是一致的就行。」
特別是,研究和醫學領域的應用會要求更高的準確性。AI 技術在成像方面取得了重大進展,但杜克大學的生物醫學工程師 Junjie Yao 表示:「它有時會帶來不希望的副作用,比如過度擬合或添加虛假特徵,因此需要極其謹慎地對待。」
去年,他在論文中描述了如何利用 AI 工具改進現有的大腦血流和新陳代謝測量方法,同時在感知失真權衡的準確一側安全運行。
繞過從圖像中提取多少資料的限制的一種方法是簡單地合併來自更多圖像的資料。此前,透過衛星圖像研究環境的研究人員已經在整合不同來源的視覺資料方面取得了一些進展:在 2021 年,中國和英國的研究人員將來自兩種不同類型衛星的資料融合在一起,以更好地觀察剛果盆地的森林砍伐情況。剛果盆地是世界上第二大熱帶雨林,也是生物多樣性最豐富的地區之一。研究人員獲取了兩顆 Landsat 衛星的資料,這些衛星數十年來一直在測量森林砍伐情況,並使用深度學習技術將圖像的解析度從 30 公尺提高到 10 公尺。然後,他們將這組圖像與兩顆 Sentinel-2 衛星的資料融合在一起,這些衛星具有稍有不同的探測器陣列。他們的實驗表明這種綜合圖像「使得比單獨使用 Sentinel-2 或 Landsat-7/8 圖像時能夠檢測到 11% 至 21% 更多的受干擾區域」。
如果不能直接突破,Michaeli 提出了另一種硬性限制資訊可獲取性的方法。與其就如何增強低品質圖像尋求確定的答案,不如讓模型展示對原始圖像的多種不同解釋。在論文《Explorable Super Resolution》中,他展示了圖像增強工具如何向使用者提供多個建議。一個模糊的、低解析度的穿著似乎是灰色襯衫的人的圖像可以被重建成更高解析度的圖像,在這個圖像中,襯衫可以是黑白分隔號紋、水準條紋或格子,所有這些都同樣合理。
在另一個例子中,Michaeli 拍攝了一張低品質的車牌照片,並使用 AI 圖像增強處理,結果顯示車牌上的數字 1 最像是 0。但當圖像經過 Michaeli 設計的不同的、更加開放式的演算法處理時,這個數字看起來同樣有可能是 0、1 或 8。這種方法可以説明排除其他數位,而不會錯誤地得出這個數字是 0 的結論。
我們可以減輕這些幻覺,但是那個強大的、解決犯罪的「增強」按鈕仍是一個夢想。
在不同的領域中,各種學科以各自的方式在感知失真權衡方面進行探討,從 AI 圖像中能夠提取多少資訊,以及能夠信任這些圖像的程度仍然是核心問題。
「我們應該牢記,為了輸出這些漂亮的圖像,演算法只是編造了細節,」Michaeli 說道。
資料來源:
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!