新智元報道

  來源:techxplore、arXiv

  編輯:大明、金磊

  【新智元導讀】目前,圖像壓縮算法已然進入較爲成熟階段。最近,來自斯坦福的工程師及其團隊三位高中生實習生共同完成的工作表明,在圖像壓縮方面,人類還是比算法強。

  人類還是要比算法強!

  我們可能經常會遇到類似這樣的一個場景:

  像這樣發送鏈接,而不是上傳大量圖像,只是人們傳遞信息的一種技巧。而根據斯坦福工程師和高中生的研究,這樣的技巧可能會激發一種全新的圖像壓縮思路。

  研究人員要求人們將傳統壓縮算法生成的圖像與人類在數據受限條件下生成的圖像進行比較。

  結果表明,人類所做的工作要比算法處理的圖像好的多!

  正如論文作者Irena Fischer-Hwang說:

  算法還有很長的路要走,可以從人類共享信息的方式中學到很多東西。

  該項目是由電氣工程教授Tsachy Weissman以及三名在他實驗室實習的高中生合作完成。

  論文地址:

  https://arxiv.org/pdf/1810.11137.pdf

  人類是如何在圖像壓縮上打敗算法的?

  自電子媒體問世以來,圖像壓縮技術得到了廣泛研究,出現多種圖像格式和壓縮技術,如PNG、JPEG、JPEG2000、JPEG XR、BPG和WebP等。爲了顯著縮小圖像尺寸,大多數壓縮技術在壓縮圖像時允許一些損失。

  然而,所使用的損失函數不對應於人類感知,而且所得到的圖像在高損耗水平下可能會顯得模糊和不自然。如下圖左側所示,使用WebP進行壓縮和圖像重建會導致圖像嚴重模糊。

  使用針對人類感知優化的損失函數可以實現更好的壓縮結果,這似乎是自然而然的想法。我們將這種損失函數稱爲“以人爲中心”的損失函數。圖1的右側所示爲“以人爲中心”的圖像重建實例,優先考慮圖像內容,而不是逐個像素上保留原圖像的紋理。實際上,目前計算機視覺領域已有大量工作,更好地理解人類的感知,形成一種基於人類視覺的損失函數。比如,人類視覺更容易受到強度差異而不是顏色的影響,壓縮算法在強度空間的量化上要比顏色空間更細緻,以此實現更好的壓縮性能。

  圖1 長頸鹿圖像原圖(a)以及WebP重建(b)和類似大小的真人重建(c)

  儘管如此,目前仍然缺乏一個準確總結人類感知損失的指標。爲了評估以人爲中心的損失函數的重要性,我們提出了由人類進行的圖像壓縮實驗的結果。在實驗中,兩個人通過文本聊天系統進行通信,其中一個人是“描述者”,負責通過文本指令將圖像描述給“重建者”。爲了模仿人類基於記憶、位置、對象的知識來感知和識別場景的能力,本實驗允許描述者在文本聊天中以URL鏈接來引用來自網絡上的公開可用的圖像。

  描述者還可以向重建者發送文本指令,以便幫助後者更好地接近描述者的圖像原貌。利用規模不斷擴大的公共圖像數據庫,本實驗旨在瞭解單邊信息環境中以人爲中心的壓縮方式的侷限性。

  爲了確定重建的質量,我們使用亞馬遜MTurk平臺徵求對重建圖像的意見。實驗中使用的框架中文本聊天的壓縮大小表示壓縮圖像的大小,MTurk分數可視作與人類壓縮相關聯的“損失”。在13種不同類型的高分辨率圖像上呈現真人壓縮的結果表明,“真人”壓縮方案在13個圖像中的10個比WebP自動壓縮器表現出了更高的性能。

  數據收集

  實驗首先創建一個原始圖像的數據集,這些圖像並未在網絡上公開。原始圖像的創建以非原始圖片的精確副本實現,以防產生過於瑣碎的編碼。實驗使用數碼相機或智能手機攝像頭以高分辨率拍攝原始圖像。實驗中的描述者和重建者都不知道獲取了何種圖像(面部,風景,草圖等)。從這些圖像中爲比較實驗選擇了13種不同的高分辨率圖像。

  關於圖像和其他詳細信息

  見論文附錄和https://compression.stanford.edu/human-compression

  實驗設置

  簡單介紹一下評估真人壓縮和WebP圖像重建質量的實驗程序:

  1.真人壓縮:輸入圖像首先由真人壓縮系統使用前文描述的過程進行壓縮和重建。記錄壓縮文本指令的大小(以字節爲單位)。

  2. WebP壓縮:WebP壓縮器用於將輸入圖像有損壓縮到與壓縮後的真人文本指令類似的大小。

  3.質量評估:在MTurk平臺上使用人類評分員比較WebP和真人壓縮圖像的質量。

  WebP壓縮

  WebP 是谷歌發佈的相對較新的圖像壓縮器。我們選擇WebP作爲參考來比較真人壓縮的圖像重建質量,WebP在實驗實現方案的高壓縮水平下的性能優於JPEG和JPEG2000。如下圖所示。

  即使使用WebP以最低允許質量級(質量參數設置爲0)壓縮圖像,產生的壓縮文件大小也大於真人壓縮的文件。因此,我們首先在使用質量參數爲0的WebP壓縮之前降低圖像的分辨率以獲得符合目標大小的圖像,結果WebP端一直出錯,產生的文件比真人壓縮一方的文件要大。

  原始圖像與WebP和真人壓縮後的圖像大小,以及MTurk平均分,較高分以粗體表示

  在結果評估方面,使用Amazon Mechanical Turk(MTurk)上的人類評分員來比較壓縮圖像的質量。對於每個圖像都顯示原始圖像和重建後的圖像,並要求評分人員按1到10的分數對重建圖像進行評分。由於人類感知尚未被很好地理解或定義,我們的評分指標爲圖像重建的“滿意度”,而不是像“精確度”這種特定指標。對於每個實驗和兩種類型的重建(真人壓縮和WebP),收集100個調查回覆並彙總統計。

  下圖所示爲評分人員所見的MTurk調查的屏幕截圖。

  人類壓縮方案能夠在壓縮過程中有效地利用語義相似的圖像。然而,大多數流行的壓縮器似乎沒有利用這種豐富的公共資源。

  本文的實驗表明,有效地利用語義和結構相似的圖像(或圖像的部分)可以顯著提高壓縮比。這在當今尤其重要。

  雖然真人壓縮框架可用作探索性工具,但由於其勞動密集型的性質,在實用性上顯得不足。 我們沒有以任何方式對壓縮協議進行優化,如果我們優化了協議,無疑可以獲得更好的壓縮和重建分數。

  值得注意的是,每次圖像重建都需要幾個小時才能完成。英語冗餘會導致結果達不到最優,不過使用bzip2可以部分解決這個問題。此外,繪圖技巧、對基本圖像編輯軟件的使用技巧、重建者偶爾發出會導致誤解的描述性指令而導致的效率低下,對相似圖像進行手動搜索的困難,這些因素都會對結果產生影響。這些缺陷或不足的任何改進,都可以進一步改善圖像的重建質量。

  參考鏈接:

  https://arxiv.org/pdf/1810.11137.pdf

  https://techxplore.com/news/2019-03-humans-compress-images-algorithms.html

相关文章