來自瑞士蘇黎世聯(lián)邦理工學院的研究人員們提出了一種基于生成對抗網(wǎng)絡(GAN)的框架,可以以高畫質壓縮圖像,并保證圖像尺寸降到最小。以下是論智對原論文的大致報道。
基于深度神經(jīng)網(wǎng)絡的圖像壓縮系統(tǒng)最近逐漸受到人們的關注。這些系統(tǒng)通常比目前由編碼解碼器驅動的系統(tǒng)(如BPG、WebP和JPEG2000)表現(xiàn)得好,除了能在自然圖像上實現(xiàn)更高的壓縮率之外,他們可以很容易地適應特定目標領域,例如立體圖像或醫(yī)學圖像,并且可以從壓縮版本中直接進行高效地處理和索引。
然而,對于低于像素深度低于0.1bpp的圖像來說,這些算法仍會導致嚴重的畫質下降。隨著比特率趨近于零,想呈現(xiàn)完整地圖像內容就很困難,而且這樣會使峰值信噪比(PSNR)或多比例結構相似性(MS-SSIM)等常見指標將變得毫無意義,因為它們更傾向于精確地保留局部(高熵)結構,而不是保持總體的紋理。
為了進一步提升深度圖像壓縮的質量,開發(fā)超越PSNR和MS-SSIM的新指標非常重要。其中重點關注的是對抗損失,最近的成果表明它能捕捉到全局的語義信息和局部紋理,產(chǎn)生強大的生成器,從而通過語義標簽映射生成在視覺上吸引人的高分辨率圖像。
于是,來自蘇黎世聯(lián)邦理工學院的研究人員們提出并研究了基于生成對抗網(wǎng)絡(GAN)的針對極限壓縮圖像的框架,目標是像素深度低于0.1bpp的圖像。他們提出了一個通用性的GAN公式,用于深度圖像壓縮,可以生成不同程度的圖像內容。與先前的圖像壓縮工作相比,這次的生成器/解碼器在全分辨率的圖像上工作,并用多尺度鑒別器進行訓練。
研究人員對兩種操作模式進行了分別研究:
全局生成壓縮(GC),保留圖像所有內容,同時生成不同尺寸的結構,例如樹上的葉子或者某建筑物陽臺上的窗戶;
選擇性生成壓縮(SC),只通過語義標簽映射生成圖像的部分內容,同時以高還原度保留用戶指定區(qū)域。
上圖是研究人員所提出的壓縮網(wǎng)絡。E代表圖像x的編碼器,或者作為圖像s的語義標簽映射。q將潛在的代碼w量化為w^。G是生成器,產(chǎn)生解壓縮的圖像x^,D是用于對抗訓練的鑒別器。對于SC,F(xiàn)從s中提取特征,經(jīng)過二次采樣的熱圖乘以z^以分配空間位。
GC的典型應用場景是帶寬受限的區(qū)域,在這種情況下用戶想盡可能保留完整的圖像,但沒有足夠的位數(shù)儲存原始像素,無法合成塊狀或模糊的斑點,只能合成內容。SC可以用于視頻場景,如果用戶想要完全保留視頻中的人物,但是看起來吸引人的合成背景能滿足我們的目的,即作為真實的背景。在GC操作模式下,圖像被轉換成比特流格式,并且用算數(shù)編碼進行編碼。SC需要一個原圖的語義或實例標簽映射,它們可以從語義或實例分割網(wǎng)絡得來(例如PSPNet或Mask R-CNN)。相比于編碼的成本,這種圖像壓縮的開銷是少的。另一方面,壓縮圖像的大小根據(jù)語義標簽生成的區(qū)域按比例減少,通常也會降低儲存成本。
經(jīng)過綜合性的研究,在GC方面,研究人員提出的壓縮系統(tǒng)生成的圖像結果比BPG和基于自動編碼器的深度壓縮系統(tǒng)更好(BPG是目前最優(yōu)秀的壓縮算法)。尤其是從Cityscapes數(shù)據(jù)集中選取的街景圖片,用戶更喜歡本次系統(tǒng)生成的圖片,即使BPG使用的位數(shù)是我們的兩倍。據(jù)他們所知,這是第一個證明深度壓縮方法由于BPG的研究。
在SC操作模式中,該系統(tǒng)能將圖像中保留下來的內容和合成內容無縫銜接,即使被許多物體隔開的場景也很自然。利用這種分區(qū)域圖像生成的方法,圖像的像素深度減少了50%,但是沒有明顯降低圖像質量。
結果對比
下面的表格展示了本文提出的方法的結果和最先進的系統(tǒng)在Cityscapes數(shù)據(jù)集上的對比:
此次試驗結果要比BPG好,即使當BPG使用的bpp數(shù)量是我們的兩倍也是如此。在本文中,系統(tǒng)在ADE20K數(shù)據(jù)集和Kodak壓縮基準測試上獲得了相似的結果。
接著,研究人員用經(jīng)過預訓練的PSPNet來測量保留的語義,結果如下:
與BPG相比,我們達到了較高的mIoU的值,利用語義進行訓練時這個值進一步增加
將所提的方法與其他方法對比。同樣一張Kodak Image 13,用本文所提出的方法壓縮與BPG、JPEG2000等方法效果非常不同:
在選擇性合成方面,該方法可以選擇性地保留一部分內容,將剩下的部分重新合成。
左下角的熱圖顯示了合成對象,灰色是合成的部分。同時還顯示了每張圖的bpp,以及由于選擇性生成節(jié)省的尺寸
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4717瀏覽量
99993 -
GaN
+關注
關注
19文章
1883瀏覽量
71018
原文標題:基于GAN的極限圖像壓縮框架
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論