【導(dǎo)讀】下圖是 2008 年伊朗政府發(fā)布的一張圖片,然而強(qiáng)大的網(wǎng)友們卻憑借著肉眼,看出來(lái)圖中黃色圈出的部分和紅色圈出的部分是一模一樣的,不得不說(shuō)網(wǎng)友們真的是火眼金睛。而在今年的 CVPR 計(jì)算機(jī)視覺(jué)大會(huì), Adobe 展示了他們最新的研究,旨在利用機(jī)器學(xué)習(xí)識(shí)別經(jīng)過(guò)處理過(guò)的圖像。這篇研究論文在業(yè)內(nèi)雖然談不上什么突破性,而且也還沒(méi)有轉(zhuǎn)化為商業(yè)化產(chǎn)品,但是看到作為圖像編輯軟件龍頭老大的 Adobe 進(jìn)行這樣的研究,著實(shí)是一件有趣的事。今天人工智能頭條就為大家介紹一下這個(gè)有趣的工作!
▌前言
世界各地的專家越來(lái)越擔(dān)心新的 AI 工具的出現(xiàn)讓圖片和視頻編輯越來(lái)越容易,尤其是一些令人震驚的內(nèi)容在社交媒體上未經(jīng)查實(shí)就可以被迅速傳播。 Adobe 就是此類 AI 工具中的佼佼者,不過(guò)它也在研究如何利用機(jī)器學(xué)習(xí)自動(dòng)識(shí)別被編輯過(guò)的圖片,以解決上述問(wèn)題。
這篇新論文展示了如何利用機(jī)器學(xué)習(xí)識(shí)別三種常見(jiàn)的圖像處理操作:
拼接(splicing)—— 拼接取自不同圖像的兩部分;如下圖中第一行,經(jīng)過(guò)識(shí)別與分析,向日葵并不是原圖中的一部分,是從另外一張圖片中截取后放到最后的圖片中,這種對(duì)圖片的編輯操作叫拼接;
復(fù)制(cloning)—— 在同一圖像中復(fù)制粘帖物體;下圖中第二行,真的是兩只鳥(niǎo)嗎?經(jīng)過(guò)識(shí)別與分析發(fā)現(xiàn),后面更遠(yuǎn)處的那只鳥(niǎo)完全是前面更近這只鳥(niǎo)的復(fù)制品,這類操作叫圖片的克?。◤?fù)制);
移除(removal)——移除圖像中的物體;下圖中第三行,可以非常容易的發(fā)現(xiàn),黃色小球被從圖片中移除了,這種對(duì)圖片的操作稱為移除。
為了識(shí)別出這些處理操作,數(shù)字取證專家通常會(huì)在圖像的隱藏圖層中尋找線索。上面提到的三種操作往往會(huì)留下數(shù)字處理痕跡,例如:由圖像傳感器造成的顏色和亮度隨機(jī)變化不一致現(xiàn)象(也稱圖像噪聲)。舉例來(lái)說(shuō),當(dāng)拼接兩張不同圖像,或者在同一圖像中將某一部分中的一個(gè)物體復(fù)制粘帖到另一部分時(shí),背景噪聲會(huì)無(wú)法匹配,就像是用另一種與墻面顏色相近的顏料涂抹墻上的一個(gè)斑點(diǎn)。
和許多其他機(jī)器學(xué)習(xí)系統(tǒng)一樣,Adobe 的機(jī)器學(xué)習(xí)系統(tǒng)在訓(xùn)練時(shí)使用的也是由經(jīng)剪輯圖像組成的大型數(shù)據(jù)集。借助這個(gè)數(shù)據(jù)集,系統(tǒng)學(xué)習(xí)并識(shí)別篡改操作的常見(jiàn)模式。
▌研究介紹
圖像處理檢測(cè)與傳統(tǒng)的語(yǔ)義對(duì)象檢測(cè)不同,前者更多關(guān)注的是篡改痕跡而不是圖像內(nèi)容,這意味著圖像處理檢測(cè)需要學(xué)習(xí)豐富的特征。我們用四個(gè)標(biāo)準(zhǔn)圖像處理數(shù)據(jù)集進(jìn)行了試驗(yàn),試驗(yàn)表明我們所提出的雙流框架的檢測(cè)性能達(dá)到了先進(jìn)水準(zhǔn),不僅優(yōu)于單流框架,而且優(yōu)于其他替代方法,并且對(duì)圖像尺寸調(diào)整和壓縮有很好的魯棒性(robustness)。
圖像編輯方法和方便的圖像編輯軟件出現(xiàn)后,低成本的圖像篡改或處理操作得到了廣泛使用。有時(shí),在完成拼接、復(fù)制或移除這三種常見(jiàn)的處理操作后還要進(jìn)行后處理,例如高斯平滑處理(Gaussian smoothing)。即使進(jìn)行仔細(xì)檢查,人類也很難識(shí)別出被處理的區(qū)域。
用不同篡改方法處理后的圖像示例
從上到下分別展示的是拼接、復(fù)制移動(dòng)和移除操作
這些篡改方法使得分辨真實(shí)圖像和被處理過(guò)的圖像變得越來(lái)越難。專注于圖像取證(image forensics)的新研究非常重要,因?yàn)槠淠繕?biāo)是防止不法分子使用被篡改的圖像進(jìn)行不道德的商業(yè)或政治活動(dòng)。當(dāng)前的目標(biāo)檢測(cè)網(wǎng)絡(luò)主要用于檢測(cè)圖像中所有不同類別的目標(biāo),而圖像處理檢測(cè)網(wǎng)絡(luò)專門用于檢測(cè)被篡改的區(qū)域(通常為圖像中的目標(biāo))。通過(guò)研究RGB圖像內(nèi)容和圖像噪聲特征,我們探討了如何調(diào)整目標(biāo)檢測(cè)網(wǎng)絡(luò),以使其能夠執(zhí)行圖像處理檢測(cè)。
圖像取證的最新研究利用局部噪聲特征和相機(jī)彩色濾波陣列(Camera Filter Array,CFA)模式等線索,將圖像中的特定patch或像素分類為“被篡改”和“未被篡改”兩個(gè)類別,并定位被篡改的區(qū)域。其中,大部分方法針對(duì)的是一種單一篡改方法。最近提出的一種基于長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的架構(gòu)通過(guò)學(xué)習(xí)可以檢測(cè)被篡改的邊界(edge),并對(duì)被篡改的 patches 進(jìn)行分割。
在本文中,我們提出了一種雙流Faster R-CNN網(wǎng)絡(luò),對(duì)其進(jìn)行端對(duì)端訓(xùn)練,檢測(cè)經(jīng)處理圖像中被篡改的區(qū)域。其中一個(gè)流是RGB流,其作用是從RGB圖像輸入中提取特征,找出篡改痕跡(例如:對(duì)比度差異、不自然的邊界等)。另一個(gè)流是噪聲流,其作用是利用從SRM模型(steganalysis rich model)過(guò)濾層中提取的噪聲特征,找出圖像中真實(shí)區(qū)域和被篡改區(qū)域的噪聲間的不一致。然后,用一個(gè)雙線性池化層整合從RGB流和噪聲流中提取出的特征,以進(jìn)一步改進(jìn)這兩種模式的空間共現(xiàn)性(spatial co-occurrence)。
雙流Faster R-CNN網(wǎng)絡(luò)圖示
網(wǎng)絡(luò)結(jié)構(gòu)中各部分為:
RGB stream input:RGB 流輸入;對(duì)可見(jiàn)的篡改痕跡(例如:物體邊界經(jīng)常出現(xiàn)的高對(duì)比度)進(jìn)行建模,并將邊界框(bounding boxes)回歸為ground-truth。
SRM filter layer:SRM 過(guò)濾層;提取噪聲 feature map,然后利用噪聲特征提供圖像處理分類的附加依據(jù);
Noise stream input:噪聲流輸入;分析圖像中的局部噪聲特征,先讓輸入RGB圖像通過(guò)一個(gè) SRM 過(guò)濾層;
RGB Conv Layers:RGB 卷積層
Noise Conv Layers:噪聲卷積層
RGB 流和噪聲流共用 RPN 網(wǎng)絡(luò)生成的 region proposals,RPN 網(wǎng)絡(luò)只將 RGB 特征作為輸入。Faster R-CNN 中的 RPN(Region Proposal Network)負(fù)責(zé) propose 可能包含相關(guān)目標(biāo)的圖像區(qū)域,其經(jīng)過(guò)改造后可以執(zhí)行圖像處理檢測(cè)。
RPN layer:RPN 層
RoI pooling layer:Rol 池化層;從 RGB 流和噪聲流中選擇空間特征;
RGB RoI features:RGB RoI 特征;
Bilinear pooling:雙線性池化;
Noise RoI features:噪聲 Rol 特征;
預(yù)測(cè)邊界框(表示為‘bbx pred’)是 RGB Rol 特征中生成的。為了區(qū)別被篡改和未被篡改的區(qū)域,我們利用從 RGB 通道中提取的特征來(lái)捕捉線索,例如:被篡改邊界視覺(jué)上的不一致,被篡改區(qū)域和真實(shí)區(qū)域間的對(duì)比效應(yīng)等。
在完成 Rol 池化后,網(wǎng)絡(luò)的線性池化層將整合從 RGB 流和噪聲流中分別提取的空間共現(xiàn)特征。
最后,將所得結(jié)果輸入到一個(gè)全連接層和一個(gè) softmax 層,網(wǎng)絡(luò)生成預(yù)測(cè)標(biāo)簽(表示為‘cls pred’))并確定預(yù)測(cè)邊界是否經(jīng)過(guò)處理。
第二個(gè)流背后,當(dāng)從圖像(源圖像)中移除某一目標(biāo)并將其粘貼到另一圖像(目標(biāo)圖像)中時(shí),源圖像和目標(biāo)圖像的噪聲特征是不可能匹配的。如果用戶對(duì)被篡改的圖像進(jìn)行壓縮,就可以部分掩飾這些特征差異。
為了利用這些特征,我們將 RGB 圖像轉(zhuǎn)化為噪聲域(noise domain),然后將局部噪聲特征作為第二個(gè)流的輸入。在一張圖像中生成噪聲特征的方法有很多種。我們參考了 SRM 模型(steganalysis rich model)圖像處理分類的最新研究后,最終選擇 SRM 過(guò)濾器核(SRM filter kernels)來(lái)生成噪聲特征,然后將這些 SRM 過(guò)濾器核最為第二個(gè) Faster R-CNN 的輸入通道。
對(duì) RGB 流和噪聲流中提取的特征進(jìn)行雙線性池化,然后每個(gè) Rol 池化層將依據(jù)從這兩個(gè)流中提取的特征檢測(cè)篡改痕跡。
▌研究結(jié)果
先前的圖像處理數(shù)據(jù)集只有幾百?gòu)垐D像,不足以訓(xùn)練一個(gè)深度網(wǎng)絡(luò)。為了克服這個(gè)困難,我們?cè)?COCO 數(shù)據(jù)集的基礎(chǔ)上創(chuàng)造了一個(gè)合成的篡改圖像數(shù)據(jù)集,用來(lái)預(yù)訓(xùn)練模型,然后再在不同數(shù)據(jù)集上對(duì)模型進(jìn)行微調(diào),以進(jìn)行測(cè)試。我們?cè)谒膫€(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的試驗(yàn)結(jié)果表明,該模型的表現(xiàn)十分優(yōu)秀。我們的這項(xiàng)研究有兩大貢獻(xiàn)。一,我們展示了如何將 Faster R-CNN 框架改造為可以執(zhí)行圖像處理檢測(cè)的雙流框架。我們研究了兩種模式——RMB 篡改痕跡和局部噪聲特征不一致性,對(duì)這兩種模式進(jìn)行雙線性池化,以識(shí)別被篡改的區(qū)域。二,我們證明了在檢測(cè)不同篡改方法時(shí) RGB 流和噪聲流時(shí)互補(bǔ)的,這使得我們的框架在四個(gè)圖像處理數(shù)據(jù)集上的表現(xiàn)優(yōu)于其他先進(jìn)的方法。
▌結(jié)束語(yǔ)
Adobe 的發(fā)言人在接受科技媒體 The Verge 采訪時(shí)表示,這項(xiàng)研究還是一個(gè) “早期研究項(xiàng)目”,但是未來(lái) Adobe 希望可以 “開(kāi)發(fā)用于監(jiān)督和驗(yàn)證數(shù)字媒體可信性的技術(shù)”。這句話意味著什么還不清楚,因?yàn)?Adobe 之前從未發(fā)布過(guò)任何用于識(shí)別虛假圖像的軟件。但是 Adobe 指出,與執(zhí)法機(jī)構(gòu)的合作(例如:利用數(shù)字取證技術(shù)幫助尋找失蹤兒童)正是 Adobe 對(duì)其技術(shù)負(fù)責(zé)任態(tài)度的體現(xiàn)。
撇開(kāi)對(duì) AI 危害的警告不談,越來(lái)越多的研究致力于在數(shù)字世界打假,如果正如那些 AI 危害論者所說(shuō),人類將進(jìn)入某種后真相時(shí)代,那么我們將需要使用一切可以使用的工具來(lái)辨別真假。而 AI 就像是一把雙刃劍,既可以帶來(lái)危害,也可以帶來(lái)幫助。
-
圖像處理
+關(guān)注
關(guān)注
27文章
1275瀏覽量
56576 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8349瀏覽量
132313
原文標(biāo)題:“照騙”難逃Adobe的火眼金睛——用機(jī)器學(xué)習(xí)讓P圖無(wú)所遁形
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論