密歇根大學(xué)和谷歌大腦的研究人員合作,提出了一種圖像語(yǔ)義分層處理框架,可以實(shí)現(xiàn)像素級(jí)別的圖像語(yǔ)義理解和操縱,在圖像中任意添加、改變、移動(dòng)對(duì)象,并與原圖渾然一體,實(shí)現(xiàn)真正的“毫無(wú)PS痕跡”。
曾經(jīng),你以為下面普京×容嬤嬤那張圖就稱得上“毫無(wú)PS痕跡”了。
的確,用肉眼看,效果是很不錯(cuò)。但是,在專業(yè)的圖像分析軟件下,修改的痕跡一目了然。
你再看看這兩張圖:
不不不,這不是“找不同”,是為了讓你感受一下“像素級(jí)語(yǔ)義分割和理解”帶來(lái)的修圖效果:
可能,你需要看得更清晰一點(diǎn)。
看好了哦,這是原圖:
發(fā)現(xiàn)有什么不同/不自然的地方了嗎?(提示:一共有7處不同)。
先別急著往下拉……
答案揭曉:
實(shí)際上,找出不同是很簡(jiǎn)單的(畢竟多了好幾個(gè)東西),關(guān)鍵是這樣像素級(jí)的改動(dòng),比原先意義上“毫無(wú)PS痕跡”增強(qiáng)了一大步!
無(wú)論是色調(diào)、光線還是紋理,都與原圖配合得更加自然,操作起來(lái)也十分簡(jiǎn)單方便。
這多虧了密歇根大學(xué)和谷歌大腦的研究人員,他們提出了一種新的圖像語(yǔ)義處理分層框架,首先根據(jù)圖像中給定對(duì)象的邊界框,學(xué)習(xí)生成像素級(jí)語(yǔ)義標(biāo)簽地圖(pixel-wise semantic label maps),然后根據(jù)這個(gè)地圖再生成新的圖像。
因此,用戶可以實(shí)現(xiàn)對(duì)象級(jí)的操縱,無(wú)論是改變顏色、移動(dòng)位置、去除某個(gè)物體,增加新的東西,或者把原來(lái)在最前面的人物往后移一層或兩層,而且與原圖像自然融為一體。
操作只需要一步即可:
圖像語(yǔ)義分層處理框架工作流程圖示意:輸入車道照片,輸出上面有一輛車的照片
定量和定性結(jié)果分析,該方法比當(dāng)前流行的Context Encoder、Pix2PixHD等效果都要高出許多。這有望掀起計(jì)算機(jī)視覺(jué)和圖像處理界的巨變,難怪有人看完后在Twitter留言:
“在我兩年前開始學(xué)計(jì)算機(jī)視覺(jué)時(shí),這種技術(shù)簡(jiǎn)直是無(wú)法想象的?!薄昂?jiǎn)直是科幻變成了現(xiàn)實(shí)!”
還有人疾呼:PS里有個(gè)功能我想在就想要!
像素級(jí)分層語(yǔ)義處理框架,實(shí)現(xiàn)圖片對(duì)象自然修改
想必大家看到這個(gè)神級(jí)PS技術(shù),對(duì)其原理應(yīng)該是十分好奇了吧!接下來(lái),小編就帶著讀者領(lǐng)略這款神技的技術(shù)奧秘!
正如上述所言,這個(gè)PS技術(shù)框架的核心就是分層圖像處理。
當(dāng)給出新的邊界框B時(shí),算法首先通過(guò)以B為中心、尺寸為S×S的裁剪平方窗口,提取標(biāo)簽映射(semantic label map)M∈RS×S×C和圖像I∈RS×S×3的局部觀測(cè)值。 在M,I和B上,模型通過(guò)以下過(guò)程生成操縱圖像:
給定邊界框B和語(yǔ)義標(biāo)簽映射M,結(jié)構(gòu)生成器通過(guò)
給定操縱的標(biāo)簽映射M和圖像I,圖像生成器通過(guò)
而在分層圖像處理過(guò)程中,有兩個(gè)核心的關(guān)鍵步驟:
結(jié)構(gòu)生成器(Structure Generator)
結(jié)構(gòu)生成器的目標(biāo)是以像素級(jí)類標(biāo)簽M∈RS×S×C的形式推斷由B = {b,c}指定的區(qū)域的潛在結(jié)構(gòu)。
結(jié)構(gòu)生成器的體系結(jié)構(gòu)
給定一個(gè)masked layout M和一個(gè)binary mask B,分別用于對(duì)目標(biāo)的類和位置進(jìn)行編碼。該模型通過(guò)來(lái)自雙流解碼器(two-stream decoder)的輸出產(chǎn)生M(該雙流解碼器對(duì)應(yīng)于box整個(gè)區(qū)域中對(duì)象的二進(jìn)制掩碼和語(yǔ)義標(biāo)簽映射)。
圖像生成器(Image Generator)
給定一張圖像I和從結(jié)構(gòu)生成器中獲得的可操縱layout M,圖像生成器輸出區(qū)域內(nèi)由B定義的、內(nèi)容的像素級(jí)預(yù)測(cè)。
圖像生成器的體系結(jié)構(gòu)
給定一張masked圖像I和語(yǔ)義layout M,該模型使用單獨(dú)的編碼路徑對(duì)對(duì)象的視覺(jué)樣式和語(yǔ)義結(jié)構(gòu)進(jìn)行編碼,并產(chǎn)生被操縱的圖像。
超越當(dāng)前最好標(biāo)準(zhǔn),從此修圖隨心所欲
定量評(píng)估
Ablation Study。 為了分析所提方法的有效性,對(duì)該方法的幾種變體進(jìn)行了Ablation Study。 首先考慮圖像生成器的三個(gè)基線:
僅限于圖像上下文(SingleStream-Image);
僅限于語(yǔ)義布局(SingleStream-Layout);
對(duì)上述兩個(gè)基線的結(jié)合。
結(jié)果如下表所示:
下圖顯示了基線的定性比較:
定性分析
語(yǔ)義對(duì)象處理
通過(guò)將汽車的同一個(gè)邊界框移動(dòng)到圖像中的不同位置來(lái)展示操作結(jié)果
從圖中可以看到,當(dāng)把車的邊框從一邊移動(dòng)到另一邊的時(shí)候,模型所產(chǎn)生的車輛外觀發(fā)生了變化。有趣的是,汽車的形狀、方向和外觀也會(huì)根據(jù)周圍區(qū)域的場(chǎng)景布局和陰影而改變。
在更多樣化的上下文中生成的結(jié)果
該結(jié)果表明,模型在考慮上下文的情況下生成了合適的對(duì)象結(jié)構(gòu)和外觀。除了生成與周圍環(huán)境相匹配的對(duì)象外,還可以對(duì)框架輕松地進(jìn)行擴(kuò)展,允許用戶直接控制對(duì)象樣式。
擴(kuò)展式操作
用樣式向量控制對(duì)象顏色
結(jié)果表明,模型成功地合成了具有指定顏色的各種對(duì)象,同時(shí)保持圖像的其他部分不變。
交互式和數(shù)據(jù)驅(qū)動(dòng)的圖像編輯
圖像編輯是該模型的關(guān)鍵點(diǎn)之一。通過(guò)添加、刪除和移動(dòng)對(duì)象邊界框來(lái)執(zhí)行交互式圖像處理。 結(jié)果如下圖所示:
在圖像中對(duì)多對(duì)象進(jìn)行處理的例子
表明該方法生成合理的語(yǔ)義布局和圖像,可以平滑地增加原始圖像的內(nèi)容。除了交互式操作之外,還可以通過(guò)以數(shù)據(jù)驅(qū)動(dòng)的方式對(duì)圖像中的邊界框進(jìn)行采樣來(lái)自動(dòng)化操作過(guò)程。 結(jié)果如下圖所示:
數(shù)據(jù)驅(qū)動(dòng)的圖像操作示例
室內(nèi)場(chǎng)景數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果
使用ADE20K數(shù)據(jù)集對(duì)臥室圖像進(jìn)行定性實(shí)驗(yàn)。 下圖展示了了交互式圖像處理結(jié)果。
室內(nèi)圖像處理的示例
由于室內(nèi)圖像中的對(duì)象涉及更多樣化的類別和外觀,因此生成與場(chǎng)景中的其他組件對(duì)齊的適當(dāng)對(duì)象形狀和紋理比街道圖像更具挑戰(zhàn)性。
可以看出,該方法生成的對(duì)象與周圍環(huán)境可以保持高度一致性。
-
谷歌
+關(guān)注
關(guān)注
27文章
6128瀏覽量
104951 -
圖像
+關(guān)注
關(guān)注
2文章
1079瀏覽量
40375 -
圖像分析
+關(guān)注
關(guān)注
0文章
82瀏覽量
18657
原文標(biāo)題:谷歌等祭出圖像語(yǔ)義理解分割神器,PS再也不用專業(yè)設(shè)計(jì)師!
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論