0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)系統(tǒng),讓它學(xué)會(huì)檢測(cè)和分類圖像中的對(duì)象

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-09-29 09:06 ? 次閱讀

上個(gè)月,來(lái)自約克大學(xué)和多倫多大學(xué)的兩名研究人員合作發(fā)表了一篇論文:The Elephant in the Room,在學(xué)界引起巨大反響。通過(guò)實(shí)驗(yàn),他們發(fā)現(xiàn)現(xiàn)有人工智能系統(tǒng)還存在巨大缺陷,它們?cè)凇翱磮D識(shí)物”這類視覺(jué)任務(wù)上的表現(xiàn)甚至還比不上人類幼兒。

看罷這篇論文,加里·馬庫(kù)斯表達(dá)了對(duì)研究人員的贊許:“這是一篇聰明而重要的論文,它提醒我們所謂的‘深度學(xué)習(xí)’還沒(méi)有那么‘深刻’。”他是紐約大學(xué)的認(rèn)知心理學(xué)教授,也是優(yōu)步(Uber)人工智能實(shí)驗(yàn)室的負(fù)責(zé)人。

這項(xiàng)成果出現(xiàn)在計(jì)算機(jī)視覺(jué)領(lǐng)域,論文設(shè)計(jì)的任務(wù)很常規(guī):訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)系統(tǒng),讓它學(xué)會(huì)檢測(cè)和分類圖像中的對(duì)象。隨著自動(dòng)駕駛汽車離真正落地越來(lái)越近,學(xué)界對(duì)機(jī)器的視覺(jué)處理技術(shù)一直寄予厚望。為了保障安全,計(jì)算機(jī)必須能從一幅街景圖中準(zhǔn)確分辨哪個(gè)是鳥(niǎo),哪個(gè)是自行車,即便達(dá)不到超人水平,它們至少也應(yīng)該和被替代的人眼一樣好用。

但是,這個(gè)任務(wù)并不簡(jiǎn)單,它突出了人類視覺(jué)的復(fù)雜性——以及構(gòu)建模仿系統(tǒng)的高難度。在這項(xiàng)研究中,研究人員首先展示了一個(gè)能檢測(cè)、識(shí)別客廳場(chǎng)景下物品的計(jì)算機(jī)視覺(jué)系統(tǒng),它的性能很不錯(cuò),能發(fā)現(xiàn)客廳里有一把椅子、一個(gè)人和書(shū)架上的書(shū)。之后,他們?cè)谕环鶊D中加入了一個(gè)異常物體——一只大象,這時(shí)系統(tǒng)卻“指鹿為馬”了,它開(kāi)始把椅子稱為沙發(fā),把大象稱為椅子,還忽視了之前能“看”到的其他物品。

對(duì)此,論文作者之一Amir Rosenfeld認(rèn)為:“這些奇怪現(xiàn)象的出現(xiàn),表明了目前的物體檢測(cè)系統(tǒng)是多么脆弱?!彼麄儧](méi)能在論文中解釋為什么會(huì)出現(xiàn)這種脆弱,但提出了一個(gè)破有見(jiàn)地的猜想:

這和人類具備,而AI沒(méi)有的一項(xiàng)能力有關(guān)——人類在看圖識(shí)物時(shí)能理解圖像中是否存在令人困惑的東西,從而讓自己去看第二眼。

房間里的大象

人類視覺(jué)和機(jī)器視覺(jué)很不一樣。

當(dāng)我們睜開(kāi)雙眼時(shí),眼球開(kāi)始收集大量視覺(jué)信息,并把它們輸送給大腦快速處理,這時(shí)我們知道天是藍(lán)的,草是綠的,萬(wàn)物在不斷生長(zhǎng)。

相比之下,機(jī)器在生成“視覺(jué)”上更費(fèi)力。它們看待事物的方式類似用盲文閱讀,其中圖像的像素就是“文字”,通過(guò)在像素上運(yùn)行各類算法,機(jī)器最終能生成關(guān)于目標(biāo)物體的越來(lái)越復(fù)雜的表達(dá)形式。運(yùn)行這一復(fù)雜過(guò)程的系統(tǒng)是神經(jīng)網(wǎng)絡(luò),它由許多“層”構(gòu)成。

輸入一幅圖像后,神經(jīng)網(wǎng)絡(luò)會(huì)逐層提取圖像中的細(xì)節(jié),比如各個(gè)像素的顏色和亮度,層數(shù)越深,它提取到的特征就越抽象。在過(guò)程結(jié)束時(shí),它會(huì)對(duì)根據(jù)這些特征對(duì)其正在觀察的內(nèi)容輸出最佳預(yù)測(cè)。

這個(gè)過(guò)程意味著相比人類,神經(jīng)網(wǎng)絡(luò)能把握更多人眼難辨的細(xì)節(jié)。事實(shí)上,現(xiàn)在基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng)已經(jīng)在許多視覺(jué)處理任務(wù)上超越人類,比如依據(jù)品種對(duì)狗進(jìn)行分類。這些成功應(yīng)用提高了人們對(duì)技術(shù)的期待,研究人員也開(kāi)始著手研究,看計(jì)算機(jī)視覺(jué)系統(tǒng)是否能幫助汽車快速通過(guò)擁擠的街道。

但是,這項(xiàng)技術(shù)的成功也激勵(lì)了一批人去探索它的脆弱性,比如近幾年非常流行的“對(duì)抗樣本”。通過(guò)在原圖上做一些肉眼幾乎看不到的擾動(dòng),新圖像就能欺騙人工智能系統(tǒng),讓它把“虎斑貓”分類成“鱷梨醬”,把3D打印的“烏龜”分類為“步槍”。這些研究不是杞人憂天,試想一下,如果有人惡意在道路標(biāo)志上添加了這種擾動(dòng),致使自動(dòng)駕駛汽車誤讀、漏讀路標(biāo),那車上乘客的生命安全該如何保障?

論文中的研究具有相同的精神。研究人員向機(jī)器展示了一個(gè)普通的客廳生活場(chǎng)景:一名男子正坐在破舊椅子邊緣,前傾身體,聚精會(huì)神地玩著游戲。如下圖所示,在“思考”片刻后,神經(jīng)網(wǎng)絡(luò)正確檢測(cè)到了一系列物體:椅子、手提包、杯子、筆記本電腦、人、書(shū)籍、電視機(jī)、瓶子、時(shí)鐘。

但是,當(dāng)他們?cè)趫?chǎng)景中引入了一些不協(xié)調(diào)的東西——一只大象后,神經(jīng)網(wǎng)絡(luò)就被新加入的像素迷惑了。如下圖所示,在幾次試驗(yàn)中,神經(jīng)網(wǎng)絡(luò)開(kāi)始把大象識(shí)別為椅子,把椅子識(shí)別為沙發(fā),它也忽略了靠近大象一側(cè)的一排書(shū)。即便是離大象較遠(yuǎn)的物體,系統(tǒng)也存在錯(cuò)漏情況。

這個(gè)發(fā)現(xiàn)之所以令學(xué)界震驚,是因?yàn)閷?shí)驗(yàn)展示的是現(xiàn)在最基礎(chǔ)、最通行的物體檢測(cè)技術(shù),雖然客廳內(nèi)突然出現(xiàn)一頭大象并不現(xiàn)實(shí),但公路上出現(xiàn)一只火雞確實(shí)可能的?,F(xiàn)實(shí)道路上會(huì)發(fā)生很多意料之外的事,根據(jù)論文結(jié)果,我們有理由懷疑,自動(dòng)駕駛汽車會(huì)因?yàn)槁愤呁蝗怀霈F(xiàn)的一只火雞,而無(wú)法檢測(cè)到車前的行人。

正如羅恩菲爾德說(shuō)的:“如果房間里真的有一頭大象,那你肯定會(huì)注意到它,但這個(gè)系統(tǒng)卻甚至沒(méi)能檢測(cè)到它的存在?!?/p>

萬(wàn)事皆有因果

當(dāng)人類看到意想不到的東西時(shí),我們會(huì)先愣一下,然后才恍然大悟。這是一個(gè)具有真實(shí)認(rèn)知意義的常見(jiàn)現(xiàn)象——它恰好揭示了為什么神經(jīng)網(wǎng)絡(luò)無(wú)法處理“怪異”場(chǎng)景。

現(xiàn)如今,最先進(jìn)的物體檢測(cè)神經(jīng)網(wǎng)絡(luò)還是以“前饋”的方式工作,這意味著信息流經(jīng)神經(jīng)網(wǎng)絡(luò)時(shí)是單向的,從輸入細(xì)粒度像素開(kāi)始,到檢測(cè)曲線、檢測(cè)形狀、檢測(cè)場(chǎng)景,再到最后輸出最佳預(yù)測(cè)。為了確保預(yù)測(cè)的準(zhǔn)確性,它必須在整個(gè)過(guò)程中不斷收集“有用”信息,但這種單向性也意味著如果早期信息存在某種錯(cuò)誤,那這些錯(cuò)誤就會(huì)污染預(yù)測(cè)結(jié)果。

論文作者之一Tsotsos表示:“從神經(jīng)網(wǎng)絡(luò)頂部開(kāi)始,我們確實(shí)可以探索和結(jié)果相關(guān)的一切內(nèi)容,但我們也有可能讓每個(gè)位置的每個(gè)特征都對(duì)每一個(gè)可能的輸出作出干擾?!?/p>

舉一個(gè)大家都理解的例子。假設(shè)圖中有一個(gè)圓和一個(gè)正方形,它們顏色各異,一個(gè)是紅的,一個(gè)是藍(lán)的?,F(xiàn)在要求你在短時(shí)間內(nèi)觀察圖片,并迅速答出正方形是什么顏色的。如果注意力夠集中,我們可能一瞥就能給出答案;如果有些頭昏腦脹,我們可能看了一眼后還會(huì)有點(diǎn)迷惑,然后自然而然地會(huì)去重新看一遍。而且當(dāng)我們看第二遍時(shí),注意力是高度集中在觀察正方形顏色上的。

簡(jiǎn)而言之,人類的視覺(jué)系統(tǒng)如果沒(méi)有獲得想要的答案,它會(huì)回頭看看自己在哪里犯了錯(cuò)。而這個(gè)過(guò)程可以用1990年《Behavioral and Brain Sciences》一篇論文中提到的概念——選擇性調(diào)整模型(ST)來(lái)解釋。如上圖所示,那篇論文假設(shè)視覺(jué)處理架構(gòu)在結(jié)構(gòu)上是金字塔形的,該網(wǎng)絡(luò)內(nèi)的節(jié)點(diǎn)接收前饋和反饋連接。當(dāng)刺激輸入視覺(jué)系統(tǒng)時(shí),首先它會(huì)以前饋的方式激活與其連接的金字塔內(nèi)的所有節(jié)點(diǎn);之后,輸出的結(jié)果再以反饋的方式重新回到之前的節(jié)點(diǎn)中,激活倒置子金字塔。

這個(gè)模型的優(yōu)勢(shì)在于人類能依靠前饋和反饋,選擇感興趣的時(shí)空區(qū)域,選擇與當(dāng)前任務(wù)相關(guān)的事物并選擇最佳視點(diǎn),同時(shí),我們也能通過(guò)修剪不相關(guān)的內(nèi)容來(lái)限制任務(wù)相關(guān)的搜索空間,只考慮之前有過(guò)提示信息的位置,用位置/特征信息抑制感受野中的干擾,更簡(jiǎn)單、高效的獲取最佳結(jié)果。

而大多數(shù)神經(jīng)網(wǎng)絡(luò)缺乏這種反饋能力,這也是科研人員一直無(wú)法有所突破的研究難點(diǎn)?,F(xiàn)在使用前饋網(wǎng)絡(luò)的一個(gè)優(yōu)點(diǎn)是容易訓(xùn)練——只需讓輸入通過(guò)一個(gè)6層神經(jīng)網(wǎng)絡(luò),但是,如果我們希望未來(lái)機(jī)器也能“先愣一下,然后才恍然大悟”,它們就必須理解什么時(shí)候該回頭看看,什么時(shí)候該簡(jiǎn)單前饋。

人腦可以在這些過(guò)程之間無(wú)縫切換,但神經(jīng)網(wǎng)絡(luò)還需要一個(gè)新的理論框架才能做同樣的事情。

就在本月,谷歌上線了一個(gè)對(duì)抗樣本挑戰(zhàn)Unrestricted Adversarial Examples Challenge,他們向社區(qū)征集參賽鳥(niǎo)/自行車分類器,要求參賽的“對(duì)抗者”可以在輸入有擾動(dòng)的圖像后,依然準(zhǔn)確分類鳥(niǎo)和自行車;而“攻擊者”的目標(biāo)是生成一張包含鳥(niǎo)的圖像,讓“對(duì)抗者”分類器把它分類成自行車。這離構(gòu)建選擇性調(diào)整模型還有不小距離,但這是通向解決問(wèn)題的第一步——也是不可或缺的一步。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:面對(duì)“房間里的大象”,機(jī)器學(xué)習(xí)模型茫然了

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    機(jī)器學(xué)習(xí)技術(shù)在圖像分類和目標(biāo)檢測(cè)上的應(yīng)用

    在本章,我們將討論機(jī)器學(xué)習(xí)技術(shù)在圖像處理的應(yīng)用。首先,定義機(jī)器
    的頭像 發(fā)表于 10-20 10:52 ?1714次閱讀

    基于深度學(xué)習(xí)技術(shù)的智能機(jī)器

    就是自動(dòng)化系統(tǒng)執(zhí)行的程序每次都樣,比如說(shuō)按的是8樓按鍵,不管你是著急還是不著急,每次都以恒定的速度上升。傳統(tǒng)機(jī)器視覺(jué)分類2、什么是人工智
    發(fā)表于 05-31 09:36

    吳恩達(dá)的7條機(jī)器學(xué)習(xí)訓(xùn)練秘籍

    過(guò)程節(jié)省寶貴的時(shí)間。對(duì)這個(gè)數(shù)據(jù)集進(jìn)行性能測(cè)試可以你快速了解事情是否朝著正確方向發(fā)展。 4. 快速構(gòu)建第一個(gè)系統(tǒng),然后迭代正如第三點(diǎn)所述,構(gòu)建機(jī)器
    發(fā)表于 09-20 11:41

    機(jī)器學(xué)習(xí)訓(xùn)練秘籍——吳恩達(dá)

    ``1 機(jī)器學(xué)習(xí)為什么需要策略?機(jī)器學(xué)習(xí)(machine learning)已然成為無(wú)數(shù)重要應(yīng)用的基石——如今,在網(wǎng)絡(luò)搜索、垃圾郵件檢測(cè)、語(yǔ)
    發(fā)表于 11-30 16:45

    50個(gè)機(jī)器學(xué)習(xí)實(shí)用API干貨

    還在為找不到機(jī)器學(xué)習(xí)的API而煩惱嗎?本篇文章將介紹個(gè)包含50+關(guān)于人臉和圖像識(shí)別,文本分析,NLP,情感分析,語(yǔ)言翻譯,
    發(fā)表于 10-06 08:00

    全網(wǎng)唯一一套labview深度學(xué)習(xí)教程:tensorflow+目標(biāo)檢測(cè):龍哥教你學(xué)視覺(jué)—LabVIEW深度學(xué)習(xí)教程

    的簡(jiǎn)單化圖像信息;隨后利用數(shù)學(xué)形態(tài)學(xué)、傅里葉變換、Gabor 變換等算法以及機(jī)器學(xué)習(xí)模型完成缺陷的標(biāo)記與檢測(cè)。上述傳統(tǒng)算法在某些特定的應(yīng)用
    發(fā)表于 08-10 10:38

    labview+yolov4+tensorflow+openvion深度學(xué)習(xí)

    我們通過(guò)傳統(tǒng)算法無(wú)法量化,或者說(shuō)很難去做到的, 深度學(xué)習(xí)可以搞定。特別是在圖像分類, 目標(biāo)檢測(cè)這些問(wèn)題上取得了顯著的提升。下圖是近幾年來(lái)深度學(xué)習(xí)
    發(fā)表于 05-10 22:33

    機(jī)器學(xué)習(xí)簡(jiǎn)介與經(jīng)典機(jī)器學(xué)習(xí)算法人才培養(yǎng)

    思想。理解在個(gè)新的場(chǎng)景或數(shù)據(jù)集下,何時(shí)以及如何進(jìn)行遷移學(xué)習(xí)。利用PyTorch加載數(shù)據(jù)、搭建模型、訓(xùn)練網(wǎng)絡(luò)以及進(jìn)行網(wǎng)絡(luò)微調(diào)操作。給定遷移場(chǎng)景,利用daib庫(kù)和生成對(duì)抗技術(shù)獨(dú)立完成
    發(fā)表于 04-28 18:56

    什么是機(jī)器學(xué)習(xí)? 機(jī)器學(xué)習(xí)基礎(chǔ)入門

    工程師在數(shù)據(jù)收集過(guò)程中使用標(biāo)簽對(duì)數(shù)據(jù)集進(jìn)行分類數(shù)據(jù)收集和標(biāo)記是個(gè)耗時(shí)的過(guò)程,但對(duì)于正確處理數(shù)據(jù)至關(guān)重要。雖然機(jī)器學(xué)習(xí)領(lǐng)域有
    發(fā)表于 06-21 11:06

    自然圖像對(duì)象自動(dòng)檢測(cè)和提取

    引入基于例子的摳圖模型,實(shí)現(xiàn)對(duì)自然圖像的自動(dòng)訓(xùn)練檢測(cè),采用視覺(jué)單詞的層次空間直方圖改進(jìn)特征包分類檢測(cè)技術(shù),提高自動(dòng)
    發(fā)表于 04-01 09:11 ?22次下載

    圖像分類的方法之深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)

    實(shí)際情況非常復(fù)雜,傳統(tǒng)的分類方法不堪重負(fù)?,F(xiàn)在,我們不再試圖用代碼來(lái)描述每一個(gè)圖像類別,決定轉(zhuǎn)而使用機(jī)器學(xué)習(xí)的方法處理
    發(fā)表于 09-28 19:43 ?0次下載

    關(guān)于深度學(xué)習(xí)圖像分類不得不說(shuō)的技巧詳解

    計(jì)算機(jī)視覺(jué)主要問(wèn)題有圖像分類、目標(biāo)檢測(cè)圖像分割等。針對(duì)圖像分類任務(wù),提升準(zhǔn)確率的方法路線有兩條
    的頭像 發(fā)表于 04-01 14:29 ?2892次閱讀
    關(guān)于深度<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>圖像</b><b class='flag-5'>分類</b>不得不說(shuō)的技巧詳解

    機(jī)器視覺(jué)圖像增廣技術(shù)綜述

    突出。圖像増廣技術(shù)是種有效解決深度學(xué)習(xí)在少量或者低質(zhì)量訓(xùn)練數(shù)據(jù)中進(jìn)行訓(xùn)練種技術(shù)手段,該技術(shù)
    發(fā)表于 06-03 14:14 ?8次下載

    機(jī)器學(xué)習(xí)之新功能對(duì)象分類

    電子發(fā)燒友網(wǎng)站提供《機(jī)器學(xué)習(xí)之新功能對(duì)象分類.zip》資料免費(fèi)下載
    發(fā)表于 06-19 15:45 ?0次下載
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>之新功能<b class='flag-5'>對(duì)象</b><b class='flag-5'>分類</b>

    每日課 | 智慧燈桿視覺(jué)技術(shù)之對(duì)象檢測(cè)技術(shù)簡(jiǎn)介

    3.2.2對(duì)象檢測(cè)圖3-5對(duì)象檢測(cè)對(duì)象檢測(cè)的識(shí)別
    的頭像 發(fā)表于 03-05 10:14 ?510次閱讀
    每日<b class='flag-5'>一</b>課 | 智慧燈桿視覺(jué)技術(shù)之<b class='flag-5'>對(duì)象</b><b class='flag-5'>檢測(cè)</b>技術(shù)簡(jiǎn)介