0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

到底是什么讓機(jī)器學(xué)習(xí)達(dá)不到我們的期待呢?

nlfO_thejiangme ? 2018-03-27 13:56 ? 次閱讀

機(jī)器學(xué)習(xí)雖然能夠在很多地方顯示出強(qiáng)大的力量,同時(shí)也被集成到了很多的商業(yè)流程中去,但它依舊有一些不完美的地方,今天我們就通過一些典型的例子來深刻感受一下機(jī)器學(xué)習(xí)的局限性。

人臉識(shí)別

目前最先進(jìn)的人臉識(shí)別系統(tǒng)可以達(dá)到99%的準(zhǔn)確率。作為使用最為廣泛的機(jī)器學(xué)習(xí)算法,人臉識(shí)別得到了飛速的發(fā)展,但在這背后需要我們對(duì)幾件事情保持清醒。首先,99%的正確率是來自與驗(yàn)證數(shù)據(jù)集的測(cè)試結(jié)果,而驗(yàn)證數(shù)據(jù)集則來自于與訓(xùn)練數(shù)據(jù)集相同的數(shù)據(jù)集,并從中隨機(jī)抽取。這就意味著數(shù)據(jù)的均值和方差與訓(xùn)練數(shù)據(jù)十分相似。但當(dāng)我們將系統(tǒng)置于真實(shí)情況下時(shí),實(shí)際照片的特性與訓(xùn)練數(shù)據(jù)不可能相同,那么實(shí)際的精度很有可能低于99%。

模型有時(shí)候會(huì)將其他的東西識(shí)別成人臉(假陽性)或者忘卻漏掉了人臉(假陰性)。不同的模型在不同的階段有著不同的表現(xiàn),在使用時(shí)你需要確定你需要什么樣層次的模型,給出多高的精度是可以接受的。在選擇權(quán)衡算法時(shí),一個(gè)模型在檢測(cè)幾千張臉時(shí)錯(cuò)檢幾十張,而另一個(gè)模型可以將準(zhǔn)確率提高一半但需要10x的處理時(shí)間和運(yùn)算,那么前者將會(huì)是不錯(cuò)的選擇。剩下的可以交給人類來做,我們對(duì)于少量假陽性和假陰性的樣本有著非常快的準(zhǔn)確識(shí)別能力。

下面是幾個(gè)關(guān)于模型訓(xùn)練的數(shù)據(jù)清理經(jīng)驗(yàn)。最好的當(dāng)然是保證每一張臉都可以很容易地看到,沒有模糊遮擋,也沒有很奇怪的角度。同時(shí)圖像要保持適度的分辨率,分辨率太高的圖像容易引入造成算法失效的噪音。

光學(xué)字符識(shí)別(OCR)

目前最先進(jìn)的光學(xué)字符識(shí)別系統(tǒng)對(duì)于文件的識(shí)別與排版已經(jīng)有十分優(yōu)異?;谶吘墮z測(cè)、計(jì)算機(jī)視覺與字符識(shí)別的技術(shù)使得OCR不斷改進(jìn),對(duì)于掃描文檔幾乎沒有障礙了。

但目前OCR還不能夠勝任的是非掃描文件的識(shí)別,這也是驗(yàn)證碼還能作為網(wǎng)站人類識(shí)別的功能存在。人類對(duì)于字母識(shí)別有著無與倫比的能力,無論是模糊、扭曲、顏色不同都不在話下,而計(jì)算機(jī)望塵莫及。

OCR很有用但對(duì)于一些場(chǎng)景下使用不當(dāng)就會(huì)文不對(duì)題,下面這張球賽的截頻就是一個(gè)典型的例子。

上圖如果用OCR識(shí)別很有可能生成這樣的一大串:

[0] PREMIER LEAGUE [1] TOT 2 [2] M [3] U [4] 0 [5] 36:2 [6] 4 [7] SPORTS [8] NEW 0 BUR 0 [9] HALFTIME [10] LIVE [11] NBCSN

如果沒有上下文語境我們很難明白識(shí)別出的意思,哪里是隊(duì)名哪里是logo?這會(huì)造成很大的混亂。

我們不應(yīng)該像使用通用OCR一樣來直接簡(jiǎn)單粗暴的套用,而是需要針對(duì)情況進(jìn)行分析。對(duì)于上面的例子如果我們想要追蹤球員,那么目標(biāo)追蹤的方法會(huì)很好,但如果想要追蹤比賽分?jǐn)?shù)和時(shí)間,那么將OCR限定在固定區(qū)域中會(huì)是不錯(cuò)的選擇。

視 頻

視頻是一種很神奇的存在,雖然很多機(jī)器學(xué)習(xí)模型能在視頻上實(shí)現(xiàn)和照片一樣的效果,但總會(huì)有意想不到的情況。數(shù)字世界的解碼和封裝總是與視頻的壓縮率和長(zhǎng)寬比耦合在一起。

同時(shí)考慮到處理時(shí)間和算力的限制,對(duì)視頻進(jìn)行處理時(shí)我們往往選擇低分辨的格式。當(dāng)你選擇低分辨率或者較高的壓縮時(shí),視頻并不會(huì)是一組連續(xù)的靜態(tài)圖片,所以計(jì)算機(jī)視覺的識(shí)別方法將會(huì)與靜態(tài)圖片中的識(shí)別方法有很大的差別。

為了說明這一情況我們可以隨便點(diǎn)開一個(gè)視頻并暫停,如下圖所示。人們的臉變得模糊、角度和整體形象都顯得和靜態(tài)下十分不同。

下面應(yīng)該是計(jì)算機(jī)看到的人臉區(qū)域:

你能從中認(rèn)出圖中的主角是誰嗎?如果對(duì)你來說很困難那么對(duì)于計(jì)算機(jī)來說也不容易!

對(duì)于人類來說,在視頻中識(shí)別人臉很容易,但要把獨(dú)立的幀抽取出來你會(huì)發(fā)現(xiàn)圖像質(zhì)量出乎意料的差。

但我們也不能否定機(jī)器學(xué)習(xí),因?yàn)闄C(jī)器學(xué)習(xí)在大多數(shù)情況下對(duì)于視頻的自動(dòng)化分類和標(biāo)注時(shí)十分重要的手段。我們需要明白的是我們期望得到的結(jié)果以及如何去修正模型實(shí)際的表現(xiàn)。如果一個(gè)龐大的全球名人識(shí)別模型對(duì)一段視屏進(jìn)行檢測(cè)可能會(huì)出現(xiàn)很多假陽性的結(jié)果,但是如果使用一個(gè)僅僅包含幾個(gè)著名人士的模型來檢測(cè)則會(huì)得到好得多的結(jié)果。如果你的模型表現(xiàn)不好,你還可以從數(shù)據(jù)的角度來改進(jìn),譬如說某個(gè)節(jié)目中人臉出現(xiàn)的位置就可以作為先驗(yàn)知識(shí)來幫助機(jī)器提高正確率。我們需要嘗試不同的模型和工作流總能取得成功。

如何成功的應(yīng)用機(jī)器學(xué)習(xí)?

機(jī)器學(xué)習(xí)十分強(qiáng)大,有人將它應(yīng)用于檢測(cè)學(xué)術(shù)造假的論文,也有人將它應(yīng)用于人臉身份認(rèn)證、不良內(nèi)容的裸露檢測(cè)等。同樣也用于為用戶推薦商品和服務(wù)的推薦引擎上,在這樣的場(chǎng)景下假陽性和假陰性的推薦結(jié)果不會(huì)造成太大影響,事實(shí)上一些異常推薦還為用戶探索新事物提供了條件。

還有改善搜索引擎的個(gè)性化能力,檢測(cè)農(nóng)作物動(dòng)物的疾病以及預(yù)測(cè)產(chǎn)量等等方面。機(jī)器學(xué)習(xí)將會(huì)有無數(shù)的應(yīng)用,我們對(duì)它充滿期待,但同時(shí)也會(huì)把握住期待的方向讓機(jī)器學(xué)習(xí)正常運(yùn)轉(zhuǎn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:靈魂拷問:是什么讓機(jī)器學(xué)習(xí)達(dá)不到我們的期待呢?(開頭有個(gè)大事兒)

文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    功放和運(yùn)放到底是什么區(qū)別?

    想請(qǐng)問一下功放和運(yùn)放到底是什么區(qū)別,感覺只要接一個(gè)小負(fù)載,運(yùn)放的輸出電流也可以很大啊?到底有什么區(qū)別啊
    發(fā)表于 09-10 07:00

    運(yùn)放的輸入電容到底是什么?

    我想請(qǐng)問一下運(yùn)放的輸入電容到底是什么?
    發(fā)表于 09-04 06:52

    LM833實(shí)際放大倍數(shù)為4倍達(dá)不到設(shè)計(jì)的20倍,是什么問題?

    LM833實(shí)際放大倍數(shù)為4倍達(dá)不到設(shè)計(jì)的20倍,是什么問題? 附件是相關(guān)電路,謝謝!
    發(fā)表于 08-19 06:54

    運(yùn)放旁路電容必須靠近芯片引腳的原因到底是什么?

    運(yùn)放旁路電容必須靠近芯片引腳的原因到底是什么?有的說是怕走線的電感與旁路電容形成諧振,旁路電容靠近運(yùn)放的時(shí)候走線的電感不應(yīng)該更大了嗎(走線越長(zhǎng),走線的寄生電感也就越大)
    發(fā)表于 08-01 06:56

    共享單車到底是什么通信原理

    我們經(jīng)常騎的共享單車到底是什么通信原理,有人了解過嗎? 一、智能車鎖 共享單車最核心的硬件是智能車鎖,主要用于實(shí)現(xiàn)控制和定位功能。
    發(fā)表于 04-09 10:33 ?630次閱讀
    共享單車<b class='flag-5'>到底是</b>什么通信原理

    工字電感的額定電流達(dá)不到要求應(yīng)該怎么解決

    電子發(fā)燒友網(wǎng)站提供《工字電感的額定電流達(dá)不到要求應(yīng)該怎么解決.docx》資料免費(fèi)下載
    發(fā)表于 02-28 10:25 ?0次下載

    共享單車到底是什么通信原理?

    我們經(jīng)常騎的共享單車到底是什么通信原理,有人了解過嗎?下面寶藍(lán)小編就帶大家了解下。
    的頭像 發(fā)表于 02-25 10:32 ?1136次閱讀
    共享單車<b class='flag-5'>到底是</b>什么通信原理?

    插件磁環(huán)電感的電流達(dá)不到要求可以這樣處理

    能指標(biāo)。我們在做插件磁環(huán)電感選型的時(shí)候,一定會(huì)研究電流方面的原因。如果插件磁環(huán)電感的額定電流達(dá)不到要求又應(yīng)該如何解決? 在應(yīng)用中,如果發(fā)現(xiàn)使用的插件磁環(huán)電感額定電流沒有辦法滿足設(shè)備運(yùn)行要求,應(yīng)該盡快采取有效措施以保證系
    的頭像 發(fā)表于 02-23 10:22 ?252次閱讀

    移動(dòng)機(jī)器人的組成和操作方法

    移動(dòng)機(jī)器到底是由哪些部分組成的,接下來我們就一起認(rèn)識(shí)一下它。
    的頭像 發(fā)表于 01-02 09:49 ?1311次閱讀
    移動(dòng)<b class='flag-5'>機(jī)器</b>人的組成和操作方法

    請(qǐng)問AD8603的電源供電范圍到底是多少

    ADI官網(wǎng)上的數(shù)據(jù)手冊(cè)給出的電源電壓為1.8V-5V 但在ADI參考電路合集1中的AD8603采用15V電源供電 請(qǐng)問AD8603的電源供電范圍到底是多少?
    發(fā)表于 11-15 08:15

    呼吸燈到底是如何影響人的視覺的?

    呼吸燈到底是通過使燈快速亮滅還是改變平均電壓來影響人的視覺的
    發(fā)表于 11-08 06:04

    什么是虛擬線程?虛擬線程到底是做什么用的?

    虛擬線程是在Java并發(fā)領(lǐng)域添加的一個(gè)新概念,那么虛擬線程到底是做什么用的?
    的頭像 發(fā)表于 10-29 10:23 ?2922次閱讀
    什么是虛擬線程?虛擬線程<b class='flag-5'>到底是</b>做什么用的<b class='flag-5'>呢</b>?

    PGO到底是什么?PGO如何提高應(yīng)用程序性能?

    PGO到底是什么?PGO如何提高應(yīng)用程序性能? PGO,全稱為Profile Guided Optimization,譯為“基于特征優(yōu)化”的技術(shù),是一種通過利用應(yīng)用程序的運(yùn)行特征數(shù)據(jù)來優(yōu)化
    的頭像 發(fā)表于 10-26 17:37 ?1881次閱讀

    單片機(jī)的“性能”到底是什么?

    單片機(jī)的“性能”到底是什么?
    的頭像 發(fā)表于 10-24 16:58 ?458次閱讀
    單片機(jī)的“性能”<b class='flag-5'>到底是</b>什么?

    AT指令,AT固件,這個(gè)AT到底是什么意思?

    我們常說AT指令,AT固件,這個(gè)AT到底是什么意思?
    發(fā)表于 09-26 07:25