0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

8g3K_AI_Thinker ? 2018-02-09 11:40 ? 次閱讀

編者按:在工業(yè)界大量資源的投入下,大數(shù)據(jù)、大規(guī)模GPU集群帶來了深度學(xué)習(xí)計算機(jī)視覺領(lǐng)域的全面產(chǎn)業(yè)落地,在很多競賽中甚至取得遠(yuǎn)超學(xué)術(shù)界的成績。在AI領(lǐng)域的各個頂級會議上,越來越多的優(yōu)秀工作也來自于Google、Facebook、BAT等巨頭或者一些新銳創(chuàng)業(yè)公司

值得注意的是,工業(yè)界目前的主要進(jìn)展和應(yīng)用落地,很大程度上依賴于高成本的有監(jiān)督深度學(xué)習(xí)。而在很多實(shí)際場景中,存在數(shù)據(jù)獲取成本過高、甚至無法獲取的問題。因此,在數(shù)據(jù)不足的情況下,如何使用弱監(jiān)督、乃至無監(jiān)督的方式進(jìn)行學(xué)習(xí),這既是學(xué)術(shù)界中大家廣泛關(guān)注的問題,其實(shí)也是工業(yè)界面臨的新挑戰(zhàn)。

商湯科技研發(fā)總監(jiān)、中山大學(xué)教授林倞,將從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),帶領(lǐng)大家一起探索“后深度學(xué)習(xí)時代”的新挑戰(zhàn)。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

如果把AI系統(tǒng)比作為一架火箭,那么大數(shù)據(jù)就是它的燃料,深度學(xué)習(xí)則是它的引擎。隨著大數(shù)據(jù)以及GPU算力的加持,深度學(xué)習(xí)在很多領(lǐng)域都取得了突破性的進(jìn)展,例如視覺圖像理解、屬性識別、物體檢測、自然語言處理、乃至自動駕駛。當(dāng)然了,垂直化應(yīng)用場景才是AI技術(shù)落地不可或缺的因素,這其實(shí)也是在工業(yè)界做研究的最大優(yōu)勢——從真實(shí)的需求引導(dǎo)技術(shù)的發(fā)展,而學(xué)術(shù)界的科研往往基于一些不太實(shí)際的假設(shè)。

基于視覺的圖像理解,是從有標(biāo)注的數(shù)據(jù)學(xué)習(xí)出AI算法,以實(shí)現(xiàn)相應(yīng)的視覺識別任務(wù),左上角展示了視覺圖像理解中的物體檢測以及屬性識別應(yīng)用。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

而值得注意的是,深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域的成功應(yīng)用,很大程度上依賴于有監(jiān)督的數(shù)據(jù),這意味著大量的完全標(biāo)注的干凈數(shù)據(jù)(例如人臉識別領(lǐng)域的數(shù)據(jù))。然而,這樣的數(shù)據(jù)意味著非常高昂的成本。在真實(shí)的場景中,經(jīng)常存在的是弱監(jiān)督或者從互聯(lián)網(wǎng)上獲取的數(shù)據(jù)(例如網(wǎng)絡(luò)社交媒體的數(shù)據(jù)),以及無標(biāo)注或者標(biāo)注有噪聲的數(shù)據(jù)(例如智慧城市以及自動駕駛等應(yīng)用中采集到的數(shù)據(jù))。

LeCun教授曾用右圖的蛋糕,來形容有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、以及強(qiáng)化學(xué)習(xí)之間的區(qū)別,這里借用來說明這三種數(shù)據(jù)的區(qū)別:完全標(biāo)注的干凈數(shù)據(jù)就像蛋糕上的金箔櫻桃,甜美卻昂貴;而弱標(biāo)注或互聯(lián)網(wǎng)爬取的數(shù)據(jù),就像蛋糕上的奶油,還算甜但也可獲?。欢鵁o標(biāo)注的或者標(biāo)注有噪聲的數(shù)據(jù),不太甜但成本較低。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

在本次報告中,我將首先介紹深度學(xué)習(xí)如何應(yīng)用于視覺理解,接下來會從三個方面介紹最新的深度學(xué)習(xí)范式:

以豐富多源的弱監(jiān)督信息來輔助學(xué)習(xí)

算法自驅(qū)動、具有高性價比(性能/監(jiān)督信息成本)的自主學(xué)習(xí)

無監(jiān)督領(lǐng)域自適應(yīng)學(xué)習(xí)

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

首先介紹一下深度學(xué)習(xí)的基本概念,深度學(xué)習(xí)被定義為最終以網(wǎng)絡(luò)形式呈現(xiàn)的、涵蓋了多個步驟的、可微分的計算過程。而說起深度學(xué)習(xí),就要從上世紀(jì)80年代的神經(jīng)網(wǎng)絡(luò)開始講起。神經(jīng)網(wǎng)絡(luò)其命名的初衷,是向人腦中的神經(jīng)網(wǎng)絡(luò)致敬。那么人腦中是如何處理視覺信號呢?

首先,視網(wǎng)膜輸入視覺信號,經(jīng)過LGN外膝體,到達(dá)視覺皮層V1—V5,其中V1對邊緣和角點(diǎn)敏感,V2捕捉運(yùn)動信息, V4對part物件敏感,例如人的眼睛、胳膊等,最后到達(dá)AIT,來處理高層信息:臉、物體等。送到PFC決策層,最后由MC發(fā)出指令。所以人腦處理視覺信號是一個從淺層到深層的過程,而在此過程中,并不是一個單一的處理,它還具備時序性,也就是說它在處理每個信號時,都是利用了之前的時序信息的。

深度神經(jīng)網(wǎng)絡(luò)的形式和計算過程與人腦有很大的不同,不過它的發(fā)明的確是受到了神經(jīng)信號處理的啟發(fā),例如經(jīng)典的感知機(jī)模型其實(shí)是對神經(jīng)元最基本概念的模擬。右上展示了1980年發(fā)明的多層感知機(jī)。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

從1980年代的多層感知機(jī)到2010年的卷積神經(jīng)網(wǎng)絡(luò),它經(jīng)歷了一個層數(shù)由少至多、層級由淺至深的過程,通過解決網(wǎng)絡(luò)梯度消失以及泛化不好的問題,以及數(shù)據(jù)及GPU的加持,它終于實(shí)現(xiàn)了一個一站式的端到端的網(wǎng)絡(luò)。

自2010年起,深度學(xué)習(xí)方法取得了遠(yuǎn)超傳統(tǒng)機(jī)器學(xué)習(xí)方法的成績,尤其隨著訓(xùn)練數(shù)據(jù)集的不斷擴(kuò)展,傳統(tǒng)方法迅速觸碰到精度天花板,相比之下,深度方法的預(yù)測精度則不斷提升。這里總結(jié)了這一波深度學(xué)習(xí)技術(shù)革新的幾個關(guān)鍵點(diǎn),包括新的網(wǎng)絡(luò)優(yōu)化方法,如ReLu,Batch Normally,Skip Connection等;從數(shù)學(xué)/知識驅(qū)動到數(shù)據(jù)驅(qū)動的研究思路的轉(zhuǎn)變;分治優(yōu)化逐漸過渡到聯(lián)合端到端聯(lián)合優(yōu)化;從避免過擬合學(xué)習(xí)到避免欠擬合學(xué)習(xí);大量的開源代碼和初始化模型的涌現(xiàn)。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

傳統(tǒng)的模式識別任務(wù),大致可總結(jié)為幾個獨(dú)立的步驟:包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、特征提取、分類器訓(xùn)練以及最終的分類。其中,數(shù)據(jù)預(yù)處理器和特征提取器的設(shè)計都是以經(jīng)驗為驅(qū)動的。而深度學(xué)習(xí)通過將預(yù)處理、特征提取以及分類訓(xùn)練任務(wù)融合,因此衍生出了一個,具有更強(qiáng)表示能力的端到端的特征轉(zhuǎn)換網(wǎng)絡(luò)。

在傳統(tǒng)模式識別方法到深度方法的演變過程中,我們越來越體會到學(xué)習(xí)的重要性,而特征學(xué)習(xí)也已進(jìn)化成一個端到端的學(xué)習(xí)系統(tǒng),傳統(tǒng)方法中的預(yù)處理已不是必須手段,而被融入端到端的系統(tǒng)中。似乎特征學(xué)習(xí)影響著一切模式識別任務(wù)的性能,然而,我們卻忽視了數(shù)據(jù)收集和評估的重要性。

接下來我們舉例說明傳統(tǒng)方法是如何演化為深度方法的。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

以跨領(lǐng)域視覺匹配任務(wù)(從領(lǐng)域2的數(shù)據(jù)中匹配到給定的領(lǐng)域1中的目標(biāo))為例,傳統(tǒng)的方法一般會包含以下兩個步驟:

首先,將來自于不同領(lǐng)域的樣本投影到一個公共的特征空間 (特征學(xué)習(xí));

然后,采用相似性或距離度量學(xué)習(xí)的方式,學(xué)習(xí)到一種距離度量,來表征這個公共空間上特征之間的相似性 (相似性度量學(xué)習(xí))。

那么如何將這種相似性的度量整合到深度神經(jīng)網(wǎng)絡(luò)中,并進(jìn)行端到端的學(xué)習(xí)呢?

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

如何把相似性度量融合到特征提取中去?

以右上公式表示的相似性度量方法為例 (度量模型的提出和推導(dǎo)請參加相關(guān)論文),我們可以將該度量模型分解后融入到神經(jīng)網(wǎng)絡(luò)中——將原來的全連接網(wǎng)絡(luò)表示成成若干個與度量模型相匹配的結(jié)構(gòu)化網(wǎng)絡(luò)。再通過誤差反向傳導(dǎo),可以將度量模型與卷積特征進(jìn)行聯(lián)合學(xué)習(xí)、統(tǒng)一優(yōu)化。詳細(xì)過程如下:

右上公式中, A矩陣為x樣本所在領(lǐng)域中樣本間的自相關(guān)矩陣,半正定; B矩陣表示y樣本所在領(lǐng)域中樣本間的自相關(guān)矩陣,半正定;C矩陣則是兩個領(lǐng)域樣本間的相關(guān)矩陣。

展開后我們可以發(fā)現(xiàn),其組成成分除了網(wǎng)絡(luò)從不同域提取到的特征外,還包含6個不同的表達(dá)距離度量模型的變量(每個域包含2個矩陣和1個向量)。圖中左上部分顯示了我們將分解后的距離度量變量融入到神經(jīng)網(wǎng)絡(luò)中的過程——結(jié)構(gòu)化的網(wǎng)絡(luò)模型。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

由此看來,深度網(wǎng)絡(luò)并不是完全的黑盒子,通過引入領(lǐng)域知識和結(jié)構(gòu)化模型,是可以具備一定的宏觀解釋性的。

以跨域視覺匹配算法為例,其內(nèi)部可歸納為三個部分:域獨(dú)有層、特征共享層、以及相似度量。

整個端到端的網(wǎng)絡(luò)如圖所示,其每個部分都具有可解釋性。

在域獨(dú)有層,該網(wǎng)絡(luò)為不同域的數(shù)據(jù)提取該域的獨(dú)有特征;

在特征共享層,我們首先將不同域的特征融合,再將融合后的特征投影到共有空間下,再反向拆解出各自域在該共有空間下的特征;

最終通過相似性度量得到不同域樣本間的匹配相似度。

相關(guān)的工作發(fā)表在T-PAMI 2016上,該模型在當(dāng)時很多領(lǐng)域取得了state-of-the-arts的效果。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

我們的驗證基準(zhǔn)包括的幾個主要任務(wù):年齡人臉驗證、跨攝像頭的行人再識別、素描畫與照片間的匹配、以及靜態(tài)圖片與靜態(tài)視頻間的匹配。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

相比較之下,在公司做深度學(xué)習(xí)則充分發(fā)揮了海量計算資源和充足數(shù)據(jù)量的優(yōu)勢,學(xué)術(shù)界精心設(shè)計的算法優(yōu)勢很容易被工程化的能力抵消。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

此外,區(qū)別于學(xué)術(shù)界只關(guān)注算法本身的模式,在工業(yè)界做產(chǎn)品,則涉及到大量的環(huán)節(jié),不同的場景會衍生出不同的問題,此時通過應(yīng)用場景形成數(shù)據(jù)閉環(huán)成為關(guān)鍵。商湯投入了大量資源建設(shè)基礎(chǔ)平臺、工程化團(tuán)隊,通過深入各個垂直領(lǐng)域、積攢行業(yè)數(shù)據(jù)、建立行業(yè)壁壘,目前正在從AI平臺公司逐漸向AI產(chǎn)品公司過渡。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

在工業(yè)界大量資源的投入下,大數(shù)據(jù)、大規(guī)模GPU集群帶來了深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域的全面產(chǎn)業(yè)落地,在很多競賽中甚至取得遠(yuǎn)超學(xué)術(shù)界的成績。值得注意的是,工業(yè)界的這些進(jìn)展的取得,是依賴于大量的全監(jiān)督數(shù)據(jù)的,而在很多實(shí)際場景中,存在數(shù)據(jù)獲取成本過高、甚至無法獲取的問題。2012年以來,深度學(xué)習(xí)技術(shù)的高速發(fā)展并且在圖像、語音等各個領(lǐng)域的取得了大量的成功應(yīng)用,如果把這5年看成是一個新的技術(shù)時代, 那么在“后深度學(xué)習(xí)”時代,我們更應(yīng)該關(guān)注哪些方向呢?

我在這個報告中給出一些想法——介紹3個新的深度學(xué)習(xí)范式:

以豐富多源的弱監(jiān)督信息來輔助學(xué)習(xí)

算法自驅(qū)動、成本效益較高的自主學(xué)習(xí)

無監(jiān)督領(lǐng)域自適應(yīng)學(xué)習(xí)

Learning with Weak and Rich Supervisions

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

首先來介紹如何以豐富多源的弱監(jiān)督信息來輔助學(xué)習(xí)。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

由于網(wǎng)頁形式的多樣化,從互聯(lián)網(wǎng)上獲取的數(shù)據(jù)時常具備多種類型的標(biāo)簽,然而卻不能保證標(biāo)簽的準(zhǔn)確性, 往往存在標(biāo)簽噪聲 。因此,這類數(shù)據(jù)可以看作具備豐富多源的弱監(jiān)督信息。那么,我們考慮通過學(xué)習(xí)多個源的弱監(jiān)督信息,來對標(biāo)簽進(jìn)行更正。

將大量的數(shù)據(jù)連同帶有小量噪聲的標(biāo)簽,一起送入深度卷積神經(jīng)網(wǎng)絡(luò),檢測其中的標(biāo)簽噪聲并進(jìn)行更正。例如,右圖展示了,通過融合圖像數(shù)據(jù)以及對應(yīng)的文本描述,來輔助對標(biāo)簽進(jìn)行更正。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

在場景解析任務(wù)中,我們通過學(xué)習(xí)圖像的描述來解析場景。如圖所示,利用物體定位來獲取場景中具有顯著性語義的物體,然后根據(jù)物體間的交互關(guān)系構(gòu)建結(jié)構(gòu)化場景配置。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

而圖像的描述語句通常包含豐富的語法信息,如果能將這些信息融入深度學(xué)習(xí)模型,那么可以將其看作一種輔助的監(jiān)督手段。以對圖像描述這一應(yīng)用為例,如圖所示,我們用綠色框表示場景中出現(xiàn)的實(shí)體,紅色框表示實(shí)體之間的關(guān)系,而藍(lán)色框表示場景的全局配置結(jié)構(gòu)。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

基于上述所說,我們提出了一個端到端的,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)的,深度結(jié)構(gòu)化場景解析框架。輸入的圖片經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)后,會為每個語義類別產(chǎn)生得分圖以及每個像素的特征表達(dá),然后根據(jù)這些得分圖對每個像素進(jìn)行分類,并將同類別的像素聚合到一起,最終獲取場景內(nèi)v個目標(biāo)的特征表達(dá)。然后將這v個目標(biāo)的特征送入到遞歸神經(jīng)網(wǎng)絡(luò)中,并映射到某個語義空間,提取語義以預(yù)測物體間的交互關(guān)系。其訓(xùn)練過程如下:

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

整個網(wǎng)絡(luò)學(xué)習(xí)的目標(biāo)包含兩個,一個是卷積神經(jīng)網(wǎng)絡(luò)部分中的場景語義標(biāo)注信息,另一個則是遞歸神經(jīng)網(wǎng)絡(luò)部分中的結(jié)構(gòu)化解析結(jié)果。在訓(xùn)練的過程中,由于圖像數(shù)據(jù)缺乏對應(yīng)的場景結(jié)構(gòu)化信息,我們需要對其進(jìn)行估計,來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)和遞歸循環(huán)神經(jīng)網(wǎng)絡(luò)。

簡單來說,本工作的重點(diǎn)在于得到以下兩個目標(biāo):(1)語義標(biāo)注信息,包括定位語義實(shí)體的位置和確定語義實(shí)體之間的互動關(guān)系,(2)得到語義實(shí)體中的繼承結(jié)構(gòu)。

在本論文中采用的CNN-RNN聯(lián)合結(jié)構(gòu),與單一RNN方法不同之處在于模型預(yù)測了子節(jié)點(diǎn)和父節(jié)點(diǎn)之間的關(guān)系。其中,對于語義標(biāo)注,我們采用CNN模型為每一個實(shí)體類生成特征表達(dá),并將臨近的像素分組并對同類別使用同一標(biāo)簽。利用CNN生成的特征,我們設(shè)計RNN模型來生成圖像理解樹來預(yù)測物體之間的關(guān)系和繼承結(jié)構(gòu),其中包括四個部分,語義映射(單層全連接層),融合(兩個子節(jié)點(diǎn)結(jié)合生成一個父節(jié)點(diǎn)),類別器(其中一個子網(wǎng)絡(luò),用于確定兩個節(jié)點(diǎn)之間的關(guān)系,并利用父節(jié)點(diǎn)的特征作為輸入),打分器(另外一個子網(wǎng)絡(luò),衡量兩個節(jié)點(diǎn)的置信度)。

本方法在學(xué)習(xí)過程中有兩個輸入,一個是圖像,另外一個圖像對應(yīng)的解析句子,將圖像輸入CNN,得到圖像的實(shí)體類特征表達(dá),同時利用語義解析生成樹方法將句子分解成語義樹,并將圖像得到的實(shí)體類與語義生成樹一同輸入到RNN網(wǎng)絡(luò)中,利用圖像的語義標(biāo)注與關(guān)聯(lián)結(jié)構(gòu)樹進(jìn)行訓(xùn)練,從而得到預(yù)期的結(jié)果。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

語義分割和場景結(jié)構(gòu)化解析在PSACALVOC 2012 和SYSU-Scene 評測集上的實(shí)驗結(jié)果展示如圖。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

這里給出了使用不同的學(xué)習(xí)策略在PASCAL2012數(shù)據(jù)集上的結(jié)果,可以看出上下文信息被證明是一種有效的輔助手段。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

還可以擴(kuò)展到圖像語義分割領(lǐng)域。這一工作發(fā)表在CVPR2017,目前在PASCAL VOC數(shù)據(jù)集上做到了state-of-the-arts。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

此外,在面向任務(wù)的動作預(yù)測中, 同樣可以采用弱監(jiān)督學(xué)習(xí)的方式來解決需要大量標(biāo)注信息的問題。這一工作獲得了The World’s First 10K Best Paper Diamond Award by ICME 2017.

這項工作首次提出了任務(wù)導(dǎo)向型的動作預(yù)測問題,即如何在特定場景下,自動地生成能完成指定任務(wù)的動作序列,并針對該問題進(jìn)行了數(shù)據(jù)采集。在這篇論文中,作者提出使用長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)進(jìn)行動作預(yù)測,并提出了多階段的訓(xùn)練方法。為了解決學(xué)習(xí)過程中標(biāo)注樣本不足的問題,該工作在第一階段采取時域與或圖模型(And-Or Graph, AOG)自動地生成動作序列集合進(jìn)行數(shù)據(jù)增強(qiáng),在下一階段利用增強(qiáng)后的數(shù)據(jù)訓(xùn)練動作預(yù)測網(wǎng)絡(luò)。具體步驟如下。

1)為了對任務(wù)知識建模,該文引入時域與或圖(And-Or Graph, AOG)模型表達(dá)任務(wù)。AOG由四部分組成:表示任務(wù)的根節(jié)點(diǎn),非終端節(jié)點(diǎn)集合,終端節(jié)點(diǎn)集合和權(quán)重分布集合。非終端節(jié)點(diǎn)包括與節(jié)點(diǎn)和或節(jié)點(diǎn)。其中,與節(jié)點(diǎn)表示將該節(jié)點(diǎn)的動作分解為有時序關(guān)系的子動作,或節(jié)點(diǎn)則表示可以完成該節(jié)點(diǎn)動作的不同方式,并根據(jù)概率分布P選擇其中一個子節(jié)點(diǎn)。終端節(jié)點(diǎn)包括跟該任務(wù)相關(guān)的原子動作。

2)由于AOG定義時存在的時序依賴關(guān)系,該論文利用深度優(yōu)先遍歷的方法遍歷每個節(jié)點(diǎn),同時利用與或圖長短期記憶模型(AOG-LSTM)預(yù)測該節(jié)點(diǎn)的支路選擇。

3)由于原子動作序列非常強(qiáng)的時序依賴關(guān)系,該論文同樣設(shè)計了一個LSTM(即Action-LSTM)時序地預(yù)測每個時刻的原子動作。具體地,原子動作Ai由一個原生動作以及一個相關(guān)物體組成,可表示為Ai=(ai, oi)。為了降低模型復(fù)雜性和預(yù)測空間的多變性,該論文假設(shè)原生動作和相關(guān)物體的預(yù)測是獨(dú)立的,并分別進(jìn)行預(yù)測。

Progressive and Cost-effective Learning

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

接著介紹一下自驅(qū)動、成本效益較高的學(xué)習(xí)方式。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

這類方法受到人類學(xué)習(xí)模式的一些啟發(fā):一是在逐步整合學(xué)習(xí)到的知識中自我探索,二是在交流的過程中不斷擴(kuò)充知識,以達(dá)到終生學(xué)習(xí)的目的。如上圖所示,在學(xué)習(xí)的初期,利用已有的標(biāo)注數(shù)據(jù)進(jìn)行初始化學(xué)習(xí),然后在大量未標(biāo)注的數(shù)據(jù)中不斷按照人機(jī)協(xié)同方式進(jìn)行樣本挖掘,以增量地學(xué)習(xí)模型和適配未標(biāo)注數(shù)據(jù)。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

在自我驅(qū)動、低成本高效益的學(xué)習(xí)方式中,課程學(xué)習(xí)和自步學(xué)習(xí)是一種有效的思路。

課程學(xué)習(xí)的基本思想,是由深度學(xué)習(xí)的開創(chuàng)者之一,YoshuaBengio教授團(tuán)隊于2009年的ICML會議上提出;而在2014年,由LuJiang等人提出了自步學(xué)習(xí)的公理化構(gòu)造條件,并說明了針對不同的應(yīng)用,可根據(jù)該公理化準(zhǔn)則延伸出各種實(shí)用的課程學(xué)習(xí)方案。這些方法首先從任務(wù)中的簡單方面學(xué)習(xí),來獲取簡單可靠的知識;然后逐漸地增加難度,來過渡到學(xué)習(xí)更復(fù)雜、更專業(yè)的知識,以完成對復(fù)雜事物的認(rèn)知。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

在目標(biāo)檢測任務(wù)中,采用大量無標(biāo)注、或者部分標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練,盡管充滿挑戰(zhàn),但仍然是實(shí)際視覺任務(wù)中成本效益較高的方式。對于這一挑戰(zhàn),往往采用主動學(xué)習(xí)的方式來解決。而目前提出的主動學(xué)習(xí)方法,往往會利用最新的檢測器,根據(jù)一個信度閾值,來尋找檢測器難以區(qū)分的復(fù)雜樣例。通過對這些樣例進(jìn)行主動標(biāo)注,進(jìn)而優(yōu)化檢測器的性能。然而,這些主動學(xué)習(xí)的方法,卻忽視了余下大量的簡單樣例。

那么,如何既考慮到少量的復(fù)雜樣例,又充分利用到大量的簡單樣例呢?

我們提出了一種主動樣本挖掘(ASM)框架,如上圖所示。對于大量未標(biāo)注的檢測數(shù)據(jù),我們采用最新的檢測器進(jìn)行檢測,并將檢測結(jié)果按照信度排序。對于信度高的檢測結(jié)果,我們直接將檢測結(jié)果作為其未標(biāo)注信息;而對于少量的信度低的檢測結(jié)果,我們采用主動學(xué)習(xí)的方式來進(jìn)行標(biāo)注。最后,利用這些數(shù)據(jù)來優(yōu)化檢測器性能。

具體來說,我們采用兩套不同的樣本挖掘方案策略函數(shù):一個用于高置信度樣本的自動偽標(biāo)注階段,另一組用于低置信度樣本的人工標(biāo)注階段。我們進(jìn)一步地引入了動態(tài)選擇函數(shù),以無縫地確定上述哪個階段用于更新未標(biāo)注樣本的標(biāo)簽。在這種方式下,我們的自監(jiān)督過程和主動學(xué)習(xí)過程可以相互協(xié)作和無縫切換,進(jìn)行樣本挖掘。此外,自監(jiān)督的過程還考慮了主動學(xué)習(xí)過程的指導(dǎo)和反饋,使其更適合大規(guī)模下物體檢測的需要。具體來說,我們引進(jìn)兩個課程:自監(jiān)督學(xué)習(xí)課程 (Self-Supervised learning Curriculum, SSC) 和主動學(xué)習(xí)課程 (Active Learning Curriculum, ALC)。SSC 用于表示一組具有高預(yù)測置信度,能控制對無標(biāo)簽樣本的自動偽標(biāo)注,而 ALC 用于表示很具有代表性,適合約束需要人工標(biāo)注的樣本。值得注意的是,在訓(xùn)練階段,SSC 以逐漸從簡單到復(fù)雜的方式,選擇偽標(biāo)簽樣本進(jìn)行網(wǎng)絡(luò)再訓(xùn)練。相比之下,ALC 間歇地將人工標(biāo)注的樣本,按照從復(fù)雜到簡單的方式,添加到訓(xùn)練中。因此,我們認(rèn)為 SSC 和 ALC 是對偶課程,彼此互補(bǔ)。通過主動學(xué)習(xí)過程來更新,這兩個對偶課程能夠有效地指導(dǎo)兩種完全不同的學(xué)習(xí)模式,來挖掘海量無標(biāo)簽樣本。使得我們的模型在提高了分類器對噪聲樣本或離群點(diǎn)的魯棒性同時,也提高了檢測的精度。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

Interpretation:上面優(yōu)化公式由(W,Y,V,U)組成,其中W指代模型參數(shù)(物體檢測器的參數(shù),我們的文章里面是Faster RCNN或者RFCN)。Y指代在自動標(biāo)注下的物體檢測器產(chǎn)生的proposal的偽標(biāo)注類別。V={v_i}^N_{i=1}指代自步學(xué)習(xí)過程(self-paced learning,在上式中為self-supervised process)下對每個proposal訓(xùn)練實(shí)例的經(jīng)驗損失權(quán)重,v_i取值為 [0,1)的一個連續(xù)值m維向量(m為類別數(shù)目)。U={u_i}^N_{i=1}指代主動學(xué)習(xí)下對每個訓(xùn)練實(shí)例的經(jīng)驗損失權(quán)重,u_i取值為一個{0,1}二值標(biāo)量。

W是我們想要學(xué)習(xí)的參數(shù),其余Y,V,U都可以看成是為了學(xué)習(xí)W而要推斷的隱變量。后兩個為權(quán)重隱變量,基于選擇函數(shù)(selector)作用于每個樣本訓(xùn)練損失。具體來說,W的優(yōu)化基于經(jīng)驗損失的加權(quán)和。因此,在每次優(yōu)化W之前,我們必須要知道Y (由于經(jīng)驗損失為判別誤差,沒有自步學(xué)習(xí)過程下的給與的偽標(biāo)注(Y),所有數(shù)據(jù)都只能利用AL的人工標(biāo)注,整個方法退化為全監(jiān)督學(xué)習(xí)) 。同時在優(yōu)化W和Y之前,我們必須要知道U和V的值(知道每一個u_i和v_i的取值,才能決定哪些訓(xùn)練實(shí)例的y值需要人工標(biāo)注(自主學(xué)習(xí)AL),那些需要機(jī)器自動推斷 (自監(jiān)督過程SS)。);同時,知道每一個u_i和v_i,才能基于選擇器(selector)推斷出經(jīng)驗誤差的訓(xùn)練權(quán)重)。給定樣本i基于u_i和v_i的值域以及選擇器可以看出,u_i=1>v_i^{j}對應(yīng)樣本會被選擇為主動學(xué)習(xí)的人工標(biāo)注對象,u_i=0<=v_i^{j}時對應(yīng)樣本會得到自動標(biāo)注。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

于是,問題落在如何推斷U和V這兩個權(quán)重隱變量集合身上。容易看出U和V要聯(lián)合推斷,而如何選擇U和V則由每個訓(xùn)練實(shí)例的經(jīng)驗損失以及其對于各自的控制函數(shù)(f_SS, f_AL)決定。f_SS的具體解釋可以參考自步課程學(xué)習(xí)(self-paced curriculum learning),簡單的理解就是優(yōu)先選擇訓(xùn)練損失較小的樣本進(jìn)行學(xué)習(xí),這表現(xiàn)為訓(xùn)練損失越小賦予的權(quán)重越大。隨著lambda變大(優(yōu)化過程中,lambda和gamma都會逐漸變大),訓(xùn)練會開始接納具有更大訓(xùn)練誤差的樣本。f_AL相反,主動學(xué)習(xí)一開始會從訓(xùn)練誤差較大的樣本(樣本誤差比較小的會被置零,從而被選擇為自監(jiān)督過程并且得到自動標(biāo)注)中選擇并進(jìn)行人工標(biāo)注。隨著gamma增大,主動學(xué)習(xí)會開始接納更小的誤差的樣本。

模型函數(shù) f_SS代表了一種貪心的自監(jiān)督的策略。它大大地節(jié)省了人工標(biāo)注量,但是對于累計預(yù)測誤差造成的語義惡化無能為力。并且,f_SS極大依賴于初始參數(shù) W。由于模型函數(shù) f_AL存在,我們可以有效地克服這些缺點(diǎn)。f_AL選擇樣本給用戶進(jìn)行后處理,通過f_AL獲得的人工標(biāo)注被認(rèn)為是可靠的,這種過程應(yīng)該持續(xù)到訓(xùn)練結(jié)束。值得一提的是,通過 f_SS進(jìn)行的偽標(biāo)注只有在訓(xùn)練迭代中是可靠的,并且應(yīng)該被適當(dāng)?shù)恼{(diào)整來引導(dǎo)每個階段更魯棒的網(wǎng)絡(luò)參數(shù)的學(xué)習(xí)。實(shí)際上,f_SS和f_AL是同時作用與每一個樣本的,這會等價于一個minimax的優(yōu)化問題。

另一方面,U和V在推斷時需要考慮前一階段已經(jīng)由主動學(xué)習(xí)中的人手工標(biāo)記好的信息。我們利用之前的人手工標(biāo)記好的信息,定義了兩個基于U和V的取值約束,稱為“對偶課程”(Dual Curricula)。該約束項將被自主學(xué)習(xí)選過的訓(xùn)練樣本,如該樣本屬于m個類別之中的一類,我們將其為u和v值設(shè)定為1;如該樣本不在m個類別之中,我們將其u和v值設(shè)定為0。這意味著我們的訓(xùn)練框架可以容納新類別的發(fā)掘,同時不會讓新類別影響檢測器的訓(xùn)練。V^{lambda}_{i}和U^^{lambda}_{i}只基于之前AL選擇后的結(jié)果分別對u和v值進(jìn)行約束。

形象來說,我們采用兩套不同的樣本挖掘方案策略函數(shù):一個用于高置信度樣本的自動偽標(biāo)注模式,另一組用于低置信度樣本的人工標(biāo)注模式。我們進(jìn)一步地引入了動態(tài)選擇函數(shù),以無縫地確定上述哪個階段用于更新未標(biāo)注樣本的標(biāo)簽。在這種方式下,我們的自監(jiān)督過程和主動學(xué)習(xí)過程可以相互協(xié)作和無縫切換,進(jìn)行樣本挖掘。此外,自監(jiān)督的過程還考慮了主動學(xué)習(xí)過程的指導(dǎo)和反饋,使其更適合大規(guī)模下物體檢測的需要。具體來說,我們引進(jìn)兩個課程:自監(jiān)督學(xué)習(xí)課程 (Self-Supervised learning Curriculum, SSC) 和主動學(xué)習(xí)課程 (Active Learning Curriculum, ALC)。SSC 用于表示一組具有高預(yù)測置信度,能控制對無標(biāo)簽樣本的自動偽標(biāo)注,而 ALC 用于表示很具有代表性,適合約束需要人工標(biāo)注的樣本。值得注意的是,在訓(xùn)練階段,SSC 以逐漸從簡單到復(fù)雜的方式,選擇偽標(biāo)簽樣本進(jìn)行網(wǎng)絡(luò)再訓(xùn)練。相比之下,ALC 間歇地將人工標(biāo)注的樣本,按照從復(fù)雜到簡單的方式,添加到訓(xùn)練中。因此,我們認(rèn)為 SSC 和 ALC 是對偶課程,彼此互補(bǔ)。通過主動學(xué)習(xí)過程來更新,這兩個對偶課程能夠有效地指導(dǎo)兩種完全不同的學(xué)習(xí)模式,來挖掘海量無標(biāo)簽樣本。使得我們的模型在提高了分類器對噪聲樣本或離群點(diǎn)的魯棒性同時,也提高了檢測的精度。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

基于u和v的聯(lián)合推斷構(gòu)成了一個可基于訓(xùn)練實(shí)例分解的minmax優(yōu)化問題。對于每一個訓(xùn)練實(shí)例u和v,我們證明了在滿足一定條件下,該推斷具有基于上式表達(dá)的閉式解 (具體考究這個有點(diǎn)復(fù)雜,可以參考我們的文章)。大概意思是,在考慮訓(xùn)練實(shí)例i的類別經(jīng)驗誤差和的時候,大于第一個閾值會u_i值會收斂為1 (大括號里面第一種情況)。由于v^{j}_i<1,我們知道該實(shí)例會被選作人工標(biāo)注。另一方面,在類別經(jīng)驗誤差和小于另一個閾值(大括號第二行第一個不等式)時,u_i值會收斂為0。由于v^{j}_i>=0,我們知道該實(shí)例會被選作機(jī)器自動標(biāo)注,同時根據(jù)誤差大小,相應(yīng)賦予不同的權(quán)重。當(dāng)誤差越大,自動標(biāo)注越有可能出錯,于是自動賦予權(quán)重越小。在大于某一值域(大括號第二行第二個不等式)下,v和u都會同時為零,這意味著該樣本不參與本輪訓(xùn)練。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

上圖展示了提出的框架(ASM)在目標(biāo)檢測中的應(yīng)用。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

在PASCALVOC2007/2012結(jié)果中,我們的方法僅僅利用大約30~40%左右的標(biāo)注數(shù)據(jù),就能達(dá)到state-of-the-arts的檢測性能。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

如何利用大量原始視頻學(xué)習(xí)

類似的策略可以應(yīng)用在人體分割任務(wù)中,我們利用人體檢測器、和無監(jiān)督的分割方法,從大量的原始視頻(來自YouTube)中生成人體掩膜。這些掩膜信息可以作為分割網(wǎng)絡(luò)的標(biāo)注信息。同時,結(jié)合分割網(wǎng)絡(luò)輸出的信度圖,對人體檢測器提取的候選區(qū)域結(jié)果進(jìn)行修正,以生成更好的人體掩膜。

Unsupervised Domain Adaptation

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

為了適配不同領(lǐng)域數(shù)據(jù)間的分布,解決目標(biāo)任務(wù)缺乏數(shù)據(jù)標(biāo)注的難題,我們將探索無監(jiān)督領(lǐng)域自適應(yīng)學(xué)習(xí)方法,包括單數(shù)據(jù)源領(lǐng)域自適應(yīng)、以及多數(shù)據(jù)源領(lǐng)域自適應(yīng)。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

單數(shù)據(jù)源領(lǐng)域自適應(yīng)

在應(yīng)用場景中,往往存在某一領(lǐng)域的可用數(shù)據(jù)過少,而其他類似領(lǐng)域的可用數(shù)據(jù)充足,因此,衍生出了一系列遷移學(xué)習(xí)的方式,以做到跨領(lǐng)域的自適應(yīng)。例如,在圖示的任務(wù)中,源域的數(shù)據(jù)一般是帶有標(biāo)注信息的,而目標(biāo)域的數(shù)據(jù)不僅與源域中的數(shù)據(jù)含有不同的分布,往往還沒有標(biāo)注信息。因此,通過將學(xué)習(xí)到的知識從源域遷移到目標(biāo)域,來提高算法在目標(biāo)域數(shù)據(jù)上的性能。

因此,需要聯(lián)合有標(biāo)注的源域數(shù)據(jù)和無標(biāo)注的目標(biāo)域數(shù)據(jù),來學(xué)習(xí)一個與域無關(guān)的特征,來進(jìn)行最終在目標(biāo)域上的預(yù)測。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

多數(shù)據(jù)源領(lǐng)域自適應(yīng)

而對于從多數(shù)據(jù)源向目標(biāo)域遷移學(xué)習(xí)的情況,將更加復(fù)雜,需要考慮:1.多種源域數(shù)據(jù)本身之間具有偏差 2.多種源域數(shù)據(jù)間類別存在偏差。

因此我們提出了一種名為“雞尾酒”的網(wǎng)絡(luò),以解決將知識從多種源域的數(shù)據(jù)向目標(biāo)域的數(shù)據(jù)中遷移的問題。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

“雞尾酒”網(wǎng)絡(luò)

雞尾酒網(wǎng)絡(luò)用于學(xué)習(xí)基于多源域(我們的圖示僅簡化地展示了j,k兩個源域)下的域不變特征(domaininvariantfeature)。在具體數(shù)據(jù)流中,我們利用共享特征網(wǎng)絡(luò)對所有源域以及目標(biāo)域進(jìn)行特征建模,然后利用多路對抗域適應(yīng)技術(shù)(基于單路對抗域適應(yīng)(adversarial domainadaptation)下的擴(kuò)展,對抗域適應(yīng)的共享特征網(wǎng)絡(luò)對應(yīng)于生成對抗學(xué)習(xí)(GAN)里面的生成器),每個源域分別與目標(biāo)域進(jìn)行兩兩組合對抗學(xué)習(xí)域不變特征。同時每個源域也分別進(jìn)行監(jiān)督學(xué)習(xí),訓(xùn)練基于不同源類別下的多個softmax分類器。注意到,基于對抗學(xué)習(xí)的建模,我們在得到共享特征網(wǎng)絡(luò)的同時,也可以得到多個源分別和目標(biāo)域?qū)沟呐袆e器。這些判別器在對于每一個目標(biāo)域的數(shù)據(jù),都可以給出該數(shù)據(jù)分別與每一個源域之間的混淆度(perplexityscore)。因此,對于每一個來自目標(biāo)域的數(shù)據(jù),我們首先利用不同源下的softmax分類器給出其多個分類結(jié)果。然后,基于每一個類別,我們找到包含該類別的所有源域softmax分類概率,再基于這些源域與目標(biāo)域的混淆度,對分類概率取加權(quán)平均得到每個類別的分?jǐn)?shù)。簡而言之就是,越跟目標(biāo)域相識的源域混淆度會更高,意味著其分類結(jié)果更可信從而具有更高的加權(quán)權(quán)值。

需要注意的是,我們并沒有直接作用于所有softmax分類器上反而是基于每個類別分別進(jìn)行加權(quán)平均處理。這是因為在我們的假設(shè)下,每個源的類別不一定共享,從而softmax結(jié)果不能簡單相加。當(dāng)然,我們的方法也適用于所有源共享類別的情況,這樣我們的公式會等價于直接將softmax分類結(jié)果進(jìn)行加權(quán)相加。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

其中,L_adv 是對抗損失,當(dāng)訓(xùn)練判別器時用傳統(tǒng)的GAN loss,當(dāng)訓(xùn)練feature extractor時用confusion loss。L_cls是多源域(multiple source domains)分類損失,C為多源域softmax分類器。N是source的數(shù)目,s_j 代表第j個source,C_{s_j}代表第j個source的softmax 分類器 (用C來表示全部source的分類輸出),D_{s_j}代表第j個source跟target對抗的判別器 (用D來表示全部的對抗結(jié)果),F(xiàn)為feature extractor。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

我們分別在Office-31、ImageCLEF-DA、Digit-five數(shù)據(jù)集上進(jìn)行了測評,我們的方法取得了很好的結(jié)果。

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

從產(chǎn)業(yè)落地以及學(xué)術(shù)創(chuàng)新兩種視角出發(fā),探索后深度學(xué)習(xí)時代的新挑戰(zhàn)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28900

    瀏覽量

    266267
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8808

    瀏覽量

    137000
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5422

    瀏覽量

    120597

原文標(biāo)題:后深度學(xué)習(xí)時代:弱監(jiān)督學(xué)習(xí)、自主學(xué)習(xí)與自適應(yīng)學(xué)習(xí)如何用于視覺理解

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    國產(chǎn)深度學(xué)習(xí)框架的挑戰(zhàn)和機(jī)會

    試算法,就可以更快速、更高效。通俗一點(diǎn)講,深度學(xué)習(xí)框架相當(dāng)于是AI時代的操作系統(tǒng),如同PC時代Windows,移動互聯(lián)網(wǎng)時代的iOS和安卓。
    的頭像 發(fā)表于 06-07 00:01 ?3794次閱讀

    兩種典型的電池供電電路的設(shè)計方案

    本文設(shè)計手持產(chǎn)品的工作實(shí)踐出發(fā),討論兩種典型的電池供電電路的設(shè)計情況。##軟開關(guān)電路的開/關(guān)機(jī)的過程分為兩種情況。
    發(fā)表于 05-08 11:52 ?7049次閱讀

    2017全國深度學(xué)習(xí)技術(shù)應(yīng)用大會

    摘要:自然語言理解和機(jī)器翻譯被認(rèn)為是人工智能的核心難題之一,那么什么是自然語言理解?其研究現(xiàn)狀、挑戰(zhàn)和未來的發(fā)展方向是什么?近三年來,深度學(xué)習(xí)技術(shù)使很多人工智能問題的準(zhǔn)確率得到顯著提
    發(fā)表于 03-22 17:16

    Nanopi深度學(xué)習(xí)之路(1)深度學(xué)習(xí)框架分析

    ://www.sohu.com/a/204207587_99960938而我現(xiàn)在要考慮的是跨平臺、跨系統(tǒng)性能強(qiáng),并支持Nanopi2的深度學(xué)習(xí)算法庫。近年TensorFlow開源
    發(fā)表于 06-04 22:32

    labview深度學(xué)習(xí)檢測藥品類缺陷

    ` 本帖最后由 wcl86 于 2021-5-28 19:37 編輯 通過labview深度學(xué)習(xí)標(biāo)注工具對樣本進(jìn)行標(biāo)注,類NG進(jìn)行標(biāo)注,標(biāo)注完成擴(kuò)展樣本數(shù)量級,以少量樣本獲得較
    發(fā)表于 05-27 22:25

    掌握原理圖輸入以及Verilog的兩種設(shè)計方法

    過1位全加器的詳細(xì)設(shè)計,掌握原理圖輸入以及Verilog的兩種設(shè)計方法。
    發(fā)表于 11-08 07:57

    儲能、阻抗兩種不同視角解析電容去耦原理

    在看資料的時候感到有些迷惑。其實(shí),這兩種提法,本質(zhì)上是相同的,只不過看待問題的視角不同而已。為了讓大家有個清楚的認(rèn)識,本文分別介紹一下這兩種解釋。
    發(fā)表于 01-05 19:10 ?3949次閱讀
    <b class='flag-5'>從</b>儲能、阻抗<b class='flag-5'>兩種</b>不同<b class='flag-5'>視角</b>解析電容去耦原理

    深度學(xué)習(xí)的三基本結(jié)構(gòu)及原理詳解

    深度學(xué)習(xí)是計算機(jī)領(lǐng)域中目前非?;鸬脑掝},不僅在學(xué)術(shù)界有很多論文,在業(yè)界也有很多實(shí)際運(yùn)用。本篇博客主要介紹了三基本的深度
    發(fā)表于 11-15 11:53 ?4.8w次閱讀

    深度學(xué)習(xí)時代的新主宰:可微編程

    深度學(xué)習(xí)自誕生之日起,即面臨著黑盒智能、可解釋性差等質(zhì)疑, 發(fā)展至今,不可否認(rèn)地帶來了一波人工智能的發(fā)展熱潮,然而正面臨研究熱情漸褪、算法紅利逐漸消失等問題,整個學(xué)術(shù)界都在討論,
    的頭像 發(fā)表于 06-08 11:51 ?4640次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>時代</b>的新主宰:可微編程

    如何理解深度學(xué)習(xí)?深度學(xué)習(xí)的理論探索分析

    普林斯頓大學(xué)計算機(jī)科學(xué)系教授Sanjeev Arora做了深度學(xué)習(xí)理論理解探索的報告,包括三個部分:
    的頭像 發(fā)表于 10-03 12:41 ?3599次閱讀

    FPGA在深度學(xué)習(xí)領(lǐng)域的應(yīng)用

    本文硬件加速的視角考察深度學(xué)習(xí)與FPGA,指出有哪些趨勢和創(chuàng)新使得這些技術(shù)相互匹配,并激發(fā)對FPGA如何幫助
    的頭像 發(fā)表于 06-28 17:31 ?6792次閱讀

    兩種深度學(xué)習(xí)技術(shù)部署:在設(shè)備上在云端和邊緣

    如今,有兩種可能的深度學(xué)習(xí)技術(shù)部署:直接在設(shè)備上在云端和邊緣。由于對處理能力和內(nèi)存消耗的廣泛需求以及AI模型的規(guī)模,這些部署中的大多數(shù)依賴于云。盡管云部署使AI可以從高性能計算系統(tǒng)的功
    的頭像 發(fā)表于 12-09 11:18 ?4079次閱讀

    何時使用機(jī)器學(xué)習(xí)深度學(xué)習(xí)

      鑒于科學(xué)的快速增長和發(fā)展,了解使用哪些人工智能技術(shù)來推進(jìn)項目可能具有挑戰(zhàn)性。本文概述了機(jī)器學(xué)習(xí)深度學(xué)習(xí)之間的差異,以及如何確定何時應(yīng)用
    的頭像 發(fā)表于 11-30 14:22 ?880次閱讀

    什么是深度學(xué)習(xí)算法?深度學(xué)習(xí)算法的應(yīng)用

    什么是深度學(xué)習(xí)算法?深度學(xué)習(xí)算法的應(yīng)用 深度學(xué)習(xí)算法被認(rèn)為是人工智能的核心,它是一
    的頭像 發(fā)表于 08-17 16:03 ?1866次閱讀

    機(jī)器學(xué)習(xí)深度學(xué)習(xí)的區(qū)別

      機(jī)器學(xué)習(xí)深度學(xué)習(xí)是當(dāng)今最流行的人工智能(AI)技術(shù)之一。這兩種技術(shù)都有助于在不需要人類干預(yù)的情況下讓計算機(jī)自主學(xué)習(xí)和改進(jìn)預(yù)測模型。本文
    發(fā)表于 08-28 17:31 ?1344次閱讀