您好,歡迎來(lái)電子發(fā)燒友網(wǎng)! ,新用戶?[免費(fèi)注冊(cè)]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

將深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)有機(jī)結(jié)合的研究

大?。?/span>0.6 MB 人氣: 2017-10-09 需要積分:1
作為首位美國(guó)人工智能協(xié)會(huì)(AAAI)華人Fellow,唯一AAAI華人Councilor,國(guó)際頂級(jí)學(xué)術(shù)會(huì)議KDD、IJCAI等大會(huì)主席,香港科技大學(xué)計(jì)算機(jī)與工程系主任楊強(qiáng)教授在國(guó)內(nèi)外機(jī)器學(xué)習(xí)界聲譽(yù)卓著。在此前接受CSDN采訪時(shí),楊強(qiáng)介紹了他目前的主要工作——致力于一個(gè)將深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)有機(jī)結(jié)合的Reinforcement Transfer Learning(RTL)體系的研究。那么,這個(gè)技術(shù)框架對(duì)工業(yè)界的實(shí)際應(yīng)用有什么用的實(shí)際意義?在本文中,CSDN結(jié)合楊強(qiáng)的另外一個(gè)身份——國(guó)內(nèi)人工智能創(chuàng)業(yè)公司第四范式首席科學(xué)家進(jìn)行解讀。
  第四范式是原百度T10專家、楊強(qiáng)的弟子、遷移學(xué)習(xí)大牛戴文淵創(chuàng)立的公司,最初的定位是數(shù)據(jù)量豐富并且業(yè)務(wù)極為依賴數(shù)字化的金融領(lǐng)域,楊強(qiáng)在學(xué)術(shù)之余希望推廣人工智能技術(shù)在國(guó)內(nèi)的發(fā)展,參與了第四范式的創(chuàng)業(yè)。該公司最近發(fā)布了一個(gè)先知平臺(tái),自動(dòng)化、智能化的機(jī)器學(xué)習(xí)全流程為一大賣點(diǎn),核心技術(shù)就是RTL。
  參與創(chuàng)業(yè)的初衷
  CSDN:您之所以參加第四范式的創(chuàng)業(yè),除了師生關(guān)系,還有其他的驅(qū)動(dòng)因素?
  楊強(qiáng):其實(shí)我們一直熱衷于一件事:讓我們的技術(shù)走向社會(huì),我們一直在研究人工智能和遷移學(xué)習(xí),另外我們也看到了很多大公司的局限,很多大公司有自己的想法和目標(biāo),一個(gè)研究者并不能百分之百地發(fā)揮自己的想象力,所以我們就想自己做一個(gè)有情懷的公司,來(lái)支持我們自己做一些想做的事情。一個(gè)很好的例子就是Google的Deepmind,就是做他們想做的事情,這對(duì)我們來(lái)說(shuō)是一個(gè)更重要的啟發(fā)。
  我的工作涉及設(shè)計(jì)算法,包括強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)的算法,在工程方面團(tuán)隊(duì)有很多優(yōu)秀的工程師已經(jīng)在大公司受過(guò)很多的磨煉,所以我們是互補(bǔ)的。
  CSDN:第四范式公開介紹的核心技術(shù),包括您說(shuō)到的深度學(xué)習(xí)、遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí),還有一個(gè)記憶網(wǎng)絡(luò),第四范式的技術(shù)體系和您研究的RTL體系是完全一致的嗎?
  楊強(qiáng):是一致的,當(dāng)然是不是完全使用還看具體場(chǎng)景。我們比較認(rèn)可的是強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí),當(dāng)用不同的結(jié)構(gòu)把它們給組合起來(lái),就是一種很新的好的學(xué)習(xí)方式。這種方式在現(xiàn)在還不是很流行,我們預(yù)計(jì)在今后幾年都會(huì)用起來(lái),也會(huì)通過(guò)我們的平臺(tái)推動(dòng)起來(lái)。
  深度學(xué)習(xí)的局限
  CSDN:您如何看待深度學(xué)習(xí)的優(yōu)勢(shì)和局限?
  楊強(qiáng):深度學(xué)習(xí)的局限來(lái)自于幾個(gè)方面:
  表達(dá)能力的限制。因?yàn)橐粋€(gè)模型畢竟是一種現(xiàn)實(shí)的反映,等于是現(xiàn)實(shí)的鏡像,它能夠描述現(xiàn)實(shí)的能力越強(qiáng)就越準(zhǔn)確,而機(jī)器學(xué)習(xí)都是用變量來(lái)描述世界的,它的變量數(shù)是有限的,深度學(xué)習(xí)的深度也是有限的。另外它對(duì)數(shù)據(jù)的需求量隨著模型的增大而增大,但現(xiàn)實(shí)中有那么多高質(zhì)量數(shù)據(jù)的情況還不多。所以一方面是數(shù)據(jù)量,一方面是數(shù)據(jù)里面的變量、數(shù)據(jù)的復(fù)雜度,深度學(xué)習(xí)來(lái)描述數(shù)據(jù)的復(fù)雜度還不夠復(fù)雜。
  缺乏反饋機(jī)制。目前深度學(xué)習(xí)對(duì)圖像識(shí)別、語(yǔ)音識(shí)別等問(wèn)題來(lái)說(shuō)是最好的,但是對(duì)其他的問(wèn)題并不是最好的,特別是有延遲反饋的問(wèn)題,例如機(jī)器人的行動(dòng),AlphaGo下圍棋也不是深度學(xué)習(xí)包打所有的,它還有強(qiáng)化學(xué)習(xí)的一部分,反饋是直到最后那一步才知道你的輸贏。還有很多其他的學(xué)習(xí)任務(wù)都不一定是深度學(xué)習(xí)才能來(lái)完成的。
  CSDN:微軟的深度殘差網(wǎng)絡(luò)是不是能解決表達(dá)能力的問(wèn)題?
  楊強(qiáng):那是一個(gè)很好的躍進(jìn),它的層數(shù)也很多,表達(dá)能力很顯然往前推進(jìn)了很多。但即使如此,它也沒有解決所有的表達(dá)的問(wèn)題。因?yàn)樗黾拥氖菍訑?shù)、層和層之間的連接數(shù),而不是變量數(shù),所以在變量數(shù)上還是有局限的。我們認(rèn)為深度稀疏網(wǎng)絡(luò)在變量數(shù)的容納能力方面更強(qiáng)。
  CSDN:遷移學(xué)習(xí)能解決哪些問(wèn)題?
  楊強(qiáng):它主要解決兩個(gè)問(wèn)題。
  小數(shù)據(jù)的問(wèn)題。比方說(shuō)我們新開一個(gè)網(wǎng)店,賣一種新的糕點(diǎn),我們沒有任何的數(shù)據(jù),就無(wú)法建立模型對(duì)用戶進(jìn)行推薦。但用戶買一個(gè)東西會(huì)反應(yīng)到用戶可能還會(huì)買另外一個(gè)東西,所以如果知道用戶在另外一個(gè)領(lǐng)域,比方說(shuō)買飲料,已經(jīng)有了很多很多的數(shù)據(jù),利用這些數(shù)據(jù)建了一個(gè)模型,就知道用戶飲料的習(xí)慣和糕點(diǎn)的習(xí)慣可能是有關(guān)聯(lián)的,我們就可以把飲料的推薦模型給成功地遷移到糕點(diǎn)的領(lǐng)域,使得對(duì)于糕點(diǎn)隨著數(shù)據(jù)不多,但是可以成功的推薦一些用戶可能喜歡的糕點(diǎn)。這個(gè)例子就說(shuō)明了我們有兩個(gè)領(lǐng)域,一個(gè)領(lǐng)域已經(jīng)有很多的數(shù)據(jù),能成功地建一個(gè)模型,有一個(gè)領(lǐng)域數(shù)據(jù)不多,但是和前面那個(gè)領(lǐng)域是關(guān)聯(lián)的,我們就可以把那個(gè)模型給遷移過(guò)來(lái)。
  個(gè)性化的問(wèn)題,我們每個(gè)人都希望自己的手機(jī)能夠記住我們的一些習(xí)慣,這樣不用我們每次都去設(shè)定它,我們?cè)趺床拍茏屖謾C(jī)記住這一點(diǎn)呢?其實(shí)可以通過(guò)遷移學(xué)習(xí)把一個(gè)通用用戶的使用手機(jī)的模型遷移到個(gè)性化的數(shù)據(jù)上面,我想這種以后會(huì)越來(lái)越多。其實(shí)在硅谷的關(guān)鍵詞就是個(gè)性化。
  RTL的實(shí)踐
  CSDN:第四范式的官方介紹是有100多個(gè)案例,不知道您參與了多少,強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)遇到的實(shí)際的問(wèn)題是什么?
  楊強(qiáng):我不能一一地說(shuō),但有幾個(gè)關(guān)鍵的我參與了,這里面用了很多不同的機(jī)器學(xué)習(xí)的算法,深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)只是其中的一部分。我要說(shuō)的一點(diǎn)是,我們?cè)诠窘⒌某跗谟玫帽容^多的就是大規(guī)模邏輯回歸和深度學(xué)習(xí)。即使加上深度學(xué)習(xí),這個(gè)學(xué)習(xí)模式也有它的缺陷——在很多情況下我們得到的反饋是延遲的,這種延遲反饋是深度學(xué)習(xí)所不能解決的。我們就引入了強(qiáng)化學(xué)習(xí)來(lái)解決它,是有一種自我學(xué)習(xí)的過(guò)程,類似AlphaGo自我對(duì)弈,不斷地提高。遷移學(xué)習(xí),比方說(shuō)我們?cè)谝粋€(gè)金融領(lǐng)域已經(jīng)建立了一個(gè)很好的模型,但我們遇到了一個(gè)新的領(lǐng)域怎么辦呢?解決所謂的冷啟動(dòng)問(wèn)題就是利用遷移學(xué)習(xí),當(dāng)數(shù)據(jù)收集得足夠多了以后,我們?cè)俑挠蒙疃葘W(xué)習(xí)。
  強(qiáng)化學(xué)習(xí)
  CSDN:強(qiáng)化學(xué)習(xí)的應(yīng)用應(yīng)該關(guān)注哪些方面呢?
  楊強(qiáng):強(qiáng)化學(xué)習(xí)的應(yīng)用其實(shí)很廣,最開始應(yīng)用是在機(jī)器人上的應(yīng)用,比方說(shuō)你告訴Google AlphaGo到冰箱里給我拿一瓶牛奶過(guò)來(lái),AlphaGo就不會(huì),那個(gè)路徑的編程和怎么樣打開冰箱都需要人寫到程序里。怎么才能學(xué)會(huì)呢?這就需要強(qiáng)化學(xué)習(xí)來(lái)做,你讓他試很多次,有時(shí)候拿到有時(shí)候沒有拿到,有時(shí)候通過(guò)例子,讓強(qiáng)化學(xué)習(xí)的方法學(xué)習(xí)優(yōu)化的路徑,所以一開始強(qiáng)化學(xué)習(xí)是在機(jī)器人的路徑規(guī)劃和任務(wù)完成上來(lái)進(jìn)行的,但最近就發(fā)現(xiàn),原來(lái)強(qiáng)化學(xué)習(xí)的應(yīng)用面特別廣,可以用在很多反饋上,但這個(gè)反饋不是馬上可以得到的,比如說(shuō)金融就是一個(gè)例子,醫(yī)療也是一個(gè)例子,對(duì)藥品和醫(yī)療方案的反饋,然后包括教育都是很好的例子。
  CSDN:我們用到的Q Learning?
  楊強(qiáng):用到了。但現(xiàn)在比較流行的做法是Deep Q Learning。
  CSDN:關(guān)于擴(kuò)張和探索平衡您有什么樣的見解?
  楊強(qiáng):擴(kuò)張和探索這個(gè)平衡一直是強(qiáng)化學(xué)習(xí)里面的一個(gè)大難題,現(xiàn)在沒有特別好的通用做法,應(yīng)該在不同的領(lǐng)域有不同的思路,在圍棋領(lǐng)域尤其明顯,比方說(shuō)樹搜索的寬度和深度之間就是一個(gè)平衡,但這個(gè)平衡AlphaGo做得很好。所以可能在機(jī)器人的領(lǐng)域,也需要引入這樣的一個(gè)平衡點(diǎn),這個(gè)平衡點(diǎn)也是需要去學(xué)習(xí)的。
  遷移學(xué)習(xí)
  CSDN:目前遷移能做到從金融領(lǐng)域遷移到其他領(lǐng)域么?
  楊強(qiáng):跨領(lǐng)域是比較難的,一般是比領(lǐng)域里不同的業(yè)務(wù)之間做遷移,跨領(lǐng)域在學(xué)術(shù)界有做的,比方說(shuō)網(wǎng)絡(luò)搜索可以遷移到推薦,圖象識(shí)別可以遷移到文本識(shí)別,這些在學(xué)術(shù)界都有不錯(cuò)的工作,但是真的把它應(yīng)用到工業(yè)界,還是拭目以待。
  CSDN:難點(diǎn)在哪里?
  楊強(qiáng):跨領(lǐng)域的時(shí)候我們需要另外的一種數(shù)據(jù)來(lái)幫助我們,那種數(shù)據(jù)就是在兩個(gè)領(lǐng)域之間的橋梁數(shù)據(jù),把它們銜接起來(lái),這種數(shù)據(jù)往往在工業(yè)界中是隱式的,往往是在人的腦袋里,沒有被記錄下來(lái)的。所以我說(shuō)人工智能的發(fā)展還在很初級(jí)的階段,我們沒有連成片而是一個(gè)一個(gè)申請(qǐng)?jiān)诖?,到了我們能連成片的階段那時(shí)候有新的成果出來(lái),會(huì)是一加一大于二的結(jié)果。
  CSDN:在每個(gè)行業(yè)都有一定的成熟的應(yīng)用之后才能真正用起來(lái)是么?
  楊強(qiáng):對(duì),這個(gè)是要有耐心和足夠的積累才可以發(fā)現(xiàn)不同領(lǐng)域之間的關(guān)聯(lián)。以醫(yī)療企業(yè)舉例,在基因檢測(cè)領(lǐng)域已經(jīng)有了很多的數(shù)據(jù),體驗(yàn)有了很多的數(shù)據(jù),但畢竟基因檢測(cè)和體檢是兩個(gè)不同的領(lǐng)域,所以他們之間的關(guān)聯(lián)很少,但當(dāng)我們有了用戶的行為數(shù)據(jù),對(duì)用戶有長(zhǎng)期的跟蹤,這樣就可以把這兩個(gè)數(shù)據(jù)關(guān)聯(lián)起來(lái)了,有了這個(gè)我們就可以把兩個(gè)領(lǐng)域都關(guān)聯(lián)起來(lái)。
  CSDN:除此之外遷移學(xué)習(xí)還需要關(guān)注哪些問(wèn)題?
  楊強(qiáng):實(shí)際中是有做的,舉一個(gè)例子,比方說(shuō)我們知道在室外有GPS,室內(nèi)沒有,怎么辦呢?我們要定位一個(gè)很大的商場(chǎng),現(xiàn)在有一個(gè)辦法是用Wifi來(lái)定位,一個(gè)做法是拿一個(gè)手機(jī)、APP收集很多的信號(hào)數(shù)據(jù),再拿這個(gè)來(lái)訓(xùn)練,但這個(gè)數(shù)據(jù)很容易偏,這個(gè)數(shù)據(jù)收集的時(shí)候和下一個(gè)分布是不一樣的,我們是不是要重新地收集一遍?那樣太麻煩了,不可能每個(gè)小時(shí)收集一遍室內(nèi)的數(shù)據(jù),所以我們的做法是收集一遍,過(guò)后用遷移學(xué)習(xí)把偏差給做掉,利用點(diǎn)到點(diǎn)的距離,利用校正的方法,在遷移學(xué)習(xí)里有一個(gè)算法也是我們發(fā)明的,就叫做加權(quán)法,就是對(duì)過(guò)去的數(shù)據(jù)加權(quán),使得過(guò)去數(shù)據(jù)和現(xiàn)在數(shù)據(jù)比較相近的那些數(shù)據(jù)的權(quán)重比較大,比較遠(yuǎn)的數(shù)據(jù)的權(quán)重逐漸變小,在迭代多次以后,剩下的數(shù)據(jù)就是跟現(xiàn)在的數(shù)據(jù)類似的數(shù)據(jù)了,所以這種做法我們覺得行之有效?,F(xiàn)在我們?cè)谑覂?nèi)定位的領(lǐng)域做了很多的實(shí)踐,同時(shí)我要說(shuō)明這也是一種學(xué)術(shù)的做法,因?yàn)槭覂?nèi)定位還不是到工業(yè)的水平,我們也在做各種嘗試,用機(jī)器學(xué)習(xí)。
  先知平臺(tái)
  CSDN:今天談到了先知的平臺(tái)型的產(chǎn)品,我不了解我們用的技術(shù)和其他的產(chǎn)品不一樣的話,我們跟IBM、谷歌、微軟他們的一些服務(wù)或者是一些API有什么本質(zhì)的區(qū)別呢?
  楊強(qiáng):首先這是在一個(gè)金融領(lǐng)域誕生的,所以應(yīng)該是對(duì)金融領(lǐng)域是特別適用的,金融領(lǐng)域的幾個(gè)特點(diǎn)是其他的幾個(gè)通用的云平臺(tái)所不提供的。首先是變量特別多、問(wèn)題特別復(fù)雜,然后是以流的形式輸入的,流的量也特別多,transection(音)的數(shù)量也特別多,另外有很多噪音,有很多的mission data(音),并不是所有的數(shù)據(jù)都跟它有反饋在一起,這說(shuō)明在金融領(lǐng)域我們這個(gè)是最有效的。當(dāng)然,通用型的也很有必要,像Amazon、像微軟他們更趨向于通用型的云平臺(tái)。
  CSDN:金融人工智能的兩個(gè)常見場(chǎng)景,是風(fēng)控和精準(zhǔn)營(yíng)銷,能不能介紹其他的場(chǎng)景?
  楊強(qiáng):風(fēng)控和營(yíng)銷是現(xiàn)在第四范式比較成功的場(chǎng)景,已經(jīng)有很重要的客戶來(lái)買單了,這個(gè)本身就不容易,因?yàn)樵诮鹑陬I(lǐng)域?qū)@些IT公司的要求是比較高的,我覺得再往下應(yīng)該還有一些機(jī)會(huì)點(diǎn),比方說(shuō)一個(gè)機(jī)會(huì)點(diǎn)就是投資顧問(wèn),理財(cái)產(chǎn)品,怎么樣能夠讓公司在第一線而不是在后臺(tái)能夠?yàn)橥顿Y人或者是理財(cái)人提供建議、提供顧問(wèn),這可能是一個(gè)比較重要的點(diǎn)。第二個(gè)點(diǎn)可能是文本的挖掘,公司的財(cái)報(bào),社會(huì)網(wǎng)絡(luò)的輿情都會(huì)對(duì)整個(gè)市場(chǎng)有影響,那么投資市場(chǎng)是怎樣受到這些報(bào)道和新聞的影響的?這個(gè)規(guī)律是可以通過(guò)自然語(yǔ)言學(xué)習(xí)來(lái)得到的,這一點(diǎn)也是以后的一個(gè)機(jī)會(huì)點(diǎn)。
  CSDN:先知平臺(tái)關(guān)注應(yīng)用開發(fā)和算法開發(fā),能介紹一下您能解決算法開發(fā)的哪些問(wèn)題么?
  楊強(qiáng):我們有幾個(gè)重要的工作。
  第一是如何能夠建立一個(gè)算法庫(kù)和算法圖書館來(lái)幫助數(shù)據(jù)底層的清洗問(wèn)題,因?yàn)榈搅藢?shí)際中會(huì)發(fā)現(xiàn),數(shù)據(jù)和數(shù)據(jù)之間有很多的孤島,孤島和孤島之間的連接很難,因?yàn)橛泻芏鄶?shù)據(jù)是缺失的。另外還會(huì)有很多錯(cuò)誤數(shù)據(jù),如何能夠把數(shù)據(jù)改進(jìn)和連接,這些都是數(shù)據(jù)清洗的一個(gè)范疇,所以對(duì)應(yīng)這些問(wèn)題就需要建立很多的算法庫(kù),這是第一個(gè)問(wèn)題。
  第二個(gè)問(wèn)題是建立了算法庫(kù)以后要把它歸一到機(jī)器學(xué)習(xí)算法所需要的輸入格式,這種叫做數(shù)據(jù)轉(zhuǎn)換,這也是一個(gè)臟活、累活,很多算法公司不屑去做的,在實(shí)際應(yīng)用中我們發(fā)現(xiàn)這些活其實(shí)占了整個(gè)流程的80%,所以某種程度上重要如何能讓算法更快更有效更及時(shí),并且能夠在線地對(duì)到來(lái)的數(shù)據(jù)進(jìn)行分析,建立模型,所以建模這個(gè)是第三個(gè)層次。第四個(gè)層次就是剛才說(shuō)的強(qiáng)化學(xué)習(xí)的層次,能夠讓系統(tǒng)自學(xué)習(xí)而不是通過(guò)人來(lái)驅(qū)動(dòng),能通過(guò)它的錯(cuò)誤和做對(duì)的地方,能夠?qū)λ麄€(gè)的流程進(jìn)行補(bǔ)充、修正,所以是從下到上的四個(gè)階段。
  CSDN:數(shù)據(jù)免清洗是怎么做到的?
  楊強(qiáng):是因?yàn)閿?shù)據(jù)里面有很多清洗的模塊,然后很多清洗的動(dòng)作一開始是由人來(lái)做的,人操縱這些模塊,拿這些工具,但當(dāng)這種例子多了以后我們就可以把這些例子作為機(jī)器學(xué)習(xí)的一個(gè)輸入,學(xué)會(huì)一個(gè)模型又那個(gè)模型來(lái)模仿人來(lái)做。
  CSDN:這是一個(gè)通用的還是需要跟具體的業(yè)務(wù)做結(jié)合?
  楊強(qiáng):這個(gè)要跟具體的業(yè)務(wù)做結(jié)合,因?yàn)椴煌臉I(yè)務(wù)對(duì)質(zhì)量的定義是不一樣的,有些認(rèn)為這些數(shù)據(jù)里面確實(shí)有很多,有些應(yīng)用就覺得不多。
  CSDN:具體業(yè)務(wù)的數(shù)據(jù)上數(shù)據(jù)能支持輸入需求么?
  楊強(qiáng):在成功的案例上,從量的上面從質(zhì)的上面都可以,但我們要發(fā)現(xiàn)里面有很多人的聰明才智是在里面的,也就是說(shuō)數(shù)據(jù)科學(xué)家的作用,也是不可或缺的,怎么能讓領(lǐng)域科學(xué)家把自己的經(jīng)驗(yàn)轉(zhuǎn)化成數(shù)據(jù)科學(xué)家的編程的動(dòng)作。舉一個(gè)例子,你要用深度學(xué)習(xí)模型會(huì)產(chǎn)生很多的特征,但原始的特征提供的特征得包含那些,才能夠產(chǎn)生次生的特征,那么我們包括了哪些特征來(lái)到原始數(shù)據(jù)里?就需要人的直覺和聰明才智,需要數(shù)據(jù)科學(xué)家和領(lǐng)域科學(xué)家的溝通。
  解決人才的難題
  CSDN:您強(qiáng)調(diào)了數(shù)據(jù)科學(xué)家的作用。機(jī)器學(xué)習(xí)領(lǐng)域目前有很多公開的論文,和開源的算法、開源的庫(kù)/框架,我們的人才為什么還是稀缺的?
  楊強(qiáng):這就是剛才說(shuō)的臟活、累活大家都不愿意去做,因?yàn)榘l(fā)表文章和看法是很光榮的事,所以大家都集中在那邊了。我對(duì)業(yè)界的呼吁也是希望大家能夠把身段放下來(lái),做一些基本數(shù)據(jù)的處理,把重點(diǎn)放在底層。這也是為什么第四范式真的是在做一些最基本的工作,而不是從第一天開始就急著做一些很上鏡的一些事情。
  小結(jié)
  楊強(qiáng)認(rèn)為,遷移學(xué)習(xí)應(yīng)用的成熟是一個(gè)循序漸進(jìn)的過(guò)程,預(yù)計(jì)RTL在今后幾年的應(yīng)用將會(huì)更加成熟。
  事實(shí)上,強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)已經(jīng)越來(lái)越受歡迎。中國(guó)工程院院士、中國(guó)人工智能學(xué)會(huì)理事長(zhǎng)李德毅對(duì)“駕駛腦”的研究,就強(qiáng)調(diào)了反饋機(jī)制,除了將CNN用于形式化,采用強(qiáng)化學(xué)習(xí)的理念使駕駛腦越來(lái)越聰明也是一個(gè)特色。,以提升學(xué)習(xí)效率。而在微軟研究院首席研究員俞棟與鄧力合著的《解析深度學(xué)習(xí):語(yǔ)音識(shí)別實(shí)踐》一書中,多任務(wù)和遷移學(xué)習(xí)也占據(jù)了很大的篇幅。這表明,在深度學(xué)習(xí)最擅長(zhǎng)的領(lǐng)域,強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)依然有重要意義,深度學(xué)習(xí)也需要與這些算法結(jié)合使用。不過(guò),楊強(qiáng)表示,之所以是RTL而不是DRTL,是因?yàn)椴⒉皇巧疃葘W(xué)習(xí)。
?

非常好我支持^.^

(0) 0%

不好我反對(duì)

(0) 0%

      發(fā)表評(píng)論

      用戶評(píng)論
      評(píng)價(jià):好評(píng)中評(píng)差評(píng)

      發(fā)表評(píng)論,獲取積分! 請(qǐng)遵守相關(guān)規(guī)定!

      ?