0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

歸納AI領(lǐng)域一些方向的重要技術(shù)進(jìn)展

8g3K_AI_Thinker ? 2018-01-11 17:05 ? 次閱讀

人工智能最近三年發(fā)展如火如荼,學(xué)術(shù)界、工業(yè)界、投資界各方一起發(fā)力,硬件、算法與數(shù)據(jù)共同發(fā)展,不僅僅是大型互聯(lián)網(wǎng)公司,包括大量創(chuàng)業(yè)公司以及傳統(tǒng)行業(yè)的公司都開始涉足人工智能。

2017年人工智能行業(yè)延續(xù)了2016年蓬勃發(fā)展的勢(shì)頭,那么在過(guò)去的一年里AI行業(yè)從技術(shù)發(fā)展角度有哪些重要進(jìn)展?未來(lái)又有哪些發(fā)展趨勢(shì)?本文從大家比較關(guān)注的若干領(lǐng)域作為代表,來(lái)歸納AI領(lǐng)域一些方向的重要技術(shù)進(jìn)展。

從AlphaGo Zero到Alpha Zero:邁向通用人工智能的關(guān)鍵一步

DeepMind攜深度增強(qiáng)學(xué)習(xí)利器總是能夠給人帶來(lái)震撼性的技術(shù)創(chuàng)新,2016年橫空出世的AlphaGo徹底粉碎了普遍存在的“圍棋領(lǐng)域機(jī)器無(wú)法戰(zhàn)敗人類最強(qiáng)手”的執(zhí)念,但是畢竟李世石還是贏了一局,不少人對(duì)于人類翻盤大逆轉(zhuǎn)還是抱有希望,緊接著Master通過(guò)60連勝諸多頂尖圍棋高手徹底澆滅了這種期待。

2017年AlphaGo Zero作為AlphaGo二代做了進(jìn)一步的技術(shù)升級(jí),把AlphaGo一代虐得體無(wú)完膚,這時(shí)候人類已經(jīng)沒(méi)有資格上場(chǎng)對(duì)局了。2017年底AlphaGo的棋類游戲通用版本Alpha Zero問(wèn)世,不僅僅圍棋,對(duì)于國(guó)際象棋、日本將棋等其他棋類游戲,Alpha Zero也以壓倒性優(yōu)勢(shì)戰(zhàn)勝包括AlphaGo Zero在內(nèi)的目前最強(qiáng)的AI程序。

歸納AI領(lǐng)域一些方向的重要技術(shù)進(jìn)展

圖1 AlphaGo Zero的自我對(duì)弈及訓(xùn)練過(guò)程

AlphaGo Zero從技術(shù)手段上和AlphaGo相比并未有本質(zhì)上的改進(jìn),主體仍然是MCST蒙特卡洛搜索樹加神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)以及深度增強(qiáng)學(xué)習(xí)訓(xùn)練方法,但是技術(shù)實(shí)現(xiàn)上簡(jiǎn)單優(yōu)雅很多(參考圖1)。主要的改動(dòng)包含兩處:一處是將AlphaGo的兩個(gè)預(yù)測(cè)網(wǎng)絡(luò)(策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò))合并成一個(gè)網(wǎng)絡(luò),但是同時(shí)產(chǎn)生兩類所需的輸出;第二處是網(wǎng)絡(luò)結(jié)構(gòu)從CNN結(jié)構(gòu)升級(jí)為ResNet。

雖說(shuō)如此,AlphaGo Zero給人帶來(lái)的觸動(dòng)和啟發(fā)絲毫不比AlphaGo少,主要原因是AlphaGo Zero完全放棄了從人類棋局來(lái)進(jìn)行下棋經(jīng)驗(yàn)的學(xué)習(xí),直接從一張白紙開始通過(guò)自我對(duì)弈的方式進(jìn)行學(xué)習(xí),并僅僅通過(guò)三天的自我學(xué)習(xí)便獲得了遠(yuǎn)超人類千年積累的圍棋經(jīng)驗(yàn)。

這引發(fā)了一個(gè)之前一般人很期待但是同時(shí)又認(rèn)為很難完成的問(wèn)題:機(jī)器能夠不依賴有監(jiān)督方式的訓(xùn)練數(shù)據(jù)或者極少的訓(xùn)練數(shù)據(jù)自我進(jìn)化與學(xué)習(xí)嗎?如果真的能夠做到這一點(diǎn),那么是否意味著機(jī)器會(huì)快速進(jìn)化并淘汰人類?第二個(gè)問(wèn)題甚至?xí)鸩糠秩说目只拧5瞧鋵?shí)這個(gè)問(wèn)題本身問(wèn)的就有問(wèn)題,因?yàn)樗隽艘粋€(gè)錯(cuò)誤的假設(shè):AlphaGo Zero是不需要訓(xùn)練數(shù)據(jù)的。首先,AlphaGo Zero確實(shí)做到了通過(guò)自我對(duì)弈的方式進(jìn)行學(xué)習(xí),但是仍然需要大量訓(xùn)練數(shù)據(jù),無(wú)非這些訓(xùn)練數(shù)據(jù)是通過(guò)自我對(duì)弈來(lái)產(chǎn)生的。而且更根本的一點(diǎn)是應(yīng)該意識(shí)到:對(duì)于AlphaGo Zero來(lái)說(shuō),其本質(zhì)其實(shí)還是MCST蒙特卡洛樹搜索。圍棋之所以看著難度大難以克服,主要是搜索空間實(shí)在太大,單純靠暴力搜索完全不可行。如果我們假設(shè)現(xiàn)在有個(gè)機(jī)器無(wú)限強(qiáng)大,能夠快速遍歷所有搜索空間,那么其實(shí)單純使用MCST樹搜索,不依靠機(jī)器學(xué)習(xí),機(jī)器也能達(dá)到完美的博弈狀態(tài)。

AlphaGo Zero通過(guò)自我對(duì)弈以及深度增強(qiáng)學(xué)習(xí)主要達(dá)到了能夠更好地評(píng)估棋盤狀態(tài)和落子質(zhì)量,優(yōu)先選擇走那些贏面大的博弈路徑,這樣能夠舍棄大量的劣質(zhì)路徑,從而極大減少了需要搜索的空間,自我進(jìn)化主要體現(xiàn)在評(píng)估棋面狀態(tài)越來(lái)越準(zhǔn)。而之所以能夠通過(guò)自我對(duì)弈產(chǎn)生大量訓(xùn)練數(shù)據(jù),是因?yàn)橄缕迨莻€(gè)規(guī)則定義很清晰的任務(wù),到了一定狀態(tài)就能夠贏或者輸,無(wú)非這種最終的贏或者輸來(lái)得晚一些,不是每一步落子就能看到的,現(xiàn)實(shí)生活中的任務(wù)是很難達(dá)到這一點(diǎn)的,這是為何很多任務(wù)仍然需要人類提供大量訓(xùn)練數(shù)據(jù)的原因。如果從這個(gè)角度考慮,就不會(huì)錯(cuò)誤地產(chǎn)生以上的疑慮。

Alpha Zero相對(duì)AlphaGo Zero則更進(jìn)一步,將只能讓機(jī)器下圍棋拓展到能夠進(jìn)行規(guī)則定義清晰的更多棋類問(wèn)題,使得這種技術(shù)往通用人工智能的路上邁出了重要一步。其技術(shù)手段和AlphaGo Zero基本是相同的,只是去除掉所有跟圍棋有關(guān)的一些處理措施和技術(shù)手段,只告訴機(jī)器游戲規(guī)則是什么,然后使用MCST樹搜索+深度神經(jīng)網(wǎng)絡(luò)并結(jié)合深度增強(qiáng)學(xué)習(xí)自我對(duì)弈的統(tǒng)一技術(shù)方案和訓(xùn)練手段解決一切棋類問(wèn)題。

從AlphaGo的一步步進(jìn)化策略可以看出,DeepMind正在考慮這套擴(kuò)展技術(shù)方案的通用性,使得它能夠使用一套技術(shù)解決更多問(wèn)題,尤其是那些非游戲類的真實(shí)生活中有現(xiàn)實(shí)價(jià)值的問(wèn)題。同時(shí),AlphaGo系列技術(shù)也向機(jī)器學(xué)習(xí)從業(yè)人員展示了深度增強(qiáng)學(xué)習(xí)的強(qiáng)大威力,并進(jìn)一步推動(dòng)了相關(guān)的技術(shù)進(jìn)步,目前也可以看到深度增強(qiáng)學(xué)習(xí)在更多領(lǐng)域應(yīng)用的實(shí)例。

GAN:前景廣闊,理論與應(yīng)用極速發(fā)展中

GAN,全稱為Generative Adversarial Nets,直譯為“生成式對(duì)抗網(wǎng)絡(luò)”。GAN作為生成模型的代表,自2014年被Ian Goodfellow提出后引起了業(yè)界的廣泛關(guān)注并不斷涌現(xiàn)出新的改進(jìn)模型,深度學(xué)習(xí)泰斗之一的Yann LeCun高度評(píng)價(jià)GAN是機(jī)器學(xué)習(xí)界近十年來(lái)最有意思的想法。

Ian Goodfellow提出的最初的GAN盡管從理論上證明了生成器和判別器在多輪對(duì)抗學(xué)習(xí)后能夠達(dá)到均衡態(tài),使得生成器可以產(chǎn)生理想的圖像結(jié)果。但是實(shí)際上,GAN始終存在訓(xùn)練難、穩(wěn)定性差以及模型崩塌(Model Collapse)等問(wèn)題。產(chǎn)生這種不匹配的根本原因其實(shí)還是對(duì)GAN背后產(chǎn)生作用的理論機(jī)制沒(méi)有探索清楚。

過(guò)去的一年在如何增加GAN訓(xùn)練的穩(wěn)定性及解決模型崩塌方面有了可喜的進(jìn)展。GAN本質(zhì)上是通過(guò)生成器和判別器進(jìn)行對(duì)抗訓(xùn)練,逼迫生成器在不知曉某個(gè)數(shù)據(jù)集合真實(shí)分布Pdata的情形下,通過(guò)不斷調(diào)整生成數(shù)據(jù)的分布Pθ去擬合逼近這個(gè)真實(shí)數(shù)據(jù)分布Pdata,所以計(jì)算當(dāng)前訓(xùn)練過(guò)程中兩個(gè)分布Pdata和Pθ的距離度量標(biāo)準(zhǔn)就很關(guān)鍵。

Wasserstein GAN的作者敏銳地指出了:原始GAN在計(jì)算兩個(gè)分布的距離時(shí)采用的是Jensen-Shannon Divergence(JSD),它本質(zhì)上是KL Divergence(KLD)的一個(gè)變種。JSD或者KLD存在一個(gè)問(wèn)題:當(dāng)兩個(gè)分布交集很少時(shí)或者在低維流形空間下,判別器很容易找到一個(gè)判別面將生成的數(shù)據(jù)和真實(shí)數(shù)據(jù)區(qū)分開,這樣判別器就不能提供有效的梯度信息并反向傳導(dǎo)給生成器,生成器就很難訓(xùn)練下去,因?yàn)槿狈?lái)自判別器指導(dǎo)的優(yōu)化目標(biāo)。Wasserstein GAN提出了使用Earth-Mover距離來(lái)代替JSD標(biāo)準(zhǔn),這很大程度上改進(jìn)了GAN的訓(xùn)練穩(wěn)定性。后續(xù)的Fisher GAN等模型又對(duì)Wasserstein GAN進(jìn)行了進(jìn)一步的改進(jìn),這些技術(shù)陸續(xù)改善了GAN的訓(xùn)練穩(wěn)定性。模型崩塌也是嚴(yán)重制約GAN效果的問(wèn)題,它指的是生成器在訓(xùn)練好之后,只能產(chǎn)生固定幾個(gè)模式的圖片,而真實(shí)的數(shù)據(jù)分布空間其實(shí)是很大的,但是模型崩塌到這個(gè)空間的若干個(gè)點(diǎn)上。最近一年針對(duì)這個(gè)問(wèn)題也提出了比如標(biāo)簽平滑、Mini-Batch判別器等啟發(fā)式方法來(lái)解決生成器模型崩塌的問(wèn)題并取得了一定效果。

盡管在理論層面,針對(duì)GAN存在的問(wèn)題,業(yè)界在2017年提出了不少改進(jìn)方法,對(duì)于GAN的內(nèi)在工作機(jī)制也有了更深入的了解,但是很明顯目前仍然沒(méi)有理解其本質(zhì)工作機(jī)制,這塊還需要未來(lái)更有洞察力的工作來(lái)增進(jìn)我們對(duì)GAN的理解。

圖2 使用CycleGAN將照片中的貓換成狗

GAN具備非常廣泛的應(yīng)用場(chǎng)景,比如圖像風(fēng)格轉(zhuǎn)換、超分辨率圖像構(gòu)建、自動(dòng)黑白圖片上色、圖片實(shí)體屬性編輯(例如自動(dòng)給人像增加胡子、切換頭發(fā)顏色等屬性變換),不同領(lǐng)域圖片之間的轉(zhuǎn)換(例如同一個(gè)場(chǎng)景春天的圖片自動(dòng)轉(zhuǎn)換為秋天的圖片,或者白天景色自動(dòng)轉(zhuǎn)換為夜間的景色),甚至是圖像實(shí)體的動(dòng)態(tài)替換,比如把一幅圖片或者視頻中出現(xiàn)的貓換成狗(參考圖2)。

在推動(dòng)GAN應(yīng)用方面,2017年有兩項(xiàng)技術(shù)是非常值得關(guān)注的。其中一個(gè)是CycleGAN,其本質(zhì)是利用對(duì)偶學(xué)習(xí)并結(jié)合GAN機(jī)制來(lái)優(yōu)化生成圖片的效果的,采取類似思想的包括DualGAN以及DiscoGAN等,包括后續(xù)的很多改進(jìn)模型例如StarGAN等。CycleGAN的重要性主要在于使得GAN系列的模型不再局限于監(jiān)督學(xué)習(xí),它引入了無(wú)監(jiān)督學(xué)習(xí)的方式,只要準(zhǔn)備兩個(gè)不同領(lǐng)域的圖片集合即可,不需要訓(xùn)練模型所需的兩個(gè)領(lǐng)域的圖片一一對(duì)應(yīng),這樣極大擴(kuò)展了它的使用范圍并降低了應(yīng)用的普及難度。

另外一項(xiàng)值得關(guān)注的技術(shù)是英偉達(dá)采取“漸進(jìn)式生成”技術(shù)路線的GAN方案,這項(xiàng)方案的引人之處在于使得計(jì)算機(jī)可以生成1024*1024大小的高清圖片,它是目前無(wú)論圖像清晰度還是圖片生成質(zhì)量都達(dá)到最好效果的技術(shù),其生成的明星圖片幾乎可以達(dá)到以假亂真的效果(參考圖3)。英偉達(dá)這項(xiàng)由粗到細(xì),首先生成圖像的模糊輪廓,再逐步添加細(xì)節(jié)的思想其實(shí)并非特別新穎的思路,在之前的StackGAN等很多方案都采用了類似思想,它的獨(dú)特之處在于這種由粗到細(xì)的網(wǎng)絡(luò)結(jié)構(gòu)是動(dòng)態(tài)生成的而非事先固定的靜態(tài)網(wǎng)絡(luò),更關(guān)鍵的是產(chǎn)生的圖片效果特別好。

圖3 英偉達(dá)提出漸進(jìn)生成式GAN產(chǎn)生的高清頭像圖片

總而言之,以GAN為代表的生成模型在2017年無(wú)論是理論基礎(chǔ)還是應(yīng)用實(shí)踐都產(chǎn)生了很大的技術(shù)進(jìn)展,可以預(yù)計(jì)的是它會(huì)以越來(lái)越快的速度獲得研發(fā)人員的推動(dòng),并在不遠(yuǎn)的將來(lái)在各個(gè)需要?jiǎng)?chuàng)造性的領(lǐng)域獲得廣泛應(yīng)用。

Capsule:有望取代CNN的新結(jié)構(gòu)

Capsule今年才以論文的形式被人稱“深度學(xué)習(xí)教父”的Hinton老先生發(fā)表出來(lái),而且論文一出來(lái)就成為研究人員關(guān)注的焦點(diǎn),但是其實(shí)這個(gè)思想Hinton已經(jīng)深入思考了很久并且之前在各種場(chǎng)合宣傳過(guò)這種思路。Hinton一直對(duì)CNN中的Pooling操作意見很大,他曾經(jīng)吐槽說(shuō):“CNN中使用的Pooling操作是個(gè)大錯(cuò)誤,事實(shí)上它在實(shí)際使用中效果還不錯(cuò),但這其實(shí)更是一場(chǎng)災(zāi)難”。那么,MaxPooling有什么問(wèn)題值得Hinton對(duì)此深惡痛絕呢?參照?qǐng)D4所示的例子可以看出其原因。

圖4 CNN圖像分類

在上面這張圖中,給出兩張人像照片,通過(guò)CNN給出照片所屬類別及其對(duì)應(yīng)的概率。第一張照片是一張正常的人臉照片,CNN能夠正確識(shí)別出是“人類”的類別并給出歸屬概率值0.88。第二張圖片把人臉中的嘴巴和眼睛對(duì)調(diào)了下位置,對(duì)于人來(lái)說(shuō)不會(huì)認(rèn)為這是一張正常人的臉,但是CNN仍然識(shí)別為人類而且置信度不降反增為0.90。為什么會(huì)發(fā)生這種和人的直覺(jué)不符的現(xiàn)象?這個(gè)鍋還得MaxPooling來(lái)背,因?yàn)镸axPooling只對(duì)某個(gè)最強(qiáng)特征做出反應(yīng),至于這個(gè)特征出現(xiàn)在哪里以及特征之間應(yīng)該維持什么樣的合理組合關(guān)系它并不關(guān)心,總而言之,它給CNN的“位置不變性”太大自由度,所以造成了以上不符合人類認(rèn)知的判斷結(jié)果。

在Capsule的方案中,CNN的卷積層保留,MaxPooling層被拿掉。這里需要強(qiáng)調(diào)的是,Capsule本身是一種技術(shù)框架,并不單單是具體的某項(xiàng)技術(shù),Hinton論文給出的是最簡(jiǎn)單的一種實(shí)現(xiàn)方法,完全可以在遵循其技術(shù)思路情況下創(chuàng)造全新的具體實(shí)現(xiàn)方法。

要理解Capsule的思路或者對(duì)其做一個(gè)新的技術(shù)實(shí)現(xiàn)其實(shí)也不困難,只要理解其中的幾個(gè)關(guān)鍵環(huán)節(jié)就能實(shí)現(xiàn)此目的。如果用一句話來(lái)說(shuō)明其中的關(guān)鍵點(diǎn)的話,可以用“一個(gè)中心,兩個(gè)基本點(diǎn)”來(lái)概括。

這里的一個(gè)中心,指的是Capsule的核心目的是希望將“視角不變性”能力引入圖像處理系統(tǒng)中。所謂“視角不變性”,指的是當(dāng)我們給3D物體拍照片的時(shí)候,鏡頭所對(duì)的一定是物體的某個(gè)角度看上去的樣子,也就是2D照片反映3D物體一定是體現(xiàn)出了鏡頭和3D物體的某個(gè)視角角度,而不是360度的物體全貌。那么,要達(dá)到視角不變性,就是希望給定某個(gè)物體某個(gè)角度的2D照片,當(dāng)看到另外一張同一物體不同視角的2D照片時(shí),希望CNN也能識(shí)別出其實(shí)這仍然是那個(gè)物體。這就是所謂的“視角不變性”(參照?qǐng)D5,上下對(duì)應(yīng)的圖片代表同一物體的不同視角),這是傳統(tǒng)的CNN模型很難做好的事情。

圖5 視角不變性

至于說(shuō)兩個(gè)基本點(diǎn),首先第一個(gè)基本點(diǎn)是:用一維向量或者二維數(shù)組來(lái)表征一個(gè)物體或者物體的某個(gè)部件。傳統(tǒng)的CNN盡管也能用特征來(lái)表征物體或者物體的構(gòu)成部件,但是往往是通過(guò)不同層級(jí)的卷積層或者Pooling層的某個(gè)神經(jīng)元是否被激活來(lái)體現(xiàn)圖像中是否具備某個(gè)特征。Capsule則考慮用更多維的信息來(lái)記載并表征特征級(jí)別的物體,類似于自然語(yǔ)言處理中使用Word Embedding表征一個(gè)單詞的語(yǔ)義。這樣做的好處是描述物體的屬性可以更加細(xì)致,比如可以將物體的紋理、速度、方向等作為描述某個(gè)物體的具體屬性。

第二個(gè)基本點(diǎn)是:Capsule不同層間神經(jīng)元之間的動(dòng)態(tài)路由機(jī)制,具體而言是低層神經(jīng)元向高層神經(jīng)元傳遞信息時(shí)的動(dòng)態(tài)路由機(jī)制。低層特征向高層神經(jīng)元進(jìn)行動(dòng)態(tài)路由本質(zhì)上是要體現(xiàn)如下思想:構(gòu)成一個(gè)物體的組成部件之間會(huì)通過(guò)協(xié)同地相互加強(qiáng)的方式來(lái)體現(xiàn)這種“整體-組成部分”的關(guān)系,比如盡管圖片的視角發(fā)生了變換,但是對(duì)一個(gè)人臉來(lái)說(shuō),嘴和鼻子等構(gòu)成人臉的構(gòu)件會(huì)協(xié)同地發(fā)生類似的視角變換,它們?nèi)匀唤M合在一起構(gòu)成了從另外一個(gè)視角看過(guò)去的人臉。如果從本質(zhì)上來(lái)說(shuō),動(dòng)態(tài)路由機(jī)制其實(shí)是組成一個(gè)物體的構(gòu)件之間的特征聚類,通過(guò)聚類的方式把屬于某個(gè)物體的組成部分動(dòng)態(tài)地自動(dòng)找出來(lái),并建立特征的“整體-部分”的層級(jí)構(gòu)成關(guān)系(比如人臉是由鼻子、嘴、眼睛等部件構(gòu)成)。

以上所述的三個(gè)方面是深入理解Capsule的關(guān)鍵。Capsule的論文發(fā)出來(lái)后引發(fā)了大量的關(guān)注和討論,目前關(guān)于Capsule計(jì)算框架,大部分人持贊賞的態(tài)度,當(dāng)然也有一些研究人員提出了質(zhì)疑,比如論文中采用的MINST數(shù)據(jù)集規(guī)模小不夠復(fù)雜、Capsule的性能優(yōu)勢(shì)不明顯、消耗較多內(nèi)存計(jì)算速度慢等。但是無(wú)論這項(xiàng)新計(jì)算框架能否在未來(lái)取代CNN標(biāo)準(zhǔn)模型,抑或它很快會(huì)被人拋棄并遺忘,Hinton老先生這種老而彌堅(jiān)的求真治學(xué)態(tài)度,以及勇于推翻自己構(gòu)建的技術(shù)體系的勇氣,這些是值得所有人敬佩和學(xué)習(xí)的。

CTR預(yù)估:向深度學(xué)習(xí)進(jìn)行技術(shù)升級(jí)

CTR預(yù)估作為一個(gè)偏應(yīng)用的技術(shù)方向,對(duì)于互聯(lián)網(wǎng)公司而言應(yīng)該是最重要也最關(guān)注的方向之一。道理很簡(jiǎn)單,目前大型互聯(lián)網(wǎng)公司絕大多數(shù)利潤(rùn)都來(lái)源于此,因?yàn)檫@是計(jì)算廣告方向最主要的技術(shù)手段。從計(jì)算廣告的角度講,所謂CTR預(yù)估就是對(duì)于給定的用戶User,在特定的上下文Context下,如果展示給這個(gè)用戶某個(gè)廣告或者產(chǎn)品Product,估算用戶是否會(huì)點(diǎn)擊這個(gè)廣告或者是否會(huì)購(gòu)買某個(gè)產(chǎn)品,即求點(diǎn)擊概率P(Click|User,Product,Context)??梢钥吹?,這是個(gè)適用范圍很廣的技術(shù),很多推薦場(chǎng)景以及包括目前比較火的信息流排序等場(chǎng)景都可以轉(zhuǎn)換為CTR預(yù)估問(wèn)題。

CTR預(yù)估常用的技術(shù)手段包括演進(jìn)路線一般是按照:“LR→GBDT等樹模型→FM因子分解機(jī)模型→深度學(xué)習(xí)”這個(gè)路徑來(lái)發(fā)展的。深度學(xué)習(xí)在圖像視頻、語(yǔ)音、自然語(yǔ)言處理等領(lǐng)域最近幾年獲得了飛速的進(jìn)展,但是最近一兩年學(xué)術(shù)界才開始比較頻繁地陸續(xù)出現(xiàn)深度學(xué)習(xí)如何和CTR預(yù)估相結(jié)合的文章。Google最早在幾年前就開始研究這方面的內(nèi)容,之后國(guó)內(nèi)的大型互聯(lián)網(wǎng)公司也開始跟進(jìn)。

CTR預(yù)估場(chǎng)景有自己獨(dú)特的應(yīng)用特點(diǎn),而想要用深度學(xué)習(xí)解決CTR預(yù)估問(wèn)題,必須考慮如何融入和體現(xiàn)這些特點(diǎn)。我們知道,DNN模型便于處理連續(xù)數(shù)值型特征,而圖像語(yǔ)音等天然滿足這一條件,但是CTR預(yù)估場(chǎng)景會(huì)包含大量的離散特征,比如一個(gè)人的性別、畢業(yè)學(xué)校等都屬于離散特征。所以用深度學(xué)習(xí)做CTR預(yù)估首先要解決的問(wèn)題是如何表征離散特征,一種常見的方法是把離散特征轉(zhuǎn)換為Onehot表示,但是在大型互聯(lián)網(wǎng)公司應(yīng)用場(chǎng)景下,特征維度都是百億以上級(jí)別的,如果采用Onehot表征方式,意味著網(wǎng)絡(luò)模型會(huì)包含太多參數(shù)需要學(xué)習(xí)。所以目前主流的深度學(xué)習(xí)解決方案都采用將Onehot特征表示轉(zhuǎn)換為低維度實(shí)數(shù)向量(Dense Vector,類似于NLP中的Word Embedding)的思路,這樣可以大量降低參數(shù)規(guī)模。另外一個(gè)CTR關(guān)注的重心是如何進(jìn)行自動(dòng)特征組合的問(wèn)題,因?yàn)楹玫奶卣鹘M合對(duì)于性能影響非常關(guān)鍵,而深度學(xué)習(xí)天然具有端對(duì)端的優(yōu)勢(shì),所以這是神經(jīng)網(wǎng)絡(luò)模型能夠自然發(fā)揮作用的地方,能夠無(wú)需人工介入自動(dòng)找到好的特征組合,這一般體現(xiàn)在深度CTR模型的Deep網(wǎng)絡(luò)部分。

圖6 并行深度CTR網(wǎng)絡(luò)結(jié)構(gòu)

圖7 串行深度CTR網(wǎng)絡(luò)結(jié)構(gòu)

除了更早一些的流傳甚廣的Wide&Deep模型,最近一年出現(xiàn)了一些新的深度CTR模型,比如DeepFM、DeepCross、NFM模型等。這些模型其實(shí)如果仔細(xì)進(jìn)行分析,會(huì)發(fā)現(xiàn)它們?cè)诰W(wǎng)絡(luò)結(jié)構(gòu)上存在極大的相似性。除了在網(wǎng)絡(luò)結(jié)構(gòu)上體現(xiàn)上述的兩個(gè)特點(diǎn):一個(gè)是Dense Vector表示離散特征,另外一個(gè)是利用Deep網(wǎng)絡(luò)對(duì)特征組合進(jìn)行自動(dòng)建模外。另外一個(gè)主流的特點(diǎn)是將低維特征組合和高維特征組合在網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行分離,Deep網(wǎng)絡(luò)體現(xiàn)高維度特征組合,而引入神經(jīng)網(wǎng)絡(luò)版本的FM模型來(lái)對(duì)兩兩特征組合進(jìn)行建模。這三個(gè)網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn)基本囊括了目前所有深度CTR模型。圖6和圖7是兩種常見的深度CTR網(wǎng)絡(luò)結(jié)構(gòu),目前所有模型基本都采用了其中之一種結(jié)構(gòu)。

計(jì)算機(jī)視覺(jué):平穩(wěn)發(fā)展的一年

計(jì)算機(jī)視覺(jué)是AI領(lǐng)域最重要的研究方向之一,它本身又包含了諸多的研究子領(lǐng)域,包括物體分類與識(shí)別、目標(biāo)檢測(cè)與追蹤、語(yǔ)義分割、3D重建等一些基礎(chǔ)方向,也有超分辨率、圖片視頻描述、圖片著色、風(fēng)格遷移等偏應(yīng)用的方向。目前計(jì)算機(jī)視覺(jué)處理的主流技術(shù)中,深度學(xué)習(xí)已經(jīng)占據(jù)了絕對(duì)優(yōu)勢(shì)地位。

對(duì)于物體識(shí)別、目標(biāo)檢測(cè)與語(yǔ)義分割等基礎(chǔ)研究領(lǐng)域來(lái)說(shuō),F(xiàn)aster R-CNN、SSD、YOLO等技術(shù)仍然是業(yè)界最先進(jìn)最主流的技術(shù)手段。在2017年新出現(xiàn)的重要技術(shù)中,F(xiàn)acebook的何愷明等提出的Mask R-CNN獲得ICCV2017的最佳論文,它通過(guò)對(duì)Faster R-CNN增加分支網(wǎng)絡(luò)的改進(jìn)方式,同時(shí)完成了物體識(shí)別、目標(biāo)檢測(cè)與語(yǔ)義分割等基礎(chǔ)任務(wù),這展示了使用同一套技術(shù)同時(shí)解決多個(gè)基礎(chǔ)領(lǐng)域問(wèn)題的可能性,并會(huì)促進(jìn)后續(xù)相關(guān)研究的繼續(xù)深入探索;而YOLO9000以及同樣是何愷明團(tuán)隊(duì)在論文“Learning to Segment Every Thing”提出的MaskX R-CNN則體現(xiàn)了基礎(chǔ)領(lǐng)域的另外一個(gè)重要發(fā)展趨勢(shì):嘗試通過(guò)技術(shù)手段自動(dòng)識(shí)別出更多種類的物品,終極目標(biāo)是能夠識(shí)別任何物體。

目前MaskX R-CNN能夠識(shí)別超過(guò)3000種類別物體,而YOLO9000則能夠識(shí)別超過(guò)9000種物體類別。很明顯,目標(biāo)檢測(cè)要在各種現(xiàn)實(shí)領(lǐng)域大規(guī)模獲得使用,除了速度快、識(shí)別精準(zhǔn)外,能夠大量識(shí)別各種現(xiàn)實(shí)生活中各種各樣的物體類別也是至關(guān)重要的,而最近一年的研究在這方面產(chǎn)生了重要的進(jìn)展。

從網(wǎng)絡(luò)模型結(jié)構(gòu)來(lái)說(shuō),2017年并未產(chǎn)生類似之前ResNet這種產(chǎn)生巨大影響的新模型,ResNet因?yàn)槠涿黠@的性能優(yōu)勢(shì)已經(jīng)廣泛使用在視覺(jué)處理的各個(gè)子領(lǐng)域中。雖說(shuō)DenseNet獲得了CVPR2017最佳論文,但它本質(zhì)上是對(duì)ResNet的改進(jìn)模型,并非全新思路的新模型。

除了上述所說(shuō)的視覺(jué)處理的基礎(chǔ)研究領(lǐng)域,如果對(duì)2017年的新技術(shù)進(jìn)行歸納的話,在很多其他應(yīng)用領(lǐng)域也可以看到如下的一些明顯發(fā)展趨勢(shì):

首先,增強(qiáng)學(xué)習(xí)與GAN等新技術(shù)開始被嘗試用來(lái)解決很多其它的圖像處理領(lǐng)域的問(wèn)題并取得了一定進(jìn)展,比如Image-Caption、超分辨率、3D重建等領(lǐng)域,開始嘗試引入這些新技術(shù)。另外,深度學(xué)習(xí)與傳統(tǒng)方法如何集成各自的優(yōu)點(diǎn)并深度融合也是最近一年來(lái)視覺(jué)處理的方向,深度學(xué)習(xí)技術(shù)具有性能優(yōu)異等優(yōu)點(diǎn),但也存在黑箱不可解釋以及理論基礎(chǔ)薄弱等缺點(diǎn),而傳統(tǒng)方法具備理論完備等優(yōu)勢(shì),結(jié)合兩者來(lái)充分發(fā)揮各自優(yōu)勢(shì)克服自身缺點(diǎn)是很重要的。再次,弱監(jiān)督、自監(jiān)督或者無(wú)監(jiān)督的方法在各個(gè)領(lǐng)域也越來(lái)越重要,這是有現(xiàn)實(shí)需求的,深度學(xué)習(xí)雖然效果好,但是對(duì)于大量標(biāo)注訓(xùn)練數(shù)據(jù)是有要求的,而這又需要大量的標(biāo)注成本,在現(xiàn)實(shí)中往往不可行。而探索弱監(jiān)督、自監(jiān)督甚至無(wú)監(jiān)督的方法有助于更快促進(jìn)各個(gè)領(lǐng)域研究的快速發(fā)展。

自然語(yǔ)言處理:進(jìn)展相對(duì)緩慢,急需技術(shù)突破

自然語(yǔ)言處理也是人工智能的重要方向之一,最近兩年深度學(xué)習(xí)也已經(jīng)基本滲透到了自然語(yǔ)言處理的各個(gè)子領(lǐng)域并取得了一定進(jìn)展,但是與深度學(xué)習(xí)在圖像、視頻、音頻語(yǔ)音識(shí)別等領(lǐng)域取得的強(qiáng)勢(shì)進(jìn)展相比,深度學(xué)習(xí)帶給自然語(yǔ)言處理的技術(shù)紅利相對(duì)有限,相比傳統(tǒng)方法而言,其效果并未取得壓倒性的優(yōu)勢(shì)。至于產(chǎn)生這種現(xiàn)象的原因其實(shí)是個(gè)值得深入探討的問(wèn)題,關(guān)于其原因目前眾說(shuō)紛紜,但并未有特別有說(shuō)服力的解釋能夠被大多數(shù)人所接受。

與一年甚至兩年前相比,目前在自然語(yǔ)言處理領(lǐng)域應(yīng)用的最主流深度學(xué)習(xí)基本技術(shù)工具并未發(fā)生巨大變化,最主流的技術(shù)手段仍然是以下技術(shù)組合大禮包:Word Embedding、LSTM(包括GRU、雙向LSTM等)、Sequence to Sequence框架以及Attention注意力機(jī)制??梢栽诖罅孔匀徽Z(yǔ)言處理子領(lǐng)域看到這些技術(shù)構(gòu)件的組合及其改進(jìn)的變體模型。CNN在圖像領(lǐng)域占據(jù)壓倒性優(yōu)勢(shì),但是自然語(yǔ)言處理領(lǐng)域仍然是RNN主導(dǎo)的局面,盡管Facebook一直大力倡導(dǎo)基于CNN模型來(lái)處理自然語(yǔ)言處理,除了在大規(guī)模分布式快速計(jì)算方面CNN確實(shí)相對(duì)RNN具備天然優(yōu)勢(shì)外,目前看不出其具備取代RNN主導(dǎo)地位的其它獨(dú)特優(yōu)勢(shì)。

最近一年深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域應(yīng)用有以下幾個(gè)值得關(guān)注的發(fā)展趨勢(shì)。首先,無(wú)監(jiān)督模型與Sequence to Sequence任務(wù)的融合是個(gè)很重要的進(jìn)展和發(fā)展方向,比如ICLR 2018提交的論文“Unsupervised Machine Translation Using Monolingual Corpora Only”作為代表的技術(shù)思路,它使用非對(duì)齊的雙語(yǔ)訓(xùn)練語(yǔ)料集合訓(xùn)練機(jī)器翻譯系統(tǒng)并達(dá)到了較好的效果。這種技術(shù)思路本質(zhì)上是和CycleGAN非常類似的,相信這種無(wú)監(jiān)督模型的思路在2018年會(huì)有大量的跟進(jìn)研究。其次,增強(qiáng)學(xué)習(xí)以及GAN等最近兩年比較熱門的技術(shù)如何和NLP進(jìn)行結(jié)合并真正發(fā)揮作用是個(gè)比較有前景的方向,最近一年開始出現(xiàn)這方面的探索并取得了一定進(jìn)展,但是很明顯這條路還沒(méi)有走通,這塊值得繼續(xù)進(jìn)行深入探索。再次,Attention注意力機(jī)制進(jìn)一步廣泛使用并引入更多變體,比如Self Attention以及層級(jí)Attention等,從Google做機(jī)器翻譯的新論文“Attention is all you need”的技術(shù)思路可以明顯體會(huì)這個(gè)趨勢(shì)。另外,如何將一些先驗(yàn)知識(shí)或者語(yǔ)言學(xué)相關(guān)的領(lǐng)域知識(shí)和神經(jīng)網(wǎng)絡(luò)進(jìn)行融合是個(gè)比較流行的研究趨勢(shì),比如將句子的句法結(jié)構(gòu)等信息明確引入Sequence to Sequence框架中等。除此外,神經(jīng)網(wǎng)絡(luò)的可解釋性也是一個(gè)研究熱點(diǎn),不過(guò)這一點(diǎn)不僅僅局限在NLP領(lǐng)域,在整個(gè)深度學(xué)習(xí)領(lǐng)域范圍也是非常關(guān)注的研究趨勢(shì)。

本文選擇了若干具有較高關(guān)注度的AI技術(shù)領(lǐng)域來(lái)闡述最近一年來(lái)該領(lǐng)域的重要技術(shù)進(jìn)展,受作者能力以及平常主要關(guān)注領(lǐng)域的限制,難免掛一漏萬(wàn),很多方面的重要技術(shù)進(jìn)展并未列在文中,比如Google在力推的TPU為代表的AI芯片技術(shù)的快速發(fā)展,讓機(jī)器自動(dòng)學(xué)習(xí)設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為代表的“學(xué)習(xí)一切”以及解決神經(jīng)網(wǎng)絡(luò)黑箱問(wèn)題的可解釋性等很多重要領(lǐng)域的進(jìn)展都未能在文中提及或展開,這些都是非常值得關(guān)注的AI技術(shù)發(fā)展方向。

過(guò)去的一年AI很多領(lǐng)域發(fā)生了重大的技術(shù)進(jìn)展,也有不少領(lǐng)域前進(jìn)步伐緩慢,但是不論如何,本文作者相信AI在未來(lái)的若干年內(nèi)會(huì)在很多領(lǐng)域產(chǎn)生顛覆目前人類想象力的技術(shù)進(jìn)步,讓我們期待這一天早日到來(lái)!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29806

    瀏覽量

    268103
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46652

    瀏覽量

    237073
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5463

    瀏覽量

    120890
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    285

    瀏覽量

    13320

原文標(biāo)題:2017年AI技術(shù)盤點(diǎn):關(guān)鍵進(jìn)展與趨勢(shì)

文章出處:【微信號(hào):AI_Thinker,微信公眾號(hào):人工智能頭條】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    for Science的技術(shù)支撐”的學(xué)習(xí)心得,可以從以下幾個(gè)方面進(jìn)行歸納和總結(jié): 1. 技術(shù)基礎(chǔ)的深入理解 在閱讀第二章的過(guò)程中,我對(duì)于AI for Science所需的
    發(fā)表于 10-14 09:16

    一些技術(shù)報(bào)告

    關(guān)于西部賽區(qū)的一些技術(shù)報(bào)告 電磁方向
    發(fā)表于 01-25 16:38

    RoF技術(shù)是微波光子學(xué)的個(gè)重要應(yīng)用

    下發(fā)展起來(lái)的RoF用的新型光電子器件,與微波器件相比具有體積小、重量輕、速度快、精度高、效率高、功耗低、價(jià)格低等多種優(yōu)點(diǎn),將激光、光電子、光纖技術(shù)的成果與微波技術(shù)的融合,必將帶來(lái)優(yōu)勢(shì)互補(bǔ),解決一些
    發(fā)表于 07-11 07:14

    對(duì)stm32f4中一些常用函數(shù)的歸納

    七七八八。就是因?yàn)橛布a中的各個(gè)函數(shù)的名字雖然長(zhǎng),但是卻十分有規(guī)律,雖然多,但卻可以總結(jié),希望我這個(gè)博客可以增加初學(xué)者對(duì)于stm32代碼的閱讀能力。 以下是對(duì)stm32f4中一些常用函數(shù)的歸納: ...
    發(fā)表于 08-12 08:08

    嵌入式一些日常小技巧分享

    拓寬自己的技術(shù)領(lǐng)域同時(shí)也要在像更加面向?qū)ο蠡蛘呤歉呒?jí)AI方向的算法也要有定的涉獵,所以目前對(duì)于我而言Python和C++成了我在目前學(xué)習(xí)嵌入式操作系統(tǒng)的同時(shí)也要必須掌握的
    發(fā)表于 12-21 08:07

    電源中電子變壓器技術(shù)一些進(jìn)展

    電源中電子變壓器技術(shù)一些進(jìn)展作者:徐澤瑋摘要:電源中電子變壓器所用的鐵心材料和導(dǎo)電材料價(jià)格連續(xù)上漲,上游原材料形成賣方市場(chǎng)。作為下游的電子變壓器的電源
    發(fā)表于 02-05 22:28 ?73次下載

    AI在安全行業(yè)具體的進(jìn)展

    到目前為止,AI取得的成就只能說(shuō)更為有趣,而不是有用。然而,時(shí)代正在改變。除了在醫(yī)藥和醫(yī)療領(lǐng)域取得重大突破之外,AI在安全行業(yè)也看到了一些積極的進(jìn)展
    的頭像 發(fā)表于 12-26 10:53 ?4849次閱讀

    EV電池包設(shè)計(jì)方面一些方向及趨勢(shì)

    隨著各車企基于MEB平臺(tái)開發(fā)的車型逐漸增多, EV電池包設(shè)計(jì)也出現(xiàn)了一些新變化,總的來(lái)看設(shè)計(jì)依然是圍繞續(xù)航里程,充電速率,成本等在做文章,閑話少說(shuō),還是直接看看國(guó)外近期在EV電池包設(shè)計(jì)方面一些
    的頭像 發(fā)表于 03-31 09:09 ?1.4w次閱讀

    STM32片上Flash讀寫一些重要知識(shí)

    STM32片上Flash讀寫的一些重要知識(shí)
    的頭像 發(fā)表于 03-06 14:54 ?1.1w次閱讀

    人工智能的一些錯(cuò)誤研究方向

    人工智能(以下簡(jiǎn)稱AI技術(shù)是近些年非常火熱的技術(shù)話題,而且有愈加火熱之勢(shì),但是熱潮之下,亂象也頻頻發(fā)生,不僅有些濫竽充數(shù)的技術(shù)研究“掛羊頭、賣狗肉”,還有
    的頭像 發(fā)表于 03-28 16:01 ?3024次閱讀

    ARM Linux中一些重要的宏及地址定義

    ARM Linux中一些重要的宏及地址定義
    的頭像 發(fā)表于 06-22 17:02 ?2693次閱讀

    介紹一些大功率IGBT模塊應(yīng)用中的一些技術(shù)

    PPT主要介紹了大功率IGBT模塊應(yīng)用中的一些技術(shù),包括參數(shù)解讀、器件選型、驅(qū)動(dòng)技術(shù)、保護(hù)方法以及失效分析等。
    發(fā)表于 09-05 11:36 ?775次閱讀

    AI芯片的誕生和發(fā)展背景 AI芯片發(fā)展的技術(shù)方向 AI芯片的發(fā)展趨勢(shì)

    隨著類ChatGPT人工智能技術(shù)的快速發(fā)展,AI大模型作為重要技術(shù)方向已經(jīng)取得顯著進(jìn)展,應(yīng)用場(chǎng)
    發(fā)表于 08-16 10:11 ?4152次閱讀

    字節(jié)跳動(dòng)李航:AI for Science的一些探索和進(jìn)展

    ByteDance Research 也在進(jìn)行 AI for Science 的研究,包括機(jī)器學(xué)習(xí)與量子化學(xué)、大規(guī)模量子化學(xué)計(jì)算、AI 制藥等領(lǐng)域一些問(wèn)題的研究,希望跟業(yè)界
    的頭像 發(fā)表于 09-12 16:32 ?566次閱讀
    字節(jié)跳動(dòng)李航:<b class='flag-5'>AI</b> for Science的<b class='flag-5'>一些</b>探索和<b class='flag-5'>進(jìn)展</b>

    AI大模型的最新研究進(jìn)展

    AI大模型的最新研究進(jìn)展體現(xiàn)在多個(gè)方面,以下是對(duì)其最新進(jìn)展的介紹: 技術(shù)創(chuàng)新與突破 生成式AI
    的頭像 發(fā)表于 10-23 15:19 ?245次閱讀