在6月的1400多篇機器學(xué)習(xí)相關(guān)的文章/項目中,Mybridge甄選了10篇最熱文章(入選率0.7%)。主題包括:Google Duplex,網(wǎng)格單元,神經(jīng)網(wǎng)絡(luò),TensorFlow,Keras,第一名解決方案,CVPR 2018等。
在 5 月的1400多篇機器學(xué)習(xí)相關(guān)的文章/項目中,Mybridge甄選了10篇最熱文章(入選率0.7%)。
此列表中的主題:Google Duplex,網(wǎng)格單元,神經(jīng)網(wǎng)絡(luò),TensorFlow,Keras,第一名解決方案,CVPR 2018等。
Top 10文章由Mybridge AI選出,綜合考慮文章分享數(shù)量、閱讀時間等,并使用機器學(xué)習(xí)算法對文章進行排序。相信這些文章分享的機器學(xué)習(xí)經(jīng)驗和技巧是有用的。
1. Google Duplex:一個通過電話完成真實世界任務(wù)的AI系統(tǒng)
5月份最受關(guān)注的是谷歌在I/O大會演示的Google Assistant的新功能——Duplex雙工技術(shù)。
利用Duplex雙工技術(shù),谷歌的智能助理能用非常類似人聲的角色完成真實世界的任務(wù)。在demo中,谷歌CEO Pichai告訴聽眾,“你將要聽到的是,谷歌的助理實際地打電話給一家真實的美容院,為你安排一個預(yù)約。”當(dāng)然,智能助理幾乎毫無破綻地完成了任務(wù)。雖然后來這個演示是否真實受到一些質(zhì)疑,但這一技術(shù)引發(fā)了業(yè)界熱議。
在這篇文章中,谷歌首席工程師Yaniv Leviathan和工程副總裁Yossi Matias詳細(xì)介紹了Google Duplex使用到的技術(shù),包括:
Duplex的核心是一個循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),使用TensorFlow Extended(TFX)構(gòu)建。
使用谷歌自己的自動語音識別(ASR)技術(shù)來處理語音,將語音轉(zhuǎn)換為文本。
使用連續(xù)文本到語音(TTS)引擎和綜合TTS引擎(使用Tacotron和WaveNet)的組合,根據(jù)情況控制語調(diào)。
https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html
2. “換臉術(shù)”Deep Video Portraits
Deep Video Portraits是斯坦福大學(xué)、慕尼黑技術(shù)大學(xué)等的研究人員提交給今年8月SIGGRAPH大會的一篇論文,描述了一種經(jīng)過改進的“換臉”技術(shù),可以在視頻中用一個人的臉再現(xiàn)另一人臉部的動作、面部表情和說話口型。
例如,將普通人的臉換成奧巴馬的臉。Deep Video Portraits可以通過一段目標(biāo)人物的視頻(在這里就是奧巴馬),來學(xué)習(xí)構(gòu)成臉部、眉毛、嘴角和背景等的要素以及它們的運動形式。
論文地址:https://arxiv.org/abs/1805.11714
3.在人工智能體中使用網(wǎng)格表示進行導(dǎo)航
雖然AI在圍棋等許多任務(wù)超過了人類,空間導(dǎo)航能力對于人工智能體來說仍然是一個巨大的挑戰(zhàn)。DeepMind在Nature上發(fā)表的一篇論文引起AI領(lǐng)域和神經(jīng)科學(xué)領(lǐng)域的極大震撼:AI展現(xiàn)出與人腦“網(wǎng)格細(xì)胞”高度一致的空間導(dǎo)航能力。
通過一系列實驗操作,研究人員發(fā)現(xiàn)網(wǎng)格單元對于基于矢量的導(dǎo)航至關(guān)重要。例如,當(dāng)網(wǎng)絡(luò)中的網(wǎng)格單元被掐斷時,agent的導(dǎo)航能力就會受損,而且對目標(biāo)的距離和方向的判斷等關(guān)鍵指標(biāo)的表示變得不那么準(zhǔn)確。這項發(fā)現(xiàn)有助于AI可解釋性的研究。
地址:https://deepmind.com/blog/grid-cells
4.如何用Python從頭開始構(gòu)建一個神經(jīng)網(wǎng)絡(luò)
這是一個入門教程,初學(xué)者可以從這個教程開始,了解深度學(xué)習(xí)的內(nèi)部運作。
神經(jīng)網(wǎng)絡(luò)是什么呢?許多介紹性文章會將其與大腦進行類比,但如果拋開神經(jīng)網(wǎng)絡(luò)和人腦的類比,將其描述為一個給定的輸入和一個期望的輸出之間的映射的數(shù)學(xué)函數(shù),會更好理解。
神經(jīng)網(wǎng)絡(luò)包含以下元素:
一個輸入層x
任意數(shù)量的隱藏層
一個輸出層?
每一層之間的一組權(quán)重W和偏差b
每個隱藏層的激活函數(shù)σ。在這個教程中,使用Sigmoid激活函數(shù)。
圖:一個2層神經(jīng)網(wǎng)絡(luò)的架構(gòu)
地址:https://towardsdatascience.com/how-to-build-your-own-neural-network-from-scratch-in-python-68998a08e4f6
5.對Airbnb上的照片進行分類
Airbnb為數(shù)百萬的民宿提供了一個平臺,也因此獲得了一大批民宿的房間細(xì)節(jié)照片和用戶數(shù)據(jù)。在這個任務(wù)中,Airbnb的數(shù)據(jù)團隊利用計算機視覺和深度學(xué)習(xí)對民宿房屋照片進行分類。
其目的一方面是將具有相似風(fēng)格的房源聚集到一起,方便用戶瀏覽。另一方面,分類也可以幫助驗證房間數(shù)量和房屋信息的準(zhǔn)確性。該團隊表示,利用這些圖片數(shù)據(jù),還將發(fā)掘出更多潛在的信息。
地址:https://medium.com/airbnb-engineering/categorizing-listing-photos-at-airbnb-f9483f3ab7e3
6. Loc2Vec:用triplet-loss網(wǎng)絡(luò)學(xué)習(xí)位置嵌入
這是一個以智能手機的傳感器數(shù)據(jù)作為輸入,例如加速度計、陀螺儀和位置信息,并從中提取行為洞察的平臺,用于了解用戶的模式,并能夠預(yù)測和解釋事情發(fā)生的原因。
這個平臺的一個重要組成部分是場地映射算法(venue mapping algorithm)。venue mapper的目標(biāo)是弄清楚你要訪問的地點。
地址:http://www.sentiance.com/2018/05/03/loc2vec-learning-location-embeddings-w-triplet-loss-networks/
7.在瀏覽器中使用TensorFlow.js進行實時人體姿態(tài)估計
這是來自TensorFlow博客的教程,與谷歌創(chuàng)意實驗室合作,發(fā)布了TensorFlow.js版本的PoseNet。PoseNet是一個機器學(xué)習(xí)模型,可以在瀏覽器中實時估計人體姿態(tài)。
PoseNet可以利用單姿態(tài)或多姿態(tài)算法檢測圖像和視頻中的人物,所有這些都可以在瀏覽器中實現(xiàn)。
PoseNet的姿態(tài)估計分兩個階段進行:
將一個RGB圖像作為輸入,輸入給卷積神經(jīng)網(wǎng)絡(luò)。
利用單姿態(tài)或多姿態(tài)解碼算法解碼來解碼模型輸出中的姿態(tài)、姿態(tài)置信度分?jǐn)?shù)、關(guān)鍵點位置和關(guān)鍵點置信度分?jǐn)?shù)。
PoseNet返回檢測到的每個人的置信度值以及檢測到的每個姿勢關(guān)鍵點。
https://medium.com/tensorflow/real-time-human-pose-estimation-in-the-browser-with-tensorflow-js-7dd0bc881cd5
8.用Keras進行多標(biāo)簽分類
這是一個關(guān)于多標(biāo)簽分類的Keras教程,包括以下4個部分:
討論多標(biāo)簽分類數(shù)據(jù)集(以及如何快速構(gòu)建自己的分類數(shù)據(jù)集)。
簡要討論SmallerVGGNet,這是將用來實現(xiàn)多標(biāo)簽分類的Keras神經(jīng)網(wǎng)絡(luò)架構(gòu)。
實現(xiàn)SmallerVGGNet,并使用多標(biāo)簽分類數(shù)據(jù)集對其進行訓(xùn)練。
最后,在示例圖像上測試網(wǎng)絡(luò),并討論一些注意事項
https://www.pyimagesearch.com/2018/05/07/multi-label-classification-with-keras
9.谷歌地標(biāo)檢索挑戰(zhàn)賽:第一名解決方案解讀
四個月前,谷歌在Kaggle發(fā)布了一項地標(biāo)檢索挑戰(zhàn)賽(Google Landmark Retrieval Challenge),參賽者被要求在所有圖像數(shù)據(jù)集中檢索到含有給定圖像中地標(biāo)的圖片。
這篇文章是第一名團隊的解決方案總結(jié),包括兩個主要部分:
首先,創(chuàng)建一個高性能的全局描述符(global descriptor),它可以將數(shù)據(jù)集中的圖像表示為奇異向量(singular vector);
然后,創(chuàng)建一個高效框架,將這些向量和最可能的圖像匹配,最后提交到積分榜上。
以下是一個流程圖,每一步都標(biāo)記LB分?jǐn)?shù)。
https://www.kaggle.com/c/landmark-retrieval-challenge/discussion/57855
10.學(xué)會“夜視”
這是伊利諾伊大學(xué)香檳分校(UIUC)和Intel Labs合作的論文,提出一個基于端到端訓(xùn)練的用全卷積網(wǎng)絡(luò)進行低照度圖像處理的模型。這個網(wǎng)絡(luò)直接處理原始傳感器數(shù)據(jù),并且基本不使用傳統(tǒng)的圖像處理流程。
兩個大型新數(shù)據(jù)集
伯克利大學(xué)發(fā)布大型駕駛視頻數(shù)據(jù)集BDD100K
伯克利大學(xué)發(fā)布了BDD100K,這是目前為止最大規(guī)模也是最多樣化的駕駛視頻數(shù)據(jù)集。這些數(shù)據(jù)具有四個主要特征:大規(guī)模,多樣化,在真實的街道采集,并帶有時間信息。利用這個數(shù)據(jù)集,你還可以參加伯克利在CVPR 2018舉辦的自動駕駛競賽。
地址:http://bair.berkeley.edu/blog/2018/05/30/bdd/
骨骼X-ray數(shù)據(jù)集
Andrew Ng帶領(lǐng)的斯坦福大學(xué)ML團隊發(fā)布了一個目前為止最大規(guī)模的醫(yī)學(xué)影像數(shù)據(jù)集MURA(musculoskeletal radiographs),這個數(shù)據(jù)集包含4萬多張多角度射線檢測圖像,來自對12173名病人的14863項研究,X光影像包含人體上肢的7個部分:肘、指、小臂、手、肱、肩、腕。最近,該團隊推出了基于此數(shù)據(jù)集的識別挑戰(zhàn)賽:MURA骨骼X-ray深度學(xué)習(xí)競賽。
-
Google
+關(guān)注
關(guān)注
5文章
1754瀏覽量
57380 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4733瀏覽量
100420 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8349瀏覽量
132315
原文標(biāo)題:5月機器學(xué)習(xí)TOP 10熱文: Google Duplex,“換臉術(shù)”、網(wǎng)格單元(附文章地址)
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論