0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

劉鐵巖談機(jī)器學(xué)習(xí):隨波逐流的太多

電子工程師 ? 來源:工程師李察 ? 2019-01-05 10:58 ? 次閱讀

人工智能正受到越來越多的關(guān)注,而這波人工智能浪潮背后的最大推手就是“機(jī)器學(xué)習(xí)”。機(jī)器學(xué)習(xí)從業(yè)者在當(dāng)下需要掌握哪些前沿技術(shù)?展望未來,又會(huì)有哪些技術(shù)趨勢(shì)值得期待?

近期,AI科技大本營(yíng)聯(lián)合華章科技特別邀請(qǐng)到了微軟亞洲研究院副院長(zhǎng)劉鐵巖博士進(jìn)行在線公開課分享,為我們帶來微軟研究院最新的研究成果,以及對(duì)機(jī)器學(xué)習(xí)領(lǐng)域未來發(fā)展趨勢(shì)的展望。

大家好,我是劉鐵巖,來自微軟亞洲研究院。今天非常榮幸,能跟大家一起分享一下微軟研究院在機(jī)器學(xué)習(xí)領(lǐng)域取得的一些最新研究成果。

大家都知道,最近這幾年機(jī)器學(xué)習(xí)非?;?,也取得了很多進(jìn)展。這張圖總結(jié)了機(jī)器學(xué)習(xí)領(lǐng)域的最新工作,比如 ResNet、膠囊網(wǎng)絡(luò)、Seq2Seq Model、Attention Mechanism 、GAN、Deep Reinforcement Learning 等等。

這些成果推動(dòng)了機(jī)器學(xué)習(xí)領(lǐng)域的飛速發(fā)展,但這并不意味著機(jī)器學(xué)習(xí)領(lǐng)域已經(jīng)非常成熟,事實(shí)上仍然存在非常大的技術(shù)挑戰(zhàn)。比如現(xiàn)在主流機(jī)器學(xué)習(xí)算法需要依賴大量的訓(xùn)練數(shù)據(jù)和計(jì)算資源,才能訓(xùn)練出性能比較好的機(jī)器學(xué)習(xí)模型。同時(shí),雖然深度學(xué)習(xí)大行其道,但我們對(duì)深度學(xué)習(xí)的理解,尤其是理論方面的理解還非常有限。深度學(xué)習(xí)為什么會(huì)有效,深度學(xué)習(xí)優(yōu)化的損失函數(shù)曲面是什么樣子?經(jīng)典優(yōu)化算法的優(yōu)化路徑如何?最近一段時(shí)間,學(xué)者們?cè)谶@個(gè)方向做了很多有益的嘗試,比如討論隨機(jī)梯度下降法在什么條件下可以找到全局最優(yōu)解,或者它所得到的局部最優(yōu)解跟全局最優(yōu)解之間存在何種關(guān)系。

再比如,最近很多學(xué)者開始用自動(dòng)化的方式幫助機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)來調(diào)節(jié)超參數(shù)、搜尋神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),相關(guān)領(lǐng)域稱為元學(xué)習(xí)。其基本思想是用一個(gè)機(jī)器學(xué)習(xí)算法去自動(dòng)地指導(dǎo)另一個(gè)機(jī)器學(xué)習(xí)算法的訓(xùn)練過程。但是我們必須要承認(rèn),元學(xué)習(xí)其實(shí)并沒有走出機(jī)器學(xué)習(xí)的基本框架。更有趣的問題是,如何能夠讓一個(gè)機(jī)器學(xué)習(xí)算法去幫助另一個(gè)算法突破機(jī)器學(xué)習(xí)的現(xiàn)有邊界,讓機(jī)器學(xué)習(xí)的效果更好呢?這都是我們需要去回答的問題。沿著這些挑戰(zhàn),在過去的這幾年里,微軟亞洲研究院做了一些非常有探索性的學(xué)術(shù)研究。

對(duì)偶學(xué)習(xí)解決機(jī)器學(xué)習(xí)對(duì)大量有標(biāo)簽數(shù)據(jù)的依賴

首先,我們看看對(duì)偶學(xué)習(xí)。對(duì)偶學(xué)習(xí)主要是為了解決現(xiàn)有深度學(xué)習(xí)方法對(duì)訓(xùn)練數(shù)據(jù)過度依賴的問題。當(dāng)我們沒有標(biāo)注好的訓(xùn)練數(shù)據(jù)時(shí),是否還能做有意義的機(jī)器學(xué)習(xí)?在過去的幾年里,人們做了很多嘗試,比如無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等等。但是無論如何,大家心里要清楚,只有有信號(hào)、有反饋、才能實(shí)現(xiàn)有效的學(xué)習(xí),如果我們對(duì)這個(gè)世界一無所知,我們是不能進(jìn)行有效的學(xué)習(xí)的。

沿著這個(gè)思路,我們?cè)谒伎迹撼巳藶樘峁┑臉?biāo)簽以外,是不是存在其他有效的反饋信號(hào),能夠形成學(xué)習(xí)的閉環(huán)?我們發(fā)現(xiàn)很多機(jī)器學(xué)習(xí)任務(wù)其實(shí)天然有結(jié)構(gòu)對(duì)偶性,可以形成天然的閉環(huán)。

比如機(jī)器翻譯。一方面我們會(huì)關(guān)心從英文翻譯到中文,另一方面我們一定也關(guān)心從中文翻譯到英文,否則就無法實(shí)現(xiàn)兩個(gè)語種人群之間的無縫交流。再比如語音處理。我們關(guān)心語音識(shí)別的同時(shí)一定也關(guān)心語音合成,否則人和機(jī)器之間就沒有辦法實(shí)現(xiàn)真正的雙向?qū)υ?。還有圖像理解、對(duì)話引擎、搜索引擎等等,其實(shí)它們都包含具有對(duì)偶結(jié)構(gòu)的一對(duì)任務(wù)。

如何更加準(zhǔn)確地界定人工智能的結(jié)構(gòu)對(duì)偶性呢?我們說:如果第一個(gè)任務(wù)的輸入恰好是第二個(gè)任務(wù)的輸出,而第一個(gè)任務(wù)的輸出恰好是第二個(gè)任務(wù)的輸入,那么這兩個(gè)任務(wù)之間就形成了某種結(jié)構(gòu)的“對(duì)偶性”。把它們放在一起就會(huì)形成學(xué)習(xí)的閉環(huán) ,這就是“對(duì)偶學(xué)習(xí)”的基本思想。

有了這樣的思想以后,我們可以把兩個(gè)對(duì)偶任務(wù)放到一起學(xué),提供有效的反饋信號(hào)。這樣即便沒有非常多的標(biāo)注樣本,我們?nèi)匀豢梢蕴崛〕鲇行У男盘?hào)進(jìn)行學(xué)習(xí)。

對(duì)偶學(xué)習(xí)背后其實(shí)有著嚴(yán)格的數(shù)學(xué)解釋。當(dāng)兩個(gè)任務(wù)互為對(duì)偶時(shí),我們可以建立如下的概率聯(lián)系:

這里 X 和 Y 分別對(duì)應(yīng)某個(gè)任務(wù)的輸入空間和輸出空間,在計(jì)算 X 和 Y 的聯(lián)合概率分布時(shí)有兩種分解方法,既可以分解成 P(x)P(y|x; f) ,也可以分解成 P(y)P(x|y; g)。這里,P(y|x; f) 對(duì)應(yīng)了一個(gè)機(jī)器學(xué)習(xí)模型,當(dāng)我們知道輸入 x 時(shí),通過這個(gè)模型可以預(yù)測(cè)輸出 y 的概率,我們把這個(gè)模型叫主任務(wù)的機(jī)器學(xué)習(xí)模型,P(x|y; g) 則是反過來,稱之為對(duì)偶任務(wù)的機(jī)器學(xué)習(xí)模型。

有了這個(gè)數(shù)學(xué)聯(lián)系以后,我們既可以做有效的無監(jiān)督學(xué)習(xí),也可以做更好的有監(jiān)督學(xué)習(xí)和推斷。比如我們利用這個(gè)聯(lián)系可以定義一個(gè)正則項(xiàng),使得有監(jiān)督學(xué)習(xí)有更好的泛化能力。再比如,根據(jù) P(x)P(y|x; f) 我們可以得到一個(gè)推斷的結(jié)果,反過來利用貝葉斯公式,我們還可以得到用反向模型 g 做的推斷,綜合兩種推斷,我們可以得到更準(zhǔn)確的結(jié)果。我們把以上提到的對(duì)偶學(xué)習(xí)技術(shù)應(yīng)用在了機(jī)器翻譯上,取得了非常好的效果,在中英新聞翻譯任務(wù)上超過了普通人類的水平。

解決機(jī)器學(xué)習(xí)對(duì)大計(jì)算量的依賴

輕量級(jí)機(jī)器學(xué)習(xí)

最近一段時(shí)間,在機(jī)器學(xué)習(xí)領(lǐng)域有一些不好的風(fēng)氣。有些論文里會(huì)使用非常多的計(jì)算資源,比如動(dòng)輒就會(huì)用到幾百塊 GPU卡 甚至更多的計(jì)算資源。這樣的結(jié)果很難復(fù)現(xiàn),而且在一定程度上導(dǎo)致了學(xué)術(shù)研究的壟斷和馬太效應(yīng)。

那么人們可能會(huì)問這樣的問題:是不是機(jī)器學(xué)習(xí)一定要用到那么多的計(jì)算資源?我們能不能在計(jì)算資源少幾個(gè)數(shù)量級(jí)的情況下,仍然訓(xùn)練出有意義的機(jī)器學(xué)習(xí)模型?這就是輕量級(jí)機(jī)器學(xué)習(xí)的研究目標(biāo)。

在過去的幾年里,我們的研究組做了幾個(gè)非常有趣的輕量級(jí)機(jī)器學(xué)習(xí)模型。比如在 2015 發(fā)表的 lightLDA 模型,它是一個(gè)非常高效的主題模型。在此之前,世界上已有的大規(guī)模主題模型一般會(huì)用到什么樣的計(jì)算資源?比如 Google 的 LDA 使用上萬個(gè) CPU cores,才能夠通過幾十個(gè)小時(shí)的訓(xùn)練獲得 10 萬個(gè)主題。為了降低對(duì)計(jì)算資源的需求,我們?cè)O(shè)計(jì)了一個(gè)基于乘性分解的全新采樣算法,把每一個(gè) token 的平均采樣復(fù)雜度降低到 O(1),也就是說采樣復(fù)雜度不隨著主題數(shù)的變化而變化。因此即便我們使用這個(gè)主題模型去做非常大規(guī)模的主題分析,它的運(yùn)算復(fù)雜度也是很低的。例如,我們只使用了 300 多個(gè) CPU cores,也就是大概 8 臺(tái)主流的機(jī)器,就可以實(shí)現(xiàn)超過 100 萬個(gè)主題的主題分析。

這個(gè)例子告訴大家,其實(shí)有時(shí)我們不需要使用蠻力去解決問題,如果我們可以仔細(xì)分析這些算法背后的機(jī)理,做算法方面的創(chuàng)新,就可以在節(jié)省幾個(gè)數(shù)量級(jí)計(jì)算資源的情況下做出更大、更有效的模型。

同樣的思想我們應(yīng)用到了神經(jīng)網(wǎng)絡(luò)上面,2016 年發(fā)表的 LightRNN算法是迄今為止循環(huán)神經(jīng)網(wǎng)絡(luò)里面最高效的實(shí)現(xiàn)。當(dāng)我們用 LigthtRNN 做大規(guī)模的語言模型時(shí),得到的模型規(guī)模比傳統(tǒng)的 RNN 模型小好幾個(gè)數(shù)量級(jí)。比如傳統(tǒng)模型大小在100GB 時(shí),LightRNN 模型只有50MB,并且訓(xùn)練時(shí)間大幅縮短 。不僅如此,LightRNN模型的 perplexity比傳統(tǒng)RNN還要更好。

可能有些同學(xué)會(huì)產(chǎn)生疑問:怎么可能又小又好呢?其實(shí),這來源于我們?cè)谘h(huán)神經(jīng)網(wǎng)絡(luò)語言模型的算法上所做的創(chuàng)新設(shè)計(jì)。我們把對(duì) vocabulary 的表達(dá)從一維變到了兩維,并且允許不同的詞之間共享某一部分的 embedding。至于哪些部分共享、哪些不共享,我們使用了一個(gè)二分圖匹配的算法來確定。

第三個(gè)輕量型機(jī)器學(xué)習(xí)的算法叫 LightGBM,這個(gè)工具是 GBDT 算法迄今為止最高效的實(shí)現(xiàn)。LightGBM的背后是兩篇 NIPS 論文,其中同樣包含了很多技術(shù)創(chuàng)新,比如 Gradient-based one-side sampling,可以有效減少對(duì)樣本的依賴; Exclusive feature bundling,可以在特征非常多的情況下,把一些不會(huì)發(fā)生沖突的特征粘合成比較 dense 的少數(shù)特征,使得建立特征直方圖非常高效。同時(shí)我們還提出了 Voting-based parallelization 機(jī)制,可以實(shí)現(xiàn)非常好的加速比。所有這些技巧合在一起,就成就了LightGBM的高效率和高精度。

分布式機(jī)器學(xué)習(xí)

雖然我們做了很多輕量級(jí)的機(jī)器學(xué)習(xí)算法,但是當(dāng)訓(xùn)練數(shù)據(jù)和機(jī)器學(xué)習(xí)模型特別大的時(shí)候,可能還不能完全解決問題,這時(shí)我們需要研究怎樣利用更多的計(jì)算節(jié)點(diǎn)實(shí)現(xiàn)分布式的機(jī)器學(xué)習(xí)。

我們剛剛出版了一本新書——《分布式機(jī)器學(xué)習(xí):算法、理論與實(shí)踐》,對(duì)分布式機(jī)器學(xué)習(xí)做了非常好的總結(jié),也把我們很多研究成果在這本書里做了詳盡的描述。下面,我挑其中幾個(gè)點(diǎn),跟大家分享。

分布式機(jī)器學(xué)習(xí)的關(guān)鍵是怎樣把要處理的大數(shù)據(jù)或大模型進(jìn)行切分,在多個(gè)機(jī)器上做并行訓(xùn)練。一旦把這些數(shù)據(jù)和模型放到多個(gè)計(jì)算節(jié)點(diǎn)之后就會(huì)涉及到兩個(gè)基本問題:首先,怎樣實(shí)現(xiàn)不同機(jī)器之間的通信和同步,使得它們可以協(xié)作把機(jī)器學(xué)習(xí)模型訓(xùn)練好。其次,當(dāng)每個(gè)計(jì)算節(jié)點(diǎn)都能夠訓(xùn)練出一個(gè)局部模型之后,怎樣把這些局部模型做聚合,最終形成一個(gè)統(tǒng)一的機(jī)器學(xué)習(xí)模型。

數(shù)據(jù)切分

數(shù)據(jù)切分聽起來很簡(jiǎn)單,其實(shí)有很多門道。舉個(gè)例子,一個(gè)常見的方式就是把數(shù)據(jù)做隨機(jī)切分。比如我們有很多訓(xùn)練數(shù)據(jù),隨機(jī)切分成 N 份,并且把其中一份放到某個(gè)局部的工作節(jié)點(diǎn)上去訓(xùn)練。這種切分到底有沒有理論保證?

我們知道機(jī)器學(xué)習(xí)有一個(gè)基本的假設(shè),就是學(xué)習(xí)過程中的數(shù)據(jù)是獨(dú)立同分布采樣得來的,才有理論保證。但是前面提到的數(shù)據(jù)切分其實(shí)并不是隨機(jī)的數(shù)據(jù)采樣。從某種意義上講,獨(dú)立同分布采樣是有放回抽樣,而數(shù)據(jù)切分對(duì)應(yīng)于無放回抽樣。一個(gè)很有趣的理論問題是,我們?cè)谧鰯?shù)據(jù)切分時(shí),是不是可以像有放回抽樣一樣,對(duì)學(xué)習(xí)過程有一定的理論保證呢?這個(gè)問題在我們的研究發(fā)表之前,學(xué)術(shù)界是沒有完整答案的。

我們證明了:如果我先對(duì)數(shù)據(jù)進(jìn)行全局置亂,然后再做數(shù)據(jù)切分,那么它和有放回的隨機(jī)采樣在收斂率上是基本一致的。但是如果我們只能做局部的數(shù)據(jù)打亂,二者之間的收斂率是有差距的。所以如果我們只能做局部的數(shù)據(jù)打亂,就不能訓(xùn)練太多 epoch,否則就會(huì)與原來的分布偏離過遠(yuǎn),使得最后的學(xué)習(xí)效果不好。

異步通信

說完數(shù)據(jù)切分,我們?cè)僦v講各個(gè)工作節(jié)點(diǎn)之間的通信問題。大家知道,有很多流行的分布式框架,比如 MapReduce,可以實(shí)現(xiàn)不同工作節(jié)點(diǎn)之間的同步計(jì)算。但在機(jī)器學(xué)習(xí)過程中,如果不同機(jī)器之間要做同步通信,就會(huì)出現(xiàn)瓶頸:有的機(jī)器訓(xùn)練速度比較快,有的機(jī)器訓(xùn)練速度比較慢,而整個(gè)集群會(huì)被這個(gè)集群里最慢的機(jī)器拖垮。因?yàn)槠渌麢C(jī)器都要跟它完成同步之后,才能往前繼續(xù)訓(xùn)練。

為了實(shí)現(xiàn)高效的分布式機(jī)器學(xué)習(xí),人們?cè)絹碓疥P(guān)注異步通信,從而避免整個(gè)集群被最慢的機(jī)器拖垮。在異步通信過程中,每臺(tái)機(jī)器完成本地訓(xùn)練之后就把局部模型、局部梯度或模型更新推送到全局模型上去,并繼續(xù)本地的訓(xùn)練過程,而不去等待其他的機(jī)器。

但是人們一直對(duì)異步通信心有余悸。因?yàn)樽霎惒酵ㄐ诺臅r(shí)候,同樣有一些機(jī)器運(yùn)算比較快,有一些機(jī)器運(yùn)算比較慢,當(dāng)運(yùn)算比較快的機(jī)器將其局部梯度或者模型更新疊加到全局模型上以后,全局模型的版本就被更新了,變成了很好的模型。但是過了一段時(shí)間,運(yùn)算比較慢的機(jī)器又把陳舊的梯度或者模型更新,疊加到全局模型上,這就會(huì)把原來做得比較好的模型給毀掉。人們把這個(gè)問題稱為“延遲更新”。不過在我們的研究之前,沒有人定量地刻畫這個(gè)延遲會(huì)帶來多大的影響。

在去年 ICML 上我們發(fā)表了一篇論文,用泰勒展開式定量刻畫了標(biāo)準(zhǔn)的隨機(jī)梯度下降法和異步并行隨機(jī)梯隊(duì)下降法的差距,這個(gè)差距主要是由于延遲更新帶來的。如果我們簡(jiǎn)單粗暴地使用異步 SGD,不去處理延遲更新,其實(shí)就是使用泰勒展開里零階項(xiàng)作為真實(shí)的近似。既然它們之間的差距在于高階項(xiàng)的缺失,如果我們有能力把這些高階項(xiàng)通過某種算法補(bǔ)償回來,就可以使那些看起來陳舊的延遲梯度煥發(fā)青春。這就是我們提出的帶有延遲補(bǔ)償?shù)碾S機(jī)梯度下降法。

這件事說起來很簡(jiǎn)單,但實(shí)操起來有很大的難度。因?yàn)樵谔荻群瘮?shù)的泰勒展開中的一階項(xiàng)其實(shí)對(duì)應(yīng)于原損失函數(shù)的二階項(xiàng),也就是所謂的海森矩陣(Hessian Matrix)。當(dāng)模型很大時(shí),計(jì)算海森矩陣要使用的內(nèi)存和計(jì)算量都會(huì)非常大,使得這個(gè)算法并不實(shí)用。在我們的論文里,提出了一個(gè)非常高效的對(duì)海森矩陣的近似。我們并不需要真正去計(jì)算非常高維的海森矩陣并存儲(chǔ)它,只需要比較小的計(jì)算和存儲(chǔ)代價(jià)就可以實(shí)現(xiàn)對(duì)海參矩陣相當(dāng)精確的近似。 在此基礎(chǔ)上,我們就可以利用泰勒展開,實(shí)現(xiàn)對(duì)原來的延遲梯度的補(bǔ)償。我們證明了有延遲補(bǔ)償?shù)漠惒诫S機(jī)梯度下降法的收斂率比普通的異步隨機(jī)梯度下降法要好很多,而且各種實(shí)驗(yàn)也表明它的效果確實(shí)達(dá)到了我們的預(yù)期。

模型聚合

除了異步通信以外,每個(gè)局部節(jié)點(diǎn)計(jì)算出一個(gè)局部模型之后,怎樣聚合在一起也是一個(gè)值得思考的問題。在業(yè)界里最常用的方式是把各個(gè)不同的局部模型做簡(jiǎn)單的參數(shù)平均。但是,從理論上講,參數(shù)平均僅在凸問題上是合理的。如果大家對(duì)凸函數(shù)的性質(zhì)有一些了解,就知道如果模型是凸的,那么我們對(duì)凸模型參數(shù)進(jìn)行平均后得到的模型的性能,不會(huì)比每個(gè)模型性能的平均值差。

但是當(dāng)我們用這樣的方式去處理深層神經(jīng)網(wǎng)絡(luò)這類嚴(yán)重非凸的模型時(shí),就不再有理論保證了。我們?cè)?2017 年這幾篇論文里指出了這個(gè)理論的缺失,并指出我們不應(yīng)該做模型參數(shù)的平均,而是應(yīng)該做模型輸出的平均,這樣才能獲得性能的保障,因?yàn)殡m然神經(jīng)網(wǎng)絡(luò)模型是非凸的,但是常用的損失函數(shù)本身是凸的。

但是模型輸出的平均相當(dāng)于做了模型的集成,它會(huì)使模型的尺寸變大很多倍。當(dāng)機(jī)器學(xué)習(xí)不斷迭代時(shí),這種模型的集成就會(huì)導(dǎo)致模型尺寸爆炸的現(xiàn)象。為了保持凸性帶來的好處,同時(shí)又不會(huì)受到模型尺寸爆炸的困擾,我們需要在整個(gè)機(jī)器學(xué)習(xí)流程里不僅做模型集成,還要做有效的模型壓縮。

這就是我們提出的模型集成-壓縮環(huán)路。通過模型集成,我們保持了凸性帶來的好處,通過模型壓縮,我們避免了模型尺寸的爆炸,所以最終會(huì)取得一個(gè)非常好的折中效果。

深度學(xué)習(xí)理論探索

接下來我們講講如何探索深度學(xué)習(xí)的理論邊界。我們都知道深度學(xué)習(xí)很高效,任意一個(gè)連續(xù)函數(shù),只要一個(gè)足夠復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)都可以逼近得很好。但是這并不表示機(jī)器就真能學(xué)到好的模型。因?yàn)楫?dāng)目標(biāo)函數(shù)的界面太復(fù)雜時(shí),我們可能掉入局部極小值的陷阱,無法得到我們想要的最好模型。當(dāng)模型太復(fù)雜時(shí),還容易出現(xiàn)過擬合,在優(yōu)化過程中可能做的不錯(cuò),可是當(dāng)你把學(xué)到的模型應(yīng)用到未知的測(cè)試數(shù)據(jù)上時(shí),效果不一定很好。因此對(duì)于深度學(xué)習(xí)的優(yōu)化過程進(jìn)行深入研究是很有必要的。

g-Space

這個(gè)方向上,今年我們做了一個(gè)蠻有趣的工作,叫 g-Space Deep Learning。

這個(gè)工作研究的對(duì)象是圖像處理任務(wù)里常用的一大類深度神經(jīng)網(wǎng)絡(luò),這類網(wǎng)絡(luò)的激活函數(shù)是ReLU函數(shù)。ReLU是一個(gè)分段線性函數(shù),在負(fù)半軸取值為0,在正半軸則是一個(gè)線性函數(shù)。ReLU Network 有一個(gè)眾所周知的特點(diǎn),就是正尺度不變性,但我們對(duì)于這個(gè)特點(diǎn)對(duì)神經(jīng)網(wǎng)絡(luò)優(yōu)化影響的理解非常有限。

那么什么是正尺度不變性呢?我們來舉個(gè)例子。這是一個(gè)神經(jīng)網(wǎng)絡(luò)的局部,假設(shè)中間隱節(jié)點(diǎn)的激活函數(shù)是ReLU函數(shù)。當(dāng)我們把這個(gè)神經(jīng)元兩條輸入邊上面的權(quán)重都乘以一個(gè)正常數(shù) c,同時(shí)把輸出邊上的權(quán)重除以同樣的正常數(shù) c,就得到一個(gè)新的神經(jīng)網(wǎng)絡(luò),因?yàn)樗膮?shù)發(fā)生了變化。但是如果我們把整個(gè)神經(jīng)網(wǎng)絡(luò)當(dāng)成一個(gè)整體的黑盒子來看待,這個(gè)函數(shù)其實(shí)沒有發(fā)生任何變化,也就是無論什么樣的輸入,輸出結(jié)果都不變。這就是正尺度不變性。

這個(gè)不變性其實(shí)很麻煩,當(dāng)激活函數(shù)是 ReLu函數(shù)時(shí),很多參數(shù)完全不一樣的神經(jīng)網(wǎng)絡(luò),其實(shí)對(duì)應(yīng)了同一個(gè)函數(shù)。這說明當(dāng)我們用神經(jīng)網(wǎng)絡(luò)的原始參數(shù)來表達(dá)神經(jīng)網(wǎng)絡(luò)時(shí),參數(shù)空間是高度冗余的空間,因?yàn)椴煌膮?shù)可能對(duì)應(yīng)了同一個(gè)網(wǎng)絡(luò)。這種冗余的空間是不能準(zhǔn)確表達(dá)神經(jīng)網(wǎng)絡(luò)的。同時(shí)在這樣的冗余空間里可能存在很多假的極值點(diǎn),它們是由空間冗余帶來的,并不是原問題真實(shí)的極值點(diǎn)。我們平時(shí)在神經(jīng)網(wǎng)絡(luò)優(yōu)化過程中遇到的梯度消減、梯度爆炸的現(xiàn)象,很多都跟冗余的表達(dá)有關(guān)系。

既然參數(shù)空間冗余有這么多缺點(diǎn),我們能不能解決這個(gè)問題?如果不在參數(shù)空間里做梯度下降法,而是在一個(gè)更緊致的表達(dá)空間里進(jìn)行優(yōu)化,是不是就可以解決這些問題呢?這個(gè)愿望聽起來很美好,但實(shí)際上做起來非常困難。因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)是一個(gè)非常復(fù)雜的函數(shù),想對(duì)它做精確的緊致表達(dá),需要非常強(qiáng)的數(shù)學(xué)基礎(chǔ)和幾何表達(dá)能力。我們組里的研究員們做了非常多的努力,經(jīng)過了一年多的時(shí)間,才對(duì)這個(gè)緊致的空間做了一個(gè)完整的描述,我們稱其為 g-Space 。

g-Space 其實(shí)是由神經(jīng)網(wǎng)絡(luò)中一組線性無關(guān)的通路組成的,所謂通路就是從輸入到輸出所走過的一條不回頭的通路,也就是其中一些邊的連接集合。我們可以證明,如果把神經(jīng)網(wǎng)絡(luò)里的這些通路組成一個(gè)空間,這個(gè)空間里的基所組成的表達(dá),其實(shí)就是對(duì)神經(jīng)網(wǎng)絡(luò)的緊致表達(dá)。

有了 g-Space 之后,我們就可以在其中計(jì)算梯度,同時(shí)也可以在 g-Space 里計(jì)算距離。有了這個(gè)距離之后,我們還可以在 g-Space 里定義一些正則項(xiàng),防止神經(jīng)網(wǎng)絡(luò)過擬合。

我們的論文表明,在新的緊致空間里做梯度下降的計(jì)算復(fù)雜度并不高,跟在參數(shù)空間里面做典型的 BP 操作復(fù)雜度幾乎是一樣的。換言之,我們?cè)O(shè)計(jì)了一個(gè)巧妙的算法,它的復(fù)雜度并沒有增加,但卻回避了原來參數(shù)空間里的很多問題,獲得了對(duì)于 ReLU Network 的緊致表達(dá),并且計(jì)算了正確的梯度,實(shí)現(xiàn)了更好的模型優(yōu)化。

有了這些東西之后,我們形成了一套新的深度學(xué)習(xí)優(yōu)化框架。這個(gè)方法非常 general,它并沒有改變目標(biāo)函數(shù),也沒改變神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),僅僅是換了一套優(yōu)化方法,相當(dāng)于整個(gè)機(jī)器學(xué)習(xí)工具包里面只換了底層,就可以訓(xùn)練出效果更好的模型來。

元學(xué)習(xí)的限制

第四個(gè)研究方向也非常有趣,我們管它叫 Learning to Teach,中文我沒想到特別好的翻譯,現(xiàn)在權(quán)且叫做“教學(xué)相長(zhǎng)”。

我們提出 Learning to Teach 這個(gè)研究方向,是基于對(duì)現(xiàn)在機(jī)器學(xué)習(xí)框架的局限性的反思。這個(gè)式子雖然看起來很簡(jiǎn)單,但它可以描述一大類的或者說絕大部分機(jī)器學(xué)習(xí)問題。這個(gè)式子是什么意思?首先 (x, y) 是訓(xùn)練樣本,它是從訓(xùn)練數(shù)據(jù)集 D 里采樣出來的。 f(ω) 是模型,比如它可能代表了某一個(gè)神經(jīng)網(wǎng)絡(luò)。我們把 f(ω)作用在輸入樣本 x 上,就會(huì)得到一個(gè)對(duì)輸入樣本的預(yù)測(cè)。然后,我們把預(yù)測(cè)結(jié)果跟真值標(biāo)簽 y 進(jìn)行比較,就可以定義一個(gè)損失函數(shù) L。

現(xiàn)在絕大部分機(jī)器學(xué)習(xí)都是在模型空間里最小化損失函數(shù)。所以這個(gè)式子里有三個(gè)量,分別是訓(xùn)練數(shù)據(jù) D,損失函數(shù) L,還有模型空間 Ω。 這三個(gè)量都是超參數(shù),它們是人為設(shè)計(jì)好的,是不變的。絕大部分機(jī)器學(xué)習(xí)過程,是在這三樣給定的情況下去做優(yōu)化,找到最好的 ω,使得我們?cè)谟?xùn)練數(shù)據(jù)集上能夠最小化人為定義的損失函數(shù)。即便是這幾年提出的 meta learning 或者 learning2learn,其實(shí)也沒有跳出這個(gè)框架。因?yàn)闄C(jī)器學(xué)習(xí)框架本身從來就沒有規(guī)定最小化過程只能用梯度下降的方法,你可以用任何方法,都超不出這個(gè)這個(gè)式子所表達(dá)的框架。

但是為什么訓(xùn)練數(shù)據(jù)集 D、損失函數(shù) L 和模型參數(shù)空間 Ω 必須人為預(yù)先給定?如果不實(shí)現(xiàn)給定,而是在機(jī)器學(xué)習(xí)過程中動(dòng)態(tài)調(diào)整,會(huì)變成什么樣子?這就是所謂的 Learning to Teach。我們希望通過自動(dòng)化的手段,自動(dòng)調(diào)節(jié)訓(xùn)練數(shù)據(jù)集 D、損失函數(shù) L 和模型參數(shù)空間 Ω,以期拓展現(xiàn)有機(jī)器學(xué)習(xí)的邊界,幫助我們訓(xùn)練出更加強(qiáng)大的機(jī)器學(xué)習(xí)模型。

要實(shí)現(xiàn)這件事情其實(shí)并不簡(jiǎn)單,我們需要用全新的思路和視角。我們?cè)诮衲赀B續(xù)發(fā)表了三篇文章,對(duì)于用自動(dòng)化的方式去確定訓(xùn)練數(shù)據(jù)、函數(shù)空間和損失函數(shù),做了非常系統(tǒng)的研究。

我給大家形象地描述一下我們的研究。 比如我們?cè)趺从米詣?dòng)化的方式去選擇合適的數(shù)據(jù)?其實(shí)很簡(jiǎn)單。除了原來的機(jī)器學(xué)習(xí)的模型以外,我們還有一個(gè)教學(xué)模型 teacher model。這個(gè)模型會(huì)把原來的機(jī)器學(xué)習(xí)的過程、所處的階段、效果好壞等作為輸入,輸出對(duì)下一階段訓(xùn)練數(shù)據(jù)的選擇。這個(gè) teacher model 會(huì)根據(jù)原來的機(jī)器學(xué)習(xí)模型的進(jìn)展過程,動(dòng)態(tài)選擇最適合的訓(xùn)練數(shù)據(jù),最大限度提高性能。同時(shí)teacher model也會(huì)把機(jī)器學(xué)習(xí)在交叉驗(yàn)證集上的效果作為反饋,自我學(xué)習(xí),自我提高。

同樣 model teaching 的環(huán)路中也存在一個(gè) teacher model ,它會(huì)根據(jù)原來的機(jī)器學(xué)習(xí)過程所處的階段、訓(xùn)練的效果,選擇合適的函數(shù)空間,讓原來的機(jī)器學(xué)習(xí)擴(kuò)大自己的搜索范圍,這個(gè)過程也是自適應(yīng)的、動(dòng)態(tài)的。原來的機(jī)器學(xué)習(xí)模型我們叫 student model,和我們引入的教學(xué)模型 teacher model 之間進(jìn)行互動(dòng),就可以將學(xué)習(xí)過程推向一個(gè)新的高度。

同樣,teacher model也可以動(dòng)態(tài)調(diào)整原來student model 所要優(yōu)化的目標(biāo)。 比如,我們的學(xué)習(xí)目標(biāo)可以從簡(jiǎn)到難,最開始的時(shí)候,一個(gè)簡(jiǎn)單的學(xué)習(xí)目標(biāo)會(huì)讓我們很快學(xué)到一些東西,但是這個(gè)學(xué)習(xí)目標(biāo)可能和我們最終問題的評(píng)價(jià)準(zhǔn)則相差很遠(yuǎn)。我們不斷把簡(jiǎn)單平滑的目標(biāo),向著問題評(píng)價(jià)的復(fù)雜的非連續(xù)函數(shù)逼近,就會(huì)引導(dǎo) student model 不斷提高自己的能力,最后實(shí)現(xiàn)很好的學(xué)習(xí)效果。

總結(jié)一下,當(dāng)我們有一個(gè) teacher model,它可以動(dòng)態(tài)地設(shè)計(jì)訓(xùn)練數(shù)據(jù)集、改變模型空間、調(diào)整目標(biāo)函數(shù)時(shí),就會(huì)使得原來“student model”的訓(xùn)練更寬泛、更有效,它的邊界就會(huì)被放大。 我們?cè)谌撐睦锩娣謩e展示了很多不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。

我自己認(rèn)為 Learning to Teach 非常有潛力,它擴(kuò)大了傳統(tǒng)機(jī)器學(xué)習(xí)的邊界。我們的三篇論文僅僅是拋磚引玉,告訴大家這件事情可以做,但前面路還很長(zhǎng)。

到此為止,我把最近這一兩年微軟亞洲研究院在機(jī)器學(xué)習(xí)領(lǐng)域所做的一些研究成果跟大家做了分享,它們只是我們研究成果的一個(gè)小小的子集,但是我覺得這幾個(gè)方向非常有趣,希望能夠啟發(fā)大家去做更有意義的研究。

展望未來

現(xiàn)在機(jī)器學(xué)習(xí)領(lǐng)域的會(huì)議越來越膨脹,有一點(diǎn)點(diǎn)不理智。每一年那么多論文,甚至都不知道該讀哪些。人們?cè)趯懻撐?、做研究的時(shí)候,有時(shí)也不知道重點(diǎn)該放在哪里。比如,如果整個(gè)學(xué)術(shù)界都在做 learning2learn,是不是我應(yīng)該做一篇 learning2learn 的論文?大家都在用自動(dòng)化的方式做 neural architecture search,我是不是也要做一篇呢?現(xiàn)在這種隨波逐流、人云亦云的心態(tài)非常多。

我們其實(shí)應(yīng)該反思:現(xiàn)在大家關(guān)注的熱點(diǎn)是不是涵蓋了所有值得研究的問題?有哪些重要的方向其實(shí)是被忽略的?我舉個(gè)例子,比如輕量級(jí)的機(jī)器學(xué)習(xí),比如 Learning to Teach,比如對(duì)于深度學(xué)習(xí)的一些理論探索,這些方面在如今火熱的研究領(lǐng)域里面涉及的并不多,但這些方向其實(shí)非常重要。只有對(duì)這些方向有非常深刻的認(rèn)識(shí),我們才能真正推動(dòng)機(jī)器學(xué)習(xí)的發(fā)展。希望大家能夠把心思放到那些你堅(jiān)信重要的研究方向上,即便當(dāng)下它還不是學(xué)術(shù)界關(guān)注的主流。

接下來我們對(duì)機(jī)器學(xué)習(xí)未來的發(fā)展做一些展望,這些展望可能有些天馬行空,但是卻包含了一些有意義的哲學(xué)思考,希望對(duì)大家有所啟發(fā)。

量子計(jì)算

第一個(gè)方面涉及機(jī)器學(xué)習(xí)和量子計(jì)算之間的關(guān)系。量子計(jì)算也是一個(gè)非?;鸬难芯繜狳c(diǎn),但是當(dāng)機(jī)器學(xué)習(xí)碰到量子計(jì)算,會(huì)產(chǎn)生什么樣的火花?其實(shí)這是一個(gè)非常值得我們思考的問題。

目前學(xué)術(shù)界關(guān)注的問題之一是如何利用量子計(jì)算的計(jì)算力去加速機(jī)器學(xué)習(xí)的優(yōu)化過程,這就是所謂的quantum speedup。但是,這是否是故事的全部呢?大家應(yīng)該想一想,反過來作為一名機(jī)器學(xué)習(xí)的學(xué)者,我們是不是有可能幫助量子計(jì)算呢?或者當(dāng)機(jī)器學(xué)習(xí)和量子計(jì)算各自往前走,碰到一起的時(shí)候會(huì)迸發(fā)出怎樣的新火花?

其實(shí)在量子計(jì)算里有一些非常重要的核心問題,比如我們要去評(píng)估或者或者預(yù)測(cè) quantum state(量子態(tài)),然后才能把量子計(jì)算的結(jié)果取出來。這個(gè)過程在傳統(tǒng)理論里面已經(jīng)證明,在最壞情況下,我們就需要指數(shù)級(jí)的采樣,才能對(duì) quantum state 做比較好的估計(jì)。但這件事情會(huì)帶來負(fù)面影響,量子計(jì)算雖然很快,但是如果探測(cè)量子態(tài)耗費(fèi)了大量時(shí)間來做采樣,就會(huì)拖垮原來的加速效果,最后合在一起,并沒有實(shí)現(xiàn)任何加速。

我們知道很多最壞情況下非常復(fù)雜的問題,比如 NP Complete問題,用機(jī)器學(xué)習(xí)的方法去解,其實(shí)可以在平均意義上取得非常好的效果。我們今年在ACML上獲得最佳論文的工作就是用機(jī)器學(xué)習(xí)的方法來解travelling salesman問題,取得了比傳統(tǒng)組合優(yōu)化更高效的結(jié)果。沿著這個(gè)思路,我們是不是可以用機(jī)器學(xué)習(xí)幫助處理量子計(jì)算里的問題,比如quantum state prediction,是不是根本不需要指數(shù)級(jí)的采樣,就可以得到一個(gè)相當(dāng)好的估計(jì)?在線學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等都能在這方面有所幫助。

同時(shí),量子和機(jī)器學(xué)習(xí)理論相互碰撞時(shí),會(huì)發(fā)生一些非常有趣的現(xiàn)象。我們知道,量子有不確定性,這種不確定性有的時(shí)候不見得是件壞事,因?yàn)樵跈C(jī)器學(xué)習(xí)領(lǐng)域,我們通常希望有不確定性,甚至有時(shí)我們還會(huì)故意在數(shù)據(jù)里加噪聲,在模型訓(xùn)練的過程中加噪聲,以期獲得更好的泛化性能。

從這個(gè)意義上講,量子計(jì)算的不確定性是不是反而可以幫助機(jī)器學(xué)習(xí)獲得更好的泛化性能?如果我們把量子計(jì)算的不確定性和機(jī)器學(xué)習(xí)的泛化放在一起,形成一個(gè)統(tǒng)一的理論框架,是不是可以告訴我們它的 Trade-off 在哪里?是不是我們對(duì)量子態(tài)的探測(cè)就不需要那么狠?因?yàn)樘綔y(cè)得越狠可能越容易 overfit。是不是有一個(gè)比較好的折中?其實(shí)這些都是非常有趣的問題,也值得量子計(jì)算的研究人員和機(jī)器學(xué)習(xí)的研究人員共同花很多年的時(shí)間去探索。

以簡(jiǎn)治繁

第二個(gè)方向也很有趣,它涉及到我們應(yīng)該以何種方式來看待訓(xùn)練數(shù)據(jù)。深度學(xué)習(xí)是一個(gè)以繁治繁的過程,為了去處理非常復(fù)雜的訓(xùn)練數(shù)據(jù),它使用了一個(gè)幾乎更復(fù)雜的模型。但這樣做真的值得嗎?跟我們過去幾十年甚至上百年做基礎(chǔ)科學(xué)的思路是不是一致的?

在物理、化學(xué)、生物這些領(lǐng)域,人們追求的是世界簡(jiǎn)單而美的規(guī)律。不管是量子物理,還是化學(xué)鍵,甚至經(jīng)濟(jì)學(xué)、遺傳學(xué),很多復(fù)雜的現(xiàn)象背后其實(shí)都是一個(gè)二階偏微分方程,比如薛定諤方程,比如麥克斯韋方程組,等等。這些方程都告訴我們,看起來很復(fù)雜的世界,其實(shí)背后的數(shù)學(xué)模型都是簡(jiǎn)單而美的。這些以簡(jiǎn)治繁的思路,跟深度學(xué)習(xí)是大相徑庭的。

機(jī)器學(xué)習(xí)的學(xué)者也要思考一下,以繁治繁的深度學(xué)習(xí)真的是對(duì)的嗎?我們把數(shù)據(jù)看成上帝,用那么復(fù)雜的模型去擬合它,這樣的思路真的對(duì)嗎?是不是有一點(diǎn)舍本逐末了?以前的這種以簡(jiǎn)治繁的思路,從來都不認(rèn)為數(shù)據(jù)是上帝,他們認(rèn)為背后的規(guī)律是上帝,數(shù)據(jù)只是一個(gè)表象。

我們要學(xué)的是生成數(shù)據(jù)的規(guī)律,而不是數(shù)據(jù)本身,這個(gè)方向其實(shí)非常值得大家去思考。要想沿著這個(gè)方向做很好的研究,我們需要機(jī)器學(xué)習(xí)的學(xué)者擴(kuò)大自己的知識(shí)面,更多地去了解動(dòng)態(tài)系統(tǒng)或者是偏微分方程等,以及傳統(tǒng)科學(xué)里的各種數(shù)學(xué)工具,而不是簡(jiǎn)單地使用一個(gè)非線性的模型去做數(shù)據(jù)擬合。

Improvisational Learning

第三個(gè)方向關(guān)乎的是我們?nèi)祟惖降资侨绾螌W(xué)習(xí)的。到今天為止,深度學(xué)習(xí)在很多領(lǐng)域的成功,其實(shí)都是做模式識(shí)別。模式識(shí)別聽起來很神奇,其實(shí)是很簡(jiǎn)單的一件事情。幾乎所有的動(dòng)物都會(huì)模式識(shí)別。人之所以有高的智能,并不是因?yàn)槲覀儠?huì)做模式識(shí)別,而是因?yàn)槲覀冇兄R(shí),有常識(shí)?;谶@個(gè)理念,Yann LeCun 一個(gè)新的研究方向叫 Predictive Learning(預(yù)測(cè)學(xué)習(xí))。它的思想是什么?就是即便我們沒有看到事物的全貌,因?yàn)槲覀冇谐WR(shí),有知識(shí),我們?nèi)匀豢梢宰鲆欢ǔ潭鹊念A(yù)測(cè),并且基于這個(gè)預(yù)測(cè)去做決策。這件事情已經(jīng)比傳統(tǒng)的模式識(shí)別高明很多,它會(huì)涉及到人利用知識(shí)和常識(shí)去做預(yù)測(cè)的問題。

但是,反過來想一想,我們的世界真的是可以預(yù)測(cè)的嗎?可能一些平凡的規(guī)律是可以預(yù)測(cè)的,但是我們每個(gè)人都可以體會(huì)到,我們的生活、我們的生命、我們的世界大部分都是不可預(yù)測(cè)的。所以這句名言很好,The only thing predictable about life is its unpredictability(人生中唯一能預(yù)測(cè)的就是其不可預(yù)測(cè)性)。

我們既然活在一個(gè)不可預(yù)測(cè)的世界里,那么我們到底是怎樣從這個(gè)世界里學(xué)習(xí),并且越來越強(qiáng)大?以下只是一家之言,我們猜測(cè)人類其實(shí)在做一件事情,叫 Improvisation,什么意思?就是我們每個(gè)人其實(shí)是為了生存在跟這個(gè)世界抗?fàn)?。我們每天從世界里面學(xué)習(xí)的東西,都是為了應(yīng)付將來未知的異常。當(dāng)一件不幸的事情發(fā)生的時(shí)候,我們?nèi)绾尾拍苌嫦聛??其?shí)是因?yàn)槲覀儗?duì)這個(gè)世界有足夠的了解,于是會(huì)利用已有的知識(shí),即興制定出一個(gè)方案,讓我們規(guī)避風(fēng)險(xiǎn),走過這個(gè)坎。

我們希望在我們的眼里,世界的熵在降低。我們對(duì)它了解越多,它在我們的眼里的熵越低。同時(shí),我們希望當(dāng)環(huán)境發(fā)生變化時(shí),比如意外發(fā)生時(shí),我們有能力即興地去處理。這張PPT 里面描述的即興學(xué)習(xí)框架就是我們?cè)诟h(huán)境互動(dòng),以及在做各種思想實(shí)驗(yàn),通過無監(jiān)督的方式自我學(xué)習(xí)應(yīng)對(duì)未知異常的能力。

從這個(gè)意義上講,這個(gè)過程其實(shí)跟 Predictive Learning 不一樣,跟強(qiáng)化學(xué)習(xí)也不一樣,因?yàn)樗鼪]有既定的學(xué)習(xí)規(guī)律和學(xué)習(xí)目標(biāo),并且它是跟環(huán)境做交互,希望能夠處理未來的未知環(huán)境。這其實(shí)就跟我們每個(gè)人積累一身本事一樣,為的就是養(yǎng)兵千日用兵一時(shí)。當(dāng)某件事情發(fā)生時(shí),我怎么能夠把一身的本事使出來,活下去。這個(gè)過程能不能用數(shù)學(xué)的語言描述? Improvisational Learning 能不能變成一個(gè)新的機(jī)器學(xué)習(xí)研究方向?非常值得我們思考。

群體智慧

最后一個(gè)展望涉及到一個(gè)更哲學(xué)的思辨:人類的智能之所以這么高,到底是因?yàn)槲覀儌€(gè)體非常強(qiáng)大,還是因?yàn)槲覀內(nèi)后w非常強(qiáng)大?今天絕大部分的人工智能研究,包括深度學(xué)習(xí),其實(shí)都在模仿人類個(gè)體的大腦,希望學(xué)會(huì)人類個(gè)體的學(xué)習(xí)能力??墒菕行淖詥?,人類個(gè)體的學(xué)習(xí)能力真的比大猩猩等人類近親高幾個(gè)數(shù)量級(jí)嗎?答案顯然不是,但是今天人類文明發(fā)展的程度,跟猴子、跟大猩猩他們所處社區(qū)的文明的發(fā)展程度相比卻有天壤之別。

所以我們堅(jiān)信人類除了個(gè)體聰明以外,還有一些更加特殊的東西,那就是社會(huì)結(jié)構(gòu)和社會(huì)機(jī)制,使得我們的智能突飛猛進(jìn)。比如文字的產(chǎn)生,書籍的產(chǎn)生,它變成了知識(shí)的載體,使得某一個(gè)人獲得的對(duì)世界的認(rèn)知,可以迅速傳播給全世界其他人,這個(gè)社會(huì)機(jī)制非常重要,會(huì)加速我們的進(jìn)化。

再者,社會(huì)分工不同會(huì)使得每個(gè)人只要優(yōu)化自己的目標(biāo),讓自己變強(qiáng)大就可以了。各個(gè)領(lǐng)域里有各自的大師,而這些大師的互補(bǔ)作用,使得我們社會(huì)蓬勃發(fā)展。

所以社會(huì)的多樣性,社會(huì)競(jìng)爭(zhēng)、進(jìn)化、革命、革新,這些可能都是人類有今天這種高智能的原因。而這些東西在今天的機(jī)器學(xué)習(xí)領(lǐng)域,鮮有人去做非常好的建模。我們堅(jiān)信只有對(duì)這些事情做了非常深入的研究,我們才能真正了解了人的智能,真的了解了機(jī)器學(xué)習(xí),把我們的研究推向新的高度。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器
    +關(guān)注

    關(guān)注

    0

    文章

    772

    瀏覽量

    40637
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3032

    瀏覽量

    48356
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8306

    瀏覽量

    131841

原文標(biāo)題:劉鐵巖談機(jī)器學(xué)習(xí):隨波逐流的太多,我們需要反思

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【《時(shí)間序列與機(jī)器學(xué)習(xí)》閱讀體驗(yàn)】+ 時(shí)間序列的信息提取

    之前對(duì)《時(shí)間序列與機(jī)器學(xué)習(xí)》一書進(jìn)行了整體瀏覽,并且非常輕松愉快的完成了第一章的學(xué)習(xí),今天開始學(xué)習(xí)第二章“時(shí)間序列的信息提取”。 先粗略的翻閱第二章,內(nèi)容復(fù)雜,充斥了大量的定義、推導(dǎo)計(jì)
    發(fā)表于 08-14 18:00

    【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】+ 簡(jiǎn)單建議

    這本書以其系統(tǒng)性的框架和深入淺出的講解,為讀者繪制了一幅時(shí)間序列分析與機(jī)器學(xué)習(xí)融合應(yīng)用的宏偉藍(lán)圖。作者不僅扎實(shí)地構(gòu)建了時(shí)間序列分析的基礎(chǔ)知識(shí),更巧妙地展示了機(jī)器學(xué)習(xí)如何在這一領(lǐng)域發(fā)揮巨
    發(fā)表于 08-12 11:21

    機(jī)器學(xué)習(xí)中的數(shù)據(jù)分割方法

    機(jī)器學(xué)習(xí)中,數(shù)據(jù)分割是一項(xiàng)至關(guān)重要的任務(wù),它直接影響到模型的訓(xùn)練效果、泛化能力以及最終的性能評(píng)估。本文將從多個(gè)方面詳細(xì)探討機(jī)器學(xué)習(xí)中數(shù)據(jù)分割的方法,包括常見的分割方法、各自的優(yōu)缺點(diǎn)、
    的頭像 發(fā)表于 07-10 16:10 ?613次閱讀

    人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是什么

    在科技日新月異的今天,人工智能(Artificial Intelligence, AI)、機(jī)器學(xué)習(xí)(Machine Learning, ML)和深度學(xué)習(xí)(Deep Learning, DL)已成為
    的頭像 發(fā)表于 07-03 18:22 ?673次閱讀

    機(jī)器學(xué)習(xí)算法原理詳解

    機(jī)器學(xué)習(xí)作為人工智能的一個(gè)重要分支,其目標(biāo)是通過讓計(jì)算機(jī)自動(dòng)從數(shù)據(jù)中學(xué)習(xí)并改進(jìn)其性能,而無需進(jìn)行明確的編程。本文將深入解讀幾種常見的機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 07-02 11:25 ?396次閱讀

    機(jī)器學(xué)習(xí)在數(shù)據(jù)分析中的應(yīng)用

    隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)量的爆炸性增長(zhǎng)對(duì)數(shù)據(jù)分析提出了更高的要求。機(jī)器學(xué)習(xí)作為一種強(qiáng)大的工具,通過訓(xùn)練模型從數(shù)據(jù)中學(xué)習(xí)規(guī)律,為企業(yè)和組織提供了更高效、更準(zhǔn)確的數(shù)據(jù)分析能力。本文將深入探討機(jī)器
    的頭像 發(fā)表于 07-02 11:22 ?302次閱讀

    深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的對(duì)比

    在人工智能的浪潮中,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)無疑是兩大核心驅(qū)動(dòng)力。它們各自以其獨(dú)特的方式推動(dòng)著技術(shù)的進(jìn)步,為眾多領(lǐng)域帶來了革命性的變化。然而,盡管它們都屬于機(jī)器
    的頭像 發(fā)表于 07-01 11:40 ?617次閱讀

    機(jī)器學(xué)習(xí)的經(jīng)典算法與應(yīng)用

    關(guān)于數(shù)據(jù)機(jī)器學(xué)習(xí)就是喂入算法和數(shù)據(jù),讓算法從數(shù)據(jù)中尋找一種相應(yīng)的關(guān)系。Iris鳶尾花數(shù)據(jù)集是一個(gè)經(jīng)典數(shù)據(jù)集,在統(tǒng)計(jì)學(xué)習(xí)機(jī)器學(xué)習(xí)領(lǐng)域都經(jīng)常被
    的頭像 發(fā)表于 06-27 08:27 ?1428次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的經(jīng)典算法與應(yīng)用

    請(qǐng)問PSoC? Creator IDE可以支持IMAGIMOB機(jī)器學(xué)習(xí)嗎?

    我的項(xiàng)目使用 POSC62 MCU 進(jìn)行開發(fā),由于 UDB 模塊是需求的重要組成部分,所以我選擇了PSoC? Creator IDE 來進(jìn)行項(xiàng)目開發(fā)。 但現(xiàn)在,由于需要擴(kuò)展,我不得不使用機(jī)器學(xué)習(xí)模塊
    發(fā)表于 05-20 08:06

    機(jī)器學(xué)習(xí)8大調(diào)參技巧

    今天給大家一篇關(guān)于機(jī)器學(xué)習(xí)調(diào)參技巧的文章。超參數(shù)調(diào)優(yōu)是機(jī)器學(xué)習(xí)例程中的基本步驟之一。該方法也稱為超參數(shù)優(yōu)化,需要搜索超參數(shù)的最佳配置以實(shí)現(xiàn)最佳性能。
    的頭像 發(fā)表于 03-23 08:26 ?472次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>8大調(diào)參技巧

    大牛如何學(xué)習(xí)機(jī)器視覺?

    國(guó)內(nèi)外機(jī)器視覺發(fā)展的不同。我本人認(rèn)為,只有先搞清了兩邊的不一樣,才便于說清如何下手學(xué)習(xí)。國(guó)外機(jī)器視覺發(fā)展到今天,已經(jīng)從“一包到底”式的工作程序,發(fā)展到了細(xì)致分工的階段了。
    發(fā)表于 01-15 11:02 ?307次閱讀
    大牛<b class='flag-5'>談</b>如何<b class='flag-5'>學(xué)習(xí)機(jī)器</b>視覺?

    如何使用TensorFlow構(gòu)建機(jī)器學(xué)習(xí)模型

    在這篇文章中,我將逐步講解如何使用 TensorFlow 創(chuàng)建一個(gè)簡(jiǎn)單的機(jī)器學(xué)習(xí)模型。
    的頭像 發(fā)表于 01-08 09:25 ?802次閱讀
    如何使用TensorFlow構(gòu)建<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>模型

    振弦采集儀在土體與體監(jiān)測(cè)中的可靠性與精度分析

    振弦采集儀在土體與體監(jiān)測(cè)中的可靠性與精度分析 振弦采集儀是一種用于土體和體監(jiān)測(cè)的重要設(shè)備,它可以通過測(cè)量振動(dòng)信號(hào)來獲取土體或體的力學(xué)參數(shù),如應(yīng)力、應(yīng)變、彈性模量等。而振弦采集儀的可靠性和精度
    的頭像 發(fā)表于 12-06 13:27 ?257次閱讀
    振弦采集儀在土體與<b class='flag-5'>巖</b>體監(jiān)測(cè)中的可靠性與精度分析

    淺析機(jī)器學(xué)習(xí)的基本步驟

    機(jī)器學(xué)習(xí)中,機(jī)器學(xué)習(xí)的效率在很大程度上取決于它所提供的數(shù)據(jù)集,數(shù)據(jù)集的大小和豐富程度也決定了最終預(yù)測(cè)的結(jié)果質(zhì)量。目前在算力方面,量子計(jì)算能超越傳統(tǒng)二進(jìn)制的編碼系統(tǒng),利用量子的糾纏與疊
    發(fā)表于 10-30 11:13 ?334次閱讀
    淺析<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的基本步驟

    機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘方法和應(yīng)用

    機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘方法和應(yīng)用(經(jīng)典)
    發(fā)表于 09-26 07:56