首頁(yè): 電子電路圖,電子技術(shù)資料網(wǎng)站首頁(yè)

電子資料下載: 電子資料下載頻道 -- 為電子工程師提供激發(fā)創(chuàng)新靈感的新方案、新的參考設(shè)計(jì)、新的設(shè)計(jì)構(gòu)想等可下載的電子資料！

電子技術(shù)應(yīng)用: 電子技術(shù)應(yīng)用頻道 -- 為電子工程師提供電子產(chǎn)品設(shè)計(jì)所需的技術(shù)分析、設(shè)計(jì)技巧、設(shè)計(jì)工具、測(cè)試工具等技術(shù)文章！

電子元器件: 專(zhuān)業(yè)的電子元器件平臺(tái) -- 及時(shí)發(fā)布大量最新IC、分立器件、模組等電子元器件產(chǎn)品信息！

電子電路圖: 電路圖頻道 -- 提供電子電路圖,原理圖,汽車(chē)電路圖,手機(jī)電路圖,功放電路圖,電源電路圖等電路圖紙

電子技術(shù)論壇: 構(gòu)建電子工程師交流的平臺(tái) -- 在交流中進(jìn)一步學(xué)習(xí)設(shè)計(jì)技巧、規(guī)劃技術(shù)人生、提升自我價(jià)值！

源碼下載: 源碼下載頻道; uCOS編程 C/C++語(yǔ)言編程 Symbian編程 Linux/uClinux/Unix編程 Windows編程 matlab源程序 php源碼下載 asp.net源碼下載 java源碼下載匯編編程驅(qū)動(dòng)程序單片機(jī)編程數(shù)值算法/人工智能

您的位置：電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

AlphaGo的機(jī)器學(xué)習(xí)泛化能力仍待提高

大小：0.4 MB 人氣： 2017-10-12 需要積分：1

前往下載地址

分享到:

標(biāo)簽：AlphaGo(27503)

上了數(shù)以千計(jì)的CPU和上百的GPU，AlphaGo在與李世石的挑戰(zhàn)賽中贏了第一局。除了算法的設(shè)計(jì)，這還是計(jì)算的勝利，用DeepMind公司研究負(fù)責(zé)人David Silver的話說(shuō)，職業(yè)棋手在考慮下一手布局時(shí)，每秒可以考慮到100種可能的棋路，但AlphaGo每秒可以考慮到10萬(wàn)種棋路，計(jì)算速度也比人類(lèi)更快。
　　那么，在機(jī)器學(xué)習(xí)一端呢，程序員們?cè)趺凑f(shuō)呢？
　　

　　李理：面對(duì)頂尖高手，AlphaGo只有殘局搜索速度的優(yōu)勢(shì)
　　李理，出門(mén)問(wèn)問(wèn)NLP工程師
　　沒(méi)想到第一局AlphaGo就取得勝利，作為對(duì)人工智能感興趣的碼農(nóng)，我既感到高興又不免有些傷感。高興是因?yàn)槲覀兛梢浴皠?chuàng)造”出比我們自己“聰明”的機(jī)器，傷感就像教拳擊的師傅看到徒弟的水平已然超過(guò)自己，不免有“老了，不中用了”的感嘆。另外還有那么一點(diǎn)點(diǎn)失落和擔(dān)憂(yōu)：那些花邊新聞不再會(huì)有我的出現(xiàn)了，失落之感油然而生。而且這孩子太天真，以后很容易被社會(huì)上不好的人帶壞。
　　但這是大勢(shì)所趨，不可避免，長(zhǎng)江后浪推前浪，人工智能會(huì)在很多領(lǐng)域超過(guò)人類(lèi)，這是我們不得不承認(rèn)的事實(shí)，但是我們還是不愿意承認(rèn)這個(gè)殘酷的事實(shí)。力量比不過(guò)機(jī)器我們比“智能”，計(jì)算比不過(guò)我們比邏輯，象棋比不過(guò)我們比圍棋，……，突然有一天我們發(fā)現(xiàn)找不到這樣的事情了，我們做何感想？我認(rèn)為這一天遲早會(huì)來(lái)的，但希望再我的有生之年不會(huì)到來(lái)（但我們做人工智能不就是希望這一天的到來(lái)嗎？）。也許是我們的世界觀太過(guò)狹隘，我們應(yīng)該歡呼這一天的到來(lái)？
　　當(dāng)然我覺(jué)得這一天還是離我們很遙遠(yuǎn)的，而且也不是太壞的事情，我們想象中的外星人都是來(lái)毀滅地球的，是不是因?yàn)槲覀兊奈幕际菑?qiáng)調(diào)競(jìng)爭(zhēng)而不是協(xié)作呢？從某個(gè)角度來(lái)說(shuō)，確實(shí)處處是矛盾：老板賺得多員工賺得少，碼農(nóng)月新高農(nóng)民辛苦一年報(bào)酬少，農(nóng)民把動(dòng)物的家園從森林砍成耕地，蜜蜂竊取花的糖分……。
　　但是換個(gè)角度來(lái)看，整個(gè)地球是一個(gè)協(xié)作的生態(tài)系統(tǒng)，植物把太陽(yáng)能變成動(dòng)物能吸收的食物，老板通過(guò)對(duì)外宣傳來(lái)推廣我們的產(chǎn)品和協(xié)調(diào)我們的長(zhǎng)短期計(jì)劃。馬龍通過(guò)程序交換信息從而更好的幫助人類(lèi)實(shí)現(xiàn)商品交換……。
　　從某種意義上講，機(jī)器智能也是人類(lèi)智能的一部分。比如我們通過(guò)各種工具來(lái)擴(kuò)展我們的能力，用機(jī)器來(lái)增加力量，用汽車(chē)飛機(jī)來(lái)提高速度，用望遠(yuǎn)鏡和顯微鏡來(lái)提高視覺(jué)能力，這是“非智能”的工具。但是竹木簡(jiǎn)，造紙術(shù)和計(jì)算機(jī)磁盤(pán)擴(kuò)展了我們的“記憶”。記憶能力在中國(guó)是非?？粗氐哪芰?，很多“天才”，都是記憶力超出常人，我們認(rèn)為一個(gè)小孩聰明，經(jīng)常會(huì)說(shuō)他六歲就能背誦唐詩(shī)三百首。這可能是因?yàn)橹袊?guó)作為一個(gè)幾千年的農(nóng)業(yè)國(guó)家，很多都是經(jīng)驗(yàn)的積累，因此記憶能力至關(guān)重要。但是到了現(xiàn)代，人腦外部的存儲(chǔ)已經(jīng)很方便了，再過(guò)分強(qiáng)調(diào)記憶力就容易培養(yǎng)死記硬背的書(shū)呆子了（用機(jī)器學(xué)習(xí)術(shù)語(yǔ)就是過(guò)擬合）。
　　但是我們還是認(rèn)為人類(lèi)是特殊的，比如有情感，比如有靈感，比如有抽象能力，能通過(guò)有限推廣到無(wú)限（比如數(shù)學(xué)里的極限），……。這些能力不管是被上帝賦予的還是人類(lèi)“生下來(lái)就有的”（那第一個(gè)人怎么獲得這么bug的技能的呢？），反正我們就認(rèn)為其它“東西”是不可能擁有的。（雖然我個(gè)人認(rèn)為人類(lèi)沒(méi)有任何特殊的能力，就不展開(kāi)討論了）
　　我們假設(shè)有一項(xiàng)特殊能力只有人類(lèi)會(huì)有，那么我們就不可能制造出類(lèi)似甚至超過(guò)人類(lèi)的機(jī)器，那很好嗎？我們失去了這項(xiàng)非常重要的創(chuàng)造力！反過(guò)來(lái)看，如果我們承認(rèn)人類(lèi)沒(méi)有特殊之處，那么之前有可能我們能有這樣的能力（通過(guò)人類(lèi)甚至人類(lèi)加機(jī)器的努力）。
　　扯得太遠(yuǎn)，我們還是回到圍棋和AlphaGo上面?，F(xiàn)在AlphaGo已經(jīng)全面超越人類(lèi)了嗎？我個(gè)人認(rèn)為還不見(jiàn)得。我在大學(xué)的時(shí)候?qū)戇^(guò)一個(gè)簡(jiǎn)單的黑白棋（othello，reversi）程序，寫(xiě)得很一般，尤其是開(kāi)局的估值函數(shù)。玩過(guò)黑白棋的同學(xué)可能都知道，開(kāi)局時(shí)要盡量占據(jù)邊和角，中間棋子太多反而不好。我的這個(gè)黑白棋程序開(kāi)局不行，但是到了還剩20步棋時(shí)它就能窮舉所有可能了。我一般和它下時(shí)會(huì)讓它彈出一個(gè)對(duì)話框告訴我當(dāng)前電腦計(jì)算出來(lái)的最優(yōu)結(jié)果。經(jīng)常是開(kāi)始得分是-20（這表示我如果下的完美，我最終比電腦多20個(gè)子），但下著下著就變成-16、-8……，最后常常被翻盤(pán)。
　　從昨天AlphaGo的表現(xiàn)來(lái)看，包括柯潔在內(nèi)的很多人都認(rèn)為電腦開(kāi)局還行，但偶爾有些小問(wèn)題，中局較差，而殘局很恐怖。而李世石也是類(lèi)似風(fēng)格（之前好像有個(gè)李昌鎬更是這樣？）。但比殘局計(jì)算，李世石可能是人類(lèi)中的高手，但計(jì)算機(jī)更勝一籌。所以柯潔認(rèn)為自己對(duì)AlphaGo的勝率會(huì)比李世石高。我比較認(rèn)同這個(gè)看法。
　　從圍棋原理來(lái)分析，開(kāi)局其實(shí)人類(lèi)離“上帝”差得太遠(yuǎn)，也許我們今天覺(jué)得很好的布局定勢(shì)其實(shí)是個(gè)大壞棋也不一定。更多的是靠以往的經(jīng)驗(yàn)，比如水平差不多的人下棋，走這個(gè)定勢(shì)就比那個(gè)勝率更高一些，我們就認(rèn)為這個(gè)好一些。目前AlphaGo對(duì)于開(kāi)局也是靠人類(lèi)高手學(xué)習(xí)出來(lái)的對(duì)局庫(kù)學(xué)習(xí)出來(lái)的Value Network，當(dāng)然開(kāi)局也有MCTS的搜索，但從開(kāi)局模擬對(duì)局到游戲結(jié)束需要的時(shí)間更多，可能性也更多，所以“看起來(lái)”電腦的布局更像是“背棋譜”，也就是很像人類(lèi)高手的走法。從人類(lèi)的策略來(lái)說(shuō)，開(kāi)局是非常關(guān)鍵的。因?yàn)?a href='http://ttokpm.com/tags/神經(jīng)網(wǎng)絡(luò)/' target='_blank' class='arckwlink_none'>神經(jīng)網(wǎng)絡(luò)需要大量訓(xùn)練數(shù)據(jù)，超一流棋手的對(duì)局少，所以AlphaGo只能學(xué)到一流高手的棋感，而開(kāi)局MCTS的幫助就沒(méi)有那么大。
　　而到了殘局，雖然MCTS不是窮舉，但是由于搜索的速度加快，從而模擬對(duì)局變多，從概率上來(lái)看趨近最優(yōu)解，而人類(lèi)高手總有算錯(cuò)算漏的可能性，所以這是劣勢(shì)。而中局就比較復(fù)雜，需要平衡搜索和局面判斷，我認(rèn)為AlphaGo借助搜索能稍微超過(guò)一流高手但會(huì)弱于頂尖高手甚至可能出現(xiàn)明顯的弱手。所以也是李世石需要下的強(qiáng)硬并擴(kuò)大先手的地方。
　　但還是那個(gè)老問(wèn)題，人類(lèi)殘局會(huì)算錯(cuò)，即使從棋理上應(yīng)該獲勝的棋也可能下輸，尤其是如果心理壓力大的情況下計(jì)算更容易出錯(cuò)，而計(jì)算機(jī)就不會(huì)（這也是為什么情感不是智能生物必須的一個(gè)論據(jù)）。就像常昊跟李昌鎬下棋，到了后面就是下不過(guò)，不服都不行。所以今天的比賽至關(guān)重要，如果輸了那就基本0:5了，而贏了的話很可能4:1。
　　總結(jié)一下（希望被再次打臉）我個(gè)人的觀點(diǎn)和對(duì)李世石的建議：開(kāi)局選擇自己最拿手的，能用超一流棋手的棋感拉來(lái)和一流棋手的差距，中局穩(wěn)打穩(wěn)扎，利用機(jī)器的小失誤擴(kuò)大領(lǐng)先，殘局計(jì)算要控制好情緒，不要優(yōu)勢(shì)就放棄（劣勢(shì)也頑強(qiáng)一點(diǎn)吧，雖然看起來(lái)是無(wú)謂的垂死掙扎，電腦不會(huì)給你任何機(jī)會(huì)的），另外可以考驗(yàn)一下電腦應(yīng)付打劫的能力，這個(gè)更多靠“抽象和泛化”，少量的訓(xùn)練數(shù)據(jù)深度學(xué)習(xí)應(yīng)該還是學(xué)不出來(lái)的。
　　張崢：AlphaGo無(wú)破綻，問(wèn)題在于機(jī)器學(xué)習(xí)
　　張崢，上海紐約大學(xué)計(jì)算機(jī)科學(xué)教授、前微軟亞洲研究院副院長(zhǎng)
　　仔細(xì)讀過(guò)AlphaGo，沒(méi)覺(jué)得有什么破綻。在自己左右手互搏中的計(jì)算價(jià)值那部分為了效率用了“快棋”策略，可能粗糙些，但下得多可以彌補(bǔ)。有網(wǎng)友提出的和李世石比賽會(huì)“偷招”這個(gè)倒不用擔(dān)心，五局的樣本對(duì)機(jī)器沒(méi)用，它不靠這個(gè)，靠的是工程上高效率、策略上粗枝大葉但大方向正確。
　　AlphaGo勝利的概率是100%，只不過(guò)不見(jiàn)得是這次。“毛病”還是機(jī)器學(xué)習(xí)的老毛病。表現(xiàn)在：
　　無(wú)法總結(jié)規(guī)律，或者說(shuō)無(wú)法吐出一套規(guī)整自洽的規(guī)律；泛化能力差，無(wú)法在復(fù)盤(pán)中舉一反三，即便告訴它哪步走錯(cuò)了，恐怕它也不知道為啥，只是一氣兒死磕到撞了南墻才完事。
　　田淵棟：增強(qiáng)學(xué)習(xí)還有很長(zhǎng)的路
　　田淵棟，F(xiàn)acebook
　　在AlphaGo中，增強(qiáng)學(xué)習(xí)（Reinforcement Learning）所扮演的角色并沒(méi)有想像中那么大。在理想情況下，我們希望人工智能系統(tǒng)能在對(duì)局中動(dòng)態(tài)地適應(yīng)環(huán)境和對(duì)手的招式并且找到辦法反制之，但是在AlphaGo中增強(qiáng)學(xué)習(xí)更多地是用于提供更多質(zhì)量更好的樣本，給有監(jiān)督學(xué)習(xí)（Supervised Learning）以訓(xùn)練出更好的模型。在這方面增強(qiáng)學(xué)習(xí)還有很長(zhǎng)的路要走。
　　本段著作權(quán)歸作者所有。
　　商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán)，非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。
　　作者：田淵棟
　　鏈接：AlphaGo的分析
　　來(lái)源：知乎
　　周志華：
　　周志華，國(guó)際人工智能學(xué)會(huì)成員、南京大學(xué)計(jì)算機(jī)系教授
　　圍棋AI遲早會(huì)戰(zhàn)勝人類(lèi)。但僅憑深度學(xué)習(xí)+強(qiáng)化學(xué)習(xí)+蒙特卡洛樹(shù)搜索等老技術(shù)，似乎很難達(dá)到人類(lèi)頂尖棋手的水準(zhǔn)。
　　AlphaGo的未來(lái)
　　挑戰(zhàn)《星際爭(zhēng)霸》。
　　谷歌研究員透露開(kāi)發(fā)AlphaGo的DeepMind公司總裁正考慮將人工智能目標(biāo)轉(zhuǎn)移到游戲上，并以星際爭(zhēng)霸作為開(kāi)始項(xiàng)目。星際爭(zhēng)霸的玩家除了視覺(jué)觀察之外還需要理解一些其他問(wèn)題，AlphaGo要面對(duì)的挑戰(zhàn)是和圍棋在不同層面的。
　　解決更多的通用問(wèn)題。
　　David Silver：AlphaGo屬于通用程式，人們可以使其學(xué)習(xí)醫(yī)療數(shù)據(jù)，掌握治療方法，并可以利用它制造出做各種雜務(wù)的家用機(jī)械人。田淵棟：與之前的圍棋系統(tǒng)相比，AlphaGo較少依賴(lài)圍棋的領(lǐng)域知識(shí)，但還遠(yuǎn)未達(dá)到通用系統(tǒng)的程度。周志華：算法無(wú)法直接復(fù)用于其他領(lǐng)域，但算法精神可以應(yīng)用。
?

非常好我支持^.^

(1) 100%

不好我反對(duì)

(0) 0%

下載地址

不能下載？請(qǐng)通知我們

AlphaGo的機(jī)器學(xué)習(xí)泛化能力仍待提高下載

普通下載普通下載

用戶(hù)評(píng)論

發(fā)表評(píng)論即可獲得積分！ 詳見(jiàn)積分規(guī)則

發(fā)表評(píng)論

用戶(hù)評(píng)論

評(píng)價(jià):好評(píng)中評(píng)差評(píng)

發(fā)表評(píng)論，獲取積分！請(qǐng)遵守相關(guān)規(guī)定！

注冊(cè)會(huì)員

游客:

AlphaGo的機(jī)器學(xué)習(xí)泛化能力仍待提高

下載地址

AlphaGo的機(jī)器學(xué)習(xí)泛化能力仍待提高下載

相關(guān)電子資料下載

用戶(hù)評(píng)論

發(fā)表評(píng)論

分享你我的電子世界

實(shí)用電子設(shè)計(jì)資料下載

源碼下載排行

熱門(mén)詞