上月,由 Michael I.Jordan 、Jeff Dean、李飛飛、LeCun 等多位人工智能領(lǐng)域的大牛發(fā)起的系統(tǒng)機(jī)器學(xué)習(xí)會(huì)議 SysML 在斯坦福開(kāi)幕。
會(huì)上,機(jī)器學(xué)習(xí)宗師級(jí)大牛 Michael I.Jordan 就《系統(tǒng)與機(jī)器學(xué)習(xí)的前景與挑戰(zhàn)》進(jìn)行了主旨演講。因?yàn)楹?NBA 球星邁克爾·喬丹名字相近,他有著一個(gè)有趣的稱(chēng)號(hào):“The Michael Jordan of Machine Learning”,即機(jī)器學(xué)習(xí)界的邁克爾·喬丹。
為什么說(shuō)他是機(jī)器學(xué)習(xí)宗師級(jí)大牛?要知道,在這一領(lǐng)域的重要學(xué)者如吳恩達(dá),Zoubin Ghahramani,Tommi Jaakkola,Lawrence Saul和David Blei 都是他的學(xué)生。他現(xiàn)在擔(dān)任加州大學(xué)伯克利分校電機(jī)工程與計(jì)算機(jī)系和統(tǒng)計(jì)學(xué)系教授。
Michael I.Jordan的重要貢獻(xiàn)則包括指出了機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)之間的聯(lián)系,并推動(dòng)機(jī)器學(xué)習(xí)界廣泛認(rèn)識(shí)到貝葉斯網(wǎng)絡(luò)的重要性。他還以近似推斷變分方法的形式化、最大期望算法在機(jī)器學(xué)習(xí)的普及方面的工作而知名。
此次演講中,從一開(kāi)始他就現(xiàn)在所謂的“AI”進(jìn)行了抨擊。他認(rèn)為,現(xiàn)在媒體上熱炒的“AI”概念言過(guò)其實(shí),很多人都是為了借此向 VC、媒體以及大眾兜售概念。至于真正的 AI,“我們根本還沒(méi)有實(shí)現(xiàn)”。也有相當(dāng)一部分研究者陷入了深度學(xué)習(xí)的泥潭,思維變得更加狹窄。
他回顧了機(jī)器學(xué)習(xí)領(lǐng)域的現(xiàn)狀,以及今后發(fā)展面臨的挑戰(zhàn)。雖然機(jī)器學(xué)習(xí)理論目前的發(fā)展達(dá)到了一定高度,但他很討厭人們現(xiàn)在突然將它稱(chēng)為 AI,因?yàn)槟侨匀贿€只是機(jī)器學(xué)習(xí)。他認(rèn)為真正 AI 的實(shí)現(xiàn),需要依靠邏輯、推理、決策等運(yùn)算的突破才能實(shí)現(xiàn),但現(xiàn)在它們之間還存在明顯脫節(jié)。
一些經(jīng)典 AI 領(lǐng)域,如計(jì)算機(jī)視覺(jué)、NLP 等還遠(yuǎn)未達(dá)到智能和實(shí)用的地步,有賴(lài)進(jìn)一步研究和努力。與此同時(shí),傳統(tǒng)的社交平臺(tái),如 Facebook,還遠(yuǎn)沒(méi)有真正地將人們連接起來(lái)。醫(yī)療、金融、音樂(lè)、餐飲等眾多系統(tǒng)平臺(tái)仍存在巨大的想象空間,要做到這些,需要研究者們跳出傳統(tǒng)視角。
本文為 Michael I.Jordan 在大會(huì)上的演講實(shí)錄(有刪節(jié)),人工智能頭條整理。
▌我們還沒(méi)有實(shí)現(xiàn)真正的 AI
你們知道,我之前從 MIT(麻省理工)離職去了 UC 伯克利。這其實(shí)是因?yàn)?MIT 沒(méi)有任何跟統(tǒng)計(jì)相關(guān)的專(zhuān)業(yè),并且直到現(xiàn)在也還不算有,而我認(rèn)為統(tǒng)計(jì)學(xué)對(duì)計(jì)算機(jī)科學(xué)至關(guān)重要。雖然今天計(jì)算機(jī)科學(xué)的發(fā)展已經(jīng)十分激動(dòng)人心,但它依然還沒(méi)有解決推理性的問(wèn)題,在計(jì)算機(jī)和推理之間有一個(gè)脫節(jié),所以我才要跳槽去研究概率和統(tǒng)計(jì)。
很多人說(shuō)我這些做法是在從統(tǒng)計(jì)視角在研究 AI,這種看法欠妥,我只是在研究機(jī)器學(xué)習(xí)。AI 是一個(gè)非常寬泛的概念,它幾乎涉及到所有層面的計(jì)算機(jī)科學(xué)。它的每一部分都應(yīng)該涉及到數(shù)據(jù)流,并且應(yīng)該基于這些數(shù)據(jù)自適應(yīng)地進(jìn)化。這里面全是計(jì)算機(jī)科學(xué),但直到今天,這一看法也還沒(méi)有在計(jì)算機(jī)系得到很多認(rèn)同,他們?nèi)匀徽J(rèn)為統(tǒng)計(jì)是 AI 的一部分。
我已經(jīng)疲于應(yīng)對(duì)這些爭(zhēng)論了。
今天,我們到處都可以看到“AI”這一字眼,媒體上鋪天蓋地。這讓我感到非常不安,因?yàn)槟切┱f(shuō)法太言過(guò)其實(shí)了。我們沒(méi)有實(shí)現(xiàn)人工智能,沒(méi)有實(shí)現(xiàn)智能,甚至連它們是什么都不知道。我們說(shuō)現(xiàn)在的系統(tǒng)都涉及到數(shù)據(jù)的輸入輸出,它們其實(shí)是在模仿一些很聰明的東西,但也僅僅是模仿,根本稱(chēng)不上是智能,我們并沒(méi)有實(shí)現(xiàn)它。
今天,很多人樂(lè)衷于使用“AI”這個(gè)流行詞。但這只不過(guò)是他們借此向 VC(風(fēng)險(xiǎn)投資)、企業(yè)、媒體以及大眾兜售一些他們自己的概念。至于真正的 AI,我們根本還沒(méi)有實(shí)現(xiàn)。我現(xiàn)在雖然不再跳出來(lái)爭(zhēng)論這些話(huà)的對(duì)錯(cuò),但依然會(huì)在內(nèi)心時(shí)時(shí)刻刻提醒自己:我們還并沒(méi)有實(shí)現(xiàn)所謂的 AI。
現(xiàn)在,我非常高興我們有了一個(gè)這樣的社區(qū),我們當(dāng)前真正需要的正是建設(shè)性的努力,那必須保持嚴(yán)肅和清醒。并不是所有的炒作都是在為了在 AI 淘金熱中大賺一筆,他們或許也是為了能夠真正實(shí)現(xiàn) AI,讓這個(gè)世界變得越來(lái)越美好,讓 AI 更加穩(wěn)定,更加真實(shí),足夠支撐建立一個(gè)全新科學(xué)領(lǐng)域所需的概念。
這就像有人喜歡土木工程、喜歡化工工程師一樣,我也非常尊敬他們?cè)谒陬I(lǐng)域做出的實(shí)實(shí)在在的努力。他們研究出的東西切實(shí)改變了每個(gè)人的生活,而這也正是 AI 領(lǐng)域所需要的和依然欠缺的。
▌機(jī)器學(xué)習(xí)領(lǐng)域的現(xiàn)狀
機(jī)器學(xué)習(xí)理論已經(jīng)發(fā)展到了目前我們所看到的高度,我在二十年前我就已經(jīng)預(yù)見(jiàn)到它的發(fā)展會(huì)是這樣:數(shù)據(jù)將無(wú)處不在,用機(jī)器學(xué)習(xí)進(jìn)行決策和商業(yè)建模將成為我們的習(xí)慣。但我很討厭人們現(xiàn)在突然將它稱(chēng)為 AI,雖然最近有一些新的想法出現(xiàn),但那仍然還只是機(jī)器學(xué)習(xí)。我不和他們爭(zhēng)論,并不代表認(rèn)可他們的說(shuō)法。相反,我會(huì)更加堅(jiān)持自己的追求。
這世上并沒(méi)有魔法,機(jī)器學(xué)習(xí)只是將它的輸入輸出映射到它對(duì)一些處理機(jī)制的模仿之上了,雖然這看起來(lái)很神奇,但其實(shí)依然還有很多真正的問(wèn)題——比如從廣義上來(lái)說(shuō),很多層面上的系統(tǒng)問(wèn)題——都還沒(méi)有得到解決。
機(jī)器學(xué)習(xí)也還遠(yuǎn)遠(yuǎn)沒(méi)有發(fā)展到足以成為一個(gè)可靠的工程原則,可以針對(duì)現(xiàn)代數(shù)據(jù)分析問(wèn)題得到魯棒的、可擴(kuò)展的解決方案。有很多涉及到不確定性、推理、決策、魯棒性和規(guī)?;膯?wèn)題都還沒(méi)有得到解決。更不要說(shuō)經(jīng)濟(jì)學(xué)系統(tǒng)了,因?yàn)槲覀兩踔翆?duì)建立系統(tǒng)時(shí)的定價(jià)和激勵(lì)行為也還沒(méi)有足夠的思考。社會(huì)法律系統(tǒng)也是如此。
我以為每個(gè)人都會(huì)或多或少意識(shí)到這一點(diǎn),但沒(méi)想到等待他們意識(shí)到這一點(diǎn)需要的時(shí)間卻長(zhǎng)得不可思議。
扎克伯格在一年前的演講中曾談到他創(chuàng)建 Facebook 時(shí)的經(jīng)歷,“我什么都不知道,在這一過(guò)程中也并沒(méi)有扮演任何角色。我們只是搭建了一個(gè)平臺(tái),而關(guān)于如何使用它甚至都沒(méi)有規(guī)定。但后來(lái)讓我感到震驚的是,人們并沒(méi)有很好地使用它”。
我們不僅要時(shí)刻注意人們有沒(méi)有用這個(gè)平臺(tái)來(lái)做壞事——比如虛假新聞,還要讓人們可以通過(guò)這個(gè)平臺(tái)得到正確結(jié)果,否則每天都會(huì)有數(shù)十萬(wàn)人因此做出錯(cuò)誤的醫(yī)療決定、糟糕的交通狀況或者財(cái)務(wù)決策。到目前為止,我們甚至都還沒(méi)有在解決這些問(wèn)題上取得一點(diǎn)進(jìn)步。我們的反應(yīng)就好像在說(shuō)我們本來(lái)就是如此。
對(duì)我來(lái)說(shuō),系統(tǒng)機(jī)器學(xué)習(xí)瞄準(zhǔn)的目標(biāo)太低了。這個(gè)社區(qū)中的很多人炒作深度學(xué)習(xí)太過(guò)頭了,我們已經(jīng)有了反向傳播(Backpropagation)這個(gè)偉大的學(xué)習(xí)機(jī)器;我們要讓它可以更好、更快、更容易實(shí)現(xiàn),所有這些都會(huì)很快實(shí)現(xiàn);公司也會(huì)成立,經(jīng)濟(jì)也會(huì)向前發(fā)展。但這樣做的目標(biāo)定得太低了,這僅僅是一個(gè)非參數(shù)回歸問(wèn)題,甚至都談不上“是”。所以我希望作為一個(gè)社區(qū),我們可以有更高的目標(biāo),我們不能僅僅努力讓反向傳播更容易。
▌“AI” = IA + II
下面我來(lái)談一下為什么我說(shuō)在人們的腦海里計(jì)算機(jī)和推理沒(méi)有連接起來(lái)。
其實(shí)在我一開(kāi)始接觸這個(gè)領(lǐng)域的時(shí)候,我當(dāng)時(shí)學(xué)習(xí)了一些關(guān)于 AI 的東西,但我沒(méi)有真正研究過(guò)。那時(shí)候有很多研究 AI 的觀點(diǎn),比如通過(guò)廣度優(yōu)先搜索來(lái)尋找一個(gè)明星,這也是約翰·麥卡錫(John McCarthy)真正在 MIT 在做的研究。(注:約翰麥卡錫,人工智能領(lǐng)域的開(kāi)山鼻祖之一,他曾發(fā)起和參與 AI 歷史上著名的達(dá)特茅斯會(huì)議,后來(lái)前往斯坦福并組建了斯坦福人工智能實(shí)驗(yàn)室。)
我要說(shuō)的這個(gè)故事和你們往常聽(tīng)的有點(diǎn)不同:人工智能這個(gè)概念并不是 Minsky、McCarthy、Newell 他們那些人坐在一起開(kāi)了個(gè)會(huì)就討論出來(lái)的。
麥卡錫剛到 MIT 的時(shí)候就說(shuō)過(guò)他會(huì)研究智能(Intelligence)和計(jì)算領(lǐng)域。他們說(shuō)那并不是控制論,控制論已經(jīng)有維納在做了,麥卡錫解釋了這兩個(gè)領(lǐng)域的區(qū)別。真正讓人們意識(shí)到 AI 是一個(gè)新領(lǐng)域的是,這個(gè)領(lǐng)域更多的是基于邏輯而不是控制理論和信號(hào)優(yōu)化,所以他必須給它一個(gè)新的名字,所以他發(fā)明了“Artificial Intelligence”這個(gè)詞。我覺(jué)得這個(gè)故事更加真實(shí)。
然而,歷史的奇異轉(zhuǎn)折之處在于現(xiàn)在研究 AI 的所有想法都在維納那一邊,都是關(guān)于優(yōu)化統(tǒng)計(jì)的,并且沒(méi)有邏輯,但現(xiàn)在大家用的“AI”這個(gè)詞卻依然還是麥卡錫發(fā)明的那個(gè)詞。
無(wú)論如何,AI 依然是一個(gè)偉大的愿景。這是一個(gè)在思考應(yīng)該如何將計(jì)算實(shí)體與軟硬件結(jié)合到一起,并構(gòu)建能夠捕捉智能的東西的哲學(xué)問(wèn)題,這很有意思。
我認(rèn)為這仍然還只是一個(gè)學(xué)術(shù)領(lǐng)域的愿景,并不認(rèn)為它有必要或者已經(jīng)足夠用于促進(jìn)社會(huì)進(jìn)步或工業(yè)發(fā)展。我并不相信我們能夠建立通用智能,并且它可以解決世界上所有問(wèn)題的說(shuō)法。那只是愚蠢的科幻小說(shuō)里的東西,并且是既不必要也不足夠的。我們需要把思想從一些真實(shí)問(wèn)題中解放出來(lái)。有很多有錢(qián)的名人說(shuō)我們要建立一個(gè)通用人工智能,然后就可以解決世界上的問(wèn)題,比如癌癥。我并不想談?wù)撨@些東西,但人們總是這樣在說(shuō)。
不管如何,現(xiàn)在有個(gè)有趣的觀點(diǎn),我們并不是要讓所有的事情都變好。與此同時(shí),真正發(fā)生的事實(shí)也并不是 AI 取得了巨大的成功,而是“IA”(Intelligence Augmentation)取得的巨大成就。
搜索引擎就是這其中的一個(gè)代表,它是一個(gè)機(jī)器學(xué)習(xí)系統(tǒng),不停地獲取數(shù)據(jù)并隨時(shí)間進(jìn)行改善以做出更好的決策。 像其他很多實(shí)際工程系統(tǒng)一樣,那是一個(gè)涉及到很多東西的機(jī)器學(xué)習(xí)算法,但那也意味著很多智能。比如我不必記住白俄羅斯的首都,但是當(dāng)我在網(wǎng)上搜索一下就可以馬上知道。我看起來(lái)非常聰明,因?yàn)槲覠o(wú)所不知。
我也可以在這里說(shuō)英語(yǔ),然后通過(guò)安裝同傳系統(tǒng)讓你們聽(tīng)到漢語(yǔ)??雌饋?lái)似乎我可以說(shuō)很多門(mén)語(yǔ)言,但其實(shí)我并不會(huì)說(shuō)漢語(yǔ),這是因?yàn)?a href="http://ttokpm.com/v/tag/1247/" target="_blank">電腦增強(qiáng)了我的智能。很多這種用深度學(xué)習(xí)實(shí)現(xiàn)的東西,我認(rèn)為它們很有趣,但是——比如你見(jiàn)得很多的風(fēng)格轉(zhuǎn)換,人們輸進(jìn)去一張圖片,然后它會(huì)被轉(zhuǎn)換成另一張很酷的圖片,看起來(lái)像梵高的畫(huà)一樣,那作為一個(gè)玩具會(huì)非常有趣。但它真正做的是增強(qiáng)了人們的創(chuàng)造力。
它是一種“增強(qiáng)” ,并不是人們說(shuō)的智能。但那已經(jīng)很有趣了,你甚至可以用它來(lái)創(chuàng)作音樂(lè),但直接用它寫(xiě)交響樂(lè)就很傻了,誰(shuí)會(huì)在乎一臺(tái)電腦會(huì)不會(huì)寫(xiě)交響樂(lè)呢,無(wú)論那意味著什么。但它卻可以為下一個(gè)貝多芬或者杰出藝術(shù)家的誕生提供一個(gè)自由創(chuàng)作的環(huán)境,那才是真正令人激動(dòng)的,那就是 IA。
還有一些更為重要的東西,我將其稱(chēng)之為“II”,即“Intelligent Infrastructure”。在我們身邊發(fā)生的事正越來(lái)越多的體現(xiàn)著這個(gè)世界對(duì)我們的了解。
世界正在被連接起來(lái),比如我只要?jiǎng)觿?dòng)手機(jī),就可以在幾秒鐘之內(nèi)約到一輛汽車(chē),它可以帶我到達(dá)目的地。這個(gè)世界正在通過(guò)網(wǎng)絡(luò)變得越來(lái)越智能——只要你在一個(gè)大的復(fù)雜系統(tǒng)上加上數(shù)據(jù),加上人類(lèi),那就是物聯(lián)網(wǎng)。那是一個(gè)萬(wàn)億美元的經(jīng)濟(jì)市場(chǎng),并且正在改變?nèi)祟?lèi)的生活,改變你對(duì)于醫(yī)療、金融和日常生活的想象。所有這些都是非常巨大的改變,并且在過(guò)去的幾十年確確實(shí)實(shí)發(fā)生了。
這讓我想起了亞馬遜——他們是第一家認(rèn)真做這件事的公司,并且是在 90 年代,遠(yuǎn)在我們炒作這個(gè)概念之前?,F(xiàn)在有很多公司正在建設(shè)物流預(yù)測(cè)以及欺詐系統(tǒng),還有推薦系統(tǒng),這些都是非常棒的事情,但那都是機(jī)器學(xué)習(xí),不是我所謂的 AI,真正的 AI 將比我們現(xiàn)在看到的更為激動(dòng)人心。
我認(rèn)為在這里有一個(gè)脫節(jié)。如果你以這種經(jīng)典的方式研究 AI ,你或許會(huì)對(duì)視覺(jué)、語(yǔ)音、自然語(yǔ)言處理還有機(jī)器人感興趣,因?yàn)槟闶菍?duì)這種具體的智能體感興趣,它們會(huì)像我們一樣做出智能的行動(dòng)。你想到的所有東西都是和具體智能體有關(guān),所以你可以根據(jù)場(chǎng)景開(kāi)發(fā)算法,并且將它們轉(zhuǎn)變成目標(biāo)、標(biāo)簽或者語(yǔ)音。那都是很棒的,但那并不能解決我們?cè)诮⒁粋€(gè)真實(shí)世界系統(tǒng)時(shí)所遇到的真實(shí)問(wèn)題的十分之一。那只是“IA”或者“II”,而且人們的注意力會(huì)被視覺(jué)或語(yǔ)音方面的問(wèn)題所分散。
▌未曾解決的經(jīng)典 AI 問(wèn)題
雖然有些經(jīng)典的 AI 問(wèn)題看起來(lái)已經(jīng)快要解決了,但我要說(shuō),我認(rèn)為我們實(shí)際上還遠(yuǎn)沒(méi)有解決這些經(jīng)典的 AI 問(wèn)題。
在計(jì)算機(jī)視覺(jué)中,我們可以比之前更好的標(biāo)注目標(biāo)和場(chǎng)景,但它們并不是真實(shí)場(chǎng)景,那只不過(guò)是從互聯(lián)網(wǎng)上獲取的包含目標(biāo)的圖片。如果你使用相同的訓(xùn)練集進(jìn)行測(cè)試,正確率可以達(dá)到 90%,但是在真實(shí)的世界中那可能只有 20%。因此,我們只不過(guò)是對(duì)場(chǎng)景中的對(duì)象進(jìn)行了標(biāo)注,并沒(méi)有真正解決這個(gè)問(wèn)題。而關(guān)于場(chǎng)景的意義是什么?場(chǎng)景中正在發(fā)生什么事?接下來(lái)會(huì)發(fā)生什么?我們甚至都還不知道。所以人們說(shuō)計(jì)算機(jī)視覺(jué)技術(shù)得到的一些東西非?;闹嚒?/p>
語(yǔ)音領(lǐng)域和語(yǔ)義領(lǐng)域也是一樣。總的來(lái)說(shuō),我們生活在一個(gè)依靠聽(tīng)覺(jué)的聲音世界中,但在閉上眼睛之后,我們還遠(yuǎn)不能單純靠聽(tīng)聲音來(lái)了解周?chē)澜纭R驗(yàn)闆](méi)有語(yǔ)義信息,甚至都沒(méi)法開(kāi)始自然語(yǔ)言處理。
翻譯并不是輸進(jìn)去一種語(yǔ)言的字符串,然后得到另一種你之前已經(jīng)見(jiàn)過(guò)很多次的語(yǔ)言的字符串就可以了。我說(shuō)法語(yǔ)很流暢,你用英語(yǔ)和我交流,我也能理解你說(shuō)話(huà)的意思,我會(huì)將你話(huà)里的概念轉(zhuǎn)換成法語(yǔ)詞匯,而不是將英語(yǔ)字符串映射為正確的法語(yǔ)字符串。你甚至還可以再通過(guò)努力讓它的正確率達(dá)到 90%,但那依然是無(wú)效的。
視覺(jué)技術(shù)可以通過(guò)有監(jiān)督標(biāo)記和一些無(wú)監(jiān)督標(biāo)記技術(shù)來(lái)應(yīng)用,而自然語(yǔ)言就不行。如果不相信,你可以試著讀一下道格拉斯·霍夫施塔特(Douglas Hofstadter)前幾天在美國(guó)《大西洋月刊》上的一篇文章。他通過(guò)英語(yǔ)、法語(yǔ)、德語(yǔ)和中文四種語(yǔ)言翻譯的比對(duì)論證得出一個(gè)結(jié)果:谷歌翻譯即使應(yīng)用了人工智能技術(shù)也沒(méi)有真正理解語(yǔ)言。
語(yǔ)言真的是人類(lèi)的智慧,包含了對(duì)這個(gè)世界各種事物的諷刺、隱喻、引用和參考。只有我們真的了解這個(gè)世界才能搞明白語(yǔ)義,它需要理解人類(lèi)的社會(huì)行為、概念行為,而這些并不能通過(guò)標(biāo)簽數(shù)據(jù)和很多字符串來(lái)實(shí)現(xiàn)。
讓我們繼續(xù)回到主題上。剛剛我們討論的是翻譯,現(xiàn)在說(shuō)一下對(duì)話(huà)。
對(duì)話(huà)并不只是一個(gè)可以和你不停對(duì)話(huà)的聊天機(jī)器人,雖然那聽(tīng)起來(lái)比較有趣。它實(shí)際上是試圖實(shí)現(xiàn)一個(gè)目標(biāo),比如我想訂一個(gè)飛往巴黎的航班,這中間涉及到我自己的各種復(fù)雜偏好,然后最終可以把我?guī)У侥抢?。所以我們必須有一個(gè)對(duì)話(huà)逐漸地將我這個(gè)意愿通過(guò)機(jī)器人落實(shí)到真實(shí)世界的實(shí)際行動(dòng)上,但我們離這一步還很遠(yuǎn)。
談到機(jī)器人技術(shù),你知道它有很多進(jìn)步。但我仍然十分懷疑,目前工業(yè)界的機(jī)器人只能在非常有限的環(huán)境中工作。我們雖然已經(jīng)可以讓機(jī)器人和人類(lèi)進(jìn)行互動(dòng),但我并不認(rèn)為它在我們的生活環(huán)境中工作會(huì)沒(méi)有問(wèn)題。
▌機(jī)器學(xué)習(xí)近期的挑戰(zhàn)
現(xiàn)在讓我們接著談?wù)摷夹g(shù)。如果你是一個(gè)系統(tǒng)機(jī)器學(xué)習(xí)研究人員,并且認(rèn)為自己的生活將支持深度學(xué)習(xí)方式——我也認(rèn)為這非常有用——但這里還有一大堆其它的甚至稱(chēng)不上是 AI 的東西。
多重決策(Multiple Decisions),統(tǒng)計(jì)學(xué)家一直在討論這個(gè)話(huà)題,但機(jī)器學(xué)習(xí)領(lǐng)域的人卻幾乎不談?wù)撨@個(gè)。你可以構(gòu)造一個(gè)神經(jīng)網(wǎng)絡(luò),它需要輸入一些圖片或者搜索引擎營(yíng)銷(xiāo)信息(SEM),甚至一些數(shù)據(jù)的歷史信息來(lái)進(jìn)行決策。它會(huì)對(duì)不同環(huán)境中的不同人員使用相同的神經(jīng)網(wǎng)絡(luò)做出成百上千次決策,那完全是個(gè)災(zāi)難。
這些決策有可能是完全錯(cuò)誤的。比如碰巧在下雨天你要乘坐某個(gè)交通工具,每個(gè)人可能最后都會(huì)乘坐同樣的交通工具,到達(dá)相同的街道,這勢(shì)必會(huì)造成擁擠。相關(guān)決策波動(dòng)會(huì)導(dǎo)致最終結(jié)果的變化,即使那不滿(mǎn)足獨(dú)立同分布假設(shè)。
我們現(xiàn)在的系統(tǒng)仍然是假設(shè)我們處在一種理想世界中,所以總會(huì)有錯(cuò)誤發(fā)現(xiàn)率存在(注:錯(cuò)誤發(fā)現(xiàn)率 FDR( False Discovery Rate)是指錯(cuò)誤拒絕(拒絕真的(原)假設(shè))的個(gè)數(shù)占所有被拒絕原假設(shè)個(gè)數(shù)比例的期望值)。系統(tǒng)應(yīng)該支持可以有錯(cuò)誤發(fā)現(xiàn)率,而不僅僅是支持神經(jīng)網(wǎng)絡(luò)中的邏輯回歸、決策樹(shù)。 如果你的系統(tǒng)不支持,我就不會(huì)在我的公司用它。
要有一個(gè)這樣能夠創(chuàng)造市場(chǎng)的系統(tǒng),我認(rèn)為需要考慮大量的因素。所以我們會(huì)將經(jīng)濟(jì)學(xué)引入我們的系統(tǒng),我們需要擁有消費(fèi)者和生產(chǎn)者雙向的連接,而不是僅僅建立一個(gè)可以讓人們上傳數(shù)據(jù)并從中獲取答案的平臺(tái),而不建立一個(gè)實(shí)際系統(tǒng)。
在今天,不確定性依然存在。我們?cè)诮y(tǒng)計(jì)學(xué)中談?wù)摰?Bootstrap、貝葉斯理論、Jackknife(刀切法)以及其他原則都還沒(méi)有在計(jì)算機(jī)科學(xué)系統(tǒng)內(nèi)部建立。
它們只是輸入輸出,給出一條 ROC 曲線(xiàn)就好像已經(jīng)完成了其實(shí)本沒(méi)有完成的工作。所以要如何將智力結(jié)合到其中呢?要怎樣解決他們兩者之間不連貫的事實(shí)?這是非常關(guān)鍵的問(wèn)題,我們必須解決這一點(diǎn),并且必須假設(shè)這些問(wèn)題可以通過(guò)計(jì)算機(jī)科學(xué)進(jìn)行處理。
談到抽象,人類(lèi)其實(shí)非常善于發(fā)現(xiàn)抽象。舉個(gè)例子,比如我可以發(fā)明一個(gè)新詞匯“Blecch”,然后說(shuō)一些關(guān)于“Blecch”的事情,你就可以知道和它有關(guān)的各種各樣的事。你可以通過(guò)抽象進(jìn)行推理,事實(shí)上也正是因?yàn)槲覀兛梢詣?chuàng)建抽象概念,計(jì)算機(jī)科學(xué)才可以發(fā)展的這么好。
我的兒子非常擅長(zhǎng)發(fā)現(xiàn)類(lèi)比、隱喻以及那些有趣的東西,這些都會(huì)在他的大腦中形成一個(gè)新的抽象。但神經(jīng)網(wǎng)絡(luò)和那個(gè)差的太遠(yuǎn)了,神經(jīng)網(wǎng)絡(luò)必須要先看到大量的數(shù)據(jù),最終才能發(fā)現(xiàn)一個(gè)新特征,或者如果有人非要稱(chēng)其為抽象也可以。
數(shù)據(jù)溯源(Provenance),這非常重要。實(shí)際上我對(duì)數(shù)據(jù)科學(xué)非常感興趣。在醫(yī)療系統(tǒng)中,有很多誤報(bào)(假陽(yáng)性)導(dǎo)致很多死亡的案例。在我兒子出生的時(shí)候,有一些錯(cuò)誤的成像結(jié)果,那是一個(gè)誤報(bào)。如果我們相信了那條決策路線(xiàn),就可能會(huì)走一個(gè)非常危險(xiǎn)的程序,甚至殺死胎兒。我認(rèn)為那也可能發(fā)生在你身上,我計(jì)算的結(jié)果是在過(guò)去的幾年中,由于誤報(bào),每天大概有 20 個(gè)胎兒會(huì)被殺死。
誤報(bào)和不好的統(tǒng)計(jì)數(shù)據(jù)無(wú)關(guān),而是與錯(cuò)誤的報(bào)告結(jié)果有關(guān)。在某種情況下進(jìn)行計(jì)算的數(shù)據(jù),實(shí)際上在相同情形下用于新的成像機(jī)器時(shí)是不準(zhǔn)確的。那聽(tīng)起來(lái)是一個(gè)討厭的數(shù)據(jù)庫(kù)問(wèn)題。但就是那個(gè)東西讓模型有時(shí)難以發(fā)揮作用。
關(guān)于長(zhǎng)期目標(biāo),人類(lèi)非常善于追求長(zhǎng)期目標(biāo),比如選擇職業(yè)、買(mǎi)房。而我們的機(jī)器卻并不具備實(shí)現(xiàn)長(zhǎng)期目標(biāo)的能力。不要跟我說(shuō)強(qiáng)化學(xué)習(xí),那也沒(méi)有長(zhǎng)期目標(biāo)。
實(shí)時(shí)性能這一目標(biāo),我想那些設(shè)計(jì)自動(dòng)駕駛汽車(chē)的人應(yīng)該認(rèn)識(shí)到了它的重要性,而其他人還沒(méi)有意識(shí)到這正是我們要考慮的關(guān)鍵部分。這也不是傳統(tǒng) AI 的一部分。
如果你是一個(gè)真正有雄心的系統(tǒng)人員,這些都會(huì)是亟待解決的重大問(wèn)題,并且大多還是很少受到關(guān)注或者正在受關(guān)注但還需要一段時(shí)間才能解決的問(wèn)題。
▌機(jī)器學(xué)習(xí)與市場(chǎng)的創(chuàng)造性
我的一些觀點(diǎn)是基于我的研究和在公司的經(jīng)歷形成的。今天我將向大家分享兩個(gè)觀點(diǎn)。
就我實(shí)際所做的工作而言,我只是一個(gè)理論研究者,所以關(guān)于這些神經(jīng)網(wǎng)絡(luò)發(fā)展的良好勢(shì)頭,我都樂(lè)于看著它們發(fā)生,但當(dāng)我看到所有人都在扎堆朝著一個(gè)方向前進(jìn)時(shí),我就會(huì)尋找其它方向。我現(xiàn)在做的所有工作都是在證明收斂率和隨機(jī)性的定理,你要是看過(guò)我的主頁(yè)就會(huì)知道我這些天有多興奮,但我形成這些觀點(diǎn)卻是基于在公司的(實(shí)踐)經(jīng)歷而不是通過(guò)證明它們。
United Masters 公司是一個(gè)美國(guó)音樂(lè)人服務(wù)平臺(tái),它在 2017 年 11 月宣布成立?,F(xiàn)在音樂(lè)人非常多,創(chuàng)作的音樂(lè)也非常多,但除了少數(shù)幾個(gè)掌握權(quán)力的人之外,大多數(shù)音樂(lè)人的第一筆訂單并不會(huì)賺錢(qián),音樂(lè)創(chuàng)作實(shí)際上沒(méi)有得到報(bào)酬。
發(fā)生這種狀況的原因有很多,比如我們處在一個(gè)并不景氣的市場(chǎng),而如果連接生產(chǎn)者和消費(fèi)者的經(jīng)濟(jì)的話(huà),就會(huì)產(chǎn)生很多價(jià)值。它不像之前的唱片公司一樣,在生產(chǎn)者和消費(fèi)者之間有中介存在,那在這種模式下不會(huì)有效。所以你必須做些別的什么,就像 Uber 那樣,或者其他你看到的真實(shí)的機(jī)會(huì)。
United Masters 已經(jīng)和 Spotify 跟 Youtube 等公司建立了合作關(guān)系,并且獲得了所有數(shù)據(jù)。他們會(huì)了解任何藝術(shù)家,不僅僅有碧昂絲那樣的世界級(jí)歌手,還有成百上千個(gè)不太出名的藝術(shù)家,然后了解有哪些用戶(hù)在聽(tīng)他們的音樂(lè)。他們提供給藝術(shù)家展示的機(jī)會(huì):我知道我不是非常出名,但我知道佛羅里達(dá)州有一萬(wàn)人喜歡定期收聽(tīng)我。
這種口碑就意味著如果我去那里舉辦一場(chǎng)音樂(lè)會(huì),我就可以賺兩萬(wàn)五千美元。一年我可以做三到四次,那就是十萬(wàn)美元的薪水。我不必再做一個(gè)出租車(chē)司機(jī),然后每周只有周末才有時(shí)間創(chuàng)作音樂(lè)。我實(shí)際上可以成為一個(gè)真正活躍的全職音樂(lè)家,很多人都可以這樣。這就可以創(chuàng)造一個(gè)市場(chǎng),你知道誰(shuí)在聽(tīng)你的音樂(lè),然后你就可以做得更多。
這實(shí)際上就是在生產(chǎn)者和消費(fèi)者之間建立了連接。有了這種連接,一旦數(shù)據(jù)流通過(guò),商品買(mǎi)賣(mài)就可以更流暢。所以藝術(shù)家可以說(shuō)你只要付兩萬(wàn)美元我就可以在你婚禮上表演,或者你是我的一個(gè)超級(jí)粉絲,你想來(lái)后臺(tái)...所有這些商品的形式都可能出現(xiàn),而公司實(shí)際上就提供了這種可以賺錢(qián)的方式。他們提供這些平臺(tái)當(dāng)然也應(yīng)該得到一些錢(qián),當(dāng)然那到不了像一個(gè)標(biāo)準(zhǔn)代理人一樣可以獲取百分之五十的費(fèi)用,不過(guò)百分之十也差不多,所以你知道你的音樂(lè)大師夢(mèng)真的有希望了。
這家公司的 CEO 是 Steve Stoute,他是個(gè)了不起的人,也是我曾見(jiàn)過(guò)的最聰明的人之一。他曾在索尼旗下的唱片公司工作,后來(lái)創(chuàng)建了 Translation 廣告公司,并且完成了很多實(shí)際的東西。他了解很多音樂(lè)人,Steve 的經(jīng)歷以及他的音樂(lè)背景,讓他剛好處于一個(gè)可以將音樂(lè)、技術(shù)和人聯(lián)系在一起的位置。我認(rèn)為我們的社區(qū)可以參與這種活動(dòng)是非常令人激動(dòng)的,而 Steve 就剛好給出了這把鑰匙。
去年我曾請(qǐng)他做一個(gè)開(kāi)場(chǎng)演講。那場(chǎng)演講的主題是關(guān)于 Hip-hop ,自我賦權(quán)和解放,創(chuàng)造力以及這些該如何和數(shù)據(jù)科學(xué)聯(lián)系起來(lái)。
▌機(jī)器學(xué)習(xí)與數(shù)據(jù)共享
現(xiàn)在還有一個(gè)數(shù)據(jù)共享的問(wèn)題。
所有這些都還只是想法,如果我有時(shí)間的話(huà)就會(huì)進(jìn)行實(shí)驗(yàn),所有這些都是想法的實(shí)驗(yàn)。這些都只是我的一些研究建議,我的團(tuán)隊(duì)可能會(huì)做的。我們這些時(shí)間主要是證明定理,但這里還有一個(gè)數(shù)據(jù)共享的想法實(shí)驗(yàn)。
數(shù)據(jù)共享不是“AI”的問(wèn)題,但卻是現(xiàn)實(shí)世界的“II”問(wèn)題。很多公司都有數(shù)據(jù),如果可以將它們放到一起,那將對(duì)他們有用,但這通常不被允許。法律上不允許出于很多原因,比如,在某天一個(gè)公司可能會(huì)遭受入侵或欺詐攻擊,但這可能同時(shí)發(fā)生在所有公司,也可能只針對(duì)特定的公司。
如果將每個(gè)人的數(shù)據(jù)都匯總起來(lái),你就可以構(gòu)建世界上最好的分類(lèi)器,并且可以讓系統(tǒng)受欺詐的程度保持的相當(dāng)?shù)?,但人們不?huì)那樣做。為什么呢?很多原因。你要怎樣激勵(lì)他們開(kāi)始分享數(shù)據(jù)?你把你的數(shù)據(jù)發(fā)送給我,是因?yàn)槲沂莻€(gè)值得信賴(lài)的中心人員,我會(huì)通過(guò)密碼機(jī)制或其他方式保護(hù)你的數(shù)據(jù)。
我會(huì)獲取你的數(shù)據(jù),然后構(gòu)建一個(gè)完美的分類(lèi)器,然后再把它們送回去。我不會(huì)和任何人分享你的數(shù)據(jù)。但那并不是很有趣,因?yàn)榭赡芪沂盏降臄?shù)據(jù)中有欺詐數(shù)據(jù)。對(duì)公司來(lái)說(shuō),如果他們把真實(shí)的數(shù)據(jù)放到系統(tǒng)中,別人會(huì)得到比他們更多的優(yōu)勢(shì),所以他們不會(huì)發(fā)送高質(zhì)量的數(shù)據(jù),他們不傻。
那他們應(yīng)該發(fā)送的數(shù)據(jù)質(zhì)量要多高?系統(tǒng)應(yīng)該有什么激勵(lì)機(jī)制來(lái)讓他們衡量要發(fā)送數(shù)據(jù)的質(zhì)量?這還涉及到隱私問(wèn)題,他們的律師就會(huì)一直強(qiáng)調(diào)不要發(fā)送數(shù)據(jù)。所以這里從機(jī)器學(xué)習(xí)的視角來(lái)說(shuō),有一種方式就是你讓每個(gè)公司自己決定要發(fā)送的數(shù)據(jù)質(zhì)量或者隱私,或者其它想要對(duì)數(shù)據(jù)進(jìn)行的操作。比如,他們要把噪聲加到數(shù)據(jù)中,然后才會(huì)放心地把數(shù)據(jù)交出來(lái)。他們對(duì)這樣有些差異化的私人系統(tǒng)會(huì)感到滿(mǎn)意。
現(xiàn)在數(shù)據(jù)到了我這里,我會(huì)用所有這些數(shù)據(jù)構(gòu)建一個(gè)分類(lèi)器,然后看這個(gè)分類(lèi)器在測(cè)試集中的表現(xiàn)如何。之后我要做的是留出一個(gè)公司的數(shù)據(jù),然后用其他公司的數(shù)據(jù)做訓(xùn)練集得到一個(gè)分類(lèi)器,然后看分類(lèi)器效果多好。然后對(duì)比留出不同公司數(shù)據(jù)后得到的分類(lèi)器。如果在某個(gè)公司數(shù)據(jù)是訓(xùn)練集時(shí),得到的分類(lèi)器效果最好,就說(shuō)明這個(gè)公司提供的數(shù)據(jù)是好的。
我可以?xún)H僅通過(guò)在經(jīng)典 Handout 方法中的一個(gè)損失函數(shù)量化數(shù)據(jù)的好壞。我現(xiàn)在要為每個(gè)公司做的是每次留出它們一個(gè),然后就知道他們發(fā)給我的數(shù)據(jù)有多好,他們覺(jué)得要給我發(fā)多好的數(shù)據(jù),以及數(shù)據(jù)差異有多大。并且一旦我知道了這些,我就可以進(jìn)行評(píng)估,現(xiàn)在我做的是世界上最好的分類(lèi)器。但我會(huì)把模型或者預(yù)測(cè)結(jié)果,根據(jù)它們發(fā)給我的數(shù)據(jù)質(zhì)量返還給他們。
這也可以說(shuō)是經(jīng)濟(jì)學(xué),我設(shè)定了一個(gè)博弈,有一些激勵(lì)的概念,并且可能存在納什均衡,而不是說(shuō)誰(shuí)都不發(fā)高質(zhì)量的數(shù)據(jù)。但這個(gè)提議或許會(huì)是一個(gè)研究,可能不會(huì)有結(jié)果。
總之,如果很多事情你能擺脫傳統(tǒng)的思考角度,那么這個(gè)社區(qū)將有很多路可以走。我不認(rèn)為只靠深度學(xué)習(xí)的那群人可以實(shí)現(xiàn)那個(gè)目標(biāo)。
-
AI
+關(guān)注
關(guān)注
87文章
29862瀏覽量
268154 -
人工智能
+關(guān)注
關(guān)注
1791文章
46698瀏覽量
237190 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8357瀏覽量
132328
原文標(biāo)題:邁克爾 · 喬丹:我討厭將機(jī)器學(xué)習(xí)稱(chēng)為AI
文章出處:【微信號(hào):fbigdata,微信公眾號(hào):AI報(bào)道】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論