對于區(qū)塊鏈和人工智能而言,2018年仍是它們風口正勁的一年。在過去的一年中,我們目睹了擊敗專業(yè)圍棋選手的AI程序AlphaGo,也見證了區(qū)塊鏈在全球范圍內(nèi)的強勢發(fā)展。那么當我們把區(qū)塊鏈和需要大量訓練數(shù)據(jù)的機器學習模型結(jié)合在一起后,普通開發(fā)者能否打破科技巨頭的壟斷,創(chuàng)造出真正的AGI呢?
且不論區(qū)塊鏈和人工智能行業(yè)中存在的泡沫。如果我們能建立一個基于區(qū)塊鏈的機器學習市場,那它就結(jié)合了兩大優(yōu)勢:一是私人化的機器學習,即允許在不透露用戶敏感隱私數(shù)據(jù)的情況下訓練模型;二是區(qū)塊鏈的激勵機制,它會優(yōu)先選擇最佳數(shù)據(jù)和模型,并使其變得更智能。它們共同作用的結(jié)果就是一個開放的市場:任何人都能在里面出售數(shù)據(jù),同時保證數(shù)據(jù)的安全性;而開發(fā)者則可以通過激勵機制為算法篩選優(yōu)質(zhì)數(shù)據(jù)。
構(gòu)建這樣一個系統(tǒng)是極具挑戰(zhàn)性的。雖然一些關(guān)鍵的區(qū)塊還沒有人做出來過,但如果只是構(gòu)建一個簡單的初始版本,這在現(xiàn)在已經(jīng)不是一件難事。我們現(xiàn)還處于Web 2.0時代,這是個數(shù)據(jù)都被市場、大公司壟斷的時代,也是個不公平的時代。如果我們建立了這樣一個市場,那它就能真正開啟數(shù)據(jù)和算法的全面公開競爭,提前讓每個人邁入Web 3.0時代。簡而言之,在這樣的市場中,我們的數(shù)據(jù)和算法都能被直接貨幣化。
起源
這個靈感來自2015年查德· 努梅萊的采訪對話。Numer.ai是一個向參賽者開放大量加密數(shù)據(jù)機器學習競賽平臺,被稱為金融市場的Kaggle。它也是一家對沖基金,利用數(shù)據(jù)科學家訓練出的模型進行資本運作。把加密后的市場數(shù)據(jù)分發(fā)下去后,Numer.ai會從競賽中挑選出最好的模型放入“元模型”中,如果“元模型”表現(xiàn)良好(盈利),那相關(guān)數(shù)據(jù)科學家就能從中得到分紅。
像這樣讓數(shù)據(jù)科學家們參與競爭的方法似乎是一個可行的思路,既然Numer.ai能把原本完全分散的各個模型整合在一起用于對沖基金,那從理論上來說,同樣的做法也適用于其他任何領(lǐng)域。
嘗試
作為一個示例,我們可以先試著創(chuàng)建一個完全分散的系統(tǒng),并把它用于用于加密貨幣零散交易,這事實上也是區(qū)塊鏈的一個潛在應(yīng)用場景。
數(shù)據(jù)(DATA):數(shù)據(jù)提供者分類數(shù)據(jù),并把它們提供給建模人員。
模型構(gòu)建(MODELS):建模人員篩選出合適的數(shù)據(jù),并創(chuàng)建模型。為了防止數(shù)據(jù)泄露,系統(tǒng)要保證訓練過程的安全性,上圖的結(jié)構(gòu)就允許模型在不暴露底層數(shù)據(jù)的情況下進行訓練。模型也被分類。
元模型構(gòu)建(METAMODELS):元模型的構(gòu)建需要考慮各模型的分類算法,在這基礎(chǔ)上重新整合?!斎唬@一步只是個可選項,你也可以不把所有模型都放在一個籃子里。
分配收益/損失:經(jīng)過一個周期后,我們在加密貨幣交易中賺取利潤/虧損了,這時各模型就要承擔利潤/損失分成。這不是一個一刀切的過程,有些模型只提供部分積極/消極貢獻,而有些模型則全部是積極/消極貢獻,系統(tǒng)會考慮這些因素,并依據(jù)它們的智能程度進行獎懲。這之后,模型會轉(zhuǎn)向數(shù)據(jù)提供者,并執(zhí)行類似的股權(quán)分發(fā)/削減。
可驗證計算:每個步驟的計算可以是集中式的,也可以用安全多方計算。它能不斷進行驗證。
為什么這個系統(tǒng)如此強大?
它能吸引全球最佳數(shù)據(jù)。這個系統(tǒng)中最有效的部分在于它吸引數(shù)據(jù)的激勵措施,因為數(shù)據(jù)往往是大多數(shù)機器學習任務(wù)的最大限制因素之一。通過開放式的激勵機制,比特幣在全球范圍內(nèi)吸引了大量算力,同理,一個設(shè)計合理的激勵機制也能為機器學習模型帶來世界上最好的數(shù)據(jù)。如果還像現(xiàn)在這樣去檢索上百萬個源上的封閉數(shù)據(jù),我們什么都做不了。
算法間的競爭。我們現(xiàn)在還無法擁有這種算法、模型之間全面公開競爭的機會,但我們確實需要它們。試想一下,如果Facebook的新聞推送算法不是一家獨大,那它還會鬧出“數(shù)據(jù)泄露”的丑聞嗎?
獎勵透明。在這種機制下,數(shù)據(jù)提供者和建模人員能看到自己所做貢獻的價值,并能親身參與計算驗證,這很有可能會提高他們的參與度。
自動化。元模型構(gòu)建完成后,它會進入一個行動閉環(huán),這時系統(tǒng)是完全自動的。換句話說,這樣的自動化能降低貢獻者心中的疑慮。
網(wǎng)絡(luò)效應(yīng)。數(shù)據(jù)提供者和數(shù)據(jù)科學家之間多面的網(wǎng)絡(luò)效應(yīng)能使系統(tǒng)不斷進行自我強化。系統(tǒng)表現(xiàn)越好,它吸引的資金就越多,相應(yīng)的它的潛在支出也就越多——越來越多的數(shù)據(jù)提供者和數(shù)據(jù)科學家會爭相參與其中,并使系統(tǒng)變得更智能。而更智能的系統(tǒng)又會吸引更多的資本,這就步入了一個良性循環(huán)。
安全計算
安全計算允許模型在數(shù)據(jù)上進行訓練而不會泄露數(shù)據(jù)本身。目前被工業(yè)界和學術(shù)界廣泛使用的安全計算方法主要有以下三種:同態(tài)加密(HE)、安全多方計算(MPC)以及零知識證明(ZKPs)。除去各自的特點,這三種方法中又以安全多方計算目前在機器學習數(shù)據(jù)加密中應(yīng)用得最廣泛,因為同態(tài)加密計算過慢,而機器學習又顯然不是零知識證明的對標場景。
也正是因為這一點,安全多方計算在計算機科學研究中一直處于前沿位置,它的技術(shù)瓶頸在于計算效率太低,但近年來這種情況也在逐漸好轉(zhuǎn)。
終極推薦系統(tǒng)
為了說明個性化機器學習模型的潛力,我們可以想象一個名為“終極推薦系統(tǒng)”的應(yīng)用程序,它會監(jiān)控你在設(shè)備上執(zhí)行的所有操作:瀏覽記錄、在各應(yīng)用中的操作、手機圖片、位置數(shù)據(jù)、消費記錄、可穿戴傳感器、短信等。它控制著你的所有設(shè)備,包括你放在家里的相機,甚至你未來會買的相機。在這些數(shù)據(jù)基礎(chǔ)上,它再向你推薦該訪問哪個網(wǎng)站、看哪篇文章、聽哪首歌或購買哪件商品。
這個推薦系統(tǒng)很高效,比Google、Facebook等其他科技巨頭現(xiàn)有的AI推薦算法智能得多,因為它對你本人有非常深刻的了解。但你完全不用擔心自己的隱私被泄露了,因為它只從你的數(shù)據(jù)中學習,而除了它,沒有其他的第三者知曉你的情況。以前加密貨幣交易系統(tǒng)也推出過類似的服務(wù),它通過個人用戶在某個在線市場上的訪問情況推薦可用加密貨幣交易的商品,甚至還會因用戶貢獻數(shù)據(jù)而給予獎勵。
谷歌的federated learning和蘋果的differential privacy都是朝個性化機器學習模型邁出的第一步,但他們在贏得用戶信任這條路上還任重道遠,因為這兩家公司都把模型的個性化對象——用戶個人排除在了安全性檢查、數(shù)據(jù)存儲以外。
當前的區(qū)塊鏈和機器學習
對于這一切來說,現(xiàn)在還很早,早到只有很少的人在做相關(guān)的工作,而他們中的大多數(shù)人都抱著在這塊大蛋糕上咬下第一口的想法。
Algorithmia Research曾建立過一個基于區(qū)塊鏈的機器學習模型結(jié)構(gòu),它把元模型的準確率設(shè)置為高于某個回測閾值。
由Algorithmia Research創(chuàng)建的機器學習模型的簡單構(gòu)造
而Numer.ai則在這個基礎(chǔ)上分三步走:首先對數(shù)據(jù)加密(不完全使用同態(tài)加密),其次是把眾包模型結(jié)合進元模型中,最后是根據(jù)未來表現(xiàn)獎勵模型,而不是回測某個具體的目標。數(shù)據(jù)科學家必須將Numer.ai用做分紅指標的加密貨幣Numeraire看成游戲幣,它只會隨未來發(fā)生的事增多、減少,而不會受已有事實影響(測試時的性能)。但是它的一個缺點是目前只是簡單地分發(fā)數(shù)據(jù),缺乏對數(shù)據(jù)科學家目標意識的鼓勵。
之前Ocean曾做過一個關(guān)于數(shù)據(jù)的區(qū)塊鏈市場,但只是個雛形,目前該領(lǐng)域還沒有出現(xiàn)非常成功的案例。
還有一些人在探索計算機網(wǎng)絡(luò)安全領(lǐng)域的區(qū)塊鏈應(yīng)用。如Openmined正在創(chuàng)建一個多方計算網(wǎng)絡(luò),用于在Unity之上培訓機器學習模型,該網(wǎng)絡(luò)可以在任何設(shè)備上運行,包括家用游戲機。
總而言之,這樣一個迷人市場的最終狀態(tài)會是參與者彼此共享同一個元模型,它按數(shù)據(jù)提供者、建模人員的智能貢獻比例分配所有權(quán)。這個模型將被標記化,并隨著時間的推移向“股民”分發(fā)“股息”,甚至可以被全體“股東”支配。這是一種互相擁有的蜂巢式思維。
啟示
綜合全文,就基于區(qū)塊鏈技術(shù)的機器學習市場這個想法,我們可以得到以下幾點啟示。
首先,分散式機器學習市場可以破除目前科技巨頭對數(shù)據(jù)的壟斷。在過去的20年中,這些大型公司利用互聯(lián)網(wǎng)來創(chuàng)造價值、實現(xiàn)商品化和標準化,并搜集了大量專用數(shù)據(jù)用于鞏固和加強他們的網(wǎng)絡(luò)效應(yīng)。這樣做的結(jié)果就是,價值創(chuàng)造從數(shù)據(jù)被轉(zhuǎn)移到了算法上。
科技領(lǐng)域的標準化和商品化周期,數(shù)據(jù)壟斷網(wǎng)絡(luò)時代即將終結(jié)
換句話說,他們也為AI創(chuàng)造了一種直接的商業(yè)模式:喂數(shù)據(jù)→訓練。
其次,這些公司創(chuàng)造了世界上最強大的AI系統(tǒng),通過直接的經(jīng)濟激勵,最好的數(shù)據(jù)和模型被他們收入囊中,而他們的實力也通過網(wǎng)絡(luò)效應(yīng)的良性循環(huán)進一步增強。隨著Web 2.0時代的到來,大公司的作為使數(shù)據(jù)壟斷實現(xiàn)了商品化,而這似乎又成了突破這種壟斷局面的新切入口。雖然幾年內(nèi)數(shù)據(jù)領(lǐng)域的局面不會有太大變化,但這看起來是個正確的方向。
第三,正如之前提到的“終極推薦系統(tǒng)”,我們現(xiàn)有的搜索推薦算法的出發(fā)點是完全顛倒的。大公司是為了增加產(chǎn)品競爭力而制定個性化推薦,而不是出于用戶需要,專門開發(fā)真正精準的推薦算法。這就帶來了另一個機遇,就是每個人都可以拓展個人市場,挖掘完全自定義的數(shù)據(jù),并把它們放進自己的模型中。
第四,Google和Facebook等公司通過機器學習開發(fā)了大量受歡迎的應(yīng)用,有了這樣一個市場,我們可以實現(xiàn)在不泄露個人隱私的前提下獲得同樣好,甚至更好的技術(shù)體驗。
第五,機器學習研究可以更快地推進,因為任何工程師都可以訪問開放的數(shù)據(jù)市場,而不僅僅是大型Web 2.0公司的一小部分工程師。
挑戰(zhàn)
雖然愿景很美,但在通往Web 3.0的路上,我們還要面對很多挑戰(zhàn)。首先一個技術(shù)上的重要難題就是安全計算方法的效率還是太低了,這大大拉高了機器學習的計算成本。
我們在文章中多次提到把模型結(jié)合進元模型。對于單個模型而言,為它找一組特定的測試集是很容易的,但我們不能把同樣的做法生搬硬套到元模型上,因為涉及復雜的分類算法,目前要實現(xiàn)這一點還很難。
雖然市場能解決數(shù)據(jù)問題,但這些數(shù)據(jù)的清理工作和格式化工作還是十分繁瑣的。我們現(xiàn)在有不少自動化工具,一些小企業(yè)也愿意接眾包的活,但這還是太復雜了。
最后就是最諷刺的一點,我們花一整篇文章講述了如何構(gòu)建一個廣義上的商業(yè)模式,但一旦涉及實際落地,可能它還不如直接開一個數(shù)據(jù)市場來得簡單有效。而其中的加密手段也無非就是市場管理層面的工作。
結(jié)論
總而言之,個性化機器學習和區(qū)塊鏈的結(jié)合可以在各種應(yīng)用中創(chuàng)造更強大的機器之能。隨著時間的推移,它甚至還能解決重大的技術(shù)挑戰(zhàn)。它的潛力是巨大的,它的價值觀也是符合用戶需要的。但它們又是可怕的——它們引導自我存在、自我強化,消費私人數(shù)據(jù),并且?guī)缀醪豢赡荜P(guān)閉——這也是現(xiàn)在加密貨幣緩慢滲透每一個行業(yè)所帶來的警示。
-
人工智能
+關(guān)注
關(guān)注
1789文章
46663瀏覽量
237098 -
機器學習
+關(guān)注
關(guān)注
66文章
8353瀏覽量
132315 -
區(qū)塊鏈
+關(guān)注
關(guān)注
110文章
15559瀏覽量
105592
原文標題:基于區(qū)塊鏈的機器學習市場
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論