當技術(shù)像機器學習一樣被炒作時,就會出現(xiàn)誤解和錯誤概念。以下是對機器學習到底能干些什么和不能干些什么的一個清醒認識。
機器學習正在被證明非常有用,認為它們能夠解決所有的問題以及能夠應用到所有環(huán)境中的想法十分具有吸引力。然而,與其他任何工具一樣,機器學習只在特定的領(lǐng)域有用,特別是對于那些一直困擾我們但我們又清楚無法通過雇用充足人員加以解決的問題,或是有著明確目標但又無明確方法得以解決的問題。
每一家企業(yè)可能都會以不同的方式利用機器學習的優(yōu)點。在管理咨詢公司Accenture近期的調(diào)查中,42%的企業(yè)主管表示,他們認為到2021年,所有的創(chuàng)新活動背后都有人工智能的支持。但是如果能夠清醒地認識到炒作的存在,避免由誤解機器學習的能力而造就的神話,這將會讓我們受益匪淺。
誤區(qū)1:機器學習就是人工智能
機器學習和人工智能常常被作為同義詞使用,然而盡管機器學習已經(jīng)成功由實驗室走入現(xiàn)實世界,但人工智能的覆蓋領(lǐng)域更為廣闊,如計算機視覺、機器人技術(shù)、自然語言處理,以及不涉及機器學習的約束補償?shù)冉鉀Q方案。我們可以把它想象成能讓機器看起來更聰明的東西。有些人所擔心的那種將會與人類競爭甚至是攻擊人類的“人工智能”,上述這些沒有一個是。
我們應當對各種流行詞匯保持清醒和精準認識。機器學習是指學習模式和利用大數(shù)據(jù)集預測結(jié)果。結(jié)論可能貌似“智能”,但是實際上它們只是以前所未有的速度和規(guī)模展開運算的應用統(tǒng)計學。
誤區(qū)2:所有數(shù)據(jù)都是有用的
我們需要為機器學習提供數(shù)據(jù),但是并非所有的數(shù)據(jù)對機器學習都有用。為了訓練這些系統(tǒng),我們需要具有代表性的數(shù)據(jù),這些數(shù)據(jù)要涵蓋機器學習系統(tǒng)將要處理的模式和結(jié)果。數(shù)據(jù)中不能有無關(guān)的模式(如所有男生都站著而所有女生都坐著的照片,或是所有的汽車都在車庫中而所有的自行車都在泥濘野外的照片)。因為我們創(chuàng)建的機器學習模型將反映那些過于具體的模式,并在我們使用的數(shù)據(jù)中查找這些模式。所有用于培訓的數(shù)據(jù)應當被清楚地標記,同時標示出它們的特征,這些特征還要與將要詢問機器學習系統(tǒng)的問題相匹配。這些需要做大量的工作。
不要想當然地認為我們擁有的數(shù)據(jù)都是干凈、清晰、具有代表性或易于標記的數(shù)據(jù)。
誤區(qū)3:我們總是需要大量的數(shù)據(jù)
得益于更好的工具、能夠并行處理海量數(shù)據(jù)的GPU等計算硬件、大量被標記的數(shù)據(jù)集(如ImageNet和斯坦福大學問答數(shù)據(jù)集),機器學習在圖像識別、機器閱讀理解、語言翻譯等領(lǐng)域取得了重大進展。借助被稱為“遷移學習”的技術(shù),我們在特定領(lǐng)域內(nèi)并不需要龐大的數(shù)理集才能得出優(yōu)秀的結(jié)果。相反,我們可以教機器學習系統(tǒng)如何學習使用一個龐大的數(shù)據(jù)集,然后讓它們使用這種能力去學習我們自己的一個要小很多的訓練數(shù)據(jù)集。這就是Salesforce和微軟Azure自定義視覺API的工作原理:只需要30-50張能夠展示我們想要的分類內(nèi)容的圖片就能得出優(yōu)秀結(jié)果。
遷移學習可通過相對較少的數(shù)據(jù)就為我們的問題定制一個預先訓練好的系統(tǒng)。
誤區(qū)4:任何人都可以創(chuàng)建一個機器學習系統(tǒng)
目前已經(jīng)出現(xiàn)了許多針對機器學習的開源工具和架構(gòu),以及大量教授我們?nèi)绾问褂盟鼈兊呐嘤栒n程。但是機器學習仍然是一個極為專業(yè)的技術(shù),我們需要知道如何準備數(shù)據(jù)并將它們拆分用于訓練和測試,需要知道如何選擇最佳的算法和使用何種啟發(fā)式算法,以及如何將它們變成一個可靠的生產(chǎn)系統(tǒng)。此外,我們還需要監(jiān)測系統(tǒng),確保隨著時間的推移結(jié)果保持相關(guān)性。無論是市場發(fā)生了變化,還是機器學習系統(tǒng)已經(jīng)足以滿足應對不同類型的客戶,我們都需要不斷檢查,讓模型始終與我們的問題相匹配。
讓機器學習保持適用需要豐富的經(jīng)驗。如果是剛開始起步,在聘用數(shù)據(jù)科學和機器學習專家創(chuàng)建定制系統(tǒng)的同時,我們還需要關(guān)注能夠從內(nèi)部代碼調(diào)用的預訓練模型的API。
誤區(qū)5:數(shù)據(jù)中的所有模式都有用
哮喘病人、胸痛病人或心臟病病人以及任何年齡在100歲的老人在得了肺炎后的存活率要比我們想象的高。事實上,用于實現(xiàn)住院自動化的簡單的機器學習系統(tǒng)可能會讓他們回家,不讓他們接受住院治療(基于規(guī)則的系統(tǒng)使用與神經(jīng)網(wǎng)絡(luò)完全相同的數(shù)據(jù)進行訓練)。病人有如此高的存活率的原因在于,因為肺炎對這幾類病人非常兇險,因此他們總是能夠立即被安排住院治療。
系統(tǒng)會查看數(shù)據(jù)中的有效模式,而有些(盡管可以幫助保險公司預測治療成本但是)對于選擇誰該住院來說并不是一個有用的模式。更為危險的是,我們不知道那些無用的反模式在我們的數(shù)據(jù)集中,除非我們已經(jīng)知道它們。
在其他的一些情況下,系統(tǒng)會學習一些沒有用的有效模式(例如,一種有爭議的面部識別系統(tǒng),可以從自拍中準確預測性取向),因為它們沒有清晰明確的解釋(在這種情況下,照片顯示的是社交線索,如姿勢,而非其他一些天生的特征)。
“黑匣子”模型是有效的,但我們不清楚它們學到了什么模式。更為透明和易懂的算法,如廣義加性模型會讓模型學習到什么變得更為清楚,因此我們可以決定這些模式是否對部署有用。
誤區(qū)6:強化學習已經(jīng)為投入使用做好了準備
事實上,目前在用的所有機器學習系統(tǒng)使用的都監(jiān)督式學習。在大多數(shù)情況下,它們訓練的都是已經(jīng)被明確標記過的數(shù)據(jù)集,人類參與了這些數(shù)據(jù)集的準備。組織管理這些數(shù)據(jù)集費時費力,因此人們對非監(jiān)督式學習,特別是對于強化學習(RL)更為感興趣。在強化學習中,代理會不斷摸索嘗試,與它們的環(huán)境進行交互,接收由正確行為帶來的獎勵。DeepMind的AlphaGo系統(tǒng)在使用監(jiān)督式學習的同時使用了強化學習才最終擊敗了與之對弈的圍棋高手。卡內(nèi)基梅隆大學的Libratus也是在使用了強化學習加上其他兩種人工智能技術(shù)才最終在一對一不限注德州撲克中擊敗了世界頂級選手。研究人員目前正在對強化學習展開廣泛的測試,領(lǐng)域涵蓋了從機器人技術(shù)到安全軟件測試等各個方面。
強化學習目前在研究領(lǐng)域之外并不常見。谷歌通過讓DeepMind學習如何更為高效的降溫為數(shù)據(jù)中心節(jié)約了電力。微軟通過一個名為上下文老虎機(Contextual Bandits)的強化學習算法為MSN.com網(wǎng)站訪問者呈現(xiàn)個性化的新聞頭條。問題在于現(xiàn)實世界的環(huán)境很少有比較輕松的發(fā)現(xiàn)性獎勵并且能夠立即進行反饋,特別是代理在事情發(fā)生之前采取多種行動則屬于誘騙獎勵。
誤區(qū)7:機器學習沒有偏見
由于機器學習是從數(shù)據(jù)中學習,因此它們會復制數(shù)據(jù)集中的所有偏見。搜索首席執(zhí)行官的圖片可能會顯示的都是男性白種人首席執(zhí)行官的照片。之所以會這樣,是因為與非男性白種人相比,擔任首席執(zhí)行官的男性白種人要多。這表明機器學習也會放大這種偏見。
被經(jīng)常用于訓練圖像識別系統(tǒng)的COCO數(shù)據(jù)集中有男性和女性照片,但是更多的女性照片的背景中有廚房設(shè)備,而男性照片的背景中更多的是計算機鍵盤和鼠標或者是網(wǎng)球拍和滑雪板。如果依靠COCO訓練系統(tǒng),它們會更為強烈地將男性與計算機硬件聯(lián)系在一起。
一個機器學習系統(tǒng)還能夠?qū)⑵娛┘咏o另一個機器學習系統(tǒng)。利用流行的架構(gòu)訓練機器學習系統(tǒng),以一個單詞作為向量展示其中的關(guān)系,那么它們學到的可能是“男性相對于女性就像計算機程序員相對于主婦”或“醫(yī)生相對于護士就像老板相對于接待員” 這樣的刻板印象。如果我們使用帶有這種偏見的系統(tǒng)進行語言翻譯,如將芬蘭語或土耳其語等性別中立的語言翻譯為區(qū)別性別的語言如英語,那么就會出現(xiàn)將“ta是醫(yī)生”翻譯成“他是醫(yī)生”,將“ta是護士”翻譯成“她是護士”。
在購物網(wǎng)站進行相似物品推薦非常有用,但是當涉及敏感領(lǐng)域并能夠產(chǎn)生一個反饋回路時,那么問題就來了。如果你在Facebook中加入了一個反對接種疫苗的群,F(xiàn)acebook的推薦引擎將會推薦關(guān)注各種陰謀論的群或是相信地球是扁平的群。
認識到機器學習中的偏見問題十分重要。如果我們不能在訓練數(shù)據(jù)集中移除這些偏見,那么我們可以使用能夠調(diào)整詞對中性別聯(lián)系的技術(shù)減少偏見或是向推薦中增加一些無關(guān)的項目以避免“過濾氣泡”。
誤區(qū)8:機器學習僅被用于做好事
機器學習提升了反病毒工具的能力,它們會關(guān)注全新的攻擊行為,一旦出現(xiàn)就能發(fā)現(xiàn)它們。同樣的,黑客也在使用機器學習研究反病毒工具的防御能力,通過分析大量的公共數(shù)據(jù)或是以前成功的釣魚攻擊從而發(fā)起大規(guī)模針對性更強的釣魚攻擊。
誤區(qū)9:機器學習將取代人類
人工智能將會與我們搶飯碗,改我們正在做的工作以及我們的工作方式已經(jīng)成為了一種普遍的擔心。機器學習則能夠提高效率和合規(guī)性同時降低成本。從長遠看,機器學習將在淘汰目前一些崗位的同時創(chuàng)造一些新的工作崗位。由于復雜性或規(guī)模性的緣故,許多現(xiàn)在已由機器學習幫助實現(xiàn)自動化的工作在以前要想實現(xiàn)自動化是不可想象的。例如,我們無法雇用充足的人員去看每一張貼在社交媒體上的照片,查看照片中是否有自己公司的品牌的特征。
機器學習已經(jīng)開始在創(chuàng)造新的工作機遇,如通過預測性維護提升客戶體驗,為業(yè)務(wù)決策提升建議和支持。與之前的自動化一樣,機器學習能夠解放員工讓他們能夠發(fā)揮自己的專業(yè)知識和創(chuàng)造力。
-
人工智能
+關(guān)注
關(guān)注
1789文章
46663瀏覽量
237098 -
機器學習
+關(guān)注
關(guān)注
66文章
8353瀏覽量
132315
原文標題:推薦 | 關(guān)于機器學習這九大誤區(qū)你必須知道!
文章出處:【微信號:dkiot888,微信公眾號:鼎酷IOT部落】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論