一直以來大家都對深度學習這樣的黑盒系統(tǒng)多有詬病,即便深度學習的可解釋性方面已經(jīng)有所建樹,懷疑和抵制之聲仍然很多。但CMU材料科學與工程系教授ElizabethA.Holm近期在《科學》雜志發(fā)表了一篇短評文章,少見地為黑盒系統(tǒng)給予一些肯定。這篇文章的視角也提醒我們重新考慮一下,一聽說是黑盒系統(tǒng)就敬而遠之是否是最好的做法。
曾經(jīng),科幻小說作家DouglasAdams假想人類建造出了有史以來最厲害的計算機,它的名字叫DeepThought,它上面運行的程序可以解答人類能夠提出的最深刻的問題「生命的意義是什么」、「宇宙為什么存在」,以及其它所有問題。在計算了750萬年以后,DeepThought給出了一個回答:數(shù)字「42」。隨著人工智能系統(tǒng)已經(jīng)開始進入所有人類努力探索的領域,包括科學、工程以及醫(yī)療保健,如今人類也必須面對DouglasAdams在這個故事里巧妙地隱含的問題:當我們不理解為什么會出現(xiàn)這個答案的時候,我們還有沒有必要知道這個答案?一個黑盒系統(tǒng)到底好還是不好?
在我們學校大多數(shù)的物理科學和工學的教授同事們眼中,不使用深度學習這樣的AI方法的最大原因就是他們不知道如何解釋AI給出的答案是如何產(chǎn)生的。這個反對意見非常有力,其中隱含的顧慮可以包括實踐、可以包括道德、甚至還可以包括法律??茖W家們的使命、以及工程師們的職責都要求不僅僅能夠預測會發(fā)生什么,還要理解它為什么會發(fā)生。一個工程師能夠?qū)W會預測一座橋是否會倒塌,AI系統(tǒng)其實也可以學會做同樣的事情,但只有工程師才能通過物理模型解釋清楚他的決定是如何做出的,然后和別人溝通交流、讓他們評價他的思路。假設有兩座橋,人類工程師認為一座橋不會塌,AI認為另一座橋不會塌,那你會對哪一座橋更放心呢?
黑箱系統(tǒng)給出的答案無法完全令人信服的事情并不只發(fā)生在科學家和工程師身上。2018年提出的「歐盟一般數(shù)據(jù)保護條例」GDPR中就要求基于個人數(shù)據(jù)的自動決策系統(tǒng)能夠為決策對象提供「對于涉及的決策邏輯的有意義的解釋」。目前人們?nèi)匀辉谟懻撨@條要求如何在司法實踐中落實,但是我們已經(jīng)可以看到司法系統(tǒng)對于無法解釋的系統(tǒng)的不信任。
在這種整個社會的懷疑氛圍下,AI研究人員們的行動很好理解,他們不再公開宣揚黑盒決策系統(tǒng),但他們展開更多研究,嘗試更好地理解黑盒系統(tǒng)是如何做出決策的——這也就是我們常說的「可解釋性」問題。實際上,這也是計算機科學領域當今最大的挑戰(zhàn)之一。
不過,一刀切地拒絕所有的黑盒系統(tǒng)也許魯莽了一點。在現(xiàn)實中,科學家和工程師們,作為人類、也和所有其他人一樣地,根據(jù)自己已有的判斷和經(jīng)驗做出決策,就好像是來自他們自己大腦中的「深度學習系統(tǒng)」。所以,腦神經(jīng)科學也遇到了和計算機科學一樣的可解釋性挑戰(zhàn)。然而,對于人類做出的決策、給出的結(jié)論,我們常常不加防備地直接接受,也不去試著完全了解它們的來源過程。這樣說來,AI系統(tǒng)給出的答案也許值得考慮一下,它們也許也能發(fā)揮類似的益處;如果能確認的話,那我們還應該使用它們。
首當其中可以說的,也是最明顯的,就是當錯誤答案帶來的代價比正確答案帶來的價值低很多的時候。定向廣告投放就是一個典型的例子。從廣告商的角度講,投放了廣告但是目標群體不想看的成本是很小的,但是成功的廣告卻能帶來可觀的收益。以我自己的研究領域,材料科學來說,圖像分割任務通常都需要人類把材料圖像中感興趣的部分的復雜內(nèi)部結(jié)構(gòu)的邊界手動勾畫出來。這個過程成本很高,以至于不論是博士論文還是工業(yè)級的質(zhì)量控制系統(tǒng)中一旦有需要圖像分割的部分,都要讓這部分所需的圖像盡可能地少。如果換成AI系統(tǒng),它就能很快完成大批量的圖像分割任務,同時還具有很高的保真度(雖然并不完美)。在這里,完美的圖像分割結(jié)果對于這些系統(tǒng)并不是必需的,因為出現(xiàn)那么一些誤分類的像素的代價要比沒有AI系統(tǒng)時研究生們付出的時間精力低太多了。
第二個可以使用黑盒系統(tǒng)的例子也很明顯,不過要更有活力一些。如果一個黑盒系統(tǒng)能產(chǎn)生最佳的結(jié)果,那我們就應當使用它。比如,在評估標準的平面醫(yī)學影像時,經(jīng)過訓練的AI系統(tǒng)可以幫助人類影像科醫(yī)生得到更準確的癌癥評估結(jié)果。雖然這種情況下出現(xiàn)一個錯誤答案(不論是假正例還是假負例)的代價并不低,但在黑盒系統(tǒng)的幫助下我們可以達到其它任何方案都無法達到的高準確率,這就成為了當前最佳的解決方案。當然了,有人會說讓AI看X光片本來就可以接受,部分原因是因為總會有人類醫(yī)生檢查AI給出的結(jié)果;讓AI開車就會讓人有更多顧慮,因為這個黑盒系統(tǒng)做出的決策能影響人的生死,但同時它卻沒有給人類留出干預的機會。即便這樣,自動駕駛汽車也總有一天會比人類駕駛的汽車更安全,它們將會在事故率和死亡率上都做得比人類司機更好。如果取一些合理的指標來衡量,那么那一天一旦到來我們馬上就會知道,但是是否讓人類司機讓位給AI司機會是整個社會的決定,需要考慮到人類道德觀念、公平性、非人類實體的追責等許多方面。
但是需要說明的是,我們能列出這些情況并不代表黑盒模型在這些場景中就直接得到許可了。在上面兩種情況中我們都假設了一個理想的黑盒子,有人對它的運行負責,而且能夠它的代價,或者能夠明確無誤地定義什么是最好的結(jié)果。這兩個假設都有落入誤區(qū)的可能。AI系統(tǒng)可能會有一系列的缺點,包括偏倚、在訓練的領域外不適用、脆弱性(很容易被欺騙)。更重要的是,評估代價和最佳結(jié)果是一個復雜的決策問題,需要在經(jīng)濟性、個體需求、社會文化、道德考量等許多方面之中做出權(quán)衡。更糟糕的是,這些因素可能是一環(huán)套一環(huán)的:一個有偏倚的模型可能會隱含著一些代價,可以表現(xiàn)為模型自己做出錯的預測,也可以表現(xiàn)為外人對模型的公平性的評估不準確。一個脆弱的模型可能會包含一些盲點,在某些時候會產(chǎn)生錯的離譜的糟糕決定。就像面對任何決策系統(tǒng)一樣,使用黑盒系統(tǒng)的時候仍然要配合知識、判斷力和責任心。
根據(jù)定義,人類無法解釋一個黑盒算法是如何給出某個具體的答案的。但是,當黑盒系統(tǒng)能夠帶來最佳的產(chǎn)出,或者給出錯誤答案的代價很小,或者能夠啟發(fā)新的思維的時候,它們?nèi)匀豢梢詾槲覀儙韮r值。
雖然AI的思考過程是帶有限制的、可能包含偏倚甚至可能直接就是錯誤的,但它們畢竟和人類的思考方式有很大的區(qū)別,有可能可以揭示新的聯(lián)系和新的方法。這樣一來,黑盒系統(tǒng)就有了第三種可以使用的場景:作為引導人類思考和質(zhì)疑的工具。比如在某項突破性的醫(yī)學影像研究中,科學家們訓練了一個深度學習系統(tǒng)來根據(jù)眼部照片診斷糖尿病性視網(wǎng)膜病變,得到的結(jié)果能夠近似或者超過一組眼科專家的表現(xiàn)。更令人驚奇的是,這個系統(tǒng)還可以一并分析得出眼科診斷中不會涉及的別的信息,包括心臟病風險高低、年齡、性別等等。在此之前從來沒有人注意過不同性別的視網(wǎng)膜之間會有什么區(qū)別,所以這個黑盒子系統(tǒng)的發(fā)現(xiàn)就給科研人員們提供了新的線索,可以進一步探究不同性別的視網(wǎng)膜之間到底有何區(qū)別。對于這些引發(fā)的問題的研究也就不再繼續(xù)屬于可解釋的AI系統(tǒng)以及人類智慧的黑盒系統(tǒng)領域。
說了一圈,我們可以再來看看一開始提到的DeepThought給出的答案「42」。我們沒法用黑盒AI系統(tǒng)尋找因果關系、構(gòu)建知識和邏輯系統(tǒng)以及達成理解,一個黑盒系統(tǒng)也沒辦法告訴我們橋為什么會塌、生命和宇宙的種種問題的答案是什么、以及解釋世間的一切。至少目前,這些問題都屬于人類智慧和逐漸發(fā)展的可解釋AI的領域。但同時,我們也仍然可以用適當?shù)姆绞浇邮芎诤邢到y(tǒng)。黑盒系統(tǒng)可以對科學、技術、工程、數(shù)學等等領域產(chǎn)生潛在且正面的影響,可以產(chǎn)生價值、優(yōu)化結(jié)果以及啟發(fā)創(chuàng)新。
-
黑盒
+關注
關注
0文章
5瀏覽量
8105 -
人工智能系統(tǒng)
+關注
關注
0文章
38瀏覽量
10565 -
深度學習
+關注
關注
73文章
5471瀏覽量
120904
原文標題:不要一棍子打翻所有黑盒模型,其實可以讓它們發(fā)揮作用
文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論