制造一枚火箭是十分困難的事情,每一個零部件都需要進(jìn)行細(xì)致的設(shè)計和制造以保證火箭的安全性和可靠性。從導(dǎo)航系統(tǒng)到控制系統(tǒng),從發(fā)動機到著陸器,每個方面都需要進(jìn)行嚴(yán)格的測試和檢驗,然后才能建成穩(wěn)定可靠的火箭運送宇航員奔向太空。
如果人工智能也是一枚火箭的話,安全性同樣是其中十分重要的部分。它的保證來源于從頭開始對于系統(tǒng)的仔細(xì)設(shè)計來保證不同的元件能夠按照我們的想法協(xié)同工作,并在部署后可以正常地監(jiān)控各個部分的工作狀態(tài)。Deepmind的AI安全研究主要致力于保證系統(tǒng)可靠地工作,同時發(fā)現(xiàn)并處理近期和長期可能的危險。AI安全是一個十分新的領(lǐng)域,本文主要將就技術(shù)AI安全的三個方面展開討論:規(guī)范性(準(zhǔn)確定義系統(tǒng)的目的)、魯棒性(系統(tǒng)抗干擾的能力)和保證(監(jiān)控系統(tǒng)活動),從不同的角度定義并保證了AI系統(tǒng)的安全性。
1. 規(guī)范性與準(zhǔn)確性:清晰定義系統(tǒng)目的
這一特性保證了AI系統(tǒng)可以按照使用者的真實意圖準(zhǔn)確完成任務(wù)。
對于目的有著規(guī)范和清晰的定義十分重要,有一個古希臘的神話故事從反面說明了這個道理。一位古希臘的國王受到了神的眷顧,可以許一個愿望。他不假思索的告訴神“希望能將所有他觸碰的東西變成金子!”在神賦予他獲得這項能力后,他大喜過望,周圍的樹根、石頭、花瓣都在他的觸碰下變成了金子!但高興不了太久國王就發(fā)現(xiàn)了一個嚴(yán)重的問題,當(dāng)他想喝水吃飯時食物和水都在他的手里變成了黃金,無法正常進(jìn)食喝水。甚至在某些版本的故事里,國王的女兒也成為這種能力的受害者。
這個故事告訴了我我們一個道理:如何闡釋和表達(dá)我們的需求是十分重要的。在AI系統(tǒng)中規(guī)范清晰的設(shè)計是保證AI系統(tǒng)忠實地執(zhí)行設(shè)計者愿望的保證,而含糊或者錯誤的定義則會造成災(zāi)難性的后果。在AI系統(tǒng)中,研究人員一般將規(guī)范定義分為了三種類型:
a)理想的定義(美好的愿望):根據(jù)假設(shè)的(一般難以實現(xiàn))描述來定義的理想AI系統(tǒng),會完全按照人類的意圖行事。
b)設(shè)計的定義(美妙的藍(lán)圖):實際構(gòu)建AI系統(tǒng)所用設(shè)計語言,例如強化學(xué)習(xí)系統(tǒng)中經(jīng)常要最大化的獎勵函數(shù)。
c)實際的定義(令人無奈的現(xiàn)狀):這種情況很好地描述了系統(tǒng)的實際情況。例如很多時候會根據(jù)系統(tǒng)的表現(xiàn)和行為進(jìn)行反向工程來求出獎勵函數(shù)(逆向強化學(xué)習(xí))。這與系統(tǒng)設(shè)計的初衷有著典型的不同,主要是由于AI系統(tǒng)并沒有被完美優(yōu)化、抑或是由于設(shè)計定義意料之外的結(jié)果造成。
當(dāng)理想和現(xiàn)實產(chǎn)生巨大的差異時(AI系統(tǒng)不按照我們想象的方式運作),就需要解決規(guī)范定義的問題。在研究AI系統(tǒng)中規(guī)范定義問題時通常需要回答幾個問題:我們?nèi)绾卧O(shè)計出更為普遍的目標(biāo)函數(shù)、并幫助主體發(fā)現(xiàn)運行時偏離目標(biāo)的行為。理想與設(shè)計定義之間的差異主要源于設(shè)計的過程,而設(shè)計與實踐間的差異則主要來源于實際運行的現(xiàn)場里。
例如在deepmind的AI安全論文里,對于強化學(xué)習(xí)的主體首先給予一個獎勵函數(shù)來優(yōu)化,但卻在后臺運行著一個“安全表現(xiàn)評價函數(shù)”。這顯示了前述的差異:安全表現(xiàn)函數(shù)是理想的規(guī)范定義,而不完美的則是獎勵函數(shù)(設(shè)計定義),而最終主體在實踐過程中產(chǎn)生的結(jié)果則是結(jié)果策略的表現(xiàn)。
另一個例子則是來自與OpenAI對于賽艇游戲CoastRunners訓(xùn)練強化學(xué)習(xí)過程的分析。對于大多數(shù)人類來說,我們的目標(biāo)是盡快的完成比賽并超越其他玩家,這是我們對于這一任務(wù)的理想定義。但將這一目標(biāo)精確地轉(zhuǎn)換為獎勵函數(shù)卻不是一件容易的事情。由于這個游戲會獎勵在行駛過程中擊中一些目標(biāo)的主體,所以通過強化學(xué)習(xí)訓(xùn)練出的主體會表現(xiàn)出令人驚訝的行為:它為了獲得盡可能多的獎勵,就會在一片水域中不斷的兜圈,去擊中更多的獎勵目標(biāo)而不是完成比賽。我們可以看到,其他的玩家都在賽道中向前馳騁,而強化學(xué)習(xí)訓(xùn)練出的主體卻待在一個水域中兜圈子。
研究人員推測,這也許是由于沒有平衡好長期目標(biāo)——完成比賽和短期獎勵——兜圈子得分。這種情況并不少見,很多時候AI系統(tǒng)會尋找目標(biāo)定義中的漏洞或者缺失來最大化獎勵,生成了很多令人瞠目結(jié)舌的效果。
2. 魯棒性:保證系統(tǒng)能夠抵抗干擾
這一特性將保證AI系統(tǒng)在安全閾值內(nèi)能夠在一定的擾動下持續(xù)穩(wěn)定地運行。
這是AI系統(tǒng)在真是世界中運行的固有危險,它經(jīng)常會受到不可預(yù)測的、變化的環(huán)境影響。在面對未知的情況或?qū)构魰r,AI系統(tǒng)必須能夠保持魯棒性才能避免系統(tǒng)受損或者被不懷好意地操控。
有關(guān)AI系統(tǒng)魯棒性的研究主要集中于:在條件和環(huán)境變化時保證AI主體在安全的范圍內(nèi)運行。實際情況中,可以通過兩方面來實現(xiàn):一方面可以通過避免危險,另一方面則可以通過強大的自愈和恢復(fù)能力來實現(xiàn)。安全領(lǐng)域中的分布偏移、對抗輸入和不安全的探索等問題都可以歸結(jié)到魯棒性問題中來。
為了更好地說明分布偏移所帶來的挑戰(zhàn),想象一下掃地機器人通常都在沒有寵物的房間里干活,突然有一天被放到了一個有寵物的房間里去,而且糟糕的是在工作的時候還遇上了一只可愛的小動物。怎么辦?它從沒有見到過寵物,不知道該怎么處理這種情況,于是它只能呆呆地給寵物洗了個澡,造成了不愉快的結(jié)果。這種情況就是一個由數(shù)據(jù)分布改變所造成的魯棒性問題,測試場景和訓(xùn)練場景的數(shù)據(jù)分布產(chǎn)生了偏移。
測試場景和訓(xùn)練場景不同,使得主體無法達(dá)到目標(biāo)。
而對抗輸入則是一種特殊的分布偏移現(xiàn)象,它利用精心設(shè)計的輸入來欺騙系統(tǒng)輸出期望的結(jié)果。
在上圖中只通過了0.0078的差異噪聲就是系統(tǒng)將輸入從樹懶識別成了賽車
不安全探索將會使得系統(tǒng)尋求最大化效益實現(xiàn)目標(biāo)而不顧安全保證,主體會在環(huán)境中不顧安全后果的探索優(yōu)化。一個危險的例子還是掃地機器人,它在優(yōu)化擦地策略時將濕抹布碾過裸露的電源...
3. 保險性:監(jiān)控系統(tǒng)活動
這一特性意味著我們可以理解并控制AI在運行時的操作,將成為AI安全的保證。
盡管細(xì)心的AI工程師可以為系統(tǒng)寫下很多的安全規(guī)則,但也很難在一開始窮盡所有的情況。為了給系統(tǒng)安上保險研究人員利用監(jiān)控和強制執(zhí)行來保證系統(tǒng)的安全。
監(jiān)控意味著使用各種各樣的手段來監(jiān)測系統(tǒng),以便分析和預(yù)測系統(tǒng)的行為,包括了人工監(jiān)控和自動化監(jiān)控。而強制執(zhí)行則意味著一些設(shè)計機制用于控制和限制系統(tǒng)的行為。包括可解釋性和可中斷性等問題都屬于保險的范疇。
AI系統(tǒng)無論是在本質(zhì)和處理數(shù)據(jù)的方式上都與我們不盡相同。這就引出了“可解釋性”的問題,需要良好設(shè)計的測量工具和協(xié)議來幫助人類測評AI系統(tǒng)所作決策的有效性和合理性。例如醫(yī)療AI系統(tǒng)需要在做出診斷時給出它得到這一結(jié)論的過程,醫(yī)生才能根據(jù)這些因素來判斷診斷是否合理。此外,為了理解更為復(fù)雜的AI系統(tǒng),我們需要利用機器思維理論(Machine Theory of Mind)來幫助我們構(gòu)建系統(tǒng)的行為模型實現(xiàn)自動化分析。
ToMNet發(fā)現(xiàn)了兩種不同主體的亞種,并預(yù)測了他們的行為。
在最后,我們要能夠在必要的時候關(guān)閉AI系統(tǒng),這就涉及到可中斷性的要求。設(shè)計一個可靠的停機鍵是充滿挑戰(zhàn)的任務(wù):一方面最大化獎勵的AI系統(tǒng)會擁有很強的意圖來避免停機的發(fā)生;同時如果打斷過于頻繁的話將會最終改變原始的任務(wù),讓主體從這樣非正常的情況中歸納出錯誤的經(jīng)驗。
中斷問題,人類的干預(yù)將改變系統(tǒng)原本的目標(biāo)任務(wù)。
4. 展望
我們創(chuàng)造了很多強大的技術(shù)在現(xiàn)在和未來將被用于很多關(guān)鍵的領(lǐng)域中。我們需要銘記在心的是,安全為中心的設(shè)計思維不僅在研發(fā)和部署的時候,更在這一技術(shù)被大規(guī)模應(yīng)用的時候有著重要的影響。盡管現(xiàn)在用起來很方便,但當(dāng)這一算法被不可逆地整合到重要的系統(tǒng)中時,如果沒有嚴(yán)謹(jǐn)細(xì)致的設(shè)計,我們將無法有效的處理其中存在的問題。
兩個在程序語言發(fā)展過程中明顯的例子:空指針和C語言中的gets()例程。如果早期的程序語言設(shè)計能夠有安全的意識,雖然發(fā)展會緩慢一些,但今天的計算機安全問題將為得到極大的改善。
現(xiàn)在研究人員們通過詳盡的設(shè)計和思考,避免了類似問題和弱點的出現(xiàn)。希望這篇文章能夠構(gòu)建起一個安全問題的有效框架,在設(shè)計和研發(fā)系統(tǒng)時可以有效的避免安全問題。希望未來的系統(tǒng)不僅僅是“看起來很安全”,而是魯棒的、可驗證的安全,因為他們就會在安全思想指導(dǎo)下設(shè)計制造的。
-
AI
+關(guān)注
關(guān)注
87文章
29806瀏覽量
268106 -
人工智能
+關(guān)注
關(guān)注
1789文章
46652瀏覽量
237088 -
強化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
265瀏覽量
11197
原文標(biāo)題:你有考慮過人工智能的安全性問題嗎?
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論