這個(gè)問(wèn)題已經(jīng)在世界各地的會(huì)議和社交聊天的討論表中浮出水面了-“機(jī)器可以打開(kāi)人類(lèi)嗎?”這個(gè)問(wèn)題經(jīng)常伴隨著《終結(jié)者》等電影的場(chǎng)景和視覺(jué)效果,但是我們所知道的和所看到的在大數(shù)據(jù)中使用AI的原因在于,在設(shè)計(jì)具有更復(fù)雜環(huán)境的更大規(guī)模的系統(tǒng)時(shí),必須考慮某些不確定性和偏差。
機(jī)器“感覺(jué)”是什么?是什么使他們的行為方式不同于插入大型機(jī)的代碼?如今,艾薩克·阿西莫夫(Isaac Asimov)的三項(xiàng)法律在定義機(jī)器在復(fù)雜環(huán)境中的行為標(biāo)準(zhǔn)時(shí)是否仍然立于不敗之地?這些問(wèn)題的答案在于我們選擇定義游戲規(guī)則以及機(jī)器如何應(yīng)對(duì)突然變化的方式。
在人工智能研究中,道德偏見(jiàn)是不確定性的一個(gè)特殊區(qū)域,涉及小裝飾品和杠桿,這些小裝飾品和杠桿會(huì)拉動(dòng)機(jī)器以有時(shí)看起來(lái)有些奇怪甚至有害的方式運(yùn)行。隨著無(wú)人駕駛汽車(chē)的興起和AI驅(qū)動(dòng)的生產(chǎn)方法逐漸占領(lǐng)世界,一個(gè)懸而未決的問(wèn)題再次需要答案。我們?nèi)绾翁幚磉@些機(jī)器?
您可能還會(huì)喜歡: AI可以自我警戒并減少偏見(jiàn)嗎?
偏向簡(jiǎn)介
從數(shù)據(jù)角度來(lái)看,偏差和方差與測(cè)量值與實(shí)際值的接近程度有關(guān)。在這種情況下,方差是測(cè)量值彼此之間相差多少的度量,偏差是指測(cè)量值與實(shí)際值相差多少。在具有高精度的模型的高度特定的情況下,方差和偏差都將很小。
但是,這可能反映出該模型對(duì)新數(shù)據(jù)的執(zhí)行效果有多差。然而,很難實(shí)現(xiàn)低偏差和方差,這是各地?cái)?shù)據(jù)分析師的禍根。對(duì)于涉及簡(jiǎn)單決策而用簡(jiǎn)單的二進(jìn)制計(jì)算還不夠的用例,偏差尤其難以處理。
您可能會(huì)想問(wèn)偏見(jiàn)如何進(jìn)入系統(tǒng)。而且,如果一臺(tái)機(jī)器無(wú)法在不低于人類(lèi)的臨界點(diǎn)上做出決定,那么為什么要首先使用它們呢?要回答這些問(wèn)題,您需要查看在大數(shù)據(jù)領(lǐng)域中如何構(gòu)建模型的一般方法。
首先從執(zhí)行器和傳感器中收集并清除數(shù)據(jù),這些數(shù)據(jù)可為分析人員提供原始數(shù)據(jù)。這些值然后經(jīng)過(guò)預(yù)處理步驟,在此將它們標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化或轉(zhuǎn)換為除去尺寸和單位的形式。一旦將數(shù)據(jù)轉(zhuǎn)換為合適的表格或逗號(hào)分隔格式,就將其插入到層或功能方程式網(wǎng)絡(luò)中。如果模型使用一系列隱藏層,請(qǐng)放心,它們將具有激活函數(shù),該函數(shù)將在每個(gè)步驟中引入偏差。
但是,偏差也可以通過(guò)許多收集方法的陷阱進(jìn)入系統(tǒng)。也許數(shù)據(jù)沒(méi)有針對(duì)某一組或某類(lèi)輸出進(jìn)行平衡,也許數(shù)據(jù)不完整/錯(cuò)誤,或者可能沒(méi)有任何數(shù)據(jù)開(kāi)始。
隨著數(shù)據(jù)集變得越來(lái)越多且記錄不完整,系統(tǒng)肯定有可能用一些預(yù)定義的值填補(bǔ)這些空白。這導(dǎo)致另一種假設(shè)偏見(jiàn)。
黑匣子難題
許多學(xué)者還認(rèn)為,沒(méi)有適當(dāng)?shù)纳舷挛?,?shù)字可能不會(huì)意味著同一件事。例如,在有爭(zhēng)議的《鐘形曲線》一書(shū)中,作者關(guān)于種族群體間智商差異的說(shuō)法受到了環(huán)境約束和差異概念的挑戰(zhàn)。但是,如果一個(gè)人能夠達(dá)成這樣的解決方案,那么一臺(tái)機(jī)器要花多長(zhǎng)時(shí)間才能消除這種邏輯上的判斷失誤?
機(jī)會(huì)很小。如果機(jī)器被送入錯(cuò)誤或錯(cuò)誤的數(shù)據(jù),它將輸出錯(cuò)誤的值。問(wèn)題是由AI模型的構(gòu)建模棱兩可引起的。這些通常是黑盒模型,作為數(shù)據(jù)接收器和數(shù)據(jù)源存在,而沒(méi)有解釋內(nèi)部?jī)?nèi)容。對(duì)于用戶而言,不能質(zhì)疑或質(zhì)疑這種黑匣子模型如何得出結(jié)果。此外,結(jié)果差異還需要解決其他問(wèn)題。
由于缺乏對(duì)黑匣子運(yùn)作方式的了解,即使使用相同的輸入,分析師也可能得出不同的結(jié)果。對(duì)于精度不是關(guān)鍵因素的值,這種變化可能不會(huì)產(chǎn)生太大的影響,但是數(shù)據(jù)領(lǐng)域卻很少那么慷慨。
例如,如果AI系統(tǒng)無(wú)法預(yù)測(cè)高度特定的參數(shù)(例如pH值,溫度或大氣壓),則工業(yè)制造商將蒙受損失。但是,當(dāng)目標(biāo)是解決諸如貸款兼容性,犯罪再犯甚至適用于大學(xué)錄取等問(wèn)題的答案時(shí),AI缺乏清晰的價(jià)值將處于不利地位。但是,AI愛(ài)好者有責(zé)任從另一個(gè)角度解決這個(gè)問(wèn)題。
必須解決層之間干擾的方法和規(guī)則,以解釋每一行代碼和系數(shù)所代表的含義。因此必須將黑匣子連根拔起并解剖,以了解是什么使機(jī)器滴答作響,這說(shuō)起來(lái)容易做起來(lái)難。即使看一下最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)AI,也足以表明此類(lèi)系統(tǒng)的原始性。節(jié)點(diǎn)和層全部堆疊在一起,各個(gè)權(quán)重與其他層的權(quán)重相互作用。
對(duì)于訓(xùn)練有素的人來(lái)說(shuō),這看起來(lái)像是一筆宏偉的交易,但是對(duì)于理解機(jī)器卻幾乎沒(méi)有解釋。難道僅僅是由于人類(lèi)和機(jī)器語(yǔ)言水平的差異?是否可以采用一種外行可以理解的格式來(lái)分解機(jī)器語(yǔ)言的邏輯?
偏見(jiàn)的類(lèi)型
回顧數(shù)據(jù)分析中偏差的歷史,由于技術(shù)不正確或負(fù)責(zé)分析的實(shí)體中預(yù)定義的偏差,可能會(huì)引入多種偏差。歸因于程序員的某些傾向和興趣,由于模型的定位錯(cuò)誤,可能會(huì)產(chǎn)生錯(cuò)誤的假設(shè)和偏見(jiàn)。
這是某些營(yíng)銷(xiāo)分析師在處理潛在客戶時(shí)常犯的錯(cuò)誤。收集軟件可提供有關(guān)轉(zhuǎn)化者和未轉(zhuǎn)化者的大量數(shù)據(jù)。大多數(shù)人可能會(huì)傾向于只針對(duì)未轉(zhuǎn)換的潛在客戶建立模型,而不是只關(guān)注同時(shí)針對(duì)兩種人群的模型。這樣一來(lái),他們最終將自己弄瞎了已成為客戶的可用數(shù)據(jù)的豐富性。
困擾AI模型的另一個(gè)問(wèn)題是無(wú)法正確分類(lèi)或錯(cuò)誤分類(lèi)數(shù)據(jù),最終導(dǎo)致分析人員陷入災(zāi)難。在生產(chǎn)行業(yè)中,此類(lèi)錯(cuò)誤屬于Type I和Type II類(lèi)別-前者是在對(duì)不屬于記錄的記錄進(jìn)行分類(lèi)時(shí),后者是在無(wú)法對(duì)屬于的記錄進(jìn)行分類(lèi)時(shí)。從生產(chǎn)批次的角度來(lái)看,質(zhì)量控制工程師只需對(duì)產(chǎn)品的一小部分進(jìn)行測(cè)試,即可迅速提高產(chǎn)品的準(zhǔn)確性。它可以節(jié)省時(shí)間和金錢(qián),但它可能是發(fā)生這種假設(shè)偏差的理想環(huán)境。
在圖像檢測(cè)軟件中觀察到了另一個(gè)類(lèi)似的示例,其中神經(jīng)網(wǎng)絡(luò)掃描圖片的損壞部分以重建邏輯形狀。圖像中對(duì)象方向的相似性可能會(huì)導(dǎo)致多個(gè)問(wèn)題,這些問(wèn)題可能導(dǎo)致模型給出令人吃驚的爭(zhēng)議性結(jié)果。當(dāng)前時(shí)代的卷積神經(jīng)網(wǎng)絡(luò)能夠分解這種復(fù)雜性,但需要大量測(cè)試和訓(xùn)練數(shù)據(jù)才能得出合理的結(jié)果。
某些偏差是由于缺乏正確的數(shù)據(jù)(使用不必要的甚至是不必要的復(fù)雜模型)導(dǎo)致的。通常認(rèn)為,某些模型和神經(jīng)網(wǎng)絡(luò)編程僅應(yīng)在達(dá)到統(tǒng)計(jì)上顯著數(shù)量的記錄后才應(yīng)用于數(shù)據(jù)集。這也意味著必須將算法設(shè)計(jì)為可重復(fù)地及時(shí)檢查數(shù)據(jù)質(zhì)量。
與AI對(duì)抗AI
AI偏見(jiàn)的問(wèn)題解決方案是否隱藏在AI本身內(nèi)?研究人員認(rèn)為,改進(jìn)分析人員收集和劃分信息的調(diào)整方法非常重要,并且應(yīng)考慮到并非所有信息都是必需的。
話雖這么說(shuō),應(yīng)該更加強(qiáng)調(diào)消除和消除使模型完全不適當(dāng)?shù)妮斎牒椭?。?shù)據(jù)審計(jì)是另一種可以及時(shí)檢查和消除偏差的方法。與任何標(biāo)準(zhǔn)審核程序一樣,此方法涉及徹底清除和檢查已處理數(shù)據(jù)以及原始輸入數(shù)據(jù)。審核員跟蹤更改并記下可以對(duì)數(shù)據(jù)進(jìn)行的改進(jìn),并確保數(shù)據(jù)對(duì)所有利益相關(guān)者具有完全的透明度。
專(zhuān)門(mén)的XAI模型也存在疑問(wèn),可以在適當(dāng)?shù)那闆r下將其放在問(wèn)題表中。這些模型涉及非常詳細(xì)的參數(shù)模型開(kāi)發(fā),其中記錄了每個(gè)步驟和更改,從而使分析人員可以查明可能的問(wèn)題并觸發(fā)實(shí)例。
AI也已成為驗(yàn)證模型的準(zhǔn)確性和混淆矩陣的前沿,而不是依靠諸如ROC曲線和AUC曲線之類(lèi)的簡(jiǎn)單工具。這些模型著眼于在部署數(shù)據(jù)集之前執(zhí)行重復(fù)的質(zhì)量檢查,并嘗試覆蓋數(shù)據(jù)的整體類(lèi),而不管分布或形狀如何。對(duì)于數(shù)據(jù)集來(lái)說(shuō),這種預(yù)測(cè)試的性質(zhì)變得更加困難,因?yàn)閿?shù)據(jù)集的單位和范圍的差異在輸入中有很大差異。同樣,對(duì)于與媒體相關(guān)的數(shù)據(jù),分解內(nèi)容并將其壓縮為數(shù)字格式所花費(fèi)的時(shí)間仍然會(huì)導(dǎo)致偏差。
但是,由于數(shù)據(jù)透明性和第三方檢查的基礎(chǔ)知識(shí)有了新的變化,公司至少意識(shí)到了出問(wèn)題了。在模型之間也插入了新的解釋器循環(huán),以強(qiáng)調(diào)填充大多數(shù)AI模型的黑匣子。這些再次由AI模型驅(qū)動(dòng),這些AI模型經(jīng)過(guò)系統(tǒng)微調(diào)以查找不一致和錯(cuò)誤。
AI道德失范的幾個(gè)案例
數(shù)據(jù)分析人員會(huì)熟悉假陰性和假陽(yáng)性的概念。這些在確定輸出方面的差異會(huì)導(dǎo)致特殊情況的錯(cuò)誤,從而對(duì)人員造成不利影響。錯(cuò)誤的否定看跌期權(quán)是系統(tǒng)錯(cuò)誤地將肯定的類(lèi)別識(shí)別為否定的情況。類(lèi)似地,當(dāng)否定類(lèi)別被錯(cuò)誤地識(shí)別為肯定時(shí),就會(huì)出現(xiàn)假肯定。
在實(shí)際的大數(shù)據(jù)研究中,可以更好地理解此類(lèi)虛假案件的嚴(yán)重性。在使用logistic回歸模型對(duì)冠心?。ü谛牟。┻M(jìn)行建模的著名案例中,盡管誤報(bào)率和誤報(bào)率的準(zhǔn)確性很高,但混淆矩陣卻產(chǎn)生了大量。對(duì)于普通人來(lái)說(shuō),準(zhǔn)確的模型似乎是唯一重要的“成敗”檢查。但是,即使在數(shù)據(jù)分析的初期,也很明顯,這樣的模型會(huì)變得平淡無(wú)奇,甚至?xí)`診新患者。
通過(guò)收集更多的數(shù)據(jù)流并清洗列以進(jìn)行更好的數(shù)據(jù)標(biāo)準(zhǔn)化來(lái)進(jìn)行權(quán)衡。如今,這一步驟已成為該行業(yè)的主食。
Uber的自動(dòng)駕駛汽車(chē)在測(cè)試階段遭受撞車(chē)并不是業(yè)內(nèi)專(zhuān)業(yè)人員關(guān)注的唯一危險(xiǎn)信號(hào)。這些恐懼也擴(kuò)展到其他領(lǐng)域,例如識(shí)別和機(jī)器感知。科技巨頭亞馬遜的模式已經(jīng)學(xué)會(huì)發(fā)展媒體所謂的對(duì)女性的“性別偏見(jiàn)”,因此受到媒體的審查。
在令人震驚的求職者偏見(jiàn)的情況下(先前曾與科技公司的求職者見(jiàn)過(guò)),這些模型對(duì)女性的應(yīng)聘工作產(chǎn)生的負(fù)面依從性高于男性。另一方面,在諸如Apple之類(lèi)的科技巨頭中也發(fā)現(xiàn)了問(wèn)題,消費(fèi)者大肆宣傳FaceID,允許不同的用戶訪問(wèn)鎖定的手機(jī)??赡苡腥藸?zhēng)辯說(shuō),即使對(duì)于不同的人,用于識(shí)別面部表情以進(jìn)行檢測(cè)的模型也可能會(huì)產(chǎn)生相似的結(jié)果。
工程師堅(jiān)持消除錯(cuò)誤并得出結(jié)論認(rèn)為,可疑輸入會(huì)產(chǎn)生假設(shè)偏差只是時(shí)間問(wèn)題。由于未能整合道德價(jià)值觀,人工智能在醫(yī)學(xué)界的重大飛躍已經(jīng)縮回了一個(gè)臺(tái)階??梢匀〈猛局械淖o(hù)士和員工的價(jià)值觀。這主要是通過(guò)解釋所有可能數(shù)量的案例示例來(lái)解決的,在這些案例中,機(jī)器可以正確地替代人員并做出完全相同的決定。雖然,哲學(xué)專(zhuān)業(yè)的學(xué)生可能會(huì)爭(zhēng)辯說(shuō),即使人類(lèi)也沒(méi)有遵循一套指導(dǎo)方針。有各種道德學(xué)派-康德,平等主義者,功利主義者等。這些思想流派如何適應(yīng)各種倫理難題,取決于個(gè)人及其利益。
在著名的拉桿箱中,一個(gè)人拉動(dòng)或不拉動(dòng)杠桿的傾向純粹是由該人所處的道德框架決定的。當(dāng)機(jī)器代替決策者時(shí),問(wèn)責(zé)制的問(wèn)題變得模糊。
最后的話-如何使AI更符合道德
我們對(duì)這些系統(tǒng)的容忍度在哪里永恒的問(wèn)題導(dǎo)致將機(jī)器納入我們的日?;顒?dòng)中。人工智能一直是諸如運(yùn)輸,預(yù)測(cè)研究,金融投資,安全,通信和生產(chǎn)等救生和支持框架的基礎(chǔ)。它已滲透到人類(lèi)生活的所有重要方面,而沒(méi)有引起很多反對(duì)者的注意。
當(dāng)AI無(wú)法嵌入創(chuàng)建它的人類(lèi)所遵循的哲學(xué)時(shí),就劃出了界線。我們與葉夫根尼·扎米亞?。╕evgeny Zamyatin)和艾倫·圖靈(Alan Turing)時(shí)代一樣遙遙領(lǐng)先,當(dāng)時(shí)機(jī)器被認(rèn)為是公正的。通過(guò)教導(dǎo)人工智能具有道德性,在機(jī)器中煥發(fā)出新的生命是一項(xiàng)挑戰(zhàn),而這一挑戰(zhàn)落到了對(duì)人類(lèi)意味著什么的根本問(wèn)題上。
我們現(xiàn)在知道,要構(gòu)建一個(gè)完善的道德框架,必須將AI精簡(jiǎn)到其基本要點(diǎn),并需要采用一種強(qiáng)調(diào)上下文的方法來(lái)強(qiáng)調(diào)結(jié)果的質(zhì)量。與工作場(chǎng)所多元化的基本原理一樣,步驟很簡(jiǎn)單:
密切注意數(shù)據(jù)。 保持變化但標(biāo)準(zhǔn)化。 讓團(tuán)隊(duì)不時(shí)監(jiān)視預(yù)處理步驟。 在輸出中消除任何形式的排除。 刪除可能對(duì)模型錯(cuò)誤或無(wú)用的垃圾值。 優(yōu)化,審核,共享和重新收集結(jié)果,并將其納入模型。 消除交互作用和數(shù)據(jù)孤島,并始終進(jìn)行健全性檢查,以最終確定目標(biāo)是什么。 消除數(shù)據(jù)孤島,教AI思考而不是建模思考。 保持對(duì)Johari意識(shí)的關(guān)注。涵蓋未知的已知和已知的未知。至于未知的未知數(shù),不幸的是,這種偏見(jiàn)將始終存在。
-
傳感器
+關(guān)注
關(guān)注
2545文章
50448瀏覽量
751095 -
AI
+關(guān)注
關(guān)注
87文章
29815瀏覽量
268110 -
機(jī)器
+關(guān)注
關(guān)注
0文章
777瀏覽量
40667
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論