在人工智能中,算法不只是用代碼敲出來這么簡(jiǎn)單的,而是由訓(xùn)練數(shù)據(jù)、標(biāo)簽和神經(jīng)網(wǎng)絡(luò)的結(jié)合產(chǎn)生的,這是機(jī)器學(xué)習(xí)的本質(zhì)。算法本身沒有直接洞察力,也不能直接像缺陷一樣被修復(fù):它屬于“黑盒開發(fā)”。
人工智能系統(tǒng)需要具備應(yīng)用于不同數(shù)據(jù)和不同應(yīng)用場(chǎng)景的能力。訓(xùn)練數(shù)據(jù)和標(biāo)簽的選擇會(huì)引起偏差和透明度的風(fēng)險(xiǎn),可能對(duì)真實(shí)情況產(chǎn)生重大影響。測(cè)試人工智能的重點(diǎn)在于這些風(fēng)險(xiǎn)。人工智能測(cè)試需要道德、社會(huì)和意識(shí),以突出用戶、預(yù)期,并將這些預(yù)期轉(zhuǎn)化為可重復(fù)運(yùn)行和自動(dòng)化的測(cè)試用例。人工智能測(cè)試包括設(shè)置指標(biāo),將測(cè)試結(jié)果轉(zhuǎn)化為對(duì)系統(tǒng)的有意義和可量化的評(píng)估,以便開發(fā)人員優(yōu)化系統(tǒng)。
1. 介紹
毫無疑問,未來屬于人工智能。它已經(jīng)進(jìn)入了我們的日常生活,并被世界各地的大公司所使用。人工智能的適用性似乎無窮無盡。然而,仍然存在許多疑慮和擔(dān)憂。例如,在自動(dòng)駕駛汽車的情況下:事故責(zé)任、不穩(wěn)定的物體識(shí)別以及與不可預(yù)測(cè)的人類交通參與者的復(fù)雜互動(dòng)阻礙了它的廣泛推廣。人工智能的一些可能令人恐懼的影響已經(jīng)顯現(xiàn)出來。人工智能算法可以制造和擴(kuò)大偏差。例如,在緬甸的種族清洗中,數(shù)以萬計(jì)的羅興亞人被殺害,100萬人流離失所。Facebook算法支持了已經(jīng)存在的種族緊張局勢(shì),這偏差觀點(diǎn)得到強(qiáng)化,因?yàn)樗粌?yōu)化為點(diǎn)擊成功則被獎(jiǎng)勵(lì)。負(fù)面信息在搜索結(jié)果中越來越多地出現(xiàn)。每個(gè)AI軟件開發(fā)人員都在與這些疑慮和風(fēng)險(xiǎn)作斗爭(zhēng)。AI測(cè)試,什么是缺陷,如何修復(fù)它?如何確保系統(tǒng)在各種輸入做正確的事情?如何獲得正確率的信心?結(jié)果對(duì)所有相關(guān)方公平嗎?當(dāng)前的發(fā)展、觀點(diǎn)和價(jià)值觀是否反映在算法中?從測(cè)試的角度來看,AI的最大風(fēng)險(xiǎn)是什么,如何處理這些風(fēng)險(xiǎn)?
2. 介紹
2.1. AI 屬于黑盒開發(fā)
在人工智能中,算法、系統(tǒng)在標(biāo)準(zhǔn)、決策和行動(dòng)方面的行為,并沒有明確地體現(xiàn)在代碼中。在非人工智能開發(fā)中,代碼直接表達(dá)了算法。在人工智能中,算法是訓(xùn)練數(shù)據(jù)、參數(shù)化、標(biāo)簽和神經(jīng)網(wǎng)絡(luò)選擇的產(chǎn)物,而且無法在代碼中體現(xiàn)。代碼、神經(jīng)網(wǎng)絡(luò)只是通過訓(xùn)練產(chǎn)生算法的系統(tǒng)的一個(gè)組成部分,這是機(jī)器學(xué)習(xí)的本質(zhì)。
2.2. 機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)
機(jī)器學(xué)習(xí)和人類學(xué)習(xí)之間有很強(qiáng)的相似性。以一個(gè)孩子第一次學(xué)習(xí)使用一個(gè)概念為例。這個(gè)孩子被告知,它抱著的毛茸茸的生物是一只“貓”?,F(xiàn)在,這個(gè)孩子開始用自己的神經(jīng)網(wǎng)絡(luò)工作。貓的概念與不是貓的物體(如“爸爸”)進(jìn)行比較。神經(jīng)網(wǎng)絡(luò)的工作方式是找到一種配置自己的方法,如果它看到貓,它會(huì)將其歸類為貓,而不是爸爸。它通過找到差異、標(biāo)準(zhǔn)(如皮毛、胡須、四條腿等)來做到這一點(diǎn)。但我們不知道這些標(biāo)準(zhǔn)到底是什么。它們也可能是“捉老鼠”、“呼嚕聲”或“白色”。我們無法在大腦中找到貓的概念及其標(biāo)準(zhǔn),也無法直接在大腦中糾正它。
神經(jīng)網(wǎng)絡(luò)由許多代碼塊(“節(jié)點(diǎn)”)組成,這些代碼塊按層排列,每個(gè)節(jié)點(diǎn)層都連接到其上下層。節(jié)點(diǎn)沒有被預(yù)先編程以執(zhí)行特定任務(wù)。節(jié)點(diǎn)只是小型的計(jì)算器,處理頂層呈現(xiàn)給它們的部分并返回計(jì)算結(jié)果。給定兩張圖片,一張是貓,一張是爸爸,它將嘗試不同的配置,以找到一種配置,將一個(gè)樣本識(shí)別為貓,另一個(gè)樣本識(shí)別為爸爸。它將找出差異,以便其配置將在下一次給出正確的分類。
2.3. 算法=數(shù)據(jù)+編碼+標(biāo)簽
因此,該系統(tǒng)產(chǎn)生的算法由從樣本中衍生出的模型組成,因此它可以對(duì)輸入進(jìn)行分類和識(shí)別,并給它們打標(biāo)簽。該算法是神經(jīng)網(wǎng)絡(luò)的產(chǎn)物,但主要基于訓(xùn)練數(shù)據(jù)和標(biāo)簽。因此,算法不是代碼,而是代碼+訓(xùn)練數(shù)據(jù)+標(biāo)簽。
2.4. 模糊邏輯和數(shù)學(xué)
雖然整個(gè)系統(tǒng)所做的只是計(jì)算,產(chǎn)生數(shù)字,但這些數(shù)字不會(huì)產(chǎn)生布爾結(jié)果:例如:“這是爸爸”或“這是一只貓”。結(jié)果將是從節(jié)點(diǎn)和層中計(jì)算的所有數(shù)字的總和,每個(gè)數(shù)字都表示根據(jù)每個(gè)給定的標(biāo)簽滿足標(biāo)準(zhǔn)的程度。這幾乎不可能(在0-1區(qū)間)達(dá)到1。其次,它還會(huì)給樣本給出評(píng)分。因此,呈現(xiàn)給系統(tǒng)的新圖片可能會(huì)將“貓性”評(píng)為0.87,將“爸爸性”評(píng)為0.13。結(jié)論是,樣本是一只貓,但它不是100%的貓,也不是0%的爸爸。因此,人工智能的最終產(chǎn)品是計(jì)算、概率,而不是100%的確定性。
2.5. 開發(fā)與糾錯(cuò)
神經(jīng)網(wǎng)絡(luò)的開發(fā)包括開發(fā)神經(jīng)網(wǎng)絡(luò)本身,但大多數(shù)開發(fā)人員使用現(xiàn)成的神經(jīng)網(wǎng)絡(luò)。接下來,他們需要配置神經(jīng)網(wǎng)絡(luò),使其能夠接收手工的輸入并配置標(biāo)簽。最后,神經(jīng)網(wǎng)絡(luò)的層可以參數(shù)化:計(jì)算結(jié)果可以加權(quán),以便某些結(jié)果對(duì)最終結(jié)果的影響比其他結(jié)果更大。這些是開發(fā)人員擁有的主要調(diào)整工具。如果系統(tǒng)表現(xiàn)不令人滿意,則可以調(diào)整參數(shù)。這不是一個(gè)重點(diǎn)的缺陷修復(fù),而是糾正一個(gè)缺陷決策的例子。參數(shù)化將影響結(jié)果,但每次調(diào)整都會(huì)對(duì)整體性能產(chǎn)生影響。在人工智能中,存在大量的“回歸”:對(duì)不打算改變的系統(tǒng)部分產(chǎn)生不必要和意想不到的影響。訓(xùn)練數(shù)據(jù)和標(biāo)簽也可能成為影響系統(tǒng)的候選因素。在人工智能的某些問題上,例如欠擬合,擴(kuò)大訓(xùn)練數(shù)據(jù)很可能會(huì)改善系統(tǒng)。欠擬合指的是模型無法很好地?cái)M合訓(xùn)練數(shù)據(jù),無法捕捉到數(shù)據(jù)中的真實(shí)模式和關(guān)系。欠擬合可以比喻為一個(gè)學(xué)生連基本的知識(shí)都沒有掌握好,無論是老題還是新題都無法解答。這種情況下,模型過于簡(jiǎn)單或者復(fù)雜度不足,無法充分學(xué)習(xí)數(shù)據(jù)中的特征和模式。
2.6. 整體評(píng)估和指標(biāo)
當(dāng)缺陷修正無法聚焦,每次微調(diào)都會(huì)導(dǎo)致大規(guī)模回歸時(shí),大規(guī)模回歸測(cè)試是必要的。問題“我們是否修復(fù)了這個(gè)缺陷?”成為一個(gè)次要問題。我們想知道每次更改后的整體行為。我們想知道與其他版本相比,系統(tǒng)的整體性能如何。在整體評(píng)估中,我們需要考慮AI的輸出:計(jì)算結(jié)果既不是真也不是假。每個(gè)結(jié)果都是一個(gè)等級(jí)。因此,最終結(jié)果應(yīng)該進(jìn)行全面比較、權(quán)衡和合并,以便我們可以決定一個(gè)版本是否優(yōu)于另一個(gè)版本,是否應(yīng)該使用它。結(jié)果將是基于預(yù)期和它們相對(duì)重要性的輸出價(jià)值的度量。
3. AI風(fēng)險(xiǎn)
我們將在這里討論最重要的風(fēng)險(xiǎn)。這些風(fēng)險(xiǎn)是人工智能的典型風(fēng)險(xiǎn),可能會(huì)對(duì)人工智能的質(zhì)量、客戶、用戶、人們甚至世界產(chǎn)生嚴(yán)重影響。在開始測(cè)試之前,應(yīng)該考慮這些風(fēng)險(xiǎn),為測(cè)試人員提供重點(diǎn)提示。在分析測(cè)試結(jié)果時(shí),應(yīng)該考慮這些風(fēng)險(xiǎn)。
作為對(duì)意外結(jié)果的因果分析,這可以為優(yōu)化系統(tǒng)提供線索。例如:欠擬合的系統(tǒng)最需要更多樣化的訓(xùn)練數(shù)據(jù),過擬合的系統(tǒng)需要簡(jiǎn)化標(biāo)簽。
3.1. 偏差
人工智能的主要風(fēng)險(xiǎn)是“偏差”的類型。在人類智能中,我們稱之為偏差。由于訓(xùn)練數(shù)據(jù)和概念的限制,我們看待事物過于簡(jiǎn)單(簡(jiǎn)化)或存在(偏差)。概念的高粒度可能意味著系統(tǒng)無法充分概括,導(dǎo)致結(jié)果毫無用處。
3.1.1. 選擇偏差
如果訓(xùn)練數(shù)據(jù)選擇遺漏了現(xiàn)實(shí)世界中的重要元素,這可能會(huì)導(dǎo)致選擇偏差。與實(shí)際結(jié)果相比,上次歐洲選舉的民意調(diào)查預(yù)測(cè),荷蘭的歐洲懷疑黨將獲得比實(shí)際選舉高得多的勝利。民意調(diào)查沒有過濾人們是否真的會(huì)投票。歐洲懷疑論者被證明比其他選民更有可能不投票。
3.1.2. 固定偏差
急于驗(yàn)證一個(gè)高度相信或投入的假設(shè)可能會(huì)導(dǎo)致選擇或過度重視證實(shí)該論點(diǎn)的數(shù)據(jù),而忽視可能存在的缺陷??茖W(xué)家、政客和產(chǎn)品開發(fā)者可能容易受到這種偏差的影響,即使他們有最好的意圖。一個(gè)醫(yī)療援助組織為了籌集更多資金,夸大了可能的糧食危機(jī),顯示死亡人數(shù)上升,但沒有顯示與饑荒和總?cè)丝跀?shù)無關(guān)的死亡人數(shù)。
3.1.3. 欠擬合
缺乏多樣性的訓(xùn)練數(shù)據(jù)會(huì)導(dǎo)致欠擬合。學(xué)習(xí)過程將無法確定關(guān)鍵的判別標(biāo)準(zhǔn)。訓(xùn)練軟件識(shí)別狼和狗,將哈士奇識(shí)別為狼,因?yàn)樗鼪]有學(xué)到狗也可以在雪中看到。如果我們只在荷蘭獲得與毒品相關(guān)的新聞信息,會(huì)發(fā)生什么?
3.1.4. 過擬合
當(dāng)標(biāo)簽對(duì)于人工智能系統(tǒng)的目的來說過于多樣化和多樣化時(shí),就會(huì)出現(xiàn)過度擬合。過擬合(Overfitting)指的是模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)得過于優(yōu)秀,但在未見數(shù)據(jù)上表現(xiàn)較差。過擬合可以比喻為一個(gè)學(xué)生死記硬背了一本題庫的所有答案,但當(dāng)遇到新的題目時(shí)無法正確回答。這種情況下,模型對(duì)于訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié)過于敏感,導(dǎo)致了過度擬合的現(xiàn)象。
3.1.5. 異常值
異常值是極端的例子,對(duì)算法有太大的影響。如果你的1歲大的孩子看到的第一只貓是無毛貓,這將對(duì)他對(duì)貓的概念產(chǎn)生重大影響,需要用多個(gè)正常貓的例子來糾正。
3.1.6. 混淆變量
模式識(shí)別和分析通常需要結(jié)合數(shù)據(jù),特別是當(dāng)尋找因果關(guān)系時(shí)。當(dāng)不同數(shù)據(jù)模式因數(shù)據(jù)分析目的而相關(guān)聯(lián)而沒有實(shí)際因果關(guān)系時(shí),混淆變量就會(huì)出現(xiàn)。人們通常認(rèn)為,喝紅葡萄酒會(huì)引起偏頭痛發(fā)作,因?yàn)閾?jù)報(bào)道,喝紅葡萄酒和偏頭痛是相繼發(fā)生的。新研究表明,偏頭痛發(fā)作是由食欲變化引起的,如對(duì)紅葡萄酒的渴望。喝紅葡萄酒是一種副作用,而不是偏頭痛的原因!
3.2. 可追溯性
對(duì)于非人工智能系統(tǒng),算法就是代碼。對(duì)于人工智能系統(tǒng),情況并非如此,因此我們不知道人工智能系統(tǒng)做出決策的確切標(biāo)準(zhǔn)。此外,很難監(jiān)督訓(xùn)練數(shù)據(jù)的總體情況,因此很難很好地了解人工智能系統(tǒng)將如何表現(xiàn)。因此,當(dāng)結(jié)果明顯不正確時(shí),很難確定原因并糾正。是訓(xùn)練數(shù)據(jù)、參數(shù)、神經(jīng)網(wǎng)絡(luò)還是標(biāo)簽?可追溯性的缺乏導(dǎo)致過度自信和信心不足,并導(dǎo)致責(zé)任的不確定性(是軟件、數(shù)據(jù)、標(biāo)簽還是上下文造成的?)以及缺乏可維護(hù)性。
4. 測(cè)試AI
減輕人工智能風(fēng)險(xiǎn)的關(guān)鍵是透明度。在偏差方面,我們需要了解訓(xùn)練數(shù)據(jù)和標(biāo)簽的代表性,但最重要的是,我們需要了解期望和結(jié)果對(duì)所有相關(guān)方的重要性如何反映在結(jié)果中。建立適當(dāng)程度的信心和可追溯性也需要透明度。通過照亮代碼,將無法實(shí)現(xiàn)透明度。即使這是可能的,通過顯示代碼的熱圖,表明當(dāng)分析對(duì)象的特定部分或產(chǎn)生層中的計(jì)算時(shí),神經(jīng)網(wǎng)絡(luò)的哪個(gè)部分是活躍的,這意味著幾乎什么都沒有。觀察大腦內(nèi)部將永遠(yuǎn)不會(huì)顯示思想或決定。它可以顯示哪個(gè)部分被激活,但所有的心理過程都涉及多個(gè)大腦部分,最重要的是過去的經(jīng)驗(yàn)。人工智能系統(tǒng)是黑盒子,因此我們應(yīng)該像在黑盒測(cè)試中一樣測(cè)試它們:從外部,開發(fā)基于現(xiàn)實(shí)輸入的測(cè)試用例。從那里確定對(duì)輸出的期望。聽起來很傳統(tǒng),很熟悉,不是嗎?測(cè)試人工智能的基本邏輯可能很熟悉,具體的任務(wù)和元素卻大不相同。
傳統(tǒng)上,需求和規(guī)格是預(yù)先確定的,測(cè)試人員在開始時(shí)就可以使用它們。在人工智能中,需求和規(guī)格是如此多樣化和動(dòng)態(tài),以至于不能期望它們?cè)陂_始時(shí)完全和一次就確定。產(chǎn)品所有者和業(yè)務(wù)顧問應(yīng)該交付需求,但測(cè)試人員需要采取主動(dòng),以他們需要的形式、粒度和現(xiàn)實(shí)性獲得需求。
4.1. 神經(jīng)網(wǎng)絡(luò)、訓(xùn)練數(shù)據(jù)和標(biāo)簽
靜態(tài)測(cè)試可以及早發(fā)現(xiàn)缺陷??梢赃x擇神經(jīng)網(wǎng)絡(luò):有哪些替代方案?對(duì)于這項(xiàng)審查,需要對(duì)所有可能的神經(jīng)網(wǎng)絡(luò)及其特定質(zhì)量和缺點(diǎn)有廣泛的了解。訓(xùn)練數(shù)據(jù)和標(biāo)簽可以審查和評(píng)估風(fēng)險(xiǎn)敏感性:
1. 數(shù)據(jù)是否很好地反映了現(xiàn)實(shí)生活中的數(shù)據(jù)來源、用戶、視角和價(jià)值觀?是否有被忽視的相關(guān)數(shù)據(jù)來源?研究結(jié)果可能表明選擇偏差、確認(rèn)偏差或不足。
2. 數(shù)據(jù)來源和數(shù)據(jù)類型是否平均分配?不同類型、不同組別的代表性如何?研究結(jié)果可能表明不足、選擇偏差、確認(rèn)偏差或異常值。
3. 標(biāo)簽是否公平地反映了現(xiàn)實(shí)生活中的群體或數(shù)據(jù)類型?標(biāo)簽是否與系統(tǒng)應(yīng)分析的現(xiàn)實(shí)情況或模式相匹配?研究結(jié)果可能表明過度擬合、不足或混淆變量。
4. 數(shù)據(jù)是否足夠?期望的刷新速率是多少?是否匹配?現(xiàn)實(shí)世界中是否有事件在數(shù)據(jù)中沒有得到充分反映?
4.2. 識(shí)別用戶
該系統(tǒng)的所有者并不是唯一有價(jià)值的視角!像搜索系統(tǒng)這樣的AI系統(tǒng)是其用戶世界的重要組成部分,也是那些被其“貼標(biāo)簽”的人的重要組成部分。AI系統(tǒng)的質(zhì)量可能具有道德、社會(huì)和政治方面的意義和影響,因此需要加以考慮。AI的用戶往往是多樣化的,很難知道。他們不是一組固定的訓(xùn)練有素的用戶,他們不會(huì)聚集在一個(gè)房間里,他們的行為和期望是可以管理的。他們可能是整個(gè)世界,就像搜索引擎的情況一樣:一個(gè)訪問阿姆斯特丹的美國(guó)游客或一個(gè)經(jīng)驗(yàn)豐富的藝術(shù)愛好者在搜索“珍珠女孩”時(shí),他們的需求和期望非常不同。
一個(gè)博物館的搜索引擎。游客想知道一張?zhí)囟ǖ膱D片是否用于展示,藝術(shù)愛好者也想了解背景信息和草圖。接下來:隨著世界的變化,用戶和他們的期望可能會(huì)在一夜之間發(fā)生變化。想想巴黎圣母院的大火對(duì)那些搜索“巴黎圣母院”或“巴黎大火”的用戶可能有什么影響。AI在DNA序列中識(shí)別病毒應(yīng)該考慮到不斷發(fā)生的可能突變。因此,測(cè)試AI首先要確定用戶或系統(tǒng)輸出將被使用的視角。這意味著研究系統(tǒng)使用的數(shù)據(jù)分析,采訪流程所有者或采訪真實(shí)用戶。
4.3. 分析用戶
識(shí)別用戶或數(shù)據(jù)組是一回事,確定他們想要什么、期望什么、需要什么、害怕什么或會(huì)如何表現(xiàn)是另一回事。測(cè)試人員需要的是用戶和視角的簡(jiǎn)介:他們的背景是什么,他們想要什么,什么會(huì)讓他們反感或不安,他們有什么期望?一種創(chuàng)建簡(jiǎn)介的技術(shù)是“Persona”。這種技術(shù)的關(guān)鍵是不要考慮整個(gè)用戶組,而是從該組中選擇一個(gè)人,并盡可能使其具體化。Persona的好處是,它讓用戶變得栩栩如生。這是一種從內(nèi)到外考慮用戶視角的技術(shù)。例如:美國(guó)游客的Persona可以是喬,一個(gè)水管工,住在芝加哥,白人,45歲,已婚,有兩個(gè)孩子。他讀書不多,但喜歡色彩鮮艷、制作精良的繪畫。他的愛好是釣魚和翻新舊音響設(shè)備。
4.4. 創(chuàng)建測(cè)試用例
對(duì)于測(cè)試人員來說,這部分可能是大部分工作。根據(jù)每個(gè)用戶的個(gè)人資料,輸入和預(yù)期輸出被確定下來。良好的個(gè)人資料將提供一個(gè)良好的基礎(chǔ),但可能需要來自研究和訪談的額外信息。識(shí)別測(cè)試用例永遠(yuǎn)不會(huì)是完整的,也不會(huì)是決定性的:你不能測(cè)試一切,在人工智能領(lǐng)域也是如此。世界和用戶都在變化,因此需要在需求中反映出這一點(diǎn)。它從最重要的案例開始;它將不斷增長(zhǎng),需要永久維護(hù)。
4.5. 測(cè)試數(shù)據(jù)
使用哪些測(cè)試數(shù)據(jù)以及是否可以創(chuàng)建、發(fā)現(xiàn)或操作這些數(shù)據(jù)取決于上下文和生產(chǎn)數(shù)據(jù)的可用性。數(shù)據(jù)創(chuàng)建或操作(如圖像識(shí)別)是很難做到的,有時(shí)是無用的,甚至是適得其反的。使用工具來操作或創(chuàng)建圖像會(huì)帶來額外的變量,這可能會(huì)產(chǎn)生偏差!測(cè)試數(shù)據(jù)對(duì)現(xiàn)實(shí)世界圖片的代表性如何?如果算法在創(chuàng)建的數(shù)據(jù)中識(shí)別出只能在測(cè)試數(shù)據(jù)中找到的方面,測(cè)試的價(jià)值就會(huì)受到影響。AI測(cè)試人員從真實(shí)數(shù)據(jù)中創(chuàng)建測(cè)試數(shù)據(jù)集,并嚴(yán)格地將這些數(shù)據(jù)與訓(xùn)練數(shù)據(jù)分開。由于AI系統(tǒng)是動(dòng)態(tài)的,它所使用的世界是動(dòng)態(tài)的,測(cè)試數(shù)據(jù)必須定期更新。
4.6. 度量
人工智能的輸出不是布爾值:它們是所有可能結(jié)果(標(biāo)簽)的計(jì)算結(jié)果。要確定系統(tǒng)的性能,僅僅確定哪個(gè)標(biāo)簽的得分最高是不夠的。指標(biāo)是必要的。以圖像識(shí)別為例:我們想知道一張貓的圖片是否會(huì)被識(shí)別為貓。在實(shí)踐中,這意味著標(biāo)簽“貓”的得分將高于“狗”。如果貓的得分是0.43,狗的得分是0.41,那么貓就贏了。但得分之間的微小差異可能表明故障概率。在搜索引擎中,我們想知道頂部的結(jié)果是否是用戶期望的前1名,但如果前1名的結(jié)果是列表中的第2名,聽起來就不對(duì),但仍然比第3名要好。我們想知道所有相關(guān)結(jié)果是否都在前10名(這被稱為精確度),或者前10名中沒有冒犯性的結(jié)果。根據(jù)上下文,我們需要用指標(biāo)來處理AI系統(tǒng)的輸出,對(duì)其性能進(jìn)行評(píng)估。測(cè)試人員需要具備確定相關(guān)指標(biāo)并將其納入測(cè)試的能力。
4.7. 權(quán)重和契約
對(duì)人工智能系統(tǒng)的總體評(píng)估還必須納入相對(duì)重要性。與任何測(cè)試一樣,一些結(jié)果比其他結(jié)果更重要。想想具有高度道德影響的結(jié)果,比如種族偏差。作為設(shè)計(jì)測(cè)試用例的一部分,它們對(duì)總體評(píng)估的權(quán)重應(yīng)根據(jù)風(fēng)險(xiǎn)和對(duì)用戶的重要性來確定。測(cè)試人員需要對(duì)這些風(fēng)險(xiǎn)敏感,能夠識(shí)別它們,將其轉(zhuǎn)化為測(cè)試用例和指標(biāo)。他們需要了解系統(tǒng)使用情況和用戶心理的背景。人工智能測(cè)試人員需要同理心和世界意識(shí)。
在電影《機(jī)械戰(zhàn)警》中,墨菲警官的系統(tǒng)中有一個(gè)“首要指令”程序:如果他試圖逮捕他所在公司的董事總經(jīng)理,他的系統(tǒng)就會(huì)關(guān)閉。人工智能系統(tǒng)也可以有“首要指令”,或者出現(xiàn)無法接受的結(jié)果,比如冒犯性語言、色情網(wǎng)站或撞倒行人。我們稱之為“契約”:在測(cè)試結(jié)果中,這些可能不需要的結(jié)果應(yīng)該被標(biāo)簽為阻止問題,或者至少應(yīng)該被給予很高的權(quán)重。
4.8. 測(cè)試自動(dòng)化
人工智能測(cè)試需要大量的自動(dòng)化。測(cè)試用例的數(shù)量要求它這樣做,并且需要對(duì)新版本進(jìn)行重復(fù)測(cè)試。當(dāng)人工智能系統(tǒng)不斷訓(xùn)練時(shí),測(cè)試是必要的,就像搜索引擎的情況一樣,其中存在來自實(shí)際數(shù)據(jù)的反饋回路。但是,即使當(dāng)人工智能系統(tǒng)沒有不斷訓(xùn)練并且系統(tǒng)版本穩(wěn)定時(shí),不斷變化的環(huán)境也需要不斷訓(xùn)練。即使系統(tǒng)沒有改變,世界也會(huì)改變。測(cè)試自動(dòng)化包括一個(gè)測(cè)試框架,測(cè)試用例將在人工智能系統(tǒng)上運(yùn)行,并且人工智能系統(tǒng)的輸出將被處理。以下是一個(gè)測(cè)試框架的基本設(shè)置。
4.9. 整體評(píng)估和優(yōu)化輸入
測(cè)試的結(jié)果不僅僅是一份需要修復(fù)的缺陷清單。如上文所述,如果沒有嚴(yán)重的回歸,缺陷是無法直接修復(fù)的。人工智能系統(tǒng)必須作為一個(gè)整體進(jìn)行評(píng)估,因?yàn)殡S著許多測(cè)試用例和回歸,沒有哪個(gè)版本是完美的。如果一個(gè)新版本比舊版本更好,程序員希望知道該采用哪個(gè)版本。因此,測(cè)試結(jié)果應(yīng)該綜合成一個(gè)總結(jié)果:一個(gè)量化分?jǐn)?shù)。為了給程序員提供如何調(diào)整(訓(xùn)練數(shù)據(jù)、標(biāo)簽、參數(shù)化)的指導(dǎo),他們需要知道需要改進(jìn)的領(lǐng)域。這是我們可以接近缺陷修復(fù)的地方。我們需要度量、權(quán)衡和契約來實(shí)現(xiàn)有意義的總體評(píng)分和優(yōu)化線索。應(yīng)該分析低分測(cè)試用例的原因:是過擬合、欠擬合還是其他風(fēng)險(xiǎn)領(lǐng)域?
4.10. AI測(cè)試示例
從左上到右下,然后從右上到左下:
1. 識(shí)別用戶群體
2. 為每個(gè)用戶群體創(chuàng)建角色
3. 寫測(cè)試用例:根據(jù)每個(gè)用戶組輸入的預(yù)期頂級(jí)結(jié)果、非預(yù)期結(jié)果、度量和權(quán)重,在AI系統(tǒng)中運(yùn)行測(cè)試用例
4. 處理結(jié)果
5. 根據(jù)每個(gè)測(cè)試用例的總權(quán)重創(chuàng)建測(cè)試結(jié)果
6. 將結(jié)果與以前版本的結(jié)果進(jìn)行比較
5. 總結(jié)
人工智能的世界非常動(dòng)態(tài):算法不等同于代碼,而是訓(xùn)練數(shù)據(jù)和標(biāo)簽的結(jié)果。隨著世界的變化,訓(xùn)練數(shù)據(jù)將不斷更新。人工智能的輸出不是布爾值,而是所有標(biāo)簽的計(jì)算結(jié)果,這些結(jié)果可能都是相關(guān)的。盡管存在低透明度和偏差風(fēng)險(xiǎn),但人工智能正被用于決策,是人們世界的重要組成部分。測(cè)試人員必須通過確定用戶群體及其特定期望和需求,并展示系統(tǒng)如何反映這些期望和需求,在創(chuàng)建透明度方面發(fā)揮作用。為此,需要一個(gè)自動(dòng)測(cè)試框架來比較人工智能系統(tǒng)的許多版本,不斷監(jiān)測(cè)生產(chǎn)質(zhì)量,并為優(yōu)化提供指導(dǎo)。
-
測(cè)試
+關(guān)注
關(guān)注
8文章
5114瀏覽量
126359 -
AI
+關(guān)注
關(guān)注
87文章
29872瀏覽量
268171
原文標(biāo)題:淺析AI測(cè)試
文章出處:【微信號(hào):TestinChina,微信公眾號(hào):Testin云測(cè)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論