AI模型在實際運用中可能出現(xiàn)性能下降而達不到最初的標(biāo)準(zhǔn),這種情況并不罕見。例如,也許你已經(jīng)注意到你經(jīng)常使用的生成人工智能服務(wù)的響應(yīng)質(zhì)量發(fā)生了變化。這些說法經(jīng)常出現(xiàn)在新聞網(wǎng)站和社交媒體上。
但人工智能模型的性能是否會隨著時間的推移而惡化?
事實上,人工智能模型的有效性可能會下降,并且容易產(chǎn)生“幻覺”。
用人工智能專家的語言來說,這種現(xiàn)象通常被稱為“模型衰退”或“模型漂移”,這兩種術(shù)語經(jīng)?;Q使用。
發(fā)生這種情況的原因多種多樣。
“
為什么它很重要
人工智能越來越多地應(yīng)用于日常生活的各個方面,包括拯救生命的行動和大額投資等。2023年3月,IEEE Spectrum上的一篇文章(https://spectrum.ieee.org/self-driving-cars-2662494269)強調(diào)了一個顯著的現(xiàn)實風(fēng)險:自動駕駛汽車中的人工智能模型出現(xiàn)故障,導(dǎo)致了嚴(yán)重的車禍。
定期更新和使用當(dāng)前數(shù)據(jù)進行重新培訓(xùn)是維持這些模型在不斷變化環(huán)境中有效的關(guān)鍵。
“
什么是AI模型漂移
IEEE會員Eleanor “Nell” Watson解釋說,人工智能模型的準(zhǔn)確性經(jīng)常會因為現(xiàn)實世界中不斷變化的環(huán)境而發(fā)生變化。
“例如,”Watson說,“考慮一個經(jīng)過訓(xùn)練以預(yù)測消費者購買模式的模型。它是在代表某個時間點的消費者行為的數(shù)據(jù)集上訓(xùn)練的。部署后,消費者偏好和市場動態(tài)可能會因新趨勢、經(jīng)濟變化甚至全球事件等各種因素而演變。由于該模型是在舊數(shù)據(jù)上訓(xùn)練的,它可能無法準(zhǔn)確捕捉這些新模式,導(dǎo)致其預(yù)測的準(zhǔn)確性或相關(guān)性降低。這是模型衰減的表現(xiàn)?!?/p>
對抗數(shù)據(jù)漂移非常重要。為了做到這一點,人工智能研究人員傾向于將人工智能漂移進一步分類。如果你想了解更多,請查看這篇IEEEXplore的論文:https://ieeexplore.ieee.org/document/9808752。
Watson說:“解決模型衰退問題包括定期監(jiān)測、調(diào)整和用新數(shù)據(jù)更新模型,完善模型的架構(gòu),甚至在某些情況下從頭開始重新訓(xùn)練?!蓖瑫r還指出:“確保模型與當(dāng)前數(shù)據(jù)的狀態(tài)和動態(tài)保持一致,以及對于數(shù)據(jù)的合理使用,對于維護AI模型的準(zhǔn)確性至關(guān)重要。”
“
合成數(shù)據(jù):一個新出現(xiàn)的挑戰(zhàn)
訓(xùn)練人工智能模型需要大量的數(shù)據(jù),有時這些數(shù)據(jù)是稀缺的。為了彌補這一不足,研究人員轉(zhuǎn)向了合成數(shù)據(jù)。
從本質(zhì)上講,合成數(shù)據(jù)是基于真實數(shù)據(jù)集生成的人工數(shù)據(jù)(https://standards.ieee.org/industry-connections/synthetic-data/#:~:text=Synthetic%20data%20is%20artificial%20data,e.g.%2C%20for%20AI%20training).)。它是實際的,同時也能夠在統(tǒng)計上代表原來存在的數(shù)據(jù)。
研究人員明白,盡管合成數(shù)據(jù)有其存在的用途,但過度的依賴合成數(shù)據(jù)也可能導(dǎo)致性能下降,IEEE Spectrum發(fā)表的兩篇研究論文探討了這一想法:https://spectrum.ieee.org/ai-collapse。
Watson說,過度依賴合成數(shù)據(jù)“可能會縮小視角并強化偏見,因為模型可能會根據(jù)類似系統(tǒng)生成的數(shù)據(jù)進行訓(xùn)練”。生成人工智能的快速內(nèi)容生產(chǎn)速度往往加劇了這個問題。
挑戰(zhàn)可能更加嚴(yán)峻。人工智能模型的開發(fā)者經(jīng)常通過人們的幫助來標(biāo)記數(shù)據(jù)。例如,如果你想開發(fā)一個識別圖像情感內(nèi)容的人工智能模型,通常需要人們來對圖像進行評分?;蛘哂袝r,研究人員需要大量的調(diào)查數(shù)據(jù),這種勞動力極其廉價——時薪不到1美元。這些被稱為人類智能任務(wù)(https://www.designboom.com/technology/ai-has-generated-150-years-worth-of-photographs-in-less-than-12-months-study-shows-08-21-2023/)。
“一些人為生成的數(shù)據(jù)可能是不真實的,”Watson說,“外包給人工智能任務(wù)工作者的任務(wù)使用人工智能越來越自動化,導(dǎo)致潛在的偏見和不準(zhǔn)確。公司所需要的自然、高質(zhì)量的數(shù)據(jù),可能需要額外的身份驗證層來確保人工生成內(nèi)容的真實性?!?/p>
審核編輯:黃飛
-
AI
+關(guān)注
關(guān)注
87文章
29852瀏覽量
268151 -
人工智能
+關(guān)注
關(guān)注
1791文章
46691瀏覽量
237179 -
自動駕駛汽車
+關(guān)注
關(guān)注
4文章
376瀏覽量
40804
原文標(biāo)題:AI模型表現(xiàn)下降的原因
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論