整理 | 彎月 責(zé)編 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
根據(jù)最新的研究結(jié)果,訓(xùn)練一個(gè)普通的 AI 模型消耗的能源相當(dāng)于五輛汽車一生排放的碳總量,而 BERT 模型的碳排放量約為 1400 磅二氧化碳,這相當(dāng)于一個(gè)人來回坐飛機(jī)橫穿美國(guó)。為何 AI 模型會(huì)如此費(fèi)電,它們與傳統(tǒng)的數(shù)據(jù)中心計(jì)算有何不同?
訓(xùn)練效率低下
傳統(tǒng)數(shù)據(jù)中心負(fù)責(zé)處理的工作包括視頻流,電子郵件和社交媒體。AI 所需的計(jì)算量則更多,因?yàn)樗枰x取大量的數(shù)據(jù)、持續(xù)學(xué)習(xí),直到完成訓(xùn)練。
與人類的學(xué)習(xí)方式相比,AI 的訓(xùn)練效率非常低下?,F(xiàn)代 AI 使用人工神經(jīng)網(wǎng)絡(luò),這是模擬人腦神經(jīng)元的數(shù)學(xué)計(jì)算。每?jī)蓚€(gè)相鄰神經(jīng)元的連接強(qiáng)度都是神經(jīng)網(wǎng)絡(luò)上的一個(gè)參數(shù),名叫權(quán)重。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練則需要從隨機(jī)權(quán)重開始,一遍遍地運(yùn)行和調(diào)整參數(shù),直到輸出與正確答案一致為止。
常見的一種訓(xùn)練語言神經(jīng)網(wǎng)絡(luò)的方法是,從維基百科和新聞媒體網(wǎng)站下載大量文本,然后把一些詞語遮擋起來,并要求 AI 猜測(cè)被遮擋起來的詞語。剛開始的時(shí)候,AI 會(huì)全部搞錯(cuò),但是,經(jīng)過不斷地調(diào)整后,AI 會(huì)逐漸學(xué)習(xí)數(shù)據(jù)中的模式,最終整個(gè)神經(jīng)網(wǎng)絡(luò)都會(huì)變得非常準(zhǔn)確。
相信你聽說過 BERT 模型,基于變換器的雙向編碼器表示技術(shù)(Bidirectional Encoder Representations from Transformers,簡(jiǎn)稱 BERT),這是一項(xiàng)由 Google 提出的自然語言處理(NLP)的預(yù)訓(xùn)練技術(shù)。該模型使用了來自維基百科和其他文章的 33 億個(gè)單詞,而且在整個(gè)訓(xùn)練期間,BERT 讀取了該數(shù)據(jù)集 40 次。相比之下,一個(gè) 5 歲的孩子學(xué)說話只需要聽到 4500 萬個(gè)單詞,比 BERT 少3000倍。
尋找最佳結(jié)構(gòu)
語言模型構(gòu)建成本如此之高的原因之一在于,在開發(fā)模型期間,上述訓(xùn)練過程需要反復(fù)多次。因?yàn)檠芯咳藛T需要將神經(jīng)網(wǎng)絡(luò)調(diào)整到最優(yōu),即確定神經(jīng)元的個(gè)數(shù)、神經(jīng)元之間的連接數(shù)以及各個(gè)權(quán)重。他們需要反復(fù)嘗試很多組合,才能提高神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確度。相比之下,人類的大腦不需要尋找最佳結(jié)構(gòu),經(jīng)過幾億年的進(jìn)化,人類大腦已具備這種結(jié)構(gòu)。
隨著各大公司和學(xué)術(shù)界在 AI 領(lǐng)域的競(jìng)爭(zhēng)愈演愈烈,不斷提高技術(shù)水平的壓力也越來越大。在自動(dòng)翻譯等難度巨大的任務(wù)中,如果能將準(zhǔn)確度提高 1%,也將被視為重大的進(jìn)步,可以作為宣傳產(chǎn)品的籌碼。然而,為了獲得這 1% 的提升,研究人員需要嘗試成千上萬的結(jié)構(gòu)來訓(xùn)練模型,直到找到最佳模型。
隨著模型不斷發(fā)展,模型的復(fù)雜度逐年攀高。另一款與 BERT 類似的最新語言模型 GPT-2,其神經(jīng)網(wǎng)絡(luò)包含 15 億個(gè)權(quán)重。而 GPT-3 由于其高精度,引起了業(yè)界的轟動(dòng),但其權(quán)重高達(dá) 1750 億個(gè)。
此外,AI 模型的訓(xùn)練需要在專用硬件(例如圖形處理器)上進(jìn)行,這些硬件的功耗普遍高于傳統(tǒng) CPU。如果你的筆記本電腦加載了優(yōu)質(zhì)的顯卡,可以玩很多高端游戲,那么你肯定會(huì)注意到這臺(tái)機(jī)器產(chǎn)生的熱量也比普通電腦高很多。
所有這些都表明,開發(fā)先進(jìn)的 AI 模型需要大量的碳排放量。除非我們能夠利用百分百可再生能源,否則真的懷疑 AI 的進(jìn)步與減少溫室氣體排放以及減緩氣候變化,孰重孰輕?是否真的可以功過相抵?
最后,開發(fā) AI 的耗資如此巨大,能夠承擔(dān)得起各項(xiàng)費(fèi)用的公司與機(jī)構(gòu)實(shí)在少之又少,最終究竟應(yīng)該開發(fā)哪種模型的決定權(quán)無疑也落到了這群人的手中。
AI 模型訓(xùn)練應(yīng)該適可而止
本文并不是要否定人工智能研究的未來,只不過在訓(xùn)練 AI 模型的時(shí)候,我們需要采用更高效的方法,而且應(yīng)該做到適可而止。
隨著 AI 模型訓(xùn)練方法的效率提升,相信訓(xùn)練的成本也會(huì)下降。同時(shí),我們需要在訓(xùn)練模型的成本和使用模型的成本之間權(quán)衡取舍。例如,在 AI 模型準(zhǔn)確度到達(dá)一定高度后,每提升 1% 都需要付出巨大的精力,而實(shí)際得到的收益卻很少。不追求極致,更多地使用“適可而止”的模型,不僅可以降低碳排放量,而且也能為我們帶來更大獲益。
審核編輯 黃昊宇
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4717瀏覽量
100003 -
AI
+關(guān)注
關(guān)注
87文章
28876瀏覽量
266218
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論