譯者按:人工智能領(lǐng)域的發(fā)展離不開學(xué)者們的貢獻(xiàn),然而隨著研究的進(jìn)步,越來越多的論文出現(xiàn)了“標(biāo)題黨”、“占坑”、“注水”等現(xiàn)象,暴增的頂會論文接收數(shù)量似乎并沒有帶來更多技術(shù)突破。最近,來自卡耐基梅隆大學(xué)的助理教授 Zachary C. Lipton 與斯坦福大學(xué)博士 Jacob Steinhardt 提交了一篇文章《Troubling Trends in Machine Learning Scholarship》,細(xì)數(shù)了近年來機(jī)器學(xué)習(xí)研究的幾大“怪現(xiàn)狀”。本文將在 7 月 15 日 ICML 2018 大會上的“Machine Learning: The Debates”研討會上接受討論。
1 引言
總體來說,機(jī)器學(xué)習(xí)(ML)的研究人員正在致力于數(shù)據(jù)驅(qū)動算法知識的創(chuàng)建與傳播。在一篇論文中提到,研究人員迫切地想實現(xiàn)下列目標(biāo)的任一個:理論性闡述可學(xué)習(xí)內(nèi)容、深入理解經(jīng)驗嚴(yán)謹(jǐn)?shù)膶嶒灮蛘邩?gòu)建一個有高預(yù)測精度的工作系統(tǒng)。雖然確定哪些知識值得探究是很主觀的,但一旦主題確定,當(dāng)論文為讀者服務(wù)時,它對社區(qū)最有價值,它能創(chuàng)造基礎(chǔ)知識并盡可能清楚地進(jìn)行闡述。
什么樣的論文更適合讀者呢?我們可以列出如下特征:這些論文應(yīng)該(i)提供直觀感受以幫助讀者理解,但應(yīng)明確區(qū)別于已證明的強有力結(jié)論;(ii)闡述考量和排除其他假設(shè)的實證調(diào)查 [62];(iii)明確理論分析與直覺或經(jīng)驗之間的關(guān)系 [64];(iv)利用語言幫助讀者理解,選擇術(shù)語以避免誤解或未經(jīng)證實的內(nèi)容,避免與其他定義沖突,或與其他相關(guān)但不同的概念混淆 [56]。
盡管經(jīng)常偏離這些理想條件,但機(jī)器學(xué)習(xí)近期仍然在持續(xù)進(jìn)步。在本文中,我們關(guān)注以下四種模式,在我們看來,這些模式是機(jī)器學(xué)習(xí)領(lǐng)域當(dāng)下研究的傾向:
1. 無法區(qū)分客觀闡述和猜想。
2. 無法確定達(dá)到好效果的來源,例如,當(dāng)實際上是因為對超參數(shù)微調(diào)而獲得好效果的時候,卻強調(diào)不必要修改神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
3. 數(shù)學(xué)性:使用令人混淆的數(shù)學(xué)術(shù)語而不加以澄清,例如混淆技術(shù)與非技術(shù)概念。
4. 語言誤用,例如,使用帶有口語的藝術(shù)術(shù)語,或者過多的使用既定的技術(shù)術(shù)語。
雖然這些模式背后的原因無法確定,但很可能包括社區(qū)大幅擴(kuò)張,導(dǎo)致審查人員數(shù)量不足,以及學(xué)術(shù)和短期成功衡量標(biāo)準(zhǔn)(如文獻(xiàn)數(shù)量、關(guān)注度、創(chuàng)業(yè)機(jī)會)之間經(jīng)常出現(xiàn)的錯位激勵。雖然每種模式都提供了相應(yīng)的補救措施(呼吁“不要這樣做”),我們還是想討論一些關(guān)于社區(qū)如何應(yīng)對此類趨勢的探索性建議。
隨著機(jī)器學(xué)習(xí)的影響擴(kuò)大,研究此類論文的人員越來越多,包括學(xué)生、記者和決策者,這些考量也適用于更廣泛的讀者群體。我們希望通過更清晰精準(zhǔn)的溝通,加速研究步伐,減少新晉研究人員的入門時間,在公共討論中發(fā)揮建設(shè)性的作用。
有缺陷的學(xué)術(shù)研究可能會誤導(dǎo)大眾、阻礙未來研究、損害機(jī)器學(xué)習(xí)知識基礎(chǔ)。事實上,在人工智能的歷史上,甚至更廣泛的科學(xué)研究中,很多問題都是循環(huán)往復(fù)的。1976 年,Drew McDermott [53] 就批判 AI 社區(qū)放棄了自律,并預(yù)言“如果我們不能批評自己,就會有別人來幫我們解決問題”。類似的討論在在 80 年代、90 年代和 00 年代反復(fù)出現(xiàn) [13,38,2]。在心理學(xué)等領(lǐng)域,糟糕的實驗標(biāo)準(zhǔn)削弱了人們對該學(xué)科權(quán)威的信任 [14]。當(dāng)今機(jī)器學(xué)習(xí)的強勁潮流歸功于迄今為止大量嚴(yán)謹(jǐn)?shù)难芯?,包括理論研?[22,7,19] 和實證研究 [34,25,5]。通過加強更明了的科學(xué)思考和交流,我們才可以維持社區(qū)目前所擁有的信任和投資。
2. 免責(zé)聲明
本文旨在激發(fā)討論,響應(yīng) ICML 機(jī)器學(xué)習(xí)辯論研討會關(guān)于論文的號召。雖然我們支持這里的觀點,但我們并不是要提供一個完整或平衡的觀點,也不是要討論機(jī)器學(xué)習(xí)這一科學(xué)領(lǐng)域的整體質(zhì)量。在復(fù)現(xiàn)性等許多方面,社區(qū)的先進(jìn)標(biāo)準(zhǔn)遠(yuǎn)遠(yuǎn)超過了十年前的水平。我們注意到,這些爭論是我們自己發(fā)起的,攻擊的也是我們自身,關(guān)鍵的自省都是我們自己人做出的,而不是來自局外人的攻擊。我們發(fā)現(xiàn)的這些弊病不是某個人或某個機(jī)構(gòu)獨有的。我們已經(jīng)身處這種模式之中,將來還會重蹈覆轍。揭示其中一種模式不會讓一篇論文變差或譴責(zé)論文的作者,但是我們相信,揭示這種模式之后,所有論文都會因避開這種模式而得到質(zhì)量的提高。我們給出的具體例子將涉及(i)我們自身及(ii)那些我們仰慕的著名研究者或機(jī)構(gòu),不會挑選那些容易受到本文嚴(yán)重影響的年輕學(xué)者或沒有機(jī)會與我們平等對話的研究者。身處這樣一個可以自由獲取知識、表達(dá)觀點的社區(qū),我們感到非常欣慰。
3 不良趨勢
在下面的每個小節(jié)中,我們 (i) 首先描述一個趨勢;(ii) 然后提供幾個例子(包括抵制這一趨勢的正面例子);最后解釋該趨勢帶來的后果。指出個別論文的弱點可能是一個敏感的話題。為了盡量減少這種情況,我們選擇了簡短而具體例子。
3.1 解釋與推測
對新領(lǐng)域的研究往往涉及基于直覺的探索,這些直覺尚未融合成清晰的表達(dá)形式。于是推測成為作者表達(dá)直覺的一種手段,但是這種直覺可能還無法承受科學(xué)審查的所有壓力。然而,論文常以解釋為名行推測之實,然后由于科學(xué)論文的偽裝和作者假定的專業(yè)知識,這些推測被解釋為權(quán)威。
例如,[33] 圍繞一個內(nèi)部協(xié)變量轉(zhuǎn)移的概念形成了一個直觀的理論。關(guān)于內(nèi)部協(xié)變量轉(zhuǎn)移的論述從摘要開始,似乎陳述了技術(shù)事實。然而,關(guān)鍵術(shù)語不夠清晰,最終無法得出一個真實值。例如,論文指出,通過減少訓(xùn)練過程中隱激活層分布的變化,批處理規(guī)范化可以獲得改進(jìn)。這種變化是用哪種散度衡量的?論文中沒有闡明,并且有些研究表明,這種對批處理規(guī)范化的解釋可能偏離了 [65] 的標(biāo)準(zhǔn)。然而,[33] 中給出的推測性解釋已經(jīng)被重復(fù)為一種事實,例如 [60] 中說,“眾所周知,由于內(nèi)部協(xié)變量轉(zhuǎn)移問題,深層神經(jīng)網(wǎng)絡(luò)很難優(yōu)化。”
我們也同樣對偽裝成推測的解釋感到不安。在 [72] 中,JS 寫道,“無關(guān)特征的高維性和豐富性……給了攻擊者更多的空間來攻擊”,而沒有進(jìn)行任何實驗來衡量維度對攻擊性的影響。在 [71] 中,JS 引入了直觀的覆蓋概念,但沒有對其進(jìn)行定義,并將其當(dāng)做一種解釋來運用,如:“缺少覆蓋的一個表現(xiàn)是不確定性估計較差,無法生成高精度的預(yù)測?!被仡欉^去,我們希望交流不夠具體化的直覺,這些直覺對論文中的研究很重要,我們不愿把論點的核心部分看作推論。
與上述例子相反,[69] 把推測與事實區(qū)分開來。這篇論文介紹了 dropout 正則化,詳細(xì)推測了 dropout 和有性繁殖之間的聯(lián)系,但“Motivation”一節(jié)明確地隔開了這一討論。這種做法避免了混淆讀者,同時允許作者表達(dá)非正式的想法。
在另一正面例子中,[3] 提出了訓(xùn)練神經(jīng)網(wǎng)絡(luò)的實用指南。在這篇論文中,作者謹(jǐn)慎地表達(dá)了不確定性。該論文沒有把這些指南當(dāng)成權(quán)威性的東西,而是這樣表達(dá):“雖然這些建議……來自多年的實驗和一定程度的數(shù)學(xué)證明,但它們應(yīng)該受到挑戰(zhàn)。這是一個良好的起點……但沒有得到什么正式驗證,留下許多問題,可以通過理論分析或扎實的比較實驗工作來回答”。
3.2 未能確定經(jīng)驗成果的來源
機(jī)器學(xué)習(xí)同行評審過程重視技術(shù)創(chuàng)新。也許是為了讓審稿人滿意,許多論文強調(diào)了復(fù)雜的模型(這里提到的)和奇特的數(shù)學(xué)表達(dá)式(見 3.3)。雖然復(fù)雜的模型有時是合理的,但經(jīng)驗上的進(jìn)步往往通過其它方式實現(xiàn):巧妙的問題公式、科學(xué)實驗、優(yōu)化算法、數(shù)據(jù)預(yù)處理技術(shù)、廣泛的超參數(shù)調(diào)整,或者將現(xiàn)有方法應(yīng)用于有趣的新任務(wù)。有時,把提出的很多技術(shù)相結(jié)合可以獲得顯著的經(jīng)驗結(jié)果。在這些情況下,作者有責(zé)任向讀者闡明實現(xiàn)文中的成果需要哪些技術(shù)。
但很多時候,作者提出了許多缺乏適當(dāng)變化的控制變量研究,掩蓋了經(jīng)驗成果的來源。實際上,有時改善結(jié)果的原因只有一個變化而已。這會給人一種錯誤的印象,認(rèn)為作者做了更多的工作(通過提出幾項改進(jìn)),而實際上他們做得并不夠(沒有進(jìn)行適當(dāng)?shù)淖兞靠刂疲?。此外,這種做法會使讀者誤以為提出的所有改變都是必要的。
最近,Melis et al.[54] 闡明,很多已發(fā)表的改進(jìn)技術(shù)實際上要歸功于超參數(shù)的調(diào)節(jié),而這原本被認(rèn)為是在神經(jīng)網(wǎng)絡(luò)中進(jìn)行復(fù)雜創(chuàng)新的功勞。與此同時,自 1997 年以來幾乎沒有修改過的經(jīng)典 LSTM 排名第一。如果早點知道關(guān)于超參數(shù)調(diào)節(jié)的真相,而沒有受到其它干擾,AI 社區(qū)可能受益更多。深度強化學(xué)習(xí) [ 30 ] 和生成對抗網(wǎng)絡(luò) [ 51 ] 也遇到了類似的評估問題。更多關(guān)于經(jīng)驗嚴(yán)謹(jǐn)性失誤及其后果的討論詳見 [ 68 ]。
相比之下,許多論文對 [ 41,45,77,82 ] 進(jìn)行了很好的控制變量分析,甚至追溯性地嘗試隔絕成果來源也可能導(dǎo)致新的發(fā)現(xiàn) [ 10,65 ]。此外,控制變量對于理解一種方法來說既不是必要的也不是充分的,甚至在給定計算約束的情況下也是不切實際的??梢酝ㄟ^魯棒性檢查(如 [15],它發(fā)現(xiàn)現(xiàn)有的語言模型處理屈折形態(tài)的效果很差)以及定性錯誤分析 [40] 來理解方法。
旨在理解的實證研究甚至在沒有新算法的情況下也能起到啟發(fā)作用。例如,探究神經(jīng)網(wǎng)絡(luò)的行為可以識別它們對對抗干擾的易感性 [ 74 ]。細(xì)致的研究還經(jīng)常揭示挑戰(zhàn)數(shù)據(jù)集的局限性,同時產(chǎn)生更強的基線。[ 11 ] 研究了一項旨在閱讀理解新聞段落的任務(wù),發(fā)現(xiàn) 73 % 的問題可以通過看一個句子來回答,而只有 2 % 的問題需要看多個句子(剩下 25 % 的例子要么模棱兩可,要么包含共指錯誤)。此外,更簡單的神經(jīng)網(wǎng)絡(luò)和線性分類器的性能優(yōu)于此前在這項任務(wù)中評估過的復(fù)雜神經(jīng)結(jié)構(gòu)。本著同樣的精神,[ 80 ] 分析并構(gòu)建了視覺基因組場景圖數(shù)據(jù)集的強基線。
3.3 濫用數(shù)學(xué)
在寫早期 PhD 論文的時候,經(jīng)驗豐富的博士后會給我們(ZL)一些反饋:論文需要更多的方程式。博士后并沒有認(rèn)可我們提出的系統(tǒng),但是傳達(dá)出一種審議研究工作的清晰方式。即使工作很難解釋,但更多的方程式會令評審者相信論文的技術(shù)深度。
數(shù)學(xué)是科學(xué)交流的重要工具,正確使用時可以傳遞精確與清晰的思考邏輯。然而,并非所有想法與主張都能使用精確的數(shù)學(xué)進(jìn)行描述,因此自然語言也同樣是一種不可或缺的工具,尤其是在描述直覺或經(jīng)驗性聲明時。
當(dāng)數(shù)學(xué)聲明和自然語言表述混合在一起而沒有明確它們之間的關(guān)系時,觀點和理論都會受到影響:理論中的問題用模糊的定義來覆蓋,而觀點的弱論據(jù)可以通過技術(shù)深度的出現(xiàn)而得到支持。我們將這種正式和非正式聲明之間的糾纏稱為“濫用數(shù)學(xué)(mathiness)”。經(jīng)濟(jì)學(xué)家 Paul Romer 描述這種模式為:“就像數(shù)學(xué)理論一樣,濫用數(shù)學(xué)將符號和語言的混合,但濫用數(shù)學(xué)不會將兩者緊密聯(lián)系在一起,而是在自然語言表述與形式語言表述間留下了充足的空間 [64]?!?/p>
濫用數(shù)學(xué)表現(xiàn)在幾個方面:首先,一些論文濫用數(shù)學(xué)來傳遞技術(shù)的深度,他們只是將知識堆砌在一起而不是嘗試澄清論點。偽造定理是常見的手法,它們常被插入到論文中為實證結(jié)果提供權(quán)威性,即使定理的結(jié)論并不支持論文的主要主張。我們(JS)就犯過這樣的錯 [70],其中對“staged strong Doeblin chains”的討論與提出的學(xué)習(xí)算法只有很少的相關(guān)性,但可能給讀者帶來理論的深度感。
在 Adam 優(yōu)化器的原論文 [35] 中,這個問題無處不在。在引入具有強大經(jīng)驗性性能的優(yōu)化器過程中,它還提供了凸優(yōu)化情況下的收斂性證明,這對于關(guān)注非凸優(yōu)化的的論文來說不是必要的。這一個證明后來還被指出有錯誤 [63],并給出了新的證明。
第二個問題是既非明確的形式化表述,也非明確的非形式化表述。例如在 [18] 中,作者表示優(yōu)化神經(jīng)網(wǎng)絡(luò)主干的困難不在極小值點,而在鞍點。這項工作引用了一篇關(guān)于高斯隨機(jī)場的統(tǒng)計物理學(xué)論文 [9],該論文表示“高斯隨機(jī)場中所有局部極小值點的誤差與全局最小值點誤差非常相近”,相似的說明在 [12] 中也有提到。這似乎是一個正式的聲明,但是并沒有一個具體的定理,也很難驗證聲明的結(jié)果或確定其確切內(nèi)容。我們可以理解為,這個聲明表示在問題參數(shù)為典型配置時,我們不知道是經(jīng)驗性地在數(shù)值上極值與最值差距非常小,還是理論性地這個差距在高維空間中會慢慢消失。正式聲明將有助于澄清這一點,我們注意到 [18] 描述了極小值點比鞍點有更低的損失、更清楚的證明與經(jīng)驗性的測試。
最后,一些論文以過于寬泛的方式引用理論,或者引用不是那么相關(guān)的定理。例如,通常我們引用“沒有免費午餐定理”作為使用啟發(fā)式方法的理由,而這種啟發(fā)式方法通常是沒有理論保證的。
雖然補救濫用數(shù)學(xué)最好的方法就是避免它,但有一些論文會進(jìn)一步明確數(shù)學(xué)與自然語言之間的關(guān)系。最近有一篇論文 [8] 描述了反事實推理,它以扎實的方式涵蓋了大量的數(shù)學(xué)基礎(chǔ),且與很多已應(yīng)用的經(jīng)驗性問題有非常多的明確聯(lián)系。此篇教程以明確地方式寫給讀者,并幫助促進(jìn)新興社區(qū)研究機(jī)器學(xué)習(xí)的反事實推理。
3.4 濫用語言
我們明確了機(jī)器學(xué)習(xí)中三種濫用語言的方式:暗示性定義、技術(shù)術(shù)語過載和 suitcase words。
3.4.1 暗示性定義
在第一種方法中,新的技術(shù)術(shù)語創(chuàng)造出來可能就具有暗示性的口語語義,因此潛在的含義無需爭論。這常常體現(xiàn)在任務(wù)的擬人化特征(音樂合成 [59] 和閱讀理解 [31])、技術(shù)的擬人化特征(好奇 [66] 和害怕 [48])。很多論文以暗示人類認(rèn)知的方式命名提出模型的組成部分,例如“思想向量”[36] 和“意識先驗”[4] 等。我們的目的并不是消除所有這類語言的學(xué)術(shù)文獻(xiàn);如果命名比較合適,那么它可以傳遞靈感的來源。然而,當(dāng)暗示性術(shù)語指定了技術(shù)含義時,所有后續(xù)論文都別無選擇,只能接受該術(shù)語。
使用“人類水平”的松散聲明描述經(jīng)驗性結(jié)果,同樣描繪了對當(dāng)前能力的錯誤認(rèn)識。以 [21] 中的“皮膚病專家水平的皮膚癌分類模型”為例,與皮膚科醫(yī)生的對比掩蓋了分類器和皮膚科醫(yī)生執(zhí)行根本不同任務(wù)的事實。真正的皮膚科醫(yī)生會遇到各種各樣的情況,并且盡管存在不可預(yù)測的變化,他們都必須完成工作。但是分類器只在獨立同分布的測試數(shù)據(jù)上實現(xiàn)了較低的誤差。相比之下,[29] 表明分類器在 ImageNet 圖像分類任務(wù)上有人類水平的性能更可信,因為它并不是說在目標(biāo)檢測等更廣泛的領(lǐng)域。即使在這種情況下,相比于不那么細(xì)致的 [21, 57, 75],一篇更細(xì)致的論文可能并不足以使公眾討論重回正軌。流行的文章記敘將現(xiàn)代圖像分類器描述為“超越人類水平的性能,并有效證明更大的數(shù)據(jù)集導(dǎo)致更好的決策”[23]。盡管有證據(jù)表明這些分類器依賴虛假的相關(guān)性,即將“穿紅衣服的亞洲人”誤分類為乒乓球 [73],但人們還是相信它們有超越人類的準(zhǔn)確度。
深度學(xué)習(xí)論文并不是唯一遭受影響的領(lǐng)域,濫用語言困擾著 ML 非常多的子領(lǐng)域。[49] 中討論了機(jī)器學(xué)習(xí)公平性的最近文獻(xiàn),其發(fā)現(xiàn)機(jī)器學(xué)習(xí)從復(fù)雜的法律學(xué)中借了大量的術(shù)語,例如使用“disparate impac”命名統(tǒng)計等價概念的簡單方程。這導(dǎo)致了文獻(xiàn)中的“fairness”、“opportunity”和“discrimination”表示預(yù)測性模型的簡單統(tǒng)計學(xué)特征,這樣會令忽略其中差異的研究者迷惑,也會令政策制定者誤解將道德納入機(jī)器學(xué)習(xí)的難易程度。
3.4.2 技術(shù)術(shù)語過載
誤用語言的第二個方式包括將具備準(zhǔn)確技術(shù)含義的術(shù)語用作不準(zhǔn)確或完全相反的意義。例如解卷積(deconvolution),它描述了反轉(zhuǎn)卷積的過程,但是現(xiàn)在在深度學(xué)習(xí)文獻(xiàn)中,該詞常用于指自編碼器和生成對抗網(wǎng)絡(luò)中的轉(zhuǎn)置卷積(transpose convolution,也叫 up-convolution)。在深度學(xué)習(xí)領(lǐng)域中,該術(shù)語首先出現(xiàn)于 [79],其中它確實是指解卷積,但后來被過度一般化,指使用 upconvolution 的任意神經(jīng)架構(gòu) [78, 50]。此類術(shù)語過載現(xiàn)象會導(dǎo)致持續(xù)的混淆。新機(jī)器學(xué)習(xí)論文中的 deconvolution 可能 (i) 指其原始意義,(ii) 描述 upconvolution,(iii) 嘗試解決混淆,如 [28]。
另一個例子是 generative model(生成模型),它原本指輸入分布 p(x) 或聯(lián)合分布 p(x,y) 的模型。而 discriminative model(判別模型)指標(biāo)簽的條件分布 p(y | x)。但是,近期的論文中“generative model”不準(zhǔn)確地意指生成逼真結(jié)構(gòu)化數(shù)據(jù)的任意模型。表面看來,這似乎與 p(x) 的定義一致,但它混淆了幾個缺陷:例如,GAN 或 VAE 無法執(zhí)行條件推斷(如,從 p(x2 | x1) 中采樣,x1 和 x2 是兩個不同的輸入特征)。后來這個術(shù)語被進(jìn)一步混淆,現(xiàn)在一些判別模型(discriminative model)指生成結(jié)構(gòu)化輸出的生成模型 [76],我們在 [47] 中犯了這個錯誤。為了解決該混淆,并提供歷史背景,[58] 對規(guī)定的和隱性的生成模型進(jìn)行了區(qū)分。
再來看批歸一化(batch normalization),[33] 描述協(xié)變量偏移(covariate shift)為模型輸入分布的變化。而事實上,協(xié)變量偏移指一種特定類型的偏移,盡管輸入分布 p(x) 可能確實出現(xiàn)變化,但標(biāo)注函數(shù) p(y|x) 沒有變化 [27]。此外,由于 [33] 的影響,Google Scholar 將 batch normalization 列為搜索“covariate shift”的第一個參考文獻(xiàn)就是 batch normalization(《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》)。
語言誤用的后果之一是我們可能通過將之前的未解決任務(wù)重新定義來掩蓋沒有進(jìn)展的事實。這通常與通過擬人化命名進(jìn)行的暗示性定義有關(guān)。語言理解(language understanding)和閱讀理解(reading comprehension)曾經(jīng)是 AI 的兩大挑戰(zhàn),而現(xiàn)在指在特定數(shù)據(jù)集上的準(zhǔn)確預(yù)測 [31]。
最后,我們討論機(jī)器學(xué)習(xí)論文中“suitcase words”的過度使用。這個詞由 Minsky 在 2007 年的書《The Emotion Machine》中創(chuàng)造,suitcase words 將多種意義的詞“打包”起來。Minsky 描述了心理過程例如意識、思維、注意力、情緒和感覺,并認(rèn)為這些過程可能沒有“共同的起因或來源”。很多機(jī)器學(xué)習(xí)中的術(shù)語都有這樣的現(xiàn)象。例如,[46] 注意到可解釋性并沒有普遍認(rèn)同的含義,通常對應(yīng)不相交的方法。結(jié)果,即使在論文的互相交流中,人們也可能理解的是不同的概念。
另一個例子,generalization 有特定的技術(shù)含義:“泛化”(從訓(xùn)練泛化到測試),和更加口語化的含義:更加接近于遷移的概念(從一個總體擴(kuò)展到另一個總體),或外部效度(從實驗擴(kuò)展到現(xiàn)實世界)。合并這些概念將導(dǎo)致高估當(dāng)前系統(tǒng)的能力。
暗示性的定義和超載的術(shù)語也可能創(chuàng)造出新的 suitcase words。在研究公平性的文獻(xiàn)中,法律、哲學(xué)和統(tǒng)計學(xué)語言通常都過載,像 bias 這樣的變成 suitcase words 的術(shù)語在之后必須要分離。
在通用語和鼓舞人心的術(shù)語中,suitcase words 可以很有用。也許 suitcase words 反映了一個至關(guān)重要的聯(lián)合不同含義的概念。例如,人工智能一詞也許能打包成一個鼓舞人心的名詞來組織一個學(xué)術(shù)部門。另一方面,在技術(shù)觀點中使用 suitcase words 可能導(dǎo)致困惑。例如,[6] 寫了一個涉及智能和優(yōu)化能力的等式(Box 4),隱含地假設(shè)這些 suitcase words 可以用一個 1 維標(biāo)量量化。
4 對趨勢背后原因的思考
以上模式預(yù)示著某種趨勢嗎?如果答案是肯定的,其背后的原因又是什么?我們推測,這些模式將愈演愈烈,其背后的原因可能有以下幾點:面對進(jìn)步的自滿;社區(qū)的急劇擴(kuò)張;相關(guān)審議團(tuán)隊的匱乏;扭曲的激勵機(jī)制與評價成果的短期標(biāo)準(zhǔn)。
4.1 面對進(jìn)步的自滿
機(jī)器學(xué)習(xí)的快速發(fā)展有時會導(dǎo)致這樣一種態(tài)度:只要結(jié)果足夠有力,論點站不住腳也沒有關(guān)系。取得有力結(jié)果的作者可能感覺自己有權(quán)插入可以導(dǎo)出結(jié)果的任意未經(jīng)證實的東西(見 3.1),省略掉可能弄清楚這些因素的實驗(見 3.2),采用夸張的術(shù)語(見 3.4),或濫用數(shù)學(xué)(見 3.3)。
同時,評價過程的單輪屬性可能讓評閱人感覺自己不得不接受具有有力結(jié)果的定量研究論文。實際上,即使論文被拒,其中的弱點可能也不會在下一輪中得到修補,甚至根本不會被注意到,因此評閱人最終可能會認(rèn)為:接受一篇有瑕疵的論文是最好的選擇。
4.2 成長的痛苦
大約在 2012 年左右,由于深度學(xué)習(xí)方法的成功,機(jī)器學(xué)習(xí)社區(qū)急劇擴(kuò)張。盡管我們將社區(qū)的擴(kuò)張視為一種積極的發(fā)展,但這一擴(kuò)張也有其弊端。
為了保護(hù)年輕的研究者們,我們優(yōu)先選用自己和那些著名學(xué)者的論文。然而,新加入的研究者可能更容易受到這些模式的不良影響。例如,不了解既有術(shù)語的作者更容易用錯或亂用論文語言(見 3.4)。另一方面,資深研究者可能也會陷入這些模式。
社區(qū)的急劇擴(kuò)張還會從兩個方面稀釋評論:一是提高提交論文與評閱人的比例,二是降低資深評閱人的比例。經(jīng)驗不足的評閱人可能對架構(gòu)新奇性的要求更高,也更容易被偽造的定理所迷惑,并忽略嚴(yán)重而微妙的問題,如誤用語言,從而加快上述幾種趨勢的發(fā)展。同時,資深但負(fù)擔(dān)過重的評閱人可能陷入“清單核對”的心理定勢,更加青睞公式化的論文,忽略更富有創(chuàng)意或思路更寬但不符合既有模板的論文。此外,工作量超負(fù)荷的評閱人可能沒有足夠的時間來修補或注意到論文中的所有問題。
4.3 扭曲的激勵機(jī)制
給作者以不良激勵的不止是評閱人。隨著機(jī)器學(xué)習(xí)研究越來越受媒體關(guān)注,機(jī)器學(xué)習(xí)創(chuàng)業(yè)公司也越來越普遍,在某種程度上,這一領(lǐng)域所獲得的激勵可以說是媒體(“他們會寫什么?”)或投資人(“他們的錢會投到哪里?”)給的。媒體煽動了上述趨勢的幾種。對機(jī)器學(xué)習(xí)算法擬人化的表述為新聞報道提供了素材。以 [55] 為例,該文將自動編碼稱之為“模擬大腦”。暗示機(jī)器表現(xiàn)達(dá)到人類水平的新聞會在報紙頭條上引起轟動,如 [52],該文在描述一種深度學(xué)習(xí)圖像字幕系統(tǒng)時稱其“模仿人類的理解水平”。投資人對 AI 研究也頗有興趣,有時他們僅依據(jù)一篇論文就會為創(chuàng)業(yè)公司投資。根據(jù)我們(ZL)與投資人接觸的經(jīng)驗,他們有時更青睞那些研究成果已經(jīng)被媒體報道的創(chuàng)業(yè)公司,這種資本激勵最終又歸功于媒體。我們注意到,最近投資人對智能會話機(jī)器人創(chuàng)業(yè)公司的興趣伴隨著報紙及其他媒體對對話系統(tǒng)及強化學(xué)習(xí)者的擬人化描述一起出現(xiàn),盡管很難確定投資者的興趣和扭曲的激勵機(jī)制是否構(gòu)成因果關(guān)系。
5 建議
假設(shè)我們要對抗這些趨勢,該如何做呢?除了僅建議每個作者放棄這類模式,我們從社區(qū)可以做些什么來提高實驗實踐、闡述和理論水平呢?我們?nèi)绾尾拍芨菀椎奶釤捝鐓^(qū)內(nèi)的知識并消除研究人員和普羅大眾的誤解呢?下面根據(jù)我們的個人經(jīng)歷和印象提出一些初步的建議。
5.1 對作者的建議
我們鼓勵作者多問“是什么起了作用?”和“為什么?”,而不是“有多好?”除了在特殊情況下的 [39],原始的標(biāo)題數(shù)字對于科學(xué)進(jìn)步的價值是有限的,它并沒有表述出驅(qū)動數(shù)據(jù)的原因。觀察并不意味著理論。在最有力的實證研究論文中有三種實踐方式:錯誤分析、控制變量研究和魯棒性檢驗(例如選擇超參數(shù)以及理想數(shù)據(jù)集)。這些做法每個人都可以使用,我們提倡大家廣泛使用。對于一些實例論文,我們建議讀者參考 §3.2 的內(nèi)容。[43] 還提供了更詳細(xì)的最佳經(jīng)驗實踐調(diào)研。
合理的實證研究不應(yīng)該只局限于追蹤特定算法的經(jīng)驗效果;即使沒有提出新的算法,它也可以產(chǎn)生新的見解。這里的例子可以證明:通過隨機(jī)梯度下降訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可以適用于隨機(jī)分配的標(biāo)簽 [81]。這篇論文對模型復(fù)雜性的學(xué)習(xí)理論能力提出質(zhì)疑,試圖讓其解釋為什么神經(jīng)網(wǎng)絡(luò)可以泛化到未見過的數(shù)據(jù)。在另一個例子中,[26] 探索了深層網(wǎng)絡(luò)的損失表面,揭示了初始化和學(xué)習(xí)化參數(shù)間的參數(shù)空間直線路徑通常具有單調(diào)遞減的損失。
在撰寫此論文時,我們希望能出現(xiàn)以下問題:我是要依靠這種解釋做出預(yù)測還是讓系統(tǒng)正常工作?這可以很好地檢驗是否包含這能取悅審核人員或者傳遞明確信息的定理。它還有助于檢查概念和說明是否與我們自己的內(nèi)心想法相匹配。在數(shù)學(xué)寫作方面,我們將建議讀者閱讀 Knuth,Larrabee 和 Roberts 的優(yōu)秀教程 [37]。
最后,弄清哪些問題是開放性的,哪些問題是可以被解決的。這不僅能夠讓讀者更加清楚,還能鼓勵后續(xù)的工作,防止研究人員忽略那些假定(錯誤)要被解決的問題。
5.2 對出版商和評審人的建議
評審人可以通過問這樣的問題來明確自己的動機(jī):“如果作者的工作做的不夠好,我是否會接受這篇論文?”例如,一篇論文描述了一個簡單的想法,雖然連帶了兩個負(fù)面的結(jié)果,卻能使性能得到改進(jìn)。這樣的文章應(yīng)該好于將三個想法結(jié)合在一起(沒有控制變量研究)產(chǎn)生相同改進(jìn)的文章。
現(xiàn)在的文獻(xiàn)以接收有缺陷的會議出版物為代價而迅速發(fā)展。補救的措施之一就是強調(diào)權(quán)威性的回顧調(diào)查,剔除夸大的聲明和無關(guān)的材料,改變擬人化名稱以使記號、術(shù)語標(biāo)準(zhǔn)化等。盡管機(jī)器學(xué)習(xí)中的 Foundation 和 Trend 等已經(jīng)對此類研究進(jìn)行追蹤,但我們認(rèn)為這方面仍然缺乏足夠強大的論文。
此外,我們認(rèn)為批判性寫作應(yīng)該在機(jī)器學(xué)習(xí)會議上有所發(fā)聲。典型的 ML 會議論文選擇一個已有問題(或提出一個新問題),展示一個算法和/或分析,然后報告實驗結(jié)果。盡管很多問題可以通過這種方式解決,但是對于問題或調(diào)查方法的正當(dāng)性,算法和實驗都不足夠(和恰當(dāng))。我們在擁抱更具批判性的論述方面并不孤單:在 NLP 領(lǐng)域,今年的 COLING 大會號召論文“挑戰(zhàn)傳統(tǒng)思維”[1]。
關(guān)于同行評審有很多值得討論的地方。我們描述的問題通過開放性評審能夠得到緩解還是加?。吭u審人系統(tǒng)與我們提倡的價值觀有多大的一致性?這些話題已經(jīng)在其他地方被詳細(xì)討論 [42, 44, 24]。
6 討論
常理來說,我們不應(yīng)該在技術(shù)升溫時進(jìn)行干預(yù):你不能質(zhì)疑成功!在此,我們用以下一些理由進(jìn)行反駁:首先,當(dāng)前文化的許多方面是機(jī)器學(xué)習(xí)成功的結(jié)果,而不是其原因。事實上,導(dǎo)致目前深度學(xué)習(xí)成功的許多論文都是仔細(xì)的實證研究,其描述了深度網(wǎng)絡(luò)訓(xùn)練的基本原則。這包括隨機(jī)連續(xù)超參數(shù)搜索的優(yōu)勢、不同激活函數(shù)的行為,以及對無監(jiān)督預(yù)訓(xùn)練的理解。
其次,有缺陷的學(xué)術(shù)氛圍已經(jīng)對研究界,以及更為廣泛的公眾群體產(chǎn)生了負(fù)面影響。在第三章中,我們已經(jīng)看到了不受支持的觀點已被人們引用了上千次,被稱為改進(jìn)的譜系被簡單的基線所推翻,數(shù)據(jù)集旨在測試高級語義推理,但實際上測試的是低級語法流暢性,術(shù)語混亂使得學(xué)術(shù)對話變得舉步維艱。
其中最后一個問題也影響著公眾的判斷。歐洲議會曾通過一份報告,討論如何應(yīng)對“機(jī)器人產(chǎn)生自我意識”的問題。盡管機(jī)器學(xué)習(xí)的研究者們并不向所有這些工作產(chǎn)生的誤解負(fù)責(zé),但權(quán)威同行評審論文中的擬人化語言似乎至少負(fù)有一定的責(zé)任。
我們相信,解釋說明以及科學(xué)和理論的嚴(yán)謹(jǐn)性對于科學(xué)進(jìn)步,和建立更廣泛的公眾有效對話至關(guān)重要。此外,由于機(jī)器學(xué)習(xí)技術(shù)將被應(yīng)用于醫(yī)療健康、法律自動駕駛等重要領(lǐng)域,對于機(jī)器學(xué)習(xí)系統(tǒng)能力限制的知曉將讓我們能夠更加安全地部署 AI 技術(shù)。我們將通過討論一些對于上述觀點的反駁,及歷史背景來結(jié)束本文。
6.1 與之相對的考慮因素
針對上述建議也有很多需要考慮的因素。本文草稿的一些讀者曾指出:隨機(jī)梯度下降往往比梯度下降的收斂速度更快——換句話說,或許更快節(jié)奏的、更喧鬧的過程讓我們拋棄了撰寫“更干凈”論文的初衷,也加快了研究速度。例如,關(guān)于 ImageNet 數(shù)據(jù)集圖像分類的突破性論文 [39] 提出了多種沒有控制變量研究的技術(shù),其中一些隨后被確定是不必要的。然而,在研究提出時,其結(jié)果非常重要且實驗計算成本高昂,等待控制變量完成可能不值得整個社區(qū)為之付出代價。
這讓我們擔(dān)心,高標(biāo)準(zhǔn)可能會阻礙創(chuàng)見的發(fā)布,因為這些創(chuàng)見往往非同尋常,而且可能是推測性的。在其他領(lǐng)域,如經(jīng)濟(jì)學(xué),高標(biāo)準(zhǔn)導(dǎo)致學(xué)者可能需要數(shù)年才能完成一篇論文,冗長的修訂周期必然會消耗可用于新研究的資源。
最后,也許專業(yè)化有其價值:創(chuàng)造新概念或建立新系統(tǒng)的研究者不一定會是那些仔細(xì)整理和提煉知識的人。
我們認(rèn)識到這些考慮的有效性,并且也認(rèn)識到這些標(biāo)準(zhǔn)有時過于嚴(yán)格。但是,在很多情況下,它們很容易實現(xiàn),只需要幾天的實驗和更仔細(xì)的寫作。此外,我們將這些內(nèi)容作為強烈的啟發(fā),而不是不可逾越的規(guī)則來呈現(xiàn)——如果不違反這些標(biāo)準(zhǔn)就無法分享新的想法,那么我們更愿意分享這個想法,而將標(biāo)準(zhǔn)放在一邊。此外,我們總會發(fā)現(xiàn)遵守這些標(biāo)準(zhǔn)的嘗試是值得的??傊覀儾幌嘈叛芯拷缭谇把氐耐七M(jìn)上實現(xiàn)了帕累托最優(yōu)狀態(tài)。
6.2 歷史經(jīng)驗
實際上,在這里討論的問題既不是機(jī)器學(xué)習(xí)所特有的,也不是目前這個時代所特有的:它們反映了整個學(xué)術(shù)界反復(fù)出現(xiàn)的問題。早在 1964 年,物理學(xué)家 John R. Platt 在其關(guān)于強推理的論文 [62] 中就對于相關(guān)問題進(jìn)行了討論,他在文中指出了對特定先驗標(biāo)準(zhǔn)的遵守,這也為隨后分子生物學(xué)和高能物理,甚至其他領(lǐng)域的快速發(fā)展提供了能量。
在 AI 領(lǐng)域里,事情也是類似的,正如第一章所述,Drew McDermott [53] 在 1976 年就一系列問題批評了一個(主要是機(jī)器學(xué)習(xí)時代以前的)人工智能社區(qū),批評內(nèi)容包括暗示定義,以及未能將猜測與技術(shù)主張分開。1988 年,Paul Cohen 和 Adele Howe [13] 也指責(zé)一個人工智能社區(qū)“很少發(fā)布他們提出的算法的性能評估”,而只是描述了系統(tǒng)。他們建議為量化技術(shù)發(fā)展建立合理的指標(biāo),并分析“它為什么有效?”、“在什么情況下它不起作用?”以及“如何讓設(shè)計決策合理化?”……這些問題在今天仍然能引起我們的共鳴。
最后,在 2009 年,Armstrong 等人 [2] 討論了信息檢索研究的實證嚴(yán)謹(jǐn)性,并注意到很多論文都有與相同弱基線進(jìn)行比較的趨勢,這些改進(jìn)并沒有積累到有意義的經(jīng)驗。
在其他領(lǐng)域,學(xué)術(shù)水平不受限制的下降導(dǎo)致了危機(jī)。2015 年的一項具有里程碑意義的研究表明,心理學(xué)文獻(xiàn)中很大一部分研究結(jié)果可能無法再現(xiàn) [14]。在一些歷史案例中,跟風(fēng)與缺乏規(guī)制的學(xué)術(shù)態(tài)度導(dǎo)致整個研究社區(qū)走進(jìn)了死胡同。例如,在 X 射線被發(fā)現(xiàn)之后,有人又提出了 N 射線(之后真相被揭穿)。
6.3 結(jié)束語
最后,讀者們可能認(rèn)為這些問題是可以自我糾正的。我們同意這樣的觀點,但是,機(jī)器學(xué)習(xí)社區(qū)需要反復(fù)討論如何構(gòu)建合理的學(xué)術(shù)標(biāo)準(zhǔn)以實現(xiàn)這種自我修正。我們希望本文能夠為這樣的討論提供建設(shè)性貢獻(xiàn)。
-
人工智能
+關(guān)注
關(guān)注
1791文章
46671瀏覽量
237142 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8353瀏覽量
132315
發(fā)布評論請先 登錄
相關(guān)推薦
評論