機器學習論文近年來之怪現狀："標題黨""佔坑""注水"……

人工智能領域的發展離不開學者們的貢獻，然而隨著研究的進步，越來越多的論文出現了“標題黨”、“佔坑”、“注水”等現象，暴增的頂會論文接收數量似乎並沒有帶來更多技術突破。最近，來自卡耐基梅隆大學的助理教授 Zachary C. Lipton 與斯坦福大學博士 Jacob Steinhardt 提交了一篇文章《Troubling Trends in Machine Learning Scholarship》，細數了近年來機器學習研究的幾大“怪現狀”。本文將在 7 月 15 日 ICML 2018 大會上的“Machine Learning: The Debates”研討會上接受討論。

一、引言

總體來說，機器學習的研究人員正在致力於數據驅動算法知識的創建與傳播。在一篇論文中提到，研究人員迫切地想實現下列目標的任一個：理論性闡述可學習內容、深入理解經驗嚴謹的實驗或者構建一個有高預測精度的工作系統。雖然確定哪些知識值得探究是很主觀的，但一旦主題確定，當論文為讀者服務時，它對社區最有價值，它能創造基礎知識並儘可能清楚地進行闡述。

什麼樣的論文更適合讀者呢？我們可以列出如下特徵：這些論文應該（i）提供直觀感受以幫助讀者理解，但應明確區別於已證明的強有力結論;（ii）闡述考量和排除其他假設的實證調查;（iii）明確理論分析與直覺或經驗之間的關係;（iv）利用語言幫助讀者理解，選擇術語以避免誤解或未經證實的內容，避免與其他定義衝突，或與其他相關但不同的概念混淆。

儘管經常偏離這些理想條件，但機器學習近期仍然在持續進步。在本文中，我們關注以下四種模式，在我們看來，這些模式是機器學習領域當下研究的傾向：

無法區分客觀闡述和猜想 。

2. 無法確定達到好效果的來源 ，例如，當實際上是因為對超參數微調而獲得好效果的時候，卻強調不必要修改神經網絡結構。

3. 數學性， 使用令人混淆的數學術語而不加以澄清，例如混淆技術與非技術概念。

4. 語言誤用 ，例如，使用帶有口語的藝術術語，或者過多的使用既定的技術術語。

雖然這些模式背後的原因無法確定，但很可能包括 社區大幅擴張，導致審查人員數量不足，以及學術和短期成功衡量標準 之間經常出現的錯位激勵。 雖然每種模式都提供了相應的補救措施，我們還是想討論一些關於社區如何應對此類趨勢的探索性建議。

隨著機器學習的影響擴大，研究此類論文的人員越來越多，包括學生、記者和決策者，這些考量也適用於更廣泛的讀者群體。我們希望通過更清晰精準的溝通，加速研究步伐，減少新晉研究人員的入門時間，在公共討論中發揮建設性的作用。

有缺陷的學術研究可能會誤導大眾、阻礙未來研究、損害機器學習知識基礎。事實上， 在人工智能的歷史上，甚至更廣泛的科學研究中，很多問題都是循環往復的。 1976 年，Drew McDermott 就批判 AI 社區放棄了自律，並預言“如果我們不能批評自己，就會有別人來幫我們解決問題”。類似的討論在在 80 年代、90 年代和 00 年代反復出現。在心理學等領域，糟糕的實驗標準削弱了人們對該學科權威的信任。當今機器學習的強勁潮流歸功於迄今為止大量嚴謹的研究，包括理論研究和實證研究。通過加強更明了的科學思考和交流，我們才可以維持社區目前所擁有的信任和投資。

二、免責聲明

本文旨在激發討論，響應 ICML 機器學習辯論研討會關於論文的號召。雖然我們支持這裡的觀點，但我們並不是要提供一個完整或平衡的觀點，也不是要討論機器學習這一科學領域的整體質量。在復現性等許多方面，社區的先進標準遠遠超過了十年前的水平。

我們注意到，這些爭論是我們自己發起的，攻擊的也是我們自身，關鍵的自省都是我們自己人做出的，而不是來自局外人的攻擊。

我們發現的這些弊病不是某個人或某個機構獨有的。我們已經身處這種模式之中，將來還會重蹈覆轍。揭示其中一種模式不會讓一篇論文變差或譴責論文的作者，但是我們相信，揭示這種模式之後，所有論文都會因避開這種模式而得到質量的提高。

我們給出的具體例子將涉及（i）我們自身及（ii）那些我們仰慕的著名研究者或機構，不會挑選那些容易受到本文嚴重影響的年輕學者或沒有機會與我們平等對話的研究者。身處這樣一個可以自由獲取知識、表達觀點的社區，我們感到非常欣慰。

三、不良趨勢

在下面的每個小節中，我們 (i) 首先描述一個趨勢；(ii) 然後提供幾個例子；最後解釋該趨勢帶來的後果。指出個別論文的弱點可能是一個敏感的話題。為了盡量減少這種情況，我們選擇了簡短而具體的例子。

1、解釋與推測

對新領域的研究往往涉及基於直覺的探索，這些直覺尚未融合成清晰的表達形式，於是推測成為作者表達直覺的一種手段，但是這種直覺可能還無法承受科學審查的所有壓力。然而， 論文常以解釋為名行推測之實，然後由於科學論文的偽裝和作者假定的專業知識，這些推測被解釋為權威。

2、未能確定經驗成果的來源

機器學習同行評審過程重視技術創新。也許是為了讓審稿人滿意，許多論文強調了複雜的模型和奇特的數學表達式。雖然複雜的模型有時是合理的，但經驗上的進步往往通過其它方式實現：巧妙的問題公式、科學實驗、優化算法、數據預處理技術、廣泛的超參數調整，或者將現有方法應用於有趣的新任務。有時，把提出的很多技術相結合可以獲得顯著的經驗結果。在這些情況下，作者有責任向讀者闡明實現文中的成果需要哪些技術。

但 很多時候，作者提出了許多缺乏適當變化的控制變量研究，掩蓋了經驗成果的來源 。實際上， 有時改善結果的原因只有一個變化而已 。這會給人一種錯誤的印象，認為作者做了更多的工作，而實際上他們做得併不夠。此外，這種做法會使讀者誤以為提出的所有改變都是必要的。

最近，Melis et al.闡明， 很多已發表的改進技術實際上要歸功於超參數的調節 ，而這原本被認為是在神經網絡中進行複雜創新的功勞。與此同時，自 1997 年以來幾乎沒有修改過的經典 LSTM 排名第一。 如果早點知道關於超參數調節的真相，而沒有受到其它干擾，AI 社區可能受益更多。 深度強化學習和生成對抗網絡也遇到了類似的評估問題。

相比之下，許多論文進行了很好的控制變量分析，甚至追溯性地嘗試隔絕成果來源也可能導致新的發現。此外，控制變量對於理解一種方法來說既不是必要的也不是充分的，甚至在給定計算約束的情況下也是不切實際的。可以通過魯棒性檢查以及定性錯誤分析來理解方法。

旨在理解的實證研究甚至在沒有新算法的情況下也能起到啟發作用。例如，探究神經網絡的行為可以識別它們對對抗干擾的易感性。細緻的研究還經常揭示挑戰數據集的局限性，同時產生更強的基線。

3、濫用數學

在寫早期 PhD 論文的時候，經驗豐富的博士後會給我們一些反饋：論文需要更多的方程式。博士後並沒有認可我們提出的系統，但是傳達出一種審議研究工作的清晰方式。即使工作很難解釋，但更多的方程式會令評審者相信論文的技術深度。

數學是科學交流的重要工具，正確使用時可以傳遞精確與清晰的思考邏輯 。然而，並非所有想法與主張都能使用精確的數學進行描述，因此 自然語言也同樣是一種不可或缺的工具，尤其是在描述直覺或經驗性聲明時。

當數學聲明和自然語言表述混合在一起而沒有明確它們之間的關係時，觀點和理論都會受到影響：理論中的問題用模糊的定義來覆蓋，而觀點的弱論據可以通過技術深度的出現而得到支持。我們將這種正式和非正式聲明之間的糾纏稱為“濫用數學”。經濟學家Paul Romer 描述這種模式為：“就像數學理論一樣，濫用數學將符號和語言的混合，但濫用數學不會將兩者緊密聯繫在一起，而是在自然語言表述與形式語言表述間留下了充足的空間。”

濫用數學表現在幾個方面：首先，一些論文濫用數學來傳遞技術的深度，他們只是將知識堆砌在一起而不是嘗試澄清論點。偽造定理是常見的手法，它們常被插入到論文中為實證結果提供權威性，即使定理的結論並不支持論文的主要主張。我們就犯過這樣的錯，其中對“staged strong Doeblin chains”的討論與提出的學習算法只有很少的相關性，但可能給讀者帶來理論的深度感。

在 Adam 優化器的原論文中，這個問題無處不在。在引入具有強大經驗性性能的優化器過程中，它還提供了凸優化情況下的收斂性證明，這對於關注非凸優化的的論文來說不是必要的。這一個證明後來還被指出有錯誤，並給出了新的證明。

第二個問題是既非明確的形式化表述，也非明確的非形式化表述。

最後，一些論文以過於寬泛的方式引用理論，或者引用不是那麼相關的定理。例如，通常我們引用“沒有免費午餐定理”作為使用啟發式方法的理由，而這種啟發式方法通常是沒有理論保證的。

雖然補救濫用數學最好的方法就是避免它，但有一些論文會進一步明確數學與自然語言之間的關係。最近有一篇論文描述了反事實推理，它以紮實的方式涵蓋了大量的數學基礎，且與很多已應用的經驗性問題有非常多的明確聯繫。此篇教程以明確地方式寫給讀者，並幫助促進新興社區研究機器學習的反事實推理。

4、濫用語言

我們明確了機器學習中三種濫用語言的方式：暗示性定義、技術術語過載和 suitcase words。

暗示性定義

在第一種方法中，新的技術術語創造出來可能就具有暗示性的口語語義，因此潛在的含義無需爭論。這常常體現在任務的擬人化特徵、技術的擬人化特徵。很多論文以暗示人類認知的方式命名提出模型的組成部分，例如“思想向量”和“意識先驗”等。

我們的目的並不是消除所有這類語言的學術文獻，如果命名比較合適，那麼它可以傳遞靈感的來源。然而，當暗示性術語指定了技術含義時，所有後續論文都別無選擇，只能接受該術語。

使用“人類水平”的鬆散聲明描述經驗性結果，同樣描繪了對當前能力的錯誤認識。

深度學習論文並不是唯一遭受影響的領域，濫用語言困擾著 ML 非常多的子領域。機器學習從復雜的法律學中藉了大量的術語，例如使用“disparate impac”命名統計等價概念的簡單方程。這導致了文獻中的“fairness”、“opportunity”和“discrimination”表示預測性模型的簡單統計學特徵，這樣會令忽略其中差異的研究者迷惑，也會令政策制定者誤解將道德納入機器學習的難易程度。

技術術語過載

誤用語言的第二個方式包括 將具備準確技術含義的術語用作不准確或完全相反的意義 。例如解卷積，它描述了反轉卷積的過程，但是現在在深度學習文獻中，該詞常用於指自編碼器和生成對抗網絡中的轉置卷積。

此類術語過載現象會導致持續的混淆。新機器學習論文中的 deconvolution 可能 (i) 指其原始意義，(ii) 描述 upconvolution，(iii) 嘗試解決混淆。

另一個例子是 generative model，它原本指輸入分佈 p(x) 或聯合分佈 p(x,y) 的模型。而 discriminative model指標籤的條件分佈 p(y | x)。但是，近期的論文中“generative model”不准確地意指生成逼真結構化數據的任意模型。表面看來，這似乎與 p(x) 的定義一致，但它混淆了幾個缺陷：例如，GAN 或 VAE 無法執行條件推斷。

後來這個術語被進一步混淆，現在一些判別模型指生成結構化輸出的生成模型。

語言誤用的後果之一是我們 可能通過將之前的未解決任務重新定義來掩蓋沒有進展的事實。 這通常與通過擬人化命名進行的暗示性定義有關。語言理解和閱讀理解曾經是 AI 的兩大挑戰，而現在指在特定數據集上的準確預測。

最後，我們討論機器學習論文中“suitcase words”的過度使用。這個詞由 Minsky 在 2007 年的書《The Emotion Machine》中創造，suitcase words 將多種意義的詞“打包”起來。 Minsky 描述了心理過程例如意識、思維、注意力、情緒和感覺，並認為這些過程可能沒有“共同的起因或來源”。很多機器學習中的術語都有這樣的現象。

另一個例子，generalization 有特定的技術含義：“泛化”，和更加口語化的含義：更加接近於遷移的概念，或外部效度。合併這些概念將導致高估當前系統的能力。

暗示性的定義和超載的術語也可能創造出新的 suitcase words。在研究公平性的文獻中，法律、哲學和統計學語言通常都過載，像 bias 這樣的變成 suitcase words 的術語在之後必須要分離。

在通用語和鼓舞人心的術語中，suitcase words 可以很有用。也許 suitcase words 反映了一個至關重要的聯合不同含義的概念。例如，人工智能一詞也許能打包成一個鼓舞人心的名詞來組織一個學術部門。另一方面，在技術觀點中使用 suitcase words 可能導致困惑。

四、對趨勢背後原因的思考

以上模式預示著某種趨勢嗎？如果答案是肯定的，其背後的原因又是什麼？我們推測，這些模式將愈演愈烈，其背後的原因可能有以下幾點：

1、面對進步的自滿

機器學習的快速發展有時會導致這樣一種態度：只要結果足夠有力，論點站不住腳也沒有關係。取得有力結果的作者可能感覺自己有權插入可以導出結果的任意未經證實的東西，省略掉可能弄清楚這些因素的實驗，採用誇張的術語，或濫用數學。

同時，評價過程的單輪屬性可能讓評閱人感覺自己不得不接受具有有力結果的定量研究論文。實際上，即使論文被拒，其中的弱點可能也不會在下一輪中得到修補，甚至根本不會被注意到，因此評閱人最終可能會認為：接受一篇有瑕疵的論文是最好的選擇。

2、成長的痛苦

大約在 2012 年左右，由於深度學習方法的成功，機器學習社區急劇擴張。儘管我們將社區的擴張視為一種積極的發展，但這一擴張也有其弊端。

為了保護年輕的研究者們，我們優先選用自己和那些著名學者的論文。然而，新加入的研究者可能更容易受到這些模式的不良影響。例如，不了解既有術語的作者更容易用錯或亂用論文語言。另一方面，資深研究者可能也會陷入這些模式。

社區的急劇擴張還會從兩個方面稀釋評論：一是提高提交論文與評閱人的比例，二是降低資深評閱人的比例。經驗不足的評閱人可能對架構新奇性的要求更高，也更容易被偽造的定理所迷惑，並忽略嚴重而微妙的問題，如誤用語言，從而加快上述幾種趨勢的發展。

同時， 資深但負擔過重的評閱人可能陷入“清單核對”的心理定勢，更加青睞公式化的論文，忽略更富有創意或思路更寬但不符合既有模板的論文。 此外，工作量超負荷的評閱人可能沒有足夠的時間來修補或註意到論文中的所有問題。

3、扭曲的激勵機制

給作者以不良激勵的不止是評閱人。隨著機器學習研究越來越受媒體關注，機器學習創業公司也越來越普遍，在某種程度上，這一領域所獲得的激勵可以說是媒體或投資人給的。媒體煽動了上述趨勢的幾種，對機器學習算法擬人化的表述為新聞報導提供了素材。

投資人對 AI 研究也頗有興趣，有時他們僅依據一篇論文就會為創業公司投資 。根據我們與投資人接觸的經驗， 他們有時更青睞那些研究成果已經被媒體報導的創業公司，這種資本激勵最終又歸功於媒體。 我們注意到，最近投資人對智能會話機器人創業公司的興趣伴隨著報紙及其他媒體對對話系統及強化學習者的擬人化描述一起出現，儘管很難確定投資者的興趣和扭曲的激勵機制是否構成因果關係。

五、建議

假設我們要對抗這些趨勢，該如何做呢？除了僅建議每個作者放棄這類模式，我們從社區可以做些什麼來提高實驗實踐、闡述和理論水平呢？我們如何才能更容易的提煉社區內的知識，並消除研究人員和普羅大眾的誤解呢？下面根據我們的個人經歷和印象提出一些初步的建議。

1、對作者的建議

我們鼓勵作者多問“是什麼起了作用？”和“為什麼？”，而不是“有多好？”

觀察並不意味著理論。在最有力的實證研究論文中有三種實踐方式：錯誤分析、控制變量研究和魯棒性檢驗。這些做法每個人都可以使用，我們提倡大家廣泛使用。

合理的實證研究不應該只局限於追踪特定算法的經驗效果；即使沒有提出新的算法，它也可以產生新的見解。

最後，弄清哪些問題是開放性的，哪些問題是可以被解決的。這不僅能夠讓讀者更加清楚，還能鼓勵後續的工作，防止研究人員忽略那些假定要被解決的問題。

2、對出版商和評審人的建議

評審人可以通過問這樣的問題來明確自己的動機：“如果作者的工作做的不夠好，我是否會接受這篇論文？”例如，一篇論文描述了一個簡單的想法，雖然連帶了兩個負面的結果，卻能使性能得到改進。這樣的文章應該好於將三個想法結合在一起產生相同改進的文章。

現在的文獻以接收有缺陷的會議出版物為代價而迅速發展。補救的措施之一就是強調權威性的回顧調查，剔除誇大的聲明和無關的材料，改變擬人化名稱以使記號、術語標準化等。儘管機器學習中的 Foundation 和 Trend 等已經對此類研究進行追踪，但我們認為這方面仍然缺乏足夠強大的論文。

此外，我們認為批判性寫作應該在機器學習會議上有所發聲。典型的 ML 會議論文選擇一個已有問題，展示一個算法和／或分析，然後報告實驗結果。儘管很多問題可以通過這種方式解決，但是對於問題或調查方法的正當性，算法和實驗都不足夠。我們在擁抱更具批判性的論述方面並不孤單：在 NLP 領域，今年的 COLING 大會號召論文“挑戰傳統思維”。

關於同行評審有很多值得討論的地方。我們描述的問題通過開放性評審能夠得到緩解還是加劇？評審人系統與我們提倡的價值觀有多大的一致性？這些話題已經在其他地方被詳細討論。

六、討論

常理來說，我們不應該在技術升溫時進行干預：你不能質疑成功！

在此，我們用以下一些理由進行反駁：

首先， 當前文化的許多方面是機器學習成功的結果，而不是其原因 。事實上，導致目前深度學習成功的許多論文都是仔細的實證研究，其描述了深度網絡訓練的基本原則，這包括隨機連續超參數搜索的優勢、不同激活函數的行為，以及對無監督預訓練的理解。

其次， 有缺陷的學術氛圍已經對研究界，以及更為廣泛的公眾群體產生了負面影響 。在第三章中，我們已經看到了不受支持的觀點已被人們引用了上千次，被稱為改進的譜係被簡單的基線所推翻，數據集旨在測試高級語義推理，但實際上測試的是低級語法流暢性， 術語混亂使得學術對話變得舉步維艱。

其中最後一個問題也影響著公眾的判斷。歐洲議會曾通過一份報告，討論如何應對“機器人產生自我意識”的問題。儘管機器學習的研究者們並不向所有這些工作產生的誤解負責，但權威同行評審論文中的擬人化語言似乎至少負有一定的責任。

我們相信，解釋說明以及科學和理論的嚴謹性對於科學進步，和建立更廣泛的公眾有效對話至關重要。此外， 由於機器學習技術將被應用於醫療健康、法律自動駕駛等重要領域，對於機器學習系統能力限制的知曉將讓我們能夠更加安全地部署 AI 技術。 我們將通過討論一些對於上述觀點的反駁，及歷史背景來結束本文。

1、與之相對的考慮因素

針對上述建議也有很多需要考慮的因素。本文草稿的一些讀者曾指出：隨機梯度下降往往比梯度下降的收斂速度更快——換句話說，或許更快節奏的、更喧鬧的過程讓我們拋棄了撰寫“更乾淨”論文的初衷，也加快了研究速度。例如，關於 ImageNet 數據集圖像分類的突破性論文提出了多種沒有控制變量研究的技術，其中一些隨後被確定是不必要的。然而，在研究提出時，其結果非常重要且實驗計算成本高昂，等待控制變量完成可能不值得整個社區為之付出代價。

這 讓我們擔心，高標準可能會阻礙創見的發布，因為這些創見往往非同尋常，而且可能是推測性的。 在其他領域，如經濟學，高標準導致學者可能需要數年才能完成一篇論文，冗長的修訂週期必然會消耗可用於新研究的資源。

最後，也許專業化有其價值： 創造新概念或建立新系統的研究者不一定會是那些仔細整理和提煉知識的人。

我們認識到這些考慮的有效性，並且也認識到這些標準有時過於嚴格。但是，在很多情況下，它們很容易實現，只需要幾天的實驗和更仔細的寫作。此外，我們將這些內容作為強烈的啟發，而不是不可逾越的規則來呈現——如果不違反這些標準就無法分享新的想法，那麼我們更願意分享這個想法，而將標準放在一邊。

此外，我們總會發現遵守這些標準的嘗試是值得的。總之，我們不相信研究界在前沿的推進上實現了帕累托最優狀態。

2、歷史經驗

實際上，在這裡討論的問題既不是機器學習所特有的，也不是目前這個時代所特有的：它們反映了整個學術界反復出現的問題。早在1964 年，物理學家John R. Platt 在其關於強推理的論文中就對於相關問題進行了討論，他在文中指出了對特定先驗標準的遵守，這也為隨後分子生物學和高能物理，甚至其他領域的快速發展提供了能量。

在 AI 領域裡，事情也是類似的，正如第一章所述，Drew McDermott在 1976 年就一系列問題批評了一個人工智能社區，批評內容包括暗示定義，以及未能將猜測與技術主張分開。 1988 年，Paul Cohen 和 Adele Howe也指責一個人工智能社區“很少發布他們提出的算法的性能評估”，而只是描述了系統。他們建議為量化技術發展建立合理的指標，並分析“它為什麼有效？”、“在什麼情況下它不起作用？”以及“如何讓設計決策合理化？”……這些問題在今天仍然能引起我們的共鳴。

最後，在 2009 年，Armstrong 等人討論了信息檢索研究的實證嚴謹性，並註意到很多論文都有與相同弱基線進行比較的趨勢，這些改進並沒有積累到有意義的經驗。

在其他領域，學術水平不受限制的下降導致了危機。 2015 年的一項具有里程碑意義的研究表明，心理學文獻中很大一部分研究結果可能無法再現。在一些歷史案例中，跟風與缺乏規制的學術態度導致整個研究社區走進了死胡同。例如，在 X 射線被發現之後，有人又提出了 N 射線。

3、結束語

最後，讀者們可能認為這些問題是可以自我糾正的。我們同意這樣的觀點，但是，機器學習社區需要反复討論如何構建合理的學術標準以實現這種自我修正。我們希望本文能夠為這樣的討論提供建設性貢獻。

*文章為作者獨立觀點，不代表虎嗅網立場

本文由機器之心授權虎嗅網發表，並經虎嗅網編輯。轉載此文章須經作者同意，並請附上出處( 虎嗅網 )及本頁鏈接。原文鏈接：https://www.huxiu.com/article/252239.html

未來面前，你我還都是孩子，還不去下載虎嗅App 猛嗅創新！

機器學習論文近年來之怪現狀：“標題黨”“佔坑”“注水”……

相關推薦