谷歌大腦新論文：機器學習也會遭遇欺騙，難纏的對抗樣本能否愚弄人類？

長按識別二維碼，報名2018十大突破性技術中國區線下解讀會

在人工智能“氾濫”的今天，仍然會有各種各樣的問題對這一人類當前最具前景的技術構成威脅，在近日Google Brain 研究人員 Ian Goodfellow 等人的最新論文《Adversarial Examples that Fool both Human and Computer Vision》中，他們就舉出了其中的一個代表——對抗樣本。

論文地址：https://arxiv.org/abs/1802.08195

對抗樣本指的是攻擊者故意設計的，會讓機器學習模型作出錯誤決定的輸入。機器學習很容易受到對抗樣本的攻擊 ，比如，即使是小小的擾動，就可以讓計算機視覺系統將校車誤認為是鴕鳥。但是人類視覺系統是否會被其乾擾仍是一個懸而未決的問題。

圖丨對圖片加上小小的擾動，使得貓的圖片變得像狗

機器學習和腦科學的研究一直相輔相成。 比如，在科學家設計出物體識別算法之前，他們就堅信這是一定可以做到的，因為人類的大腦是可以識別出物體的。因此，如果我們可以證明，人腦可以抵抗特定種類的對抗樣本的干擾，那麼這將證明機器學習中也會有相似的機制。而如果人腦的確會被對抗樣本愚弄，那麼我們就應該放棄機器學習中抵抗對抗樣本的努力，轉而去設計那些儘管包含了非魯棒性的機器學習組建卻仍然安全的系統。

在計算機視覺領域，對抗樣本通常是對數據集中的樣例圖片加以擾動得到的新圖片。 這種擾動不同於噪音，而是根據模型精心設計的。許多流行的生成對抗樣本的算法依賴於模型的結構和參數來完成對輸入基於梯度的優化。由於人類視覺系統的結構和參數等均是未知的，因此這些方式可能無法生成可以用於人類視覺識別的對抗樣本。

圖丨在對抗樣本的影響下，大熊貓被識別為長臂猿

對抗樣本通常從一個模型向另一個模型轉換，使得它可以攻擊結構未知的模型。而人類是否會受這樣的對抗樣本的影響就成了一個問題。顯然，人類的視覺認知系統有許多偏見，而且會產生光學上的幻覺。但是這和對自然圖片加以擾動非常不同。 因此，我們通過三個主要的想法來測試，對抗樣本會對人類視覺系統產生可見的影響。

1. 利用黑箱對抗樣本生成技術，它在不能了解參數和結構的情況下對目標模型構建對抗樣本。

2. 通過改變機器學習模型來模仿人類視覺的原始過程，使得對抗樣本更可能轉化為適合人類觀察者的。

3. 評估人類觀察者在給定時間內做出的分類決策，使得人類知覺的細微影響都可以被探測到。因為人類在分類任務上的準確率接近完美，因此微小的改變可能無法在準確率上有所反應。而只對圖片進行簡短的展示，即使清晰的圖片，人類也無法再達到完美的準確率，因此微小變化產生的影響得以在準確率上有所體現。

對抗性問題的目的是導致一個錯誤的決定。但是當進行擾動後，很多圖片失真，已經不再是一個真正的實際存在的景象，此時很難定義對這個並非真正物體的照片的分類。因此在這項實驗中，只進行微小的擾動，並對擾動的圖片按照之前的類別進行分類。但對擾動後的圖片的分類問題仍值得進一步討論探究。

實驗中使用了 ImageNet 中的圖片，並將其中的六類圖片分成三組：寵物類、危險類和蔬菜類。 最近的研究已經發現了深度卷積神經網絡和靈長類動物的視覺系統之間的相似性，因此使用這些圖片來訓練不同的 CNN 模型來模擬人類視覺過程。

圖丨實驗過程：主體坐在光線暗的房間中距離高刷新率電腦屏幕 61cm 的地方。主體被要求通過按按鈕將屏幕上出現的圖片分到給定的兩個類別中的一個。圖片先在屏幕上固定出現500-1000ms，然後一張15.24 cm × 15.24 cm 的圖片出現在屏幕中央63ms，然後圖片被十個隨機的二維碼遮蓋，每個20ms，結束後有2200～2500ms 的時間做出分類的選擇。

每個實驗只包括一個組別。在每個組中，圖片以下列四種形式之一展示：

1.image ：來自 ImageNet 的圖片。

2.adv：添加了擾動的 image。

3.flip：添加了經過垂直變換的擾動的 image。

4.false：強制主體犯錯誤的條件。使用較大的擾動，使得出現的圖片不屬於可以選擇的任何一類。因為擾動對觀察者產生的影響，可能只是因為降低了圖片的清晰度。加入這個準確率為 0 的條件，可以檢驗擾動是否會影響觀察者所作出的錯誤的選擇。

圖丨不同擾動方式對圖片進行處理

圖丨 (a) 選擇不同擾動目標類別的概率（b）正確分類的準確率

從圖表中可以發現，加入了擾動的 adv 種類的分類準確率遠低於 image。同時 adv 類別的準確率也遠低於 flip。 這說明擾動與特定圖片的組合對分類的影響，與人類區分物體時所感知的特定特徵相關。

實驗結果發現，通過計算機視覺模型轉化的對抗樣本，確實會影響人類觀察者的準確性。這一研究也引出了更多的基礎性問題。 CNNs 網絡在生成對抗樣本這一過程中所起的作用，是否和它與人腦視覺機理的相似性有關？對抗樣本的哪些性質對人類的認知產生了作用？這些性質與現實世界又有什麼關係？這些問題的研究都極富價值，並會推動我們進一步理解人腦和深度神經網絡的奧秘。

-End-

編輯：王維瑩

參考：Adversarial Examples that Fool both Human and Computer Vision

相關推薦