機器學習5年大躍進，可能是個錯覺

06-24

機器學習5年大躍進，可能是個錯覺

來自專欄量子位

夏乙問耕發自凹非寺
量子位出品 | 公眾號 QbitAI

站在2018年，圖像分類準確率在95%以上的模型，已經遍地都是。

回想2012年，Hinton帶著學生們以ImageNet上16.4%的錯誤率震驚計算機視覺研究界，似乎已經是遠古時期的歷史。

這些年來的突飛猛進，真的可信嗎？

最近一項研究引出了一些反思：這些進步很可疑。

這項研究，就是加州大學伯克利分校和MIT的幾名科學家在arXiv上公開的一篇論文：Do CIFAR-10 Classifiers Generalize to CIFAR-10?。

解釋一下，這個看似詭異的問題——「CIFAR-10分類器能否泛化到CIFAR-10？」，針對的是當今深度學習研究的一個大缺陷：

看起來成績不錯的深度學習模型，在現實世界中不見得管用。因為很多模型和訓練方法取得的好成績，都來自對於那些著名基準驗證集的過擬合。

論文指出，過去5年間，大多數發表的論文擁抱了這樣一種範式：一種新的機器學習方法在幾個關鍵基準測試中數據，就決定了它的地位。

然而，這種方法與前人相比，為什麼會有這樣的進步？卻很少有人解釋。我們對於進步的感知主要基於幾個標準的基準測試，比如CIFAR-10、ImageNet、MuJoCo。

這就帶來了一個關鍵的問題：我們目前對機器學習進步的衡量方法，有多可靠？

這個指控，幾乎要質疑圖像分類演算法幾年來的一切進步。

空口無憑，如何證明？

為了說明這個問題，幾位作者拿出30個在CIFAR-10驗證集上表現良好的圖像分類模型，換一個數據集來測試它們，用結果說話。

CIFAR-10包含60000張32×32像素的彩色圖像，平均分為5個訓練批次（batch）和1個測試批次圖像共有10類：飛機、小汽車、鳥、貓、鹿、狗、青蛙、馬、船、卡車。

當然，如果隨便找個數據集來測試，有欺負AI的嫌疑。他們為此專門造了一個和CIFAR-10非常相似的測試集，包含2000張新圖片，一樣的圖片來源，一樣的數據子類別分布，甚至連構建過程中的分工都學了過來。

這個新數據集，也就是論文標題中提到的第二個CIFAR-10，確切地說應該是「高仿CIFAR-10的小型測試集」。

新測試集給模型帶來了明顯的打擊，戰況如下：

著名的VGG和ResNet，分類準確率從93%左右下降到了85%左右，8個百分點憑空消失。

各位作者還在準確率的差異上，發現了一個小趨勢。在原版CIFAR-10上準確率比較高的那些新模型，在新測試集上的成績下滑不那麼明顯。

比如說成績最好的Shake Shake模型，在新舊測試集上的準確率只差4個百分點。

論文中說，這個小趨勢說明換個數據集成績就下降可能不是因為基於適應性的過擬合，而是因為新舊測試集之間，數據的分布上有一些小變化。

但終究，那些為CIFAR-10打造的分類器，泛化性能依然堪憂。

質疑引熱議

這個研究如同一枚深水炸彈。

前不久曾撰文唱衰人工智慧的的Filip Piekniewski，稱讚這篇論文是一個偉大的研究。他還把這個問題，稱為「元過擬合」（meta-overfitting）。他還批評機器學習這幾年只關注幾個數據集，不關注現實情況。

俄勒岡州立大學教授Thomas G. Dietterich指出，不僅僅是CIFAR10，所有的測試數據集都被研究者們很快搞得過擬合了。測試基準需要不斷有新的數據集注入。

「我在MNIST上也見過類似的情況。一個準確率達到99%的分類器，換一個全新的手寫數據集，立刻掉到90%。」OpenAI的研究員Yaroslav Bulatov說。

Keras作者Fran?ois Chollet顯得更為激動。他說：「顯而易見的是，一大票目前的深度學習tricks都對知名的基準測試集過擬合了，包括CIFAR10。至少從2015年以來，ImageNet也存在這個問題。」

如果你的論文，需要固定的驗證集，以及特定的方法、架構和超參數。那麼這個就不是驗證集，而是訓練集。這種特定的方法，也不一定能泛化到真實數據上。
深度學習的研究，很多時候使用了並不科學的方法。驗證集過擬合是一個值得注意的地方。其他問題還包括：基準太弱、實證結果不支持論文想法、大多數論文存在可重複性問題、結果後選等。

比方你參加Kaggle競賽時，如果只根據驗證集（public leaderboard）數據來調整你的模型，那麼你在測試集（private leaderboard）只會一直表現不佳。這在更廣泛的研究領域也是如此。
最後給一個非常簡單的建議，可以克服這些問題：使用高熵驗證過程，例如k-fold驗證，或者更進一步，使用帶shuffling的遞歸k-fold驗證。只在最後用官方驗證集上檢查結果。

「當然，這樣做成本更高。但成本本身就是一個正則因子：它迫使你謹慎行動，而不是把一大坨麵條扔到牆上，看最後哪根能粘住。」Fran?ois Chollet說。

不止圖像分類

其實，這個過擬合的問題並不是只出現在圖像分類研究上，其他模型同樣無法倖免。

今年年初，微軟亞洲研究院和阿里巴巴的NLP團隊，在機器閱讀理解數據集SQuAD上的成績超越了人類。

當時，SQuAD閱讀理解水平測試的主辦方，斯坦福NLP小組就對自己的數據集產生了懷疑。他們轉發的一條Twitter說：

好像整個研究界都在這個數據集上過擬合了。

Google Brain研究員David Ha也說，很期待在文本和翻譯領域也有類似的研究，他說如果在PTB上也看到類似的結果，那可真是一個好消息，也許更好的泛化方法會被發現。

論文

這篇論文的作者，包括來自UC Berkeley的Benjamin Recht、Rebecca Roelofs、Vaishaal Shankar，以及來自MIT的Ludwig Schmidt。

論文傳送門：

https://arxiv.org/abs/1806.00451

或者在量子位公眾號（ID：QbitAI）對話界面，回復：「451」三個數字，也能獲得下載地址。

— 完 —

歡迎大家關注我們的專欄：量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復「招聘」兩個字。

量子位 QbitAI · 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態