機器學習論文筆記（二）Practical Block-wise Neural Network Architecture Generation

05-16

（機器學習論文筆記二）Practical Block-wise Neural Network Architecture Generation

實用的基於塊的神經網路體系結構生成
論文地址：https://arxiv.org/pdf/1708.05552
簡介：這篇文章介紹了一種通過強化學習的方法自動的生成神經網路，來到的一直在向強人工智慧向邁進的過程。筆者認為這篇文章最大的意義在於它完善了我們「造輪子的過程」，在本文中，我們提供了一個基於塊的網路生成管道，稱為BlockQNN，它使用具有epsilon-greedy探索策略的Q-Learning範式自動構建高性能網路。

主要的優點有：

1)與手工製作的最先進的圖像分類網路相比，它具有競爭性的結果，另外，BlockQNN生成的最佳網路實現了3.54%的top-1錯誤在CIFAR-10上打敗了所有現有的自動生成網路。

(2)同時，它在設計網路中的搜索空間大大減少，僅花費3天32 GPUs;

(3) 此外，它具有很強的普遍性，即建立在CIFAR上的網路在較大規模的網路上也表現良好，規模較大的 ImageNet數據集。

介紹產生背景

為了適應CNN在CV中飛速的發展，傳統的人工搭建網路的方法已經有些力不從心，我們提出來一種可以吧網路的各個組件模塊化的方法來實現網路的自動生成

比較：與NAS相比，37]和MetaQNN，

NAS：https://www.google.com.hk/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&ved=0ahUKEwjj_PD4hOfaAhVBKpQKHcVXA3EQFgg3MAE&url=%68%74%74%70%73%3a%2f%2f%6f%70%65%6e%72%65%76%69%65%77%2e%6e%65%74%2f%70%64%66%3f%69%64%3d%72%31%55%65%38%48%63%78%67&usg=AOvVaw0tJjG8YIWsFY75XlJFQztw

MateQNN:https://www.google.com.hk/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&ved=0ahUKEwiouLzChefaAhUFFpQKHcBLATEQFggvMAE&url=%68%74%74%70%73%3a%2f%2f%6f%70%65%6e%72%65%76%69%65%77%2e%6e%65%74%2f%70%64%66%3f%69%64%3d%53%31%63%32%63%76%71%65%65&usg=AOvVaw2s-bVKLoGp1A6LhDjRygSH

上面這張圖反映了一個比較的過程

BlockQNN(紅色框右側)與黃色手工製作的網路和綠色的現有自動生成網路相比較。自動生成普通網路[2, 37]標記為藍色需要較大的計算成本來搜索每個單層的最佳層類型和超參數，而塊式網路大大降低了僅僅為一個塊搜索結構的成本。然後通過堆疊生成的塊來構建整個網路。類似的區塊概念已被證明在手工製作的網路中的優越性，例如以紅色標記的起始塊和殘留塊。

同時我們加入了一個提前終止的策略和分散式非同步計算。

我們設計出來的網路是基於現代inception ,resnet等等架構

我們可以看到他每一個模塊。有一個自己的是否有標籤以及他所在的成熟。還有一個就是卷積核的大小。如果沒有的話，不是卷積核，那麼它的size就是零。還有一個，就是pred1，pred2分別是他的前驅1和前驅2，我們假定只有兩個我們可以生成。有一個自己的是否有標籤以及他所在的成熟。還有一個就是卷積核的大小。如果沒有的話，不是卷積核，那麼它的size就是零。我們假定只有兩個前驅。然後如果超過了兩個的，我們會用concat的來連接多個塊。

在這裡我們定義了一個五元組。第一個元素是指他所在的塊的編號，第二個是指他這個塊會所代表的含義，一共有七種。第三個是他卷積核的大小，第四個，第五個是他的前驅。

這篇文章就提供了一種方法我們通過學習這樣的一個網路然後達到生成一個我們需要的網路的目的，上圖就是我們搜索這個生存的網路的一個這篇文章就提供了一種方法，我們通過學習這樣的一個網路，然後達到深層一個，我們需要的網路的目的。上圖就是我們搜索這個生存的網路的一個過程，然後我們通過。下面的一個方法來打擾我們，生成網路的訓練的收斂。

我們通過Agent samples，然後通過這個採樣生成的網路進行一個任務的訓練，訓練之後更新這個Q值用更新的，然後繼續來採樣更新，達到一個循環的過程。這個循環了之後我的q不斷的優化然後我的生成的網路也越來越好。

其中α是確定新獲得的信息如何覆蓋舊信息的學習率，γ是衡量未來獎勵重要性的折扣因子。 rt表示當前狀態st觀察到的中間獎勵，而sT表示最終狀態，即終端層。 rT是相應的驗證準確度。

提前終止 Early Stop Strategy

引入分塊代確實提高了效率。但是，完成搜索過程仍然很耗時。為了進一步加快學習過程，我們引入了早期停止策略。好的塊在早期停止訓練時不幸地表現得比壞塊差。同時，我們注意到相應塊的FLOP和密度具有負相關性

分散式非同步框架Framework and Training Details

Distributed ：它由三部分組成:主節點，控制器節點和計算節點。代理首先在主節點中採樣一批塊結構。之後，我們將它們存儲在一個控制器節點中，該控制器節點使用塊結構來構建整個網路並將這些網路分配給計算節點。

https://arxiv.org/pdf/1412.1710.pdf

訓練策略：貪心

Block-A,Block-B是無限參數設置，block-c是有限參數設置的，

他的優點主要體現在對資源的極大優化上。並且具有不錯的泛化能力，這一點可以從CIFAR學習的塊結構轉移到Ima-geNet數據集看出來。

summary

使用分散式非同步Q- learning框架和早期停止策略，專註於快速塊結構搜索。

*在一定程度上Block-QNN網路在圖像分類任務中勝過現代手工製作的網路以及其他自動生成的網路。

**在CIFAR上實現最先進的性能的最佳模塊結構可以輕鬆轉移到大型數據集ImageNet，並且與最佳手工網路相比，還可以產生具有競爭力的性能。

Ps：加一下個人的感受吧，首先這篇paper是我導師的師弟在自動化所讀博寫的，我覺得我覺得這是一個非常有意義的工作。和以前的工作比起來，她更智能化了，她把我們的人工智慧推向了更高的一個層次，就是通過人工智慧他這個網路的學習能力來優化網路，就好像讓機器學會自己給自己編程一樣的道理，如果我們能把這個優化網路的過程做得更好。那麼我們覺得在未來我們強人工智慧的夢想並不是那麼的遙遠。而且藉助這種生成網路的能力，我們可以更快的加速我們研究的過程，為我們將來的發展增加更多的一種助力。現在我們還只是在一種。比較原始的自己造輪子的過程可是有一天到了我們可以讓機器隨著我們的意志去造輪子的時候那麼我們的發展速度肯定會有一個更大的飛躍。所以我也希望我能親歷那樣的一天。

5月4日深夜12:36，陳揚在宿舍的走廊外寫完。