遺傳演算法和深度強化學習的結合會是新的方向嗎?

目前是個在看深度強化學習的小白,之前看到一個觀點,說是人工智慧目前無法超越人類的一個原因是由於人本身是有基因庫遺傳的,而目前的機器學習都是從零開始學習,那麼考慮將模擬基因優化的遺傳演算法與深度強化學習結合會不會是一個新的發展方向呢?或者已經有類似的做法了,求大神們推薦


一、不要輕易說遺傳演算法和進化演算法是垃圾,先查查tsp等一大類NP完全的組合問題的最優近似解是用什麼方法解出來的。
二、再去查查基於物理的人形機器人模擬中,下一個時刻的各個關節的加速度是怎麼算出來的,規約成優化問題後,這個優化問題是用什麼方法來求解的。
三、不看好進化演算法和深度學習的結合,原因在於計算力。進化演算法的種群大小一般在三十左右。也就是說得要有接近一百張顯卡,並且要讓他們同時跑起來,還要解決他們之間的通訊問題。
你如果不是一個院士,或者在谷歌工作,你根本沒有必要考慮這個問題。


不能說是全新的方向,但在效能上也許能夠提升。最近DeepMind的一個工作就是把神經網路和遺傳演算法結合,結果在遷移學習方面能力會比其他方法更好。論文搜一下pathnet應該就能找到


2012年我就用MATLAB試過遺傳演算法+普通的神經網路訓練,訓練是小樣本,訓練數據六七十組,預測數據三四十組。

結果是:
只要時間足夠,確實可以得到預測和回測精度更高的網路,大概能從預測80%左右提高到90%左右

然而,被放棄掉的模型數量是海量的,幾十萬里能出一個就不錯了,這還是小數據量,你上個更高數據量的訓練集試試?

人最寶貴的是時間


基因編碼和現在的feed forward network有實質區別,主要是更新方式不同,一個是依賴勉強算是貝葉斯的突變,一個是鏈式bp反饋。。。。至於細胞編碼,大同小異。。。所以如何統一信息反饋才是難點


推薦閱讀:

使用流行的遺傳演算法python庫是哪個?
蒙特卡洛演算法與遺傳演算法的區別是什麼?
數學建模中的規劃問題怎麼求解?
輪盤賭算?
誰能通俗的講解一下NSGA-II多目標遺傳演算法?

TAG:人工智慧 | 遺傳演算法 | 深度學習DeepLearning | 強化學習ReinforcementLearning |