知乎專欄(Reinforcement Learning),寫什麼好?

一方面藉助專欄更能將想法圖文並茂的傳達給讀者,另一方面促進RL相關知識在知乎的傳播,交流,分享。希望各位哈姆雷特給出你們的讀點!同時也希望更多RL領域的人向此專欄獻作!

http://zhuanlan.zhihu.com/awkkk


自薦一下 智能單元 - 知乎專欄

我將在這裡分享深度增強學習相關的入門級教程,以及最前沿論文的分析。

從理論到tensorflow代碼實現。

目前的基本思路是

0 分享深度增強學習相關資源,當前深度學習最前沿研究方向

0.1 最詳細分析AlphaGo演算法原理 深度解讀AlphaGo - 智能單元 - 知乎專欄

1 深入分析DQN

2 深入分析連續控制演算法

3 以OpenAI Gym為應用測試平台

歡迎大家關注!


Neural Network 只是 reinforcement learning的一小部分。

Neural Network 只能實現policy network,但policy gradient才是 reinforcement learning 的重點。參考 Deep Q-Learning。

可惜現在的所有深度學習庫無論是 tensorflow, theano, keras, tflearn, torch, lasagne, caffe 都只是提供 neural network框架。而沒有提供開源任何的 reinforcement learning 框架。

最近開源的 TuneLayer 是唯一一個支持 reinforcement learning 的庫,而且是基於TensorFlow開發的,可以參考一下: https://github.com/zsdonghao/TuneLayer


謝邀。

寫在前面:

我強烈反對的妖魔化 人工智慧學科。 自己入門的時候被國內各 「噪音」 干擾,特別討厭各種湊熱鬧的人,機器學習這個名詞都塊被弄成另一個民科的狂歡地。很悲哀。 討厭各種人裝逼,形成各種鄙視鏈,使得本來可以有機會進場的人被嚇出來。

同時,鼓勵真正想學習AI理論和技術。不要怕數學和英語,不要怕不是大名校出身,不是計算機專業出身。目前互聯網資源已經鋪平了道路,完全沒有數學背景的人花兩年時間,我認為也是可能入門搞嚴肅的人工智慧應用的。 我曾經用1小時幫助學公共政策專業的朋友理解和實現了 k-NN演算法,並且他認為這個體驗對了解世界有幫助。可見,不藏著技術求優越感,不民科。無論出身,所有人都可以一起進步。

=========================正文:=================================

分享一點簡明的可以寫程序實踐例子。

加州伯克利的吃豆豆(pac-man)手把手實踐

https://courses.edx.org/courses/BerkeleyX/CS188x_1/1T2013/info

Brown大學 Reinforcement Learning 的課程

Udacity

這裡面有一個reinforcement 的庫 BURLAP, 非常有名。大家可以嘗試使用實踐自己的簡單想法

課程有介紹使用方法

University London College 有一套RL的課程(油管 要 翻。·牆)

https://www.youtube.com/watch?v=2pWv7GOvuf0list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa

大學課堂錄像,內容很棒,視頻效果一般,需要耐心吸收

----------------------------------------------------------

可以寫一個貪吃蛇遊戲。 然後設計自己的AI去完成。

拋磚引玉:

狀態(特徵) 蛇的長度, 距離食物的距離,到邊界的距離,蛇的姿勢抽象成幾個特徵

然後可以用它嘗試Q-learning

------------------------------------------------------------------

或者參考我一個關於 機器人的回答:

強化學習(Reinforcement Learning)可以讓掃地機器人適應家庭地形實現高效清掃么? - Lee Manners 的回答

設計自己的掃地機器人。

用程序寫一個九宮格,然後隨機生成垃圾,讓機器去「清掃」。然後逐漸擴大地圖,設計一些障礙物

聽說市面上有的掃地機器人都是隨機打掃的(未證實),搞不好研究出來還是個好的創業項目呢。

--------------------前沿-------------------------------

RL可以多關注一個公司 DeepMind Google.對了,就是阿爾法狗的公司。

如上面匿名用戶提到

這個公司一個研究是讓機器看人玩各種任天堂的遊戲,然後自己學。AAMAS他們有演示RL玩超級瑪利亞。 RL在複雜遊戲表現如何,目前還沒有消息(難度在特徵工程),研究由易到難嘛。

AAMAS會議 ICML會議 RL的文章特別多,質量也穩定

@sl my

Udacity 這門課有RL機器交易的內容,課程有先修依賴可以參考:

cousera :台灣大學 概率論 / 台灣大學 林軒田 基石+技法

希望有幫助。

=========================題:==================================

我大學時候,也沒有方向亂轉。書買了看不完, 視頻課程幾百G沒幾套是完全看玩的。自己淹沒在各種信息里,而且很多是垃圾信息,成長的噪音。 很長時間不能認識數學和英語的重要性。

互聯網有了公開課後。我就一個笨辦法,假設國外名校的課程是有質量的。反覆聽,一本本抄寫筆記。Andrew Ng網易公開課帶字幕的那套,我放棄撿回來重新聽,反覆十幾次吧,前後掙扎2年之久。回去補了很多數學的東西。成長的過程就是痛苦的。總有人嘲笑,說數學那麼爛,大牛一個月刷完ESL,PRML云云。也有人說這個視頻好,那個書才棒,實際上他也沒有完整讀過。反覆自我懷疑,還是堅持下來。

知乎上面成長的噪音也開始多了。很多人和崇拜大名校,崇拜計算機專業特別是機器學習。有實質的內容和指導意義的東西慢慢被雜訊淹沒。 我還是對這個中文社區有盼望,曾經在上面獲益良多。也希望大家多分享交流相互學習進步。

最後分享點體會:

上著名網課(Andrew Ng Machine learning),或者看磚頭書(ESL)一定要整套整本看完。這裡看看那裡逛逛是沒用的。哪怕花幾年時間,完完全全搞懂一門課或者一本磚頭書,我認為也是有價值的。然而事實上抽熱鬧的人總是很多,資源大家都知道,完成的人很少。


關鍵看這個專欄的定位和最終目標是什麼:科普,高級科普,工程性研究討論,理論性研究討論?然後最終是希望介紹一下RL還是希望能夠藉此嘗試一些小實驗乃至開源項目?

無論如何首先能夠比較深入的介紹RL是必須的,RL能夠幹什麼不能幹什麼都肯定需要仔細討論下,然後RL有過的一些著名實驗也要看看,最後就結合一些具體的數據和嘗試可以做做小實驗。然後還有更大的計劃那就繼續腦洞~


被邀不勝惶恐.

在我看來無論ML, DL, RL都不是目的, 而是工具, 怎樣合適地使用, 有效地用它來解決自己領域的問題, 這些都需要各自思考, 然後交流, 互相借鑒.

或許專欄這種輸出大於輸入的, 還需要專家們來多說說, 大家上知乎主要也是為了能看到更專業的人說更專業的話. 我這種民科吧, 只有理論基礎沒有實驗經驗, 不敢隨便給人講解, 從我而言, 更希望看到正在從事這方面研究的人展示一下他們的實驗成果, 應用效果好才能更好地獲得關注, 對於研究者來說, 獲取外界關注也是提升自身科研影響力的重要一步嘛. 大家都想看看這個能不能用在自己的領域, 成為自己的黑科技. 當然如果之後我有相關的項目, 我也會很樂於去分享一二的.

這樣看來或許企鵝群這種快速交流的形式更加適合, 當然必須得有幾個帶得動的群主, 一群充滿疑問的少年咯.

至於知乎專欄, 一些深入淺出的科普文, 一些最新發布的黑科技, 時不時有大牛過來吐槽一二, 應該足矣.


寫怎麼用RL訓練AI打電子競技,先從打豆豆開始,再寫打超級瑪麗,再寫打毀滅戰士,再寫打星際2,再寫打dota2 再寫打英雄聯盟


樓主可以組個作者團自己一邊寫一邊作為編輯在本樓四處騷擾約稿.. .


既然是剛開的專欄,我覺得應該先培養一批讀者,即可以深入淺出的介紹RL開始,之後介紹一些相關知識,再介紹一些有趣的,簡單易懂的例子。希望可以採納。


希望講講RL在程序化交易方面的應用,謝謝


把一些有趣的文章深入淺出的配合圖文講解出來吧~


我希望可以用一些實際有趣的例子,來講講RL是怎麼下棋的,是怎麼預測股票的,怎麼控制飛機平衡的...


推薦閱讀:

如何評價Frank L. Lewis的學術成果及其團隊現狀?
人工智慧深度學習的演算法可以應用到工業的機械臂上嗎?
對比全球,中國人工智慧技術在近兩年有什麼大的進展?
機器學習中,序列問題是否都能轉變為回歸或者分類問題?
深度強化學習訓練環境如何構建?

TAG:人工智慧 | 機器學習 | 深度學習DeepLearning | 知乎專欄 | 強化學習ReinforcementLearning |