知乎專欄(Reinforcement Learning),寫什麼好?
一方面藉助專欄更能將想法圖文並茂的傳達給讀者,另一方面促進RL相關知識在知乎的傳播,交流,分享。希望各位哈姆雷特給出你們的讀點!同時也希望更多RL領域的人向此專欄獻作!
http://zhuanlan.zhihu.com/awkkk
自薦一下 智能單元 - 知乎專欄
我將在這裡分享深度增強學習相關的入門級教程,以及最前沿論文的分析。從理論到tensorflow代碼實現。目前的基本思路是
0 分享深度增強學習相關資源,當前深度學習最前沿研究方向0.1 最詳細分析AlphaGo演算法原理 深度解讀AlphaGo - 智能單元 - 知乎專欄1 深入分析DQN2 深入分析連續控制演算法3 以OpenAI Gym為應用測試平台歡迎大家關注!Neural Network 只是 reinforcement learning的一小部分。
Neural Network 只能實現policy network,但policy gradient才是 reinforcement learning 的重點。參考 Deep Q-Learning。可惜現在的所有深度學習庫無論是 tensorflow, theano, keras, tflearn, torch, lasagne, caffe 都只是提供 neural network框架。而沒有提供開源任何的 reinforcement learning 框架。最近開源的 TuneLayer 是唯一一個支持 reinforcement learning 的庫,而且是基於TensorFlow開發的,可以參考一下: https://github.com/zsdonghao/TuneLayer
謝邀。
寫在前面:我強烈反對的妖魔化 人工智慧學科。 自己入門的時候被國內各 「噪音」 干擾,特別討厭各種湊熱鬧的人,機器學習這個名詞都塊被弄成另一個民科的狂歡地。很悲哀。 討厭各種人裝逼,形成各種鄙視鏈,使得本來可以有機會進場的人被嚇出來。同時,鼓勵真正想學習AI理論和技術。不要怕數學和英語,不要怕不是大名校出身,不是計算機專業出身。目前互聯網資源已經鋪平了道路,完全沒有數學背景的人花兩年時間,我認為也是可能入門搞嚴肅的人工智慧應用的。 我曾經用1小時幫助學公共政策專業的朋友理解和實現了 k-NN演算法,並且他認為這個體驗對了解世界有幫助。可見,不藏著技術求優越感,不民科。無論出身,所有人都可以一起進步。
=========================正文:=================================
分享一點簡明的可以寫程序實踐例子。
加州伯克利的吃豆豆(pac-man)手把手實踐https://courses.edx.org/courses/BerkeleyX/CS188x_1/1T2013/infoBrown大學 Reinforcement Learning 的課程
Udacity
這裡面有一個reinforcement 的庫 BURLAP, 非常有名。大家可以嘗試使用實踐自己的簡單想法課程有介紹使用方法University London College 有一套RL的課程(油管 要 翻。·牆)
https://www.youtube.com/watch?v=2pWv7GOvuf0list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa大學課堂錄像,內容很棒,視頻效果一般,需要耐心吸收----------------------------------------------------------
可以寫一個貪吃蛇遊戲。 然後設計自己的AI去完成。拋磚引玉:狀態(特徵) 蛇的長度, 距離食物的距離,到邊界的距離,蛇的姿勢抽象成幾個特徵然後可以用它嘗試Q-learning
------------------------------------------------------------------或者參考我一個關於 機器人的回答:強化學習(Reinforcement Learning)可以讓掃地機器人適應家庭地形實現高效清掃么? - Lee Manners 的回答設計自己的掃地機器人。 用程序寫一個九宮格,然後隨機生成垃圾,讓機器去「清掃」。然後逐漸擴大地圖,設計一些障礙物聽說市面上有的掃地機器人都是隨機打掃的(未證實),搞不好研究出來還是個好的創業項目呢。--------------------前沿-------------------------------
RL可以多關注一個公司 DeepMind Google.對了,就是阿爾法狗的公司。 如上面匿名用戶提到這個公司一個研究是讓機器看人玩各種任天堂的遊戲,然後自己學。AAMAS他們有演示RL玩超級瑪利亞。 RL在複雜遊戲表現如何,目前還沒有消息(難度在特徵工程),研究由易到難嘛。
AAMAS會議 ICML會議 RL的文章特別多,質量也穩定
@sl my
Udacity 這門課有RL機器交易的內容,課程有先修依賴可以參考:cousera :台灣大學 概率論 / 台灣大學 林軒田 基石+技法希望有幫助。=========================跑題:==================================
我大學時候,也沒有方向亂轉。書買了看不完, 視頻課程幾百G沒幾套是完全看玩的。自己淹沒在各種信息里,而且很多是垃圾信息,成長的噪音。 很長時間不能認識數學和英語的重要性。
互聯網有了公開課後。我就一個笨辦法,假設國外名校的課程是有質量的。反覆聽,一本本抄寫筆記。Andrew Ng網易公開課帶字幕的那套,我放棄撿回來重新聽,反覆十幾次吧,前後掙扎2年之久。回去補了很多數學的東西。成長的過程就是痛苦的。總有人嘲笑,說數學那麼爛,大牛一個月刷完ESL,PRML云云。也有人說這個視頻好,那個書才棒,實際上他也沒有完整讀過。反覆自我懷疑,還是堅持下來。
知乎上面成長的噪音也開始多了。很多人和崇拜大名校,崇拜計算機專業特別是機器學習。有實質的內容和指導意義的東西慢慢被雜訊淹沒。 我還是對這個中文社區有盼望,曾經在上面獲益良多。也希望大家多分享交流相互學習進步。
最後分享點體會:
上著名網課(Andrew Ng Machine learning),或者看磚頭書(ESL)一定要整套整本看完。這裡看看那裡逛逛是沒用的。哪怕花幾年時間,完完全全搞懂一門課或者一本磚頭書,我認為也是有價值的。然而事實上抽熱鬧的人總是很多,資源大家都知道,完成的人很少。關鍵看這個專欄的定位和最終目標是什麼:科普,高級科普,工程性研究討論,理論性研究討論?然後最終是希望介紹一下RL還是希望能夠藉此嘗試一些小實驗乃至開源項目?無論如何首先能夠比較深入的介紹RL是必須的,RL能夠幹什麼不能幹什麼都肯定需要仔細討論下,然後RL有過的一些著名實驗也要看看,最後就結合一些具體的數據和嘗試可以做做小實驗。然後還有更大的計劃那就繼續腦洞~
被邀不勝惶恐.在我看來無論ML, DL, RL都不是目的, 而是工具, 怎樣合適地使用, 有效地用它來解決自己領域的問題, 這些都需要各自思考, 然後交流, 互相借鑒. 或許專欄這種輸出大於輸入的, 還需要專家們來多說說, 大家上知乎主要也是為了能看到更專業的人說更專業的話. 我這種民科吧, 只有理論基礎沒有實驗經驗, 不敢隨便給人講解, 從我而言, 更希望看到正在從事這方面研究的人展示一下他們的實驗成果, 應用效果好才能更好地獲得關注, 對於研究者來說, 獲取外界關注也是提升自身科研影響力的重要一步嘛. 大家都想看看這個能不能用在自己的領域, 成為自己的黑科技. 當然如果之後我有相關的項目, 我也會很樂於去分享一二的.這樣看來或許企鵝群這種快速交流的形式更加適合, 當然必須得有幾個帶得動的群主, 一群充滿疑問的少年咯. 至於知乎專欄, 一些深入淺出的科普文, 一些最新發布的黑科技, 時不時有大牛過來吐槽一二, 應該足矣.
寫怎麼用RL訓練AI打電子競技,先從打豆豆開始,再寫打超級瑪麗,再寫打毀滅戰士,再寫打星際2,再寫打dota2 再寫打英雄聯盟
樓主可以組個作者團自己一邊寫一邊作為編輯在本樓四處騷擾約稿.. .
既然是剛開的專欄,我覺得應該先培養一批讀者,即可以深入淺出的介紹RL開始,之後介紹一些相關知識,再介紹一些有趣的,簡單易懂的例子。希望可以採納。
希望講講RL在程序化交易方面的應用,謝謝
把一些有趣的文章深入淺出的配合圖文講解出來吧~
我希望可以用一些實際有趣的例子,來講講RL是怎麼下棋的,是怎麼預測股票的,怎麼控制飛機平衡的...
推薦閱讀:
※如何評價Frank L. Lewis的學術成果及其團隊現狀?
※人工智慧深度學習的演算法可以應用到工業的機械臂上嗎?
※對比全球,中國人工智慧技術在近兩年有什麼大的進展?
※機器學習中,序列問題是否都能轉變為回歸或者分類問題?
※深度強化學習訓練環境如何構建?
TAG:人工智慧 | 機器學習 | 深度學習DeepLearning | 知乎專欄 | 強化學習ReinforcementLearning |