【強化學習】1-0 強化學習介紹

08-31

【強化學習】1-0 強化學習介紹

來自專欄強化學習--入門1 人贊了文章

title: 【強化學習】1-0 強化學習介紹 categories: - Reinforcement Learning - RL-An Introduction keywords: - 學習的本質 - 引發 - 結果 - 計算近似 - 直接建模 - 強化學習 toc: true date: 2018-08-22 23:35:56

文章來自 [https://face2ai.com/RL-RSAB-1-0-Introduction/](https://face2ai.com/RL-RSAB-1-0-Introduction/)

Abstract: 本文是《Reinforcement Learning: An Introduction》的第一篇，介紹本書以及本系列的主要寫作內容 Keywords: 學習的本質，誘發與結果(cause and effect)，計算近似，直接建模，強化學習

開篇廢話

本系列主要介紹強化學習，使用的教材為：

內容主要來自本教材以及其引用的論文，但是不限於此。此外，了解我的同學可能知道我喜歡說些沒用的廢話，本系列該環節省略。本系列部分專業名詞保持英文原文，不是為了裝x，因為翻譯怕不準影響後續學習。

Nature of Learning(學習的本質)

做人工智慧的，或者吹人工智慧的所有人應該都曾經嘗試思考過，學習的本質是什麼，因為我們的「智能」來自學習，可能也有一些遺傳因素，我們並不了解學習或者智能的本質是什麼，但是我們可以從我們的生活或者其他一些動物的行為和現象中得到一些啟示：

和環境的Interaction(我想翻譯成:「相互影響」，但是覺得不太對）

沒錯，所有有智能的動物，的所有智能都是來自周圍自然環境的，如果把一個人從出生就放在培養基中，完全隔絕所有能和我們行為互動的因素，那麼這個人很有可能就是一個有機體，不具備任何智能的器官的組合。而我們從出生就是開始和自然環境互動，一個嬰兒，揮動胳膊，蹬一下腿，或者搖搖頭，這些看起來毫無規律和目的的動作就已經跟周圍產生了Interaction

Cause and Effect (誘發與結果)

action的結果是我們從自然環境中獲得反饋，所以，我可以負責任的告訴你，BP(反向傳導)和現在的依靠BP訓練的所有神經網路就是若干年前的SVM沒什麼可以吹的，所以CNN的開創者們呼籲冷靜對待BP是有道理的，而且，可以肯定的是，你的智慧不是BP來的。

我們的智慧的獲得的一個主要過程就是，我們能夠總結，或者學習到，我們的動作（action）能夠產生什麼結果，然後，為了獲得某個結果，我們需要做什麼。這也是我們獲得智慧的主要來源就是這一些列的過程。

目前近乎所有關於學習和智能的基礎思想都是 —— 從interaction中學習。

Computational Approach or Directly Theorizing (計算近似 vs 直接建模)

人工智慧的最終目的就是讓機器有動物或者人一樣的智慧，而達到這個目的目前有兩種主流方案 - 直接建模 - 近似計算

直接建模的思想比較簡單，就是用複雜的演算法或者機制，直接產生智慧，目前來看有難度，畢竟智慧不是「雞兔同籠」或者「瘋狂的泳池管理員」這種數學模型。另一種做法是通過用演算法迭代，近似，自動的生成一個模型，來模擬一種行為（智慧的一部分），而這個過程主要有兩步： 1. explore 抽象的情況 2. evaluate 多種學習結果的 Effectiveness

這兩步就是AI研究人員和工程人員的主要研發對象了。他們的主要工作就是製造一部機器（演算法），解決類似的問題，這個機器(演算法)必須有以下特徵： 1. Evaluating -- 評估設計(通過數學分析) 2. Computational -- 計算近似結果

設計這個機器的過程，就是「強化學習」

強化學習只研究 goal-directed 學習過程，主要研究對象是Interaction。而不是其他例如殘差，或者其他損失函數，這些機器學習關注的目標。

總結

深度學習關注interaction，是一種goal-directed的過程，和其他機器學習演算法有本質的不同，更接近人或者智慧生物的學習過程。

文章來自 [https://face2ai.com/RL-RSAB-1-0-Introduction/](https://face2ai.com/RL-RSAB-1-0-Introduction/)