一句話表述人工智慧vs複雜系統核心概念
以下是人工智慧,大數據與複雜系統的核心概念一句話總結表,對應我8月要開展的特訓課程,希望諸位反饋,可以一起來講課,或加入學習課程的大軍!
I 人工智慧簡史 :
(1) 智能的定義: 智能即一個能夠從外界環境中吸入能量維持其自身結構並自我複製的程 序,生命越來越複雜智能程度越高, 能夠適應和改造環境, 使得自己的 複製機會最大。
(2) 遞歸與自指: 生命的最大特點在於遞歸性, 數學表示為x=f(x), 把輸出作為輸入返回給 系統, 遞歸和自指可以產生相當複雜的結構, 在音樂,繪畫, 自然中無 處不在,最典型的例子即分型結構的產生。
(3) 自我意識: n基礎是智能,而又與自指有著千絲萬縷的聯繫。
(4) 圖靈測試:阿蘭圖靈認為, 一個計算機程序, 其行為與人無異, 即通過圖靈測試。
(5) 圖靈機: n一個具有基本的輸入, 輸出並根據此連續運轉的機器, 根據當前狀態和歷史v 查詢規則表得到輸出,規則表即程序。
(6) 人工智慧符號學派: 從圖靈機演化而來, 將物理過程抽象為符號後得到一個圖靈機, 認為如果人能夠模擬這個機器的運轉即可以得到自然過程直到智能
(7) 人工智慧統計學派: 從數據反推得到智能, 認為無需考慮智能得來的具體過程, 只需 要具備和智能系統類似的把一定量的輸入轉化為輸出的能力即可, 這個黑箱系統是根據外界輸入輸出調整直到匹配的
(8) 人工智慧連接學派: 模擬大腦的結構, 認為網路是智能的載體, 由數據修改網路權重 得到智能。
貝葉斯與隨機過程:
1. 概率: 貝葉斯框架下的概率表達人對一個事物發生可能的信念大小。 經典頻率主義的概率 指特定事物發生的頻率, 暗含了對客觀規律可重複性的假設。n
2. 參數估計與假設檢驗: 參數擬合,用p_value衡量參數的置信性, 模型本身的置信度分析n
3. 條件概率: 在條件A下, B發生的可能性。
4. 貝葉斯公式: 根據證據調整概率的數學方法, 考慮結果到證據的可能性,結果本身出現的 可能性(先驗), 和證據出現的可能性。
5. 倖存者偏差: 忽略先驗概率只看證據導致的偏差。 n
5. 貝葉斯統計: 根據貝葉斯公式的概念,可以構建整個統計學框架, 以及人思考世界的方 法。
7. 樸素貝葉斯: 證據大於一且互相獨立,得到結果成立的概率
8. 貝葉斯決策: 貝葉斯公式基礎上的決策方法,根據證據調整假設空間的概率分布及最終的 收益期望,然後求期望最大化問題。
9. 隨機過程: 確定性過程研究一個量隨時間確定的變化,而隨機過程描述的是一個量隨時間 可能的變化,在這個過程里,每一個時刻變化的方向都是不確定的。
10. wiener process:當隨機過程單位時間的增量符合期望為0的高斯分布且隨時間獨立,即 wiener process, 是構成各種隨機過程的基礎
11. poisson process: 單位時間內的增量離散且符合poisson分布,不同時間段內增量相互 獨立的隨機過程。
12. levy process: wiener的推廣, 不受高斯限制。
13. monte carlos simulation: 用微觀隨機過程模擬從而求解宏觀確定性問題的方法
14. 馬爾科夫過程: 時間離散隨機過程,每步增量最多只與上一步相關,即馬爾科夫過程
機器學習:
監督學習演算法:監督學習的演算法通常被稱作「機」 或者「器」 , 可以大致的理解為根據一定假設將一定輸入變成一定輸出的黑箱, 它可以根據輸出結果和真實的差距取得反饋,並改變其參數,這個過程稱為學習,什麼樣的假設, 加上什麼樣的學習過程,就定義了這台機器, 是適合做烤雞,還是炸雞。
監督學習即根據標註數據學習的方法, 逼近x到y的真實過程(擬合)。
0, 分類與回歸:分類是最重要的機器學習問題,實現「模式識別」 , 從物理信號到概念(自然 語言)的過程。 回歸即連續函數逼近器。
1,KNN家族:KNN一種通過與最相似案例中的結果比較而得到預測結果的方法。
2,線性回歸: 特徵互相獨立, 特徵與預測目標之間存在線性相關性下對目標的預測方法。而 事實上, 通過設立懲罰項線性回歸可以擴展應用範圍巨大。
(1) 經典回歸分析:包括AIC,BIC,用R2(residual error)衡量模型的可解釋性。
(2) 高維回歸分析:Lasso regression,ridge regression 進行高維回歸分析
3,線性分類:特徵之間可以經過線性變化為獨立的簡單分類問題,在特徵空間求超平面。 Na?ve Bayes, LDA, 邏輯斯蒂回歸, 和SVM是處理這個問題的三種不同思路。
(1) LDA:假設特徵分布函數為高斯,通過求解數據分布變化最快的方向來進行分類(discriminent function)的方法,基礎類型為線性,擴展類型可包含各類曲面
(2) Na?ve Bayes: 特徵大於一且獨立,綜合每個特徵的概率函數得到分類的後驗概率的方法
(3) Logistic regression: 無需假設特徵分布,僅假設類分界面的邊界分布(marginal distribution)求類分布最大似然概率 - 解決多因子分類預測問題的基準方法
(4) Perceptron: 在Naive Bayes, Logistic基礎上進一步抽象, 用連接權重衡量特徵敏感性 , 即一層神經網路, 本質依然是線性分類。
(4) SVM: 特殊的一層神經網路, 用階梯函數取代sigmoid ,並用幾何方法求其交界面。
3,非線性分類:如果特徵之間不獨立,即非線性分類問題,以各種方法切割特徵空間。
(1) n決策樹: 根據信息增益按順序切割特徵空間, 解決特徵優先次序問題。
I 隨機森林: 決策樹並行減少統計偏差
II gradient boosting: 決策樹串列加大對出錯樣本訓練
(2) Kernel machine: svm的拉氏最優求解交界面上引入內積空間和非線性變換(kernel),將特徵空間映射到高維解 決非線性問題。
(3) 淺度神經網路: 對特徵空間上的每個局域進行不同係數的線性組合 ,用複雜曲面 模擬特徵之間的相關性。大於等於兩個隱層的神經網路即萬能函數逼近器, 層次更多進入深度學習部分。
(4) n貝葉斯網路: 用節點網路直接計算特徵之間的相關性對分類概率的影響
4, 時間序列預測
(1) ARIMA : 假設時間序列或其差分符合穩定特性, 通過線性回歸求解當下狀態和歷史的 自相關係數來預測時間序列的方法
(2)Hidden Markov Process : 假設可觀測的時間序列受一個隱變數控制且符合馬氏性, 通過EM方法預測時間序列
(3) n-gram language model : 假設此刻的狀態受之前n-1個時刻的狀態所控, 用graphic model 預測時間序列
(4) Kalman 濾波: 一種將動力學模型和統計檢驗相結合過濾時間序列信號雜訊的方法。
5. 特徵工程
(1)歸一化
(2)特徵變形: log,指數,限定範圍, 啞變數化
(3)特徵組合, 如交叉特徵
(4)特徵篩選: 用統計方法(相關性,互信息)或機器學習模型,如PCA,lasso回歸, 隨機森林選擇特徵
(5)缺失處理: 合理假設預測
6,模型選擇
(1) n方差-偏差矛盾n
(2) n維數災難:n模型複雜度, 數據複雜度,數據量, VCnnVC維
(3) n交叉驗證
深度學習:
1.深度判別模型:
(1)多層感知機: 多層感知機有高得多的變達效率,可以自動完成特徵工程步驟, 此為深度 學習基礎。
(2) 卷積網路: 層與層關係採用通用卷積結構,視覺處理的元件
(3) BP演算法: 將錯誤回傳到各層網路改變權重的方法
(4) 預訓練
2,深度生成模型 :
具有動力學特性的網路模型, 具有生成功能
(1) n 玻爾茲曼機: n具有記憶功能的網路, 可以被訓練用來恢復破壞的圖像
(2) n 受限玻爾茲曼機: 去掉顯層和隱層內部結構的玻爾茲曼機,更容易訓練
(3) n deep belief network:圖模型,回到貝葉斯網路
(4) n RNN: 動力學網路,具有記憶,萬能動力系統逼近器
(5) n ESN: 只需要訓練輸出層的RNN,與生物網路非常相近
(6) n neural turingnmachine : 能夠自動學習編程的機器, 學習語言能力強
3, 深度學習應用: 核心是「識別」問題, 從模擬信號中得到「字元」。
(1) n圖像識別: classic CNN example, 識別或圖像
(2) n 圖像生成 : GAN及對抗學習
(3) 複雜圖像應用: segmentation, 看圖說話等
(4) 語音識別: 從振動的聲音信號中得到表達文字的方法
(5) n 深度NLP: LSTM語言應用實戰, 深度編碼器,詞向量嵌入等
無監督學習:
用於對數據進行預處理, 求得其最大似然分布函數,用於發現可能存在的新類(新概念-聚類)或新特徵(PCA),或對數據進行降維. 無監督學習可以被總結為根據某種規則得到某個內在的自洽性, 由迭代法則決定。
I 降維方法:
(1) PCA : 通過線性坐標變換得到特徵空間里涵蓋最大方差的方向
(2) Embedding: 將高維數據嵌入到某個(更低緯度)空間結構的方法
(3) ICA:抽取數據中獨立變化成分的方法
II 聚類方法: 用於發現新概念
(1) K-means : 根據距離劃分類屬的迭代方法
(2) Gaussian mixtures: n用貝葉斯語言描述的k-means問題,n假設分布為高斯, 用EM迭 代(概率語言的機器學習和直接界面分類法貫穿始終的兩條主 線)
(3) LDA主題聚類: n假定詞語的分布是無序的, 從文本-》主題-詞包的邏輯進行文本生成, 通過EM進行訓練 。
III協同過濾n:不考慮具體item的特性, 利用群體匹配相似度最高的用戶來確定用戶喜好的方法
(1) SVD: 矩陣對角化的推廣方法, 適用於非對稱矩陣
強化學習:
強化學習與之前的隨機過程有著深刻的聯繫, 可以看做某種優化某個reward function的隨機過程
1, Belleman Equation: 局部最優之和等於全局最優的強假設下的條件期望優化方法
2 . Markov Decision Tree: 策略選擇只與上一步相關的決策過程
3, Q- learning: 優化馬爾科夫決策樹的學習方法
4, Temporal-dffierence learning : 根據想像與現實的落差調整策略的學習方法
5, 多臂老虎機:一種需要在探索與開發之間尋找平衡的馬氏優化過程
6. 深度強化學習: 機器學習未來之路
複雜系統:
研究相互作用與模式湧現的學科,從上帝視角看組織的形成,涵蓋生命到社會。
I 統計力學: n
(1) 熱力學平衡: 忽略相互作用在與外界能量交換的封閉系統里系統自由能最大達到熱力平 衡,高斯分布即可描述大部分統計特性, 在系統內單元數量足夠大的情況 下,我們可以用一個穩定定點描述整個系統。
(2) 相互作用: 單元間的相互作用產生不一樣的特性, 通常導致一定偏離高斯的統計分 布, 定點不能完全描述,典型例子為市場。
(3) pattern: 簡單相互作用在宏觀尺度形成一定模式: percolation model即可表現
(4) 湧現 n: pattern從無到有的過程, 如市場價格形成,組織的誕生
(5) 集群智慧: 蜂群, 蟻群在無數簡單作用下構成處理宏觀信息的有效群體, 呈現某種「智能」
(6) 相變: 系統在特定條件下模式發生變化的過程
(6) SOC: 自組織臨界, sandpile model為原型,系統無需特殊條件維持在相變點附近。
(7) 非平衡動力學: 系統在偏離平衡狀態下的演化方程-最典型的方程即Master equation。
(8) 拉格朗日方程:wiener process之上疊加漂移項,擴散方程推廣到Ornstein-Uhlenbeck process。
(9) Fractual: 跨尺度的相似性, 由動力學方法可以推演出的尺度效應。
(10)冪函數: 自組織臨界標誌性的分布函數,長尾效應。
II 非線性動力學:
(1) 反饋: n動力學過程的基本元素 , 反饋使得系統得以穩定在某個位置。
(2) 定點: n系統維繫在某個穩定位置
(3) 穩定性: 穩定性是複雜系統討論的根本屬性,從某種角度, 存在非合理,而是穩定。
(4) 相變bifurcation: 動力系統特性的根本改變, 如從一個定點跳躍到另一個定點
(5) 環: 循環的動力學模型,圍繞一定定點做的周期運動
(6) 混沌: n高維混沌系統不可預測
(7) 雜訊: n不同種類的雜訊對動力學系統特性產生不同影響,白雜訊可以增加系統搜索相空間的廣度,粉色雜訊通常是重要的風險來源。
III 複雜網路應用
(1) 小世界網路: 社會, 網際網路, 眾多生物系統所具有的共同網路特性, 兼具效率和穩定性。
(2) 複雜網路躍遷
(3) 複雜網路與反脆弱: 複雜網路的特定結構決定其對外界擾動的抗擊能力。
(4) 分散式系統與去中心化: blockchain,基於去中心化思想的區塊鏈解決虛擬物品的身份 認證問題
IV Agent base model
IIV 計算神經科學
(1) 神經元動力學模型: 從Hodykin-Huxley方程的角度看動力學系統
(2) 貝葉斯框架: 貝葉斯框架可以用於理解很多腦科學現象,如學習的本質。
(3) 生物神經網路模型: 生物神經網路更關注其動力學模式,用以解釋記憶,學習等現象, 從混沌到吸引子。
(4) 機器學習方法應用: 機器學習方法廣泛用於計算神經科學, 一些計算神經科學方法也 啟示AI, 貝葉斯。
IIIV社會組織結構的產生
(1) 社會網路
(2) 社會動力學
IX 複雜系統的角度看機器學習: 複雜科學解釋模式的產生, 機器學習識別模式, 對模式生成的基本預設會影響機器學習方法的使用:
(1)非線性: 對系統內部是否具有非線性的理解將決定機器學習方法
(2)維度思考: 維度決定問題的複雜性,從而決定採用機器學習模型的複雜度
(3)集群思考: 三個臭皮匠,頂個諸葛亮
(4)動力學: 機器學習統計模型與動力模型一旦結合,威力無比。
X 機器學習創業觀
推薦閱讀:
※你的心靈不限於大腦,也不限於身體
※動態系統之存量與流量|思維模型No2|
※深度學習之後:經濟推理與人工智慧
※目前有哪些解釋複雜系統「湧現性」的理論?
※Scalers:如果沒有經歷複雜,簡單易懂沒有意義