標籤:

李宏毅機器學習2016 第六講 深度學習

視頻鏈接:李宏毅機器學習(2016)_演講?公開課_科技_bilibili_嗶哩嗶哩

課程資源:Hung-yi Lee

課程相關PPT已經打包命名好了:鏈接:pan.baidu.com/s/1c3Jyh6 密碼:77u5

我的第五講筆記:李宏毅機器學習2016 第五講 邏輯回歸

Deep Learning

本章節首先介紹了深度學習的歷史,然後較為詳細地講解了深度學習的三大步。

1.深度學習的起起伏伏

深度學習歷史

其實在1958年就已經提出了感知機模型,其和上一節所講的邏輯回歸相比,只是最後計算值沒有經過sigmoid函數處理。而是通過sgn函數輸出結果0或1.

多層感知機模型在80年代就已經提出,很多人會問其和深度學習有什麼區別?其實在之前06年RBM受限制玻爾茲曼機模型,如果說初始化用的是RBM就是深度學習,否則就是多層感知機,不過這一想法被否定了,因為人們發現這個RBM並沒有那麼大用處,就像是「石頭湯」裡面的石頭一樣。

GPU的利用極大的提升了深度學習的計算能力。

在12年的時候,深度學習參加ILSVRC圖像大賽奪冠,引起了人們的關注。

2.深度學習三大步

深度學習和之前講的其他機器學習方法沒有很大區別,第一步是選擇神經網路,第二步是定義函數好壞標準,第三步就是選擇一個好的函數。這就像把大象放進冰箱一樣簡單。

Step1:

不同的連接方式會得到不同神經網路結構,最常見的就是全連接神經網路。

給一個網路結構,就定義了一個函數集;有確切的w和b,就是一個具體的函數。

不同的網路結構

通過矩陣運算以及GPU的並行計算能力能夠加速網路的學習。

深度學習明顯的優勢在於不用手動的去做特徵工程,而是可以通過定義網路結構隱藏層等使得網路可以自動提取特徵。

常見問題

step2:定義函數好壞標準

損失函數用的是交叉熵函數,對於所有的訓練樣本,得到損失值,再進行參數更新找到能夠使得損失最小的函數。

step3:挑選最佳函數

方法還是用的gradient descent,即使是阿爾法狗都是用的梯度下降。

計算偏導在神經網路中會較為複雜,但是現成有很多庫能夠幫助我們較快的計算出偏導。

例如TensorFlow、caffe、theano等等。

3.思考

具有一個隱藏層的網路結構就可以表示任意複雜的函數,只要有足夠的隱藏單元。

所以,為什麼要選擇深的網路而不是選擇胖的呢?


推薦閱讀:

Python · 決策樹(零)· 簡介
刷臉進站+語音購票,AI 時代已經來臨
機器學習系列-廣義線性模型
MIT線性代數課程精細筆記[第九課]
[導讀]不平衡數據的解決之道

TAG:机器学习 |