【ML筆記】零基礎學懂機器學習(一)
機器學習概述
定義
機器學習是一種在沒有具體編程的情況下教計算機學習的能力。例如,機器學習通常被用來訓練計算機來執行一些難以用編程手段來完成的任務。
學習過程
一般來說,無論是人還是機器學習過程大致都分為以下四個步驟:
a) 數據累積(data storage):使用觀察、記憶和聯想的方法來為進一步的推理提供事實依據;
b) 抽象思維(Abstraction):將存儲的數據轉換為更廣泛的表示和概念;
c) 理論概括(Generalization):使用抽象化的數據來創建在新環境下採取進一步動作的知識和推論;
d) 評估過程(Evaluation):為學習過程提供反饋機制以衡量所學知識的實用性並帶來潛在的效果提升;
種類
機器學習種類有:監督學習(supervised Learning)、強化學習(reinforcement learning)、非監督學習(unsupervised learning),如下圖3-1。
a) 監督學習是最常見的一種機器學習,它的訓練數據是有標籤的,訓練目標是能夠給新數據(測試數據)以正確的標籤。例如,將郵件進行是否垃圾郵件的分類,一開始我們先將一些郵件及其標籤(垃圾郵件或非垃圾郵件)一起進行訓練,學習模型不斷捕捉這些郵件與標籤間的聯繫進行自我調整和完善,然後我們給一些不帶標籤的新郵件,讓該模型對新郵件進行是否是垃圾郵件的分類。
b) 非監督學習常常被用於數據挖掘,用於在大量無標籤數據中發現些什麼她的訓練數據是無標籤的,訓練目標是能對觀察值進行分類或者區分等。例如非監督學習應該能在不給任何額外提示的情況下,僅依據所有「花」的圖片的特徵,將「花」的圖片從大量的各種各樣的圖片中將區分出來。
c) 強化學習通常被用在機器人技術上(例如機械狗),它接收機器人當前狀態,演算法的目標是訓練機器來做出各種特定行為。工作流程多是:機器被放置在一個特定環境中,在這個環境里機器可以持續性地進行自我訓練,而環境會給出或正或負的反饋。機器會從以往的行動經驗中得到提升並最終找到最好的知識內容來幫助它做出最有效的行為決策。
機器學習分類
主要應用
a) 手寫識別(handwriting recognition):它可以識別手寫文字,這樣就可以將手寫文字直接轉變為數字文字。
b) 語言轉換(language translation):對口語或書面文字進行翻譯。
c) 語音識別(speech recognition):識別語音並將語音片段轉換成文本。
d) 圖片分類(image classification):將圖片進行合適的分類。
e) 自主駕駛(autonomous driving):使車能自己行駛。
特徵
特徵是用來形成預測或者模型的觀察值。例如,在圖片分類中,像素點就是特徵;在語音識別中,聲音的音調和音量就是特徵;在自主汽車中,來自攝像機、距離感測器和GPU中的數據就是特徵。
對於建立一個模型來說,提取有意義的特徵是非常重要。例如,在分類圖片時,當天時間就是無意義的特徵,而在分類垃圾郵件時,當天時間就是非常有用的信息,因為垃圾郵件一般是在夜間發送的。
機器人中常見的特徵類型:像素點(RGB數據)、深度數據(聲納或激光測距儀)、運動(編碼器值)、方位選擇或者加速(迴轉儀、加速器或羅盤)。
註:在大多數情況下,有越多的可用特徵越好,雖然這可能更耗時;激光距離儀很貴,但它產生的特徵(360 degree depth maps)對導航是很有用的;攝像機是便宜的,來自攝像機的深度數據處理是很耗費計算資源的。
分類正確度測定
分類正確度測定:true positive、true negative、false positive、false negative。具體含義如圖1示:
圖1:識別貓的測試結果
常用的度量有三種:precision、recall和accuracy。其中 # 表示數目,Precision=(#true positives)/(#true positives+ #false positives),
Recall=(#true positives)/(#true positive + #false negatives),
Accuracy=(# true positives + # true negatives)/(# of samples),
在信息檢索領域,精確率(precision)和召回率(recall)又被稱為:查准率和查重率。
其他機器學習演算法測評指標:top3和top5的錯誤率:指正確label不在model預測的前三個或前五個答案當中。再解釋一下,「top1正確」就是你預測的label取最後概率向量裡面最大的那一個作為預測結果,你的預測結果中概率最大的那個類必須是正確類別才算預測正確。而「top5正確」就是最後概率向量最大的前五名中出現了正確概率即為預測正確。
這個指標的意義是:「ImageNet數據集Label有一定的誤差,很多圖片人類看來可以歸為好幾個類,所以就用top-x當一個重要的評測標準」
推薦閱讀:
※非監督學習演算法--K均值聚類
※視頻有哪幾種——大量高維稀疏數據聚類分析實戰
※機器學習筆記24 —— 推薦系統
※本期最新 9 篇論文,每一篇都想推薦給你 | PaperDaily #14
※深度學習在計算機視覺領域的前沿進展
TAG:有监督学习 | 强化学习ReinforcementLearning | 无监督学习 |