關於機器學習,你需要知道的三件事!
摘要: MATLAB開發運營團隊深度解析何為機器學習,什麼時候使用機器學習,如何選擇機器學習演算法,MATLAB到底能為機器學習提供怎樣的便利?
原文鏈接:http://click.aliyun.com/m/43053/
機器學習是一種數據分析技術,讓計算機執行人和動物與生俱來的活動:從經驗中學習。機器學習演算法使用計算方法直接從數據中「學習」信息,而不依賴於預定方程模型。當可用於學習的樣本數量增加時,這些演算法可自適應提高性能。
一.機器學習為什麼那麼重要?
隨著大數據應用增加,機器學習已成為解決以下領域問題的一項關鍵技術:
· 1.計算金融學,用於信用評估和演算法交易。
· 2.圖像處理和計算機視覺,用於人臉識別、運動檢測和對象檢測。
· 3.計算生物學,用於腫瘤檢測、藥物發現和 DNA 序列分析。
· 4.能源生產,用於預測價格和負載。
· 5.汽車、航空航天和製造業,用於預見性維護。
· 6.自然語言處理,用於語音識別應用。
更多數據、更多問題、更好的解答
機器學習演算法能夠在產生洞察力的數據中發現自然模式,幫助你更好地制定決策和做出預測。醫療診斷、股票交易、能量負荷預測及更多行業每天都在使用這些演算法制定關鍵決策。例如,媒體網站依靠機器學習演算法從數百萬種選項中篩選出為你推薦的歌曲或影片。零售商利用這些演算法深入了解客戶的購買行為。
何時應該使用機器學習?
當你遇到涉及大量數據和許多變數的複雜任務或問題,但沒有現成的處理公式或方程式時,可以考慮使用機器學習。例如,如果你需要處理以下情況,使用機器學習是一個很好的選擇:
二.機器學習的工作原理:
機器學習採用兩種技術:監督式學習和無監督學習。監督式學習根據已知的輸入和輸出訓練模型,讓模型能夠預測未來輸出;無監督學習從輸入數據中找出隱藏模式或內在結構。
監督式學習:
監督式機器學習能夠根據已有的包含不確定性的數據建立一個預測模型。監督式學習演算法接受已知的輸入數據集(包含預測變數)和對該數據集的已知響應(輸出,響應變數),然後訓練模型,使模型能夠對新輸入數據的響應做出合理的預測。如果你嘗試去預測已知數據的輸出,則使用監督式學習。
監督式學習採用分類和回歸技術開發預測模型。
分類技術可預測離散的響應 — 例如,電子郵件是不是垃圾郵件,腫瘤是惡性還是良性的。分類模型可將輸入數據劃分成不同類別。典型的應用包括醫學成像、語音識別和信用評估。
如果你的數據能進行標記、分類或分為特定的組或類,則使用分類。例如,筆跡識別的應用程序使用分類來識別字母和數字。在圖像處理和計算機視覺中,無監督模式識別技術用於對象檢測和圖像分割。
用於實現分類的常用演算法包括:支持向量機 (SVM)、提升 (boosted) 決策樹和袋裝 (bagged) 決策樹、a href="https://cn.mathworks.com/help/stats/classification-nearest-neighbors.html">k-最近鄰、樸素貝葉斯 (Na?ve Bayes)、判別分析、邏輯回歸和神經網路。
回歸技術可預測連續的響應 — 例如,溫度的變化或電力需求中的波動。典型的應用包括電力系統負荷預測和演算法交易。
如果你在處理一個數據範圍,或你的響應性質是一個實數(比如溫度,或一件設備發生故障前的運行時間),則使用回歸方法。
常用回歸演算法包括:線性模型、非線性模型、規則化、逐步回歸、提升 (boosted) 和袋裝 (bagged) 決策樹、神經網路和自適應神經模糊學習。
小例子:使用監督式學習預測心臟病發作
假設臨床醫生希望預測某位患者在一年內是否會心臟病發作。他們有以前就醫的患者的相關數據,包括年齡、體重、身高和血壓。他們知道以前的患者在一年內是否出現過心臟病發作。因此,問題在於如何將現有數據合併到模型中,讓該模型能夠預測新患者在一年內是否會出現心臟病發作。
無監督學習:
無監督學習可發現數據中隱藏的模式或內在結構。這種技術可根據未做標記的輸入數據集得到推論。
聚類是一種最常用的無監督學習技術。這種技術可通過探索性數據分析發現數據中隱藏的模式或分組。聚類分析的應用包括基因序列分析、市場調查和對象識別。
例如,如果行動電話公司想優化他們手機信號塔的建立位置,則可以使用機器學習來估算依賴這些信號塔的人群數量。一部電話一次只能與一個信號塔通信,所以,該團隊使用聚類演算法設計蜂窩塔的最佳布局,優化他們的客戶群組或集群的信號接收。
用於執行聚類的常用演算法包括:k-均值和 k-中心點(k-medoids)、層次聚類、高斯混合模型、隱馬爾可夫模型、自組織映射、模糊 c-均值聚類法和減法聚類。
如何確定使用哪種機器學習演算法?
選擇正確的演算法看似難以駕馭——需要從幾十種監督式和無監督機器學習演算法中選擇,每種演算法又包含不同的學習方法。
沒有最佳方法或萬全之策。找到正確的演算法只是試錯過程的一部分——即使是經驗豐富的數據科學家,也無法說出某種演算法是否無需試錯即可使用。但演算法的選擇還取決於你要處理的數據的大小和類型、你要從數據中獲得的洞察力以及如何運用這些洞察力。
下面是選擇監督式或者無監督機器學習的一些準則:
· 1.在以下情況下選擇監督式學習:你需要訓練模型進行預測(例如溫度和股價等連續變數的值)或者分類(例如根據網路攝像頭的錄像片段確定汽車的技術細節)。
· 2.在以下情況下選擇無監督學習:你需要深入了解數據並希望訓練模型找到好的內部表示形式,例如將數據拆分到集群中。
三.MATLAB機器學習:
你如何藉助機器學習的力量,使用數據做出更好的決策?MATLAB 讓機器學習簡單易行。藉助用於處理大數據的工具和函數,以及讓機器學習發揮作用的應用程序,MATLAB 是將機器學習應用於你的數據分析的理想環境。
使用 MATLAB,工程師和數據科學家可以立即訪問預置的函數、大量的工具箱以及用於分類、回歸和聚類的專門應用程序。
MATLAB 可以做到:
· 1.比較各種方法,例如邏輯回歸、分類樹、支持向量機、集成方法和深度學習。
· 2.使用模型精化和縮減技術創建能夠最好地捕捉預測能力的精確模型。
· 3.將機器學習模型集成到企業系統、集群和雲中,並且將模型定位於實時嵌入式硬體。
· 4.為嵌入式感測器分析工具執行自動代碼生成。
· 5.支持從數據分析到部署的集成工作流程。
更多技術乾貨敬請關注云棲社區知乎機構號:阿里云云棲社區 - 知乎
推薦閱讀:
※大數據之數據分析精進之路:起跑
※「有層次、可發展」的門店數字化管理,是通往新零售的必經之路
※5機器學習入門:Kaggle和泰坦尼克號預測
※挑戰自我-python數據分析師成長路徑
※20180226上周文章更新匯總