在一頭扎進機器學習前應該知道的那些事兒

摘要: 本文簡單總結了機器學習的幾大任務及其對應的方法,方便初學者根據自己的任務選擇合適的方法。當掌握機器學習基本知識以及清楚自己所要處理的任務後,應用機器學習就不會那麼難了。

機器學習一直是一個火熱的研究領域,深度學習方法的提出又為這個領域添了一把火,使得很多人對該領域感興趣並想投身於該領域的研究之中。那麼,對於想從事機器學習領域的人來說,有哪些是應該首先了解的內容呢?本文將簡單的介紹下機器學習的基本相關知識。

機器學習是指使計算機系統使用統計技術學習數據的過程,而不需要具體的編程程序。該方法是一個主動學習的演算法,使得它能夠從數據中學習並進行預測。機器學習與計算統計、數學優化以及數據學習密切相關,通常被用來進行預測、分析等任務。機器學習一般用於處理兩類任務:

  • 有監督學習:輸入給計算機的示例帶有標籤(期望輸出),基於標籤調整建立的模型,以學習輸入到輸出的映射規則。
  • 無監督學習:輸入給計算機的示例沒有標籤,建立的模型必須通過自身學習產生輸出。無監督學習涉及到從數據中發現隱藏的模式,包含特徵學習。

    機器學習這個術語對於大多非該領域的人來說聽起來很高級,但其實不然。只要你清楚機器學習的基本概念以及相關方法後,機器學習其實很簡單,即根據相關任務,選擇合適的機器學習方法,讓機器學習並處理特徵以完成相應的任務。因此,在學習和應用機器學習之前,我們首先應該明確自己的任務是什麼,以及適合使用哪種機器學習方法來完成。

如果我們想了解演算法背後的基本理論以及其工作原理,那麼精通概率與統計、線性代數和微積分對我們而言顯得至關重要。此外,了解諸如Python等編程語言將使你能夠容易得實現相關演算法,理論基礎與編程能力二者在手,機器學習我有。此外,理解相關的數學知識和應用也是很有必要的,無論是通過線下自學或者是網路在線培訓等學習方法,都必須實踐,實踐可以增加自己對基本知識的理解,同時也能鍛煉其編程能力。

在學習機器學習之前,掌握以下知識是很有必要的:

  • 線性代數
  • 微積分
  • 概率論
  • 程序設計
  • 最優化理論

    下面是一些最常見的機器學習任務以及相關方法,對其理解後方便在後續工程中應用。

回歸

回歸主要涉及連續變數或數值變數的估計,比如估計房價、股票價格、產品價格等使用回歸估計。即根據相關的數據建立回歸曲線,對新的數據進行預測估計。以下機器學習方法用於解決回歸問題:

  • 核回歸(Kernel regression)
  • 支持向量回歸(Support vector regression)
  • 高斯過程回歸(Gaussian process regression)
  • 線性回歸(Linear regression)
  • LASSO回歸(Least absolute shrinkage and selection operator)
  • 回歸樹(Regression tree)

分類

分類與離散變數或數據類別的預測有關。比如區分垃圾郵件、病人患有哪種疾病、交易是否屬於欺詐行為等任務,都是使用分類方法處理的。以下方法可以用於解決分類問題:

  • 核判別分析(Kernel discriminant analysis)
  • 人工神經網路(Artificial neural networks)
  • K鄰近演算法(K-nearests neighbors)
  • Boosted trees
  • 隨機森林(Random forests)
  • 邏輯回歸(Logistic regression)
  • 支持向量機(Support vector machine)
  • 深度學習(Deep learning)
  • 樸素貝葉斯(Naive Bayes)
  • 決策樹(Decision trees)

聚類

聚類一般應用於數據自然分組。比如產品特徵識別、客戶細分等任務都是聚類的一些應用場景。以下機器學習方法用於聚類問題:

  • 均值漂移(Mean-shift)
  • K-均值(K-means)
  • 主題模型(Topic models)
  • 層次聚類(Hierarchical clustering)

多元查詢

多元查詢是用來尋找相似目標。下面的方法可用於解決與多元查詢有關的問題:

  • 近鄰取樣(Nearest neighbors)
  • 最遠鄰居(Farthest neighbors)
  • 範圍搜索(Range search)

降維

降維是指降低多個隨機變數的維度,將其分為特徵提取和特徵選擇。常用的降維方法如下:

  • 流線學習方法/核主成分分析(Manifold learning/KPCA)
  • 獨立分量分析(Independent component analysis)
  • 主成分分析(Principal component analysis)
  • 非負矩陣分解(Non-negative matrix factorization)
  • 壓縮感知(Compressed sensing)
  • 高斯圖模型(Gaussian graphical models)

數十款阿里雲產品限時折扣中,趕緊點擊領劵開始雲上實踐吧!

以上為譯文,由阿里云云棲社區組織翻譯。

譯文鏈接

文章原標題《What You Must Know Before You Dive Into Machine Learning》

譯者:海棠,審校:Uncle_LLD。

文章為簡譯,更為詳細的內容,請查看原文。

更多技術乾貨敬請關注云棲社區知乎機構號:阿里云云棲社區 - 知乎


推薦閱讀:

RF、GBDT、XGBoost常見面試題整理
複習:決策樹
Hulu機器學習問題與解答系列 | 第七彈:非監督學習演算法與評估
優化演算法總結
Zero-Shot Learning with Semantic Output Codes(NIPS2009)

TAG:機器學習 | 入門指南 |