標籤:

關於機器學習,你必須知道的10件事情

很多時候需要為非專業人士解釋機器學習,本文提供以下參考。

1.機器學習意味著:從數據中學習

機器學習目前風頭正勁,AI也是熱搜辭彙。只要將合適的數據放入合適的模型,許多問題可以迎刃而解。如果能夠幫助你宣傳,就叫它AI吧。但請記住,AI,除了在學術界以外,常常是大家可以隨意使用的熱門辭彙,用於描述他們想描述的一切東西。

2.機器學習主要關乎演算法與數據,尤其是數據

很高興能夠在機器學習演算法,特別是深度學習領域有一些進展,但是數據才是機器學習演算法實現的關鍵因素。機器學習可以沒有複雜的演算法,但不能沒有好的數據。

3.除非你有許多數據,否則你應該堅持使用簡單的模型

機器學習將基於數據識別模式,構建由參數定義的模型。如果你的參數定義過多,你很容易過度擬合。詳細的解釋需要更多數學知識,但是機器學習的原則是:儘可能使模型簡單。

4.機器學習的性能受到輸入數據質量限制

「無用輸入,無用輸出」巧妙地點明了機器學習的關鍵,機器學習只能發現輸入數據中的模式。對於有監督的機器學習任務,例如分類,輸入數據必須標記正確,特徵明顯。

5.機器學習需要具有代表性的數據

正如基金介紹書中所說:過去的表現不對未來結果作保證。機器學習則只能對與訓練數據分布相同的樣本外有良好效果。因此,應對訓練數據和樣本外數據的偏離表示警覺,經常性地重新訓練你的模型以免失效。

6.機器學習中大部分的困難工作為數據轉換

從天花亂墜的宣傳中,你可能認為機器學習的主要工作為編寫和調試代碼。但現實更加乏味:大多數你的時間和精力將用於數據清洗和特徵工程(將原始特徵轉化為更有代表性的特徵)上。

7.深度學習是革命性的進度,但並不是靈丹妙藥

深度學習在很多機器學習應用領域都做出重大貢獻,進一步地,深度學習將一些傳統需要特徵工程的工作自動化進行,特別是在圖像和視頻領域。但是深度學習並不是一種新技術,仍然需要在數據清理和轉化方面付出巨大的努力。

8.機器學習系統極易受操作者誤差影響

借用NRA一句話:機器學習演算法不會殺死人,只有人會殺死人。當機器學習演算法系統奔潰時,一般很少是由於機器學習演算法錯誤。而是因為大多數時候,你在訓練數據中引進了人為誤差,或者一些系統誤差。所以,永遠保持質疑。

9.機器學習可以漫不盡心地創造自我實現的預言

在機器學習的許多應用中,你今天做的決定將影響明天收集的訓練數據。一旦機器學習系統中嵌入偏差,它就會生成更多新的數據強化這些偏差,有一些偏差會毀掉人的生活。負責任一點:不要創造可自我實現的預言。

10.AI不會擁有自我意識,不用擔心崛起並毀滅人類

許多人從科幻電影中了解AI,我們應當從科幻小說中得到靈感,但不應該受其矇騙,將它當成事實。有許多真實且急迫的危害需要操心,從有意識的恐怖分子到無意識的有偏差的機器學習模型。


原文鏈接: 10 Things Everyone Should Know About Machine Learning

若您對這篇文章有更多意見,歡迎到BigQuant社區中與我們討論。

加入 人工智慧量化投資交流群:微信搜索bigq100,添加微信群管理員微信,附上姓名、所在機構、部門和職位,審核後管理員會邀請您入群。

關注 BigQuant 微信公眾號:微信搜索 BigQuant, 獲取更多人工智慧、Machine Learning、量化投資相關文章。


推薦閱讀:

LR和SVM的聯繫區別
CS231n課程筆記翻譯:神經網路筆記 2
推薦兩個博客:《Python 與機器學習》,《MachineLearning》
機器學習與移動端會碰出怎樣的火花?

TAG:机器学习 |