為什麼計算機科學專業背景的人喜歡黑機器學習?

如題。
身邊一些學CS的朋友都以黑機器學習為樂,諸如星座、中醫之類的段子層出不窮,求解這樣的鄙視鏈是怎樣形成的?也請分析一下少數程序員的頂端優越感的形成機制。


  1. 多數是本行自黑(ML也是CS的一個分支吧),這種自嘲出現在各行各業,不必當真;
  2. machine learning 有一些 black box 的通用演算法,比如SVM、決策樹等。一些門外漢雖然不懂原理,但拿這些固定的演算法套用在實際問題上卻時能奏效,因此不顧自己的無知產生了莫名的優越感,以為ML不用了解問題的機制,只是往數據上套而已。這樣也造成了ML被外行濫用,隨便找一個演算法就拿到數據上跑,得出並不靠譜的結論。比如在並不了解方法適用範圍的情況下,拿隨便抓來的數據集跑決策樹,得出諸如「一個30歲以下的男青年如果他是處女座而且不喜歡吃青菜的話,那麼他容易劈腿」這樣的2b結論。或許那些段子就是這麼來的吧。
  3. ML本身還有薄弱的環節,比如因果推斷。也就是說現在的ML方法擅長發現和描述「關聯」,以及用「關聯」關係做預測,但是做不了從蘋果落地推斷存在萬有引力這種事。但是發現現象背後的原因和機制是科學的一般性使命,ML在這方面還需要發展更好的方法。

瀉藥...(邀請我的這位你真的覺得我能回答嗎TuT)

鑒於有好多學經濟的同學表現了一丟丟的不滿,我決定說明一下,所有這種程度上的黑只是開開玩笑,並不是說哪個好,哪個優於哪個,just kidding.

簡單總結就是:ML 領域很多演算法沒有理論解釋,純粹是建立在經驗的基礎上,於是很多人覺得跟「中藥」,「星座」等差不多。

而且,往往在工業界用的比較多的演算法,比如多層神經網路深度學習(在語音識別領域用得比較多),是沒有理論能完整解釋的。
-------------------------------------------------------------------------------------------------------------------------
記得在申請統計 PhD 的時候,UCLA 的一位教授的主頁讓我有種眼前一亮的感覺,這就是 Computer Vision 領域的 Songchun Zhu 教授,他將 ML 和中藥進行對比。中藥是建立在經驗的基礎之上的:遇見甲癥狀,在以往的經驗中,用 A 中藥有明顯的效果;遇見乙癥狀,用 B 中藥往往效果拔群...久而久之,經過不斷的試錯,人們就有了經驗,在未來碰到不同的癥狀時可以對症下藥。

而機器學習的好多演算法呢,也是經過不斷的試錯,使人們在面對不同結構的數據集時,可以選擇合適的演算法進行分類。比如 SVM 在小樣本的情況下效果就很不錯(當然,SVM 不屬於沒有理論基礎的那一類演算法)。這就導致這些演算法非常依賴經驗,在遇到全然不同的數據集時,往往也需要不斷的試錯與調整才能達到良好的效果。

原文可參考:Research: are we on the right way?

今年5月份的 R 語言會議中,百度的余凱老師在介紹深度學習(Deep Learning)的時候,也說過,「往往效果好的演算法,很難解釋清楚,而能解釋清楚的演算法,往往效果要差一些。」這是很有趣的一種現象,有些學術界的老師(比如 Songchun Zhu)會傾向於犧牲一部分的分類準確率,來換取 interpretability,但有時人們會更傾向在實用中的表現。

不過呢,鑒於機器學習的發展程度,以後理論方面應該會逐步完善(本人在 PhD 期間也將以此為目標去努力)。鄙視來鄙視去,無非是茶餘飯後的一點話題罷了。CS 和 ML 本是一家,要鄙視就鄙視那些預測能力連星座血型都不如的經濟學家們嘛23333(是不是又把鄙視鏈往下延伸了呢)


因為這個領域屬於,只有零星幾個人做出真正有用的東西,然後一大堆人跟著蹭飯吃,而且飯特別好蹭。


不光是學 CS 的喜歡黑機器學習,物理和數學的也特別喜歡黑。尤其是人工神經元的分支,因為大部分時候模型用對結果就這麼出來了,你都不用 reasoning。現在 tensorflow 這類框架出現後訓練一個手寫數字識別的模型猶如搭積木一般,導致各種並不了解背後工作原理的人都能做一個像模像樣的 demo.

而實際要工程應用,基本還是要把坑都踩一遍的,繞不開數學和 CS。


玩笑而已,何必認真。


我不同意「純CS背景的人適應不了不確定性」的說法。隨機和不確定性無論作為研究對象還是作為工具,在複雜性理論、密碼學等「位於鄙視鏈頂端」的領域裡都扮演著重要角色,更不用說量子計算這種整個建立在不確定性基礎上的方向了。

現有答案里,@Richardkwo 的答案比較接近我的認知。再說得透一點,評價一個人研究工作的高度一般是兩個方面:1. 研究的問題是否重要,結果是否足夠好。2. 工作在技術上是否有難度,是否具有智力上的挑戰性。這兩方面都過硬的工作,大家就認帳;反之,則大家都鄙視。那麼具體到機器學習這個領域,正如 @Richardkwo 所說,這個領域裡濫用現成方法隨便找一個問題往上簡單一套的外行特別多,研究的問題雞毛蒜皮,工作本身毫無技術含量,甚至就是拿現成的工具跑一遍數據然後隨口胡扯一堆分析 —— 於是機器學習的名聲就這麼被拖累了。


大概是因為他們數學水平普遍不高吧,編程更多的是邏輯,不需要數學基礎。


如圖


您別說,machine learning核心思想還就是和星座中醫有幾分相似。
在現在如果有人願意去做,machine learning完全有能力取代中醫。

我毫無貶義。


平心而論,ml還是有價值的,至少在解決nlp/cv方面的問題上體現了它的價值。只不過被一些只懂皮毛的人整天掛在嘴邊,把這個方向搞臭了。


從技能難度來說 鄙視鏈的雙方是交換過來的 很多ml的對cs的都有一種觀點 編程我也會 但是數學你會嗎 你會嗎

但是從實用的角度來說 畢竟現在純ml還是主要應用在有限的幾個小領域 大數據也還在往成熟進化的過程中 難免搞ml的在編程的眼中是個裝逼的形象 你做的東西有價值嗎 有價值嗎

就是這樣


正統CS教育的人都有一點機械論的心理存在
有1 有2 有3 那麼結果必須是他媽的4!
所以碼農最崩潰的就是BUG每次結果都不同,這不科學!BUG也得每次運行結果都一樣!
ML是個什麼狀態呢,我們知道它有用,但他媽大部分情況下我們都不知道為什麼有用。
這是任何碼農心理上都接受不了的。心理上能接受的不是碼農群體,是混進來的渣滓。

當然了,為了吃飯我們還是會用的,這是兩回事。


不清楚為什麼它就work了...但是的確work
心裡很慌...所以通過黑來獲取自信
未來是屬於這些dark magic的


機器學習裡面玩的是一些歪門邪道的數學,不知道這麼說好不好理解


我覺得吧,這個和我們華科的男同胞說自己搞基,說計算機學院是妓院,說學校是華中渴基大學是一樣的道理!


計算機界新三俗:物聯網、機器學習、大數據。
機器學習大數據有時候很像中醫(我不是中醫黑),這個問題傳統方法解決不了,到了機器學習那裡似乎都可以解決。原本很老的研究領域,加上了大數據瞬間就變得高大上,成前沿課題了。
Sensor Network跟大數據結合之後有詐屍的苗頭。
PS:據說最近有人要用機器學習演算法設計電路,看來搞hardware的都要下崗了。嗯,我還是去做傳銷比較好,嗯,就是這樣。


面對科學難題的時候,現階段的人類是一群不知所措等待掛科的學渣。這時候Machine Learning和Big Data出現了,就像新東方之於GRE,告訴學渣們,根據以往的真題,不用管為什麼,我也不知道,但是選項里出現Every的都是錯誤選項。一小批深得此法的學渣取得了旁人暫時無法取得的好成績。ML也因此深得人心,逐步繁榮於各個領域。

via人人-路鷺

這大概就是為什麼CS專業的喜歡黑ML了,大概是因為他本質上沒有提取出證據集中的定律,只是找到了小規模的規律。


因為純CS背景的人適應不了不確定性。某種程度上也可說他們都是機械還原論的信徒。


搞計算機的老是坐著,那方面就有些力不從心了,所以黑ML


因為machine learning接近玄學,有點像中醫。且搞ml的人大部分有濫竽充數,浪費資源拿著不菲的工資。


推薦閱讀:

13千瓦水泵搖表怎麼測電機阻值?
計算中有哪些好用的文本相似度演算法?
深度學習最終會淘汰掉其他所有機器學習演算法嗎?
GitHub上最好的機器學習開源項目有哪些?
神經網路能否發現諸如π、e等無限不循環小數的內在規律?

TAG:機器學習 | 計算機科學 | 計算機專業 | 玄學 | 鄙視鏈 |