數據諮詢師經驗之談:90% 的公司並不需要機器學習
編者按:掌握一件工具之前,首先要搞清楚用它做什麼。而本質是工具的機器學習,近年來逐漸演變成一股潮流。
在美國企業數據方案諮詢師 Eric Brown 看來,當下無數公司置其數據資本和實際問題與不顧,一窩蜂上馬機器學習,實在是荒唐可笑。他特地發文表達了對該現象的批判和反思。雷鋒網編譯。
Eric Brown
Eric Brown:數據科學家要用數據說話。從數據上來看:你,和你的公司,並不需要機器學習。
我是認真的。
或許你不同意,那麼聽我解釋。我說「從數據上看」,指的是對於當今世界的絕大多數公司,機器學習(ML)既非必要也無益處。各公司想要利用 ML 來處理的絕大部分任務,都是十分直接的問題——使用某種形式的回歸即可完美解決。後者或許不是你在高中代數課上學到的線性回歸,但仍會是某個回歸函數。雷鋒網了解到,著名經濟學家 Robin Hanson 最近發表了相同觀點,他在推特上說道:
「一個優秀的計算機專家會說:大多數公司以為他們需要先進的 AI、ML 技術,其實,他們真的只需要在乾淨的數據上做線性回歸。」
這句話中,「乾淨的數據「是重點。它極度、極度重要,但相當多的公司總是在處理數據時忘記、或者忽視這一點。若沒有合格的數據質量,以及到位的數據治理、管理流程和系統,有極大的可能性你會陷入垃圾數據陷阱——「向模型輸入的是垃圾,輸出的也是垃圾」。太多數據項目如此,結果不了了之。
大多數公司並不知道數據管理是什麼我並不是一個數據管理、數據質量方面的專家導師。但我對這個領域有一定的了解——足夠讓我清楚不合格、不到位的數據管理是什麼樣。況且我經常遇到這些情況。在我與公司客戶合作、幫助他們開展新數據項目的工作經歷中(到現在已經變成了主要是討論 ML 和深度學習),我問客戶的第一個問題永遠是:「告訴我你的數據管理流程」。如果對方不能合理地描述出這些流程,那麼很顯然 ML 並不合適——他們還沒有做好準備。
過去的五年里,我估計有 75% 的情況下,客戶對我的數據管理問題的回答是:
「 嗯……我們有一部分數據存在一個資料庫里,其他數據存在有合法許可權的文件共享里。」
這不是數據管理,是數據存儲。
如果你或你的公司並沒有高質量、乾淨的數據,幾乎可以斷定,你並不適合機器學習(機器學習也不適合你)。搞任何數據項目,數據管理都是第一步。
如果你有搞數據管理來找我的公司機構里,有一小部分安排了合格的數據管理工作。他們理解對於好的數據、好的分析而言,質量、治理和管理有多麼重要。如果你的公司也是如此——恭喜你,在這方面你已經超過了絕大部分競爭對手。
但我要給你潑點冷水。僅僅因為有乾淨、高質量的數據,不意味你應該/需要搞機器學習。當然你可以搞,但大多數情況下真沒這個必要。
過去五年向我諮詢過的所有公司里,我會說:他們原本要用機器學習解決的問題,有 90% 最後只用了普通回歸方式就完美解決。每當我推薦用簡單的回歸,來解決客戶眼中的「複雜、高深」問題(雷鋒網住:他們下定決心要研發多重 ML、DL 模型來對付),人們總是相當驚訝。我也總是不得不向他們解釋,他們可以走機器學習的路線,而且那樣做或許也有價值。但能搞清楚基礎建模、回歸能為你做什麼,ML/DL 是否在一些領域比基礎回歸函數更好,難道不是一件好事嗎?
你說:我鐵了心要搞機器學習我還能說啥?那就大膽去做!沒什麼能阻擋你一直跋涉到 ML 和 DL 的深水區。畢竟機器學習有它的用處和舞台。只是記住:在充分了解你的數據,搞明白「經典」方法能為你要解決的難題做到哪一步之前,不要一股腦兒得栽進機器學習。
via Eric Brown
推薦閱讀:
※她們為嫁豪門甘當生育機器,如今她收穫200億,她棄舊愛尋新歡!
※61歲大叔自製「蒸汽火箭」把自己發射向天空,只為證明地球是平的
※教你織簡單的機器領
※數字公民身份碼、導診機器人 感受數字生活的便捷
※雙羅紋(兩針上兩針下針)收針法,也是機器