數據挖掘:從學術界到業界
來自專欄數據挖掘:從學術界到業界79 人贊了文章
2012年我開始讀計算機博士時,正趕上 「大數據」 爬上熱搜,讓我第一次近距離感受到數據的價值。接下來幾年,「複雜網路」「神經網路」「機器學習」「深度學習」「人工智慧」到今天的「區塊鏈」等新技術(抑或舊技術包裝上了新名詞)分別問鼎年度熱詞,都一次又一次地證明:人們在注意到數據的價值。
2017年我結束了五年的計算機博士生涯,來到芝加哥一家金融機構做數據科學家。近一年從學術界到業界的轉變讓我頗有感觸:業界看數據挖掘的方法和學術界有本質不同。
數據挖掘,形象地說,和挖礦並無本質區別。數據即礦山;礦山中的金子就是數據中有價值的信息;金子可以賣錢,信息也可以。開採礦山是一件費時費力的事情,該怎麼挖?
學術界關注的就是「礦該怎麼挖」的問題。錢智者(教授)召集一批學徒(博士生)說:「依老夫的經驗,顏色暗黃,手感冰涼,聲音清脆的礦可挖。你們去村北那座山試試。」學徒們於是依照錢智者的經驗,進入礦山沒日沒夜地開採,各採石一千塊,帶回給錢智者看。錢智者一周後的組會說,你們敲開看看,每一百塊有多少塊有金子?學徒說,九十塊有金子。錢智者說,甚善,同樣在村北那座山,老夫的方法比隔壁的孫智者每一百塊出八十五塊強多了。你們不用挖了,總結一下經驗,明天村裡開挖礦交流大會時,我們去證明我錢智者是村裡最聰明的智者。
學術界集中開採很少的幾座礦山。第二天大會後,任何智者想證明自己比錢智者聰明,必須找出在村北同樣那座山上每百塊礦石能采出超過九十塊金礦的方法。長此以往,村北那座山似乎都被開採得沒有什麼可挖了。孫智者挖空心思,想到諸如「黃道吉日才挖「之類的方法,雖然有時每一百塊能挖出九十五塊,卻不能穩定復現。孫智者轉念一想,通過和趙支書合作,獲得了村西山頭的獨家開採權,不僅能挖出許多金子,也由此吸引到了許多學徒。錢智者不服孫智者的方法,說村西能挖出更多金子並不代表村北也能挖出。孫智者不理采,只是把自己挖礦方法和趙支書分享,由自己的學徒去其他村推廣,慢慢地孫智者的挖礦方法也獲得了知名度。但即便如此,智者和學徒們也只在集中開採村北和村西兩座礦山。
業界對礦山的選擇範圍要寬很多。青龍礦業集團(公司/企業)不會過問村北村西的公共礦山,它可以到更遠的地方,從當地地主土豪手中(數據提供商)買下整座礦山的開採權(買數據)。青龍礦業可以選擇和白虎朱雀和玄武礦業集團(競爭對手)共同開發,寄希望於自己的開採方法更好,效率更高,成本更低;更多情況下,青龍礦業可以選擇和地主簽定買斷協議(當然價格要高出許多)。雖然青龍礦業集團並不專門研究採礦技術,不過有時因為獨佔特定類型礦山的優勢,青龍礦業集團在某些方面可能勝過智者。
業界對於大礦山(大數據)沒有過多執念。「我們的礦山最大」是地主的一個重要賣點,「我們有開採大礦山的方法」是智者們引以為榮的方面,但對於青龍礦業集團,他們會問:十倍大的礦山(TB或PB級數據)買斷價也是十倍么?能保證多挖出十倍的金子么?開採成本也會高十倍么?如果挖大礦山並不能帶來顯著優勢,甚至需要特殊開採方式(演算法)和機器(硬體,GPU,雲計算),青龍礦業集團並不會主動去開採大礦山。
業界對於學術界最新的採礦方法(演算法)持保留態度。青龍礦業集團採用簡單粗暴卻多數時候有效的方式,比如「哪兒之前挖到過就繼續往哪挖」(線性回歸)。雖然產出比可能只有每一百塊出四十塊金子,但青龍礦業集團能開發出一整套工具和流程大規模地挖,既降低成本,又能保證穩定產出。青龍礦業集團也會參與村裡的挖礦交流會,聽取錢智者「基於礦石色澤手感和音色的挖礦方法「,和孫智者「基於黃道吉日和區塊鏈的挖礦方法」報告,然後在內部會在小型礦山上實驗智者們的方法。他們發現,孫智者基於黃道吉日和區塊鏈的方法效果時好時壞,且無法用常理解釋,遂放棄;發現錢智者基於礦石色澤手感和音色的挖礦方法雖然效果好,可手感和音色的測試方法無法直接應用在大型礦山上(可擴展性差),於是只把「色澤」一項標準加到了已有的方法,把產出比從每一百塊出四十塊金子穩定提高到六十塊。
業界重視礦山類別(數據類型)。錢智者在自己的「基於礦石色澤手感和音色的挖礦方法」在村北金礦山(用戶通信行為數據)找金礦(用戶消費水平)大獲成功後,要求學徒用同樣方法在村東的銅山(螞蟻覓食行為數據,與用戶無關)和村西的鐵山(李四自己記錄的降雨數據,不準確以及不能代表消費水平)套用同樣的方法挖金礦。學徒耗時數年,結果一直不理想,但不敢質疑錢智者的權威,以為是自己天資愚笨,只能更為刻苦地在銅山和鐵山上找金礦(這種用演算法套用現成數據的情況屢見不鮮)。與此相比,青龍礦業集團則首先明確自己要找的是金礦(用戶消費水平),並且明確金礦在金礦山找到概率更大的道理(推測用戶消費水平要從用戶行為入手),他們直接從地主手中花重金買保證含金的礦山(用戶行為數據),然後即使用更簡單的方法挖礦(線性回歸),也能保證穩定收益。
業界重視挖礦的完整流程。孫智者關心的是他們能不能每百塊產出能超過錢智者的九十塊(演算法效果),證明自己是全村最聰明的;青龍礦業集團除了關心挖礦效率,還關心
· 礦山基本屬性(數據理解)
· 如何存儲礦石(數據中心)
· 篩除礦渣方法(數據清理)
· 挖礦工具(用算盤算還是雲計算,資料庫還是Spark)
· 如何把工具用在相應的礦石上(數據調度)
· 挖礦成本(買數據的錢,租伺服器的錢,招分析師的錢等)
· 開發新挖礦方法的周期(學徒可以跟錢智者再學五年,礦業市場等不了青龍礦業集團五年)
· 如何保證方法的普適性和穩定性(回測)
· 如何保證產出質量(QC)
· 如何在內部共享挖礦經驗和方法(共享代碼庫和知識庫)
· 挖礦方法的直觀性(模型和參數意義)
· 如何給CEO做報告(數據可視化,用以解釋數據、方法和效果)
為了支持高效穩定挖礦,還要關心
· 如何降低工具使用要求(前端)
· 如何招到合適礦工(人事)
· 如何快速把工具分發到礦工手上(部署)
· 如何快速讓礦工掌握工具(訓練)
· 如何幫礦工修機器(IT)
· 如何把金礦做成金鐲子賣出去(銷售)
· 如何應對白虎礦業狀告青龍礦業說金礦山自古以來就是白虎礦業的(法務)
· 如何防止青龍礦業出現內鬼把金礦帶回家(合規)
· 如何保證礦工的合法權益(工會)
· 如何制定應急方案(礦山如果一夜之間被愚公移走了怎麼辦,災難防備和冗餘設計)
等等諸多細節。一方面,青龍礦業集團各個環節保持著微妙的平衡,任何環節的差錯都可能帶來連鎖反應;另一方面,青龍礦業集團雖然沒有用最前沿的挖礦方法,但有穩定可預測的產出。
綜上所述,業界看數據挖掘的方法和學術界有本質不同,學術界更看重模型和效果,業界則更看重流程、時效和收益。希望本文對剛進入學術界/業界的朋友們能有一些啟示。
推薦閱讀:
※郭濟《學術界關於深化行政管理體制和管理方式改革的建議》
※健聞專評 | 瑜伽早就被學術界視為自殘運動?真相是這樣嗎?
※新文化運動反倒促進了儒學發展: 學術界反思新文化運動, 稱運動宗旨並非「反孔非儒」
※南大教授:學術界荒謬的東西很多 有些人必須戳破他