行業 | 我的數據科學成果為什麼無法商業化?

行業 | 我的數據科學成果為什麼無法商業化?

來自專欄數據汪

大數據文摘出品

編譯:Charlene、塗世文、YYY

在數據科學的實踐應用中,有些工作成果可以獲得數十億級的商業回報,而絕大多數的工作成果卻並沒有達到預期的效果。本文作者是Nick Elprin,Domino Data Lab公司的創始人兼CEO,擁有哈佛大學計算機碩士學位。他在文中探討了數據科學工作成果不盡如人意的四個可能原因。

當前,許多公司都面臨著這樣的困境:把數據科學的工作成果真正轉化為商業價值。

據一項涉及250位數據科學團隊主管和員工們的問卷調查顯示:60% 的公司計劃在2018年把他們的數據科學團隊擴大一倍,90% 的公司相信數據科學會帶來商業創新。但是,少於9% 的公司會量化數據模型帶來的商業價值,僅僅11%的公司能把至少50個預測模型投入使用。

問卷鏈接:

dominodatalab.com/resou

那麼造成這種困境的根源是什麼?一般來說,運用數據科學的公司可以分為兩種:一種是把數據科學僅看作是一種技術實踐的公司;另一種是把數據科學作為一個重要部分,進一步滲透到商業實踐的大環境中的公司。在進行決策制定過程中,那些能夠熟練地運用技術和管理實踐,並且把演算法驅動的決策作為業務核心的公司,往往能獲得最大的商業回報。這些公司才能夠被稱為 「模型驅動商業價值」型公司,比如亞馬遜、Netflix、Stitch Fix、特斯拉等。

當然,說起來容易做起來難。讓我們來看看那些投資數據科學以求商業回報的公司們正在面對的四大挑戰

團隊內各自為政1+1<2

聘請數據科學家並不能保證你的公司能從中獲益。對於絕大多數公司來說,根據邊際效益遞減規律,在已經有一個數據科學家的團隊里,再額外聘用一個數據科學家,並不會有多一倍的產出。然而,少數擁有表現突出的數據科學團隊的公司,會出現增加數據科學家,就能指數般提高產出的效果。

這裡還有一個老生常談的問題,那就是數據科學家們都各自為政,在獨立的工作中,他們經常做重複的工作。因為他們看不到別人已經完成了什麼工作,所以也沒法通過繼承前人的工作成果,來讓自己的工作變得輕鬆高效。

舉個例子,在一家知名保險公司里,幾十名數據科學家無組織、無合作地攻克同一個商業問題,這讓公司在數據科學方面的投資不值,也失去了更多本來可以用這些投資來發現的新機會。

換句話來說,一堆單單做模型的人,與一個有機結合的數據團隊是有本質區別的。那些有機組合在一起的團隊成員們能夠熟練運用知識、技能、經驗,用更短的時間,創造更好的模型,

模型部署與評估的割裂

運作良好的數據科學團隊,在工作中會有持續迭代的周期(從研究到產出的循環迭代),以及對模型效果的衡量。但是,模型研究和模型部署,這兩個過程經常被完全割裂。並且,當一個模型被使用後,也沒有與之對應的商業效果的分析。這會導致模型沒法根據商業效果迭代更新,給公司造成損失。有一家主流財務公司聲稱,他們「讓一個模型產生效用的時間,比建造新總部大樓的時間都要長」.

工具與技術與不匹配

儘管IT部門在過去十幾年的時間裡,構建了用來儲存和處理數據的大數據基礎設施,但是這些基礎設施本身並不能完全保證數據科學的成功實踐。數據科學家會在一個月內使用多達3-5種不同的工具包,並時刻追趕最前沿的技術。僅在2017年,基於流行的開源程序語言Python 的軟體包,就多達36萬5千次更新!

另外,數據科學家的工作需要使用彈性計算平台(雲計算平台)來進行具體操作實驗,譬如進行深度學習就需要配備GPU的高性能計算機。如果團隊不能使用彈性計算和最前沿的工具,那麼團隊的效率會大大下降,研究進度會拖後,最終影響整個模型的開發進程。更糟糕的是,一些大公司(比如一家全球性的銀行)的新的Python數據包審批速度太慢,導致數據科學家們最終悄悄地用私人電腦來工作。這種在沒有IT部門明確審批的情況下,使用新工具的現象被稱為「影子IT (shadow IT)」。

模型監管缺失

生產環境中的模型如果缺乏有效的管理和監控,最終可能會產生弊大於利的後果。如果你經常監管這種在使用的模型,那麼你很有可能已經意識到了這一問題。一個沒有嚴密監控或者被密切控制的模型可能對公司的業務產生很嚴重的後果,譬如公司規章被無視,營業收入受損失,品牌聲譽被破壞。

舉個例子,一家叫做 「Knight Capital Group」的公司,在一次模型更新失誤之後,在45分鐘內共損失了4.4億美金。這雖然是一個很極端的情況,但是說明了公司必須持續評估和監控他們的模型,防止模型的誤用,以及模型性能的退化。

案例鏈接:

dealbook.nytimes.com/20

如何克服這四大挑戰決定了一家公司未來5到10年發展。如果你認為自己的公司在數據科學軍備競賽中落後了,不用過分擔心,並不只有你的公司是這樣:根據調查顯示 46% 的公司被歸入「落後」這一檔,40%的公司被認為「有潛力」,只有14% 的公司在管理數據科學中顯示出了他們的先進性。

所幸,為時未晚。為了評估和使用數據科學帶來商業價值,公司必須構建一套圍繞員工、技術、工作流程的連續有效的框架。那些把時間和精力放在這個框架上,並且把數據科學作為核心競爭力的公司,能夠最終收穫商業回報。譬如,Netflix把模型結合到每一個業務環節中。據估計,僅個性化推薦模型就讓公司的價值上升了十億美金

Netflix案例鏈接:

businessinsider.com/net

顯而易見的是,應用數據科學產生成效並不容易。它必須克服一些明顯的障礙。他們需要搞清楚怎麼樣開發和部署具有很大影響力的模型,並且真正地將數據科學與商業結合。最終能夠克服這些困難的公司,才能夠獲得長久的競爭優勢。

相關報道:

kdnuggets.com/2018/05/d


推薦閱讀:

玩轉Pandas,讓數據處理更easy系列3
Kaggle:電影數據分析
分析推特上狗狗的評分
網易鄭棟:數據採集與分析的那些事——從數據埋點到AB測試
深入淺出數據分析的結構化總結

TAG:大數據 | 數據挖掘 | 數據分析 |