哪些必備因素造就了一名優秀數據科學家?

作者簡介:Karolis Urbonas,亞馬遜首席數據科學官;作為一名活躍的數據執行官,他有過構建高效高質量數據執行團隊並且提供有建設性分析提案的經驗。想閱讀更多他的文章,可以瀏覽他的博客cyborgus.com.

何為數據科學家?

所謂數據科學家,其實是對通過挖掘數據來幫助人(或者機器)作出更基於信息的決策的統稱,數據科學家的職能範圍很廣。

想要脫穎而出成為優秀數據科學家的三個關鍵點是什麼呢?

優秀數據科學家痴迷於解決問題

普通數據科學家痴迷於新工具

經過這麼多年關於數據和分析的工作,我發現其實處理數據的技術本身並沒有在工作中發揮很大的作用。紮實的數據處理知識確實是被聘用的必要條件,但是這只是對數據科學家最基本的要求。成為優秀數據科學家的特質大多是非技術性的。

TIPS 1

優秀的數據科學家比起學習並使用新的數據處理技術和工具 更重視解決實際的問題

解決問題是非常重要的一點,儘管讀者可能會覺得這一點看上去非常容易。其實每個職業都有類似的情況:人們更趨向於關注使用的工具/技術,實際處理的技術或者,更籠統一點,比起內容更重視形式。一個很好的例子就是當下正在進行的關於R和Python,哪個更適合數據科學哪個更好的討論。或者是關於frequentist(頻率論者)和Bayesian(貝葉斯論者)的統計學,哪一派會被廢棄的討論。或者是我最喜歡的例子,關於SQL的時代已經終結了,所有的數據都會被存在NoSQL的資料庫里的討論。

這些都只是用來解決問題的工具。知名美國哲學家Abraham Kaplan提出一個概念叫做工具規律(the law of the instrument),他解釋說:「我叫它工具規律,它可以被類比為:如果給一個小男孩一把斧頭,他就會發現他遇到的所有事物都需要敲擊。「

這個規律被心理學家Abraham Maslow用另外一種方式解釋並被人熟知,他解釋為「如果你擁有的唯一工具是鎚子,你就會把所有的問題都視為釘子。」

所有的數據趨向型職能的最核心功能就是通過從數據中擷取知識來解決問題。一名優秀的數據科學家首先會努力地理解手中的問題,然後確定想要解決這些問題的需求是什麼,最後才會去決定最適合這個任務的相關處理工具和技術。在大多數商業案例中,你所接觸的利益相關者不會在意你用的是什麼工具,他們只會在乎對於困難問題的解答以及解決問題的方案。了解如何選擇,使用並且學習工具和技術是成為數據科學家的最低要求。然而一名優秀的數據科學家一定明白,理解一個商業案例的主要支架結構和基礎核心思想是成功完成一個數據科學project的重中之重。

TIPS 2

優秀的數據科學家想要去找到解決問題的辦法並且能接受解決方案的不完美

對於任何數據科學家來說,陷入分析的死循環是非常危險的狀態。所謂死循環就是一遍一遍又一遍地進入數據,尋找突破口,縮小範圍,從宏觀的角度分析,重新定義一個假設,關注最細微的細節,然後再重新思考這個問題。這種對於過程過度思考過度解讀並試圖去尋找一個「完美」解決方案的狀態通常被叫做分析癱瘓。

一名優秀的數據科學家明白其實是基本不存在完美的解決方案。同時,作為優秀的數據科學家,他們都明白其實一個有瑕疵卻按時完成的方案比一個自認為完美但遲交的方案要好的多。事實上,Agile Software Development(敏捷軟體開發)的方法軟體行業力圖適應現代商業環境的具體表現;具體來說,Agile Software Development 會採用能夠適應過程中變化的規劃,提早工作周期以及不斷保持on-call更新完善的方法努力去防止分析癱瘓。這和優秀科學家的工作心態是相似的,他們想要去解決利益相關者的問題,並且他們知道利益相關者的需求會一直隨著新的想法和思路的出現而變化。

說了這麼多,其實最想要提出的建議是:不要過度思考和過度解讀問題。相對的,你應該做的是分階段地完成分析或者分階段給工作過程建模並且經常性的向問題提出者彙報並且得到他們的一些反饋。這樣的過程可以盡量地保證整個工作的過程是持續性的;並且這樣的工作模式會使得你的通過數據分析後的最終解決方案在每次迭代反覆中有所提升。

TIPS 3

優秀的數據科學家是極會交流並且能提出有效問題的人

讀者們可能已經注意到在理解問題以及和利益相關者保持持續性溝通反饋的過程中需要大量的交流。但這只是交流的重要性最淺顯的體現,更深層的重要性體現在能夠提出對的問題。

儘管這聽上去又是可以輕而易舉達到的一點,但其實並沒有那麼簡單。數據科學家是最容易被認知理解偏見誤導的職業。這個偏見「出現在當兩個人交流時,雙方都假設對方有足夠的背景知識去明白自己說的話」。

當數據科學家和利益相關者一起琢磨一個問題或者交流一些自己的初始發現的時候,把所有的論述儘可能詳盡直接地說出來是非常重要的,不要假設利益相關者會和你有一樣多的相關背景知識。這一點在數據科學家有數量很大的假設和潛在方案的時候會變得非常難做到。

這個工作過程中最大的風險在於當利益相關者向數據科學家極簡短地描述了問題;而這個數據科學家沒有提出足夠多的有效問題並且還魯莽地對問題作出了自己的假設。如果發生這樣的情況,數據科學家就會構建一個看上去解決了(利益相關者描述的)問題的解決方案。缺少了疑問和過多的假設會導致最終結果實際上解決的並不是之前被提出的問題,甚至會給出相反的建議和結論的情況。優秀的數據科學家從來不會在他們沒有做深度分析前假設他們知道什麼。他們知道目前的假設中哪些點是需要通過繼續提問來決定是被確認或者否認的,所以哪怕他們對於自己的假設有99.9%的把握,他們也會問出很多的問題來做最後的判斷。

但無論如何,想要成為一名真正優秀的數據科學家,你必須成為一個能清楚了解你所接手的商業案例所有細節並且能夠有效解決問題的人。

想要稱為一名數據科學家你必須有必要的技術技能和很紮實的基礎。關於這些技術問題,一些比較重要的觀點讀者們可以去讀一讀我之前文章,How to think like a data scientist to become one,去了解成為數據科學家的基本需求。文章中有詳細描述數據科學家這個職能對一個應聘者能力的最低要求和期望。

文章來源/Kdnugget

譯/章天藝


推薦閱讀:

R 中的哪些命令或者包讓你相見恨晚?
有哪些數據分析師的博客或網站值得推薦?
現在是否有社會化媒體營銷的數據分析工具?
誰能解釋一下,excel數據分析模塊下的回歸分析的參數
諮詢公司(如MBB,奧緯等)的數據分析用什麼軟體比較多?

TAG:数据分析工具 | 数据科学家 | 解决问题 |