標籤:

身為數據科學家怎麼能不掌握這四大技能!

大數據文摘作品

作者:seattle data guy

編譯:王夢澤、吳雙、蔣寶尚

想成為一名高級數據科學家除了擁有卓越的專業技能,你還需要其它技能來拉近和業務經理的距離。這看起來簡單,但隨著每年新技術的不斷累積,技術和業務之間的距離會繼續增大。因此,我們發現管理者和數據科學家有清晰的合作方向是非常重要的。

業務和IT知識都是十分專業的,然而由於技能的專業化,許多企業都出現了兩個專業間的空白。我們的任務是幫助填補它!

數據科學家必須有技術方面的紮實基本功,這包括編程、查詢、數據清洗等。然而隨著數據科學家的成長,他們需要更多地關注設計決策以及與管理者的溝通,這會大大增強經驗豐富的數據科學家的影響力。他們可以做出更高層次的決策,並幫助陷入困境的年輕數據科學家,而不是被困在日復一日的編碼中。更有經驗的數據科學家能利用他們的經驗來做出簡化複雜系統、優化數據流的設計決策,同時協助決定哪些項目最為恰當,這使得數據科學家自身及其公司都能有更大獲益。

能夠做到化繁為簡

數據科學家往往希望將他們所知道的每一種技術和演算法都應用於每一個問題的解決方案上。相應地,這就會使系統非常複雜難以維護。

數據科學確實需要複雜抽象的模型及大量的複雜技術(從Hadoop到Tensorflow)。在這個充斥著複雜性的領域,人們會傾向於開發複雜的系統和演算法,稍不留神就會在開發中涉及四、五種不同的技術並使新的熱門演算法或框架。然而,像大多數涉及工程的其他領域一樣,減少複雜性往往會帶來諸多好處。

如果馮?諾依曼,埃爾溫?薛定諤和愛因斯坦可以幫助我們理解數學和物理驅動領域的複雜性,那麼我們數據科學家不能隱藏在複雜性背後。

工程師的角色就是去簡化任務。如果你曾經建造或看到過魯布?戈德堡機械(Rube Goldberg machine),你會理解什麼是用複雜方法去完成簡單任務。一些數據科學家的演算法和數據系統看起來像是用膠帶和口香糖粘起來的老鼠夾,而不是簡潔有效的解決方案。更簡單的系統意味著隨著時間推移系統會更加容易維護,並且未來的數據科學家能夠按需添加和刪除模塊。但若你使用三種不同的語言,兩個數據源,十個演算法且沒有留下任何文檔資料,未來的工程師可能會默默詛咒你哦。

簡單的演算法和系統也應使添加和刪減模塊是容易的。因此當需要技術進行改變和更新或者需要刪除模塊時,可憐的未來數據科學家不會陷入和你的代碼一起玩疊疊樂積木遊戲(Jenga)的困境 。但會糾結於「如果刪了這段代碼,系統會不會崩潰」。(這一糾結的根源是怕出現技術債務)

知道如何在沒有主鍵的情況下關聯匹配數據

強大的數據專家能做的重要工作之一是:將可能沒有主鍵或明顯聯繫的數據集關聯在一起。數據可以呈現人之間或業務之間的日常交互。能夠在這些數據中找出統計模式,是數據科學家可以幫助決策者作出明智決定的重要能力。然而,你想要關聯在一起的數據並不總是位於相同的系統或有著相同粒度。

與數據打交道的人會知道,數據並不總是很好的整合在一個資料庫中。比如,財務數據與IT服務管理數據通常是分開存放的,外部的數據源往往可能並不是在同一個維度進行的聚合。這會成為一個問題,因為找出數據中的價值有時確實會需要來自其他部門或系統的數據。

數據嚙合是需要在相同的粒度級別上進行的。一種理解的方式是:將一塊大拼圖與由許多小塊數據拼圖組成的大拼圖組合起來。

例如,假如給你提供了醫療保單、信用卡和社區犯罪率的數據,想由此找出這些社會經濟因素如何影響病人,你會怎樣處理?一些數據可能是以人為單位,而另一些數據可能是街道或城市級別,而且沒有明確的方式來關聯這些數據集。最好的處理方式是什麼?這成為了一個不能忽視且必須被解決的問題。

對項目進行優先排序

作為數據科學家,你需要知道如何解釋可能不划算的項目的投資回報率(ROI)。這與良好的直接溝通有關(我們的團隊永遠不會停止討論如何溝通),也與能夠清楚表達價值並且對長短期目標進行優先排序有關(重申一遍,說起來容易做起來難)

團隊總是會有超出他們處理能力的過多的項目和項目要求。有經驗的團隊成員需要起帶頭作用來幫助決策者決定哪些項目是值得進行的。在有很大機會成功但可能不會有最高投資回報率的短期項目和很有可能會失敗但同時也會產生較大投資回報率的長期項目之間需要有一個良好的平衡。

這種情況下,決策矩陣會有助於簡化過程。

經典的決策矩陣之一是一個2*2矩陣,行和列分別為重要性和緊迫性。多數的大學商業課程中都會出現這種矩陣,它很簡單,這也是它很棒的原因。

我曾在公司和一些很聰明的人共事,但還是工作中的每個項目都被列為優先。如果你沒聽過這個說法,我會在這裡講出來:

如果每件事都被優先考慮,那麼,相當於沒有事情被排在優先。

選擇正確的項目意味著必須做出取捨。不是所有的事情都是高優的。

許多公司都存在這個問題,這就是為什麼對於數據科學家團隊中有經驗的成員,能夠清晰表達出哪些項目需要當下執行還是以後執行是非常重要的。而使用這個簡單的矩陣能帶來一定幫助。

(簡潔十分重要,使用矩陣來明確投資回報率是有幫助的)。

有了簡明直接的溝通,項目繼續向前推進,信任也隨之建立起來了。

能夠開發出穩健且最優的系統

做出能在受控環境中操作的演算法或模型是一回事。將穩健模型集成到實時且能處理大量數據的系統又是另一回事。根據公司的不同,有時數據科學家只需開發演算法本身,之後開發人員或機器學習工程師會負責將其轉為上線的產品。

然而還會有其他的情況,小的公司和小的團隊可能會需要數據科學家團隊來將代碼轉為上線產品。這意味著演算法需要能以合理的速度控制數據流量。如果演算法要運行三個小時並且需要被實時訪問,這顯然不能在產品上使用。因此,良好的系統設計及優化是必要的。

隨著數據增多,越來越多的人會與系統交互,模型跟上腳步是十分重要的。

當高級數據專家的技術能力和其他能力相結合時,才能對他們自身和其公司產生最大的影響。數據科學家寶貴的經驗是非常有價值的,這些經驗能夠指導年輕的開發人員做出更好的設計決策,幫助管理者找出哪些項目會帶來最好的投資回報率,從而也放大了他們的參與對於團隊的影響。

原文鏈接:

hackernoon.com/4-must-h


推薦閱讀:

不學好數學也想當數據科學家?不存在的
沈志勇:做一個大數據技術的搬運工

TAG:數據科學家 |