標籤:

和生意人打交道,數據科學家常犯的三大典型錯誤

目前還沒有一家媒體的封面文章宣揚過那些不符合輿論預期的數據科學家的失敗。

今天我們就來談談數據科學家常犯的三大典型錯誤以及如何避免犯這些錯誤。

數據科學家的工作是解決各種各樣的問題,但是有的人就是無法解決。他們要麼是不知道「如何解決」,要麼就是太痴迷於純粹技術的部分而缺乏對其工作的全局性了解。有的數據科學家還會為他們的老闆會在他們正致力於某些「真正重要而複雜」的工作時要求他們做一些「簡單又瑣碎的數據任務」感到沮喪。數據科學家在職業道路上失敗的原因不計其數。接下來,我將總結出三大最致命的錯誤。

1

Less communication is better 認為多說無益

我所見過的出色的數據科學家他們首先是優秀的交流對象,其次才是天才的數據極客。數據科學家常犯的一個錯誤就是不計代價地遠離生意人。也就是說,他們會為了專註於做那些「酷炫的極客任務」而盡最大努力避免和生意人打交道。毋庸置疑,我熱愛我工作中那些帶有極客性質的部分,這也是我會進入這一行業的首要原因。但我們是被錄取進入公司來解決問題的,問題的解決必須要求充分的溝通。

數據科學家必須跟蹤他們的數據分析進度,並且始終收集同事的反饋意見,特別是當他們沒有找到任何特別的東西的時候 - 也許這是個好消息?重要的不僅是收集反饋意見,而且還要根據反饋調整分析和假設。這就是「數據科學」中的「科學」 —— 科學方法是建立在基於新的數據來重新定義假設理論的原則基礎之上的。而且,收集和解讀新數據的唯一方法是與定義了最初的假設理論的人,也就是你的老闆,進行溝通。

2

Delaying simple data requests from business teams

輕視業務團隊的簡單數據請求

這簡直就是經典的吐槽——讓數據科學家抓狂只需要一些簡單的數據方面的請求(「見鬼!這就僅僅30行SQL代碼而已!」)就是在這一點上,許多數據科學家開始走向失敗。儘管對於科學家來說,數據已經可用而且能夠解決多年的問題,是顯而易見的,數據科學家們還是傾向於像個工程師一樣思考(「相信我,我是一個工程師」)並且嘗試著去建構可擴展框架以支持長期解決方案。

但是,商人們可不在乎什麼架構、規模、工程,他們只在意洞察力和可操作性的見解。如果你不能夠提供他們所需要的這些,你在他們眼中就是失敗的。而且,他們是做銷售的,所以他們的決定往往是差之毫厘,失之千里的。如果你不能夠幫助他們最優化他們的決策,那你對他們來說就是沉沒成本的一部分,金融理論中對於商人來說相當雞肋的那部分。所以,不要忽視這些簡單的要求。首先你得確定這些簡單的要求是用以支持某些能夠通過數據分析來改善的業務決策的,然後請你咽下你的驕傲,埋頭處理那些微不足道的30行SQL代碼,這樣你就能從公司的沉沒成本轉變為具有高投資回報率的一個重要部分。

3

Preference for complex solution over easy one

偏愛複雜的解決方案

最後的這個是最昂貴的錯誤,實際上也是對於數據科學家來說最重要的準則。將數據科學家描述為能夠寫代碼、算數學、做統計以及遠比其他人更了解業務的終極天才其實對數據科學家來說是非常不利的。這種期望逐漸發酵以致使數據科學家認為他們需要通過應用頂尖的統計學和計算機科學方法來解決問題。

最終,你會遇到一個這樣的情況:因為行業使他們痴迷於複雜性,初級數據科學家認為一切都可以通過深度學習來解決,而不知道如何進行初級的數據探索 。基礎數據探索和可視化是數據科學家的主要工具,這決定了你需要將大部分時間用來探索數據。不建立機器學習模型 - 除非你被僱用專門做這個。不構建擴展的後端架構。不要為一個簡單的業務問題寫一個10頁的深入假設檢驗研究。除非你被僱用或被特別要求這樣做。您的主要作用是探索可行的見解,並將其分享推薦給你的老闆。

不要因為那些泛濫的迷信將本就已經相當複雜的領域進一步複雜化。當數據科學家想要把機器學習應用到每一個用例、每一個項目時,那就是這種錯誤的典型示例。這不僅減慢了所需輸出的傳送速度,而且在許多情況下其實根本就不需要機器學習模型!正如我之前解釋的 – 如果數據科學家的核心工作是要解決問題,沒有必要處處應用那些時髦的新工具。

So how do I succeed as a data scientist?

那麼,要怎樣才能成為一名成功的數據科學家呢?

與每個領域一樣,實現成功或不幸失敗都有很多具體的原因。有些錯誤是需要栽過跟頭後才能了解個中本質,而有些根本的經驗教訓完全可以不需要經過試錯就能懂得的。最重要的是你要熱衷於問題本身,熱衷於為你的老闆構建解決方案,而不是痴迷於工具和那些天才極客式的東西。 除非你的角色是一個完全不需要與其他人交流的工程師,否則你就必須學會與人溝通交流,並且要耐心運行那些簡單的——或者說在你眼中極其微不足道的——提供毫無吸引力的3×3數據表的代碼。你要知道,有時簡單是更好的,這是所有事物的基礎 ——

「everything should be made as simple as possible, but not simpler」 as one pretty famous scientist Albert Einstein once said.

「一切都應儘可能簡單,而不僅僅只是稍微簡單一點」 正如著名科學家愛因斯坦曾經說過的那樣。


推薦閱讀:

為什麼說 Python 是數據科學的發動機(二)工具篇(附視頻中字)
久等了,一小時後BitTiger Pro公開發售!順便說說我們開發它的故事
Kaggle 入門指南
文章商品分類之數據標註
《數據科學中的R語言》之字元串處理入門

TAG:数据科学 |