標籤:

沒用過TF,沒摸過GPU,我算不算是真正的數據科學家?

本文由 「AI前線」原創,原文鏈接:沒用過TF,沒摸過GPU,我算不算是真正的數據科學家?

作者|Brandon Rohrer

譯者|Debra

編輯|Emily

AI 前線導讀:「KDnuggets 每月都會評選幾篇優秀博客,其中在一篇被評為「silver blog」的文章中,一位數據科學家描述了自己作為數據科學家的心聲。在他的眼裡,自己好像一個「誆人的騙子」。」

我從來沒有用過 TensorFlow 或 Keras 這些深度學習框架。

我從來沒摸過 GPU。

我沒有計算機科學和統計學學位。我的學位是機械工程。

我不知道 R 是個神馬東西。

但我沒有放棄希望。在閱讀了大量的招聘信息後,我發現要想成為一名真正的數據科學家,我需要有五個博士學位,以及 87 年的工作經驗。

如果這聽起來很熟悉,你就知道你並不孤單。你不是唯一一個不知道自己打著數據科學家的名頭還能矇混多久的人。你不是唯一一個會做噩夢,夢到在下次面試中被嘲笑的人。

患上「誆人綜合征」的人會常常感覺你所在的領域所有人都比你更強,你永遠不會得到工作機會,或者已經有工作時會覺得你被錄用一定是招聘過程出了什麼岔子。儘管統計上不可信,但我們大多數人都覺得自己低於同行的平均水平。我從和同事交談中估計,十分之九的人時不時地會認為自己是個「誆人的騙子」。(如果你對這個完全不熟悉,建議你讀一下 Kruger 和 Dunning 的《不熟練,不知道》這篇具有反省意味的文章)。

真正的數據科學家是什麼樣的?

「數據科學」是一個讓人激動的詞,它就像一塊磁鐵一樣對附近的子領域產生吸引力。我們所說的數據科學領域還比較年輕,這個領域之廣讓一個人很難成為所有子領域的專家。以我的經驗來看,數據科學萬事通之類的人才是一個神話般的存在,因為沒有一個人的專業可以涵蓋所有的知識。那麼,我們該怎麼辦呢?

有兩條路可走:通才或專家。

一個優秀的多面手

  • 對數據科學的所有部分都一知半解,
  • 認識所有的術語和技術術語,
  • 對於需要什麼工具和專業知識來解決特定問題有很好的概念,
  • 在技術評論中可以提出有見地的問題。

而一個優秀的專家

  • 需要深入了解某一領域
  • 可以向非專家解釋他們的專業領域
  • 了解不同方法之間的利弊
  • 時刻跟上最新的研究和新工具的步伐
  • 以及可以快速使用工具產生高質量的結果

而通才不一定知道演算法的工作原理和使用工具的技巧。他們會告訴你,數據清理是至關重要的,但可能無法枚舉替換缺失值的不同方法之間的利弊。他們會告訴你,Spark 是加速計算的好方法,但可能無法建議你應該如何最優化設置。

專家不一定對自己專攻領域之外其他領域的事情了如指掌。他們知道在 5 億個數據點上進行線性回歸的最佳架構,但可能無法解釋樸素貝葉斯分類器。他們可以敏銳地捕捉到平方損失、鉸鏈損失和邏輯損失之間的權衡,但可能無法從 Hive 表中查詢數據。

另一套可以描述通才和專家的詞是「寬泛」與「深度」。他們都精通技術,但他們擅長的的專業知識不同。我們都是某些領域的通才和某些領域的專家。隨著你的事業發展,你會發現最適合你的領域。

當僱用數據科學家時,這種區別也是有所幫助的。招聘一個具有深度神經網路研究經驗或財務數據可視化背景的人才,將會比招一個「全面」的數據科學家更符合崗位需求。

如何證明你是一個真正的數據科學家?

通常,我們通過獲得高等學位證書來證明自己的資格。不幸的是,對於我們大多數人來說,數據科學方面這樣的學位不多。當有人質疑我們的資格時,我們沒有可以拿來當擋箭牌的論文。那我們該怎麼辦呢?我們怎樣才能回應來自批評者、採訪者、同事,以及最難聽的質疑——我們腦海中的聲音呢?

這就好比木匠做工。想像一下,你想在你的廚房裡放一個定製櫥櫃,有三名木匠爭取這份工作。其中第一個人給了你一個證書,她說:「我在本市跟著最好的櫥櫃木匠學習了七年木工。」第二個打開她的工具箱,說:「我的鑿子是最新的設計,沒有人比我的更鋒利。」第三個人遞給你一個光滑的櫻桃色小盒子。當你用手指輕拉手柄時,一個小巧的抽屜無聲地滑出來。她說:「這是我做的。」

證書、工具,以及代表作品集都是你樹立職業資格的方式。我不會覺得這三個人誰更優秀,但是對於數據科學家來說,代表作品集更有說服力。數據科學家的認證不多,且沒有一個標準,拿出演算法和計算機語言認證並不代表我們對其了解有多深,或者我們可以用其做什麼。我們可以向非專業人士講構建之類的事情,向技術採訪者和同事講專業知識。當然,這並不能保證你在第一次面試時會順利找到工作。如果被 pass 了也沒關係,這很正常,接著找。

成為真正的數據科學家的感覺如何?

請注意,通才和專家都有很多他們不知道的東西。這意味著,即使是真正的數據科學家很多時候也會感到迷茫。項目負責人會問一些我們不知道答案的問題。同事們會高談闊論我們從未聽說過的演算法。團隊成員會編寫我們無法解讀的代碼。一些文章會引用我們根本不知道的熱門子領域。檔案文件里的方程式可能是象形文字似的胡言亂語。實習生可能會指出我們的推理中最基本的錯誤...... 好吧,你沒做錯什麼,別在意。

我們的目標不是累積答案,而是提出更好的問題。如果你可以提出問題,並使用數據找到這些問題的答案,那麼恭喜你,你就是真正的數據科學家。雖然只是暫時的。

更多乾貨內容,可關注AI前線,ID:ai-front,後台回復「AI」、「TF」、「大數據」可獲得《AI前線》系列PDF迷你書和技能圖譜。


推薦閱讀:

利用 SQL 進行數據分析初學者教程 - ep1
如何可視化城市的交通便捷性
使用 TensorFlow 做文本情感分析

TAG:数据科学家 |