2017數據科學與機器學習行業現狀調查 Python是最受歡迎的語言
摘要: 最近,Kaggle這一互聯網上最著名的數據科學競賽平台首次進行了機器學習與數據科學現狀調查。在超過 16000 名從業者的答卷中,我們可以一窺目前該行業的發展趨勢。
今年,Kaggle有史以來第一次對人工智慧領域進行了深度調查,旨在全面了解數據科學和機器學習的概況。本次調查收到了16000 多份答卷,龐大的調查數據為我們提供了有關從業者、業界最新動態以及如何進入該行業的數據支撐。以下報告包括本次調查的幾個主要結果,其中包括:
- 儘管Python很可能是機器學習最常用的編程語言,但統計學家使用最多的是 R 語言。
- 數據科學家的平均年齡在 30 歲左右,但是這個數字在不同的國家有所不同。例如,印度受訪者的平均年齡要比澳大利亞的小 9 歲。
- 被調查者教育程度最多是碩士,但在工資最高的(超過15萬美元)人群中,擁有博士學位的人則更多。
Kaggle 已經公開了該調查的匿名數據集,以供大家進行研究,可以從此處下載:https://www.kaggle.com/kaggle/kaggle-survey-2017。
誰在工作中與數據打交道?
分析數據從業者的方式有很多種,本文將從有關數據科學從業者的工作、背景等人口統計學信息開始。
年齡多大?
從下圖可見,本次調查對象的平均年齡大約為 30 歲,但各個國家的這個值有所不同。例如印度調查對象的平均年齡就比澳大利亞的小了 9 歲。
目前的就業狀況如何?
受調查者中,有 65.7% 表示自己有全職工作。
職位是什麼?
儘管我們把數據科學家定義為使用代碼分析數據的人,但我們發現數據科學領域可涵蓋的工作非常多。比如在伊朗和馬來西亞,數據科學從業者最流行的工作頭銜是「科學家或者研究員」。
全職工作的年薪是多少?
中位數55441美元,不過由於很多人沒有全職工作(收入為 0),所以這一數字並不準確。儘管在我們的調查中「補償和福利」的重要性稍微比「職業發展機遇」低一些,不過知道什麼是合理的補償依然不錯。在美國,一般機器學習工程師帶回家最多的東西是培根。
有131個回復由於超出最大值而沒有顯示出來,但它們被算進了中位數。
最高學歷是什麼?
你需要再去讀一個學位嗎?通常來講,數據科學從業者中最常見的學歷是碩士,但是獲取最高薪水(15萬到20萬美元,以及高於20萬美元)的那些人大多有著博士學位。
被調查者的大多是 30 歲左右,碩士學歷,年薪5.5萬美元左右,擁有數據科學家的職位。但實際情況並不如此平均。這些最初的幾個人口統計學問題只是展示了複雜的 Kaggle 數據科學社區在年齡、性別、國籍、工作職稱、薪水、經驗和學歷方面的表層差異。
數據科學家的工作內容是什麼?
我們把數據科學家定義為寫代碼來分析數據的人。他們的日常工作內容是什麼呢?以下是我們的調查結果。
工作中使用哪些數據科學方法?
邏輯回歸是工作之中最為常用的數據科學方法,不過在神經網路使用更為頻繁的國家安全領域除外。總的來說,數據科學中更常見的還是使用經典的機器學習演算法,簡單的線性與非線性分類器是數據科學中最常見的演算法,而功能強大的集成方法也十分受歡迎。
工作中使用最多的編程語言是什麼?
Python是數據科學家最常用的語言,也是最常用的數據分析工具。不過,也有很多數據科學家仍然保持著對 R 語言的忠誠。
在工作中常用的數據類型是什麼?
關係型數據是開發者在工作中最常用的數據類型,因為大多數產業工程師都十分關注於這種關係型數據。而學術研究者和國防安全產業則更注重於文本與圖像。
如何分享工作中的代碼?
儘管很多受訪者(58.4%)在工作使用 Git 來分享代碼,但大公司中的開發者更傾向於將代碼保留在本地,並通過像 Email 那樣的文件共享軟體來分享代碼。而初創公司可能需要在雲中共享以保持更加敏捷的反應。
工作中遇到的障礙主要有哪些?
臟數據(dirty data)顯然排在了第一位,也就是說,數據科學家最常見的困擾就是需要對數據進行大量的預處理工作。除了數據預處理之外,還有很多問題困擾著數據科學家,比如說眾多的機器學習演算法各有各的擅長領域,所以了解它們的性能也會有一些困難。
數據科學家初學者如何進入這個領域?
當開始一個新的職業生涯的時候,參考別人的成功經驗會很有幫助。我們調查了在數據科學行業工作的人們,詢問他們是如何入門的。以下是我們最喜歡的幾條建議:
你們會推薦數據科學家新手最先學哪門語言?
每一位數據科學家都有自己的對選擇第一門語言的想法。事實證明,那些僅使用 Python 或 R 語言的人們做出了正確的選擇。不過如果你問一下使用過 R 和 Python 的人們,他們有兩倍的可能會把 Python 推薦給你。
你們使用哪些數據科學學習資源?
數據科學是一個發展迅速的領域,有很多有價值的資源可以幫助你學習並保持業內的頂尖位置,從而不斷提升你的競爭力。已經在數據科學領域中工作的人們會更多地使用 Stack Overflow Q&A,Conferences 和 Podcasts。如果想要發布內容或開源軟體,請時刻記住剛進入這個領域的人們通常更多使用官方的文檔和觀看 Youtube 視頻。
你們在哪裡獲取開源數據?
沒有數據,就沒有數據科學。當需要學習數據科學技巧的時候,知道如何找到乾淨的開源數據集用於練習和開發項目相當重要。很高興我們的數據集聚合器正發展為數據科學社區成員中使用最頻繁的工具。
如何找工作,並且又是如何找到的?
在尋找工作地時候,人們可能會去公司網站,或在指定技術方向的招聘信息中尋找機會,但是根據數據科學領域工作的人們的經驗,這些方式無疑是最差的選擇。直接聯繫招聘者或建立自己的網路以進入這個領域才是他們的首選。
注意:少於 50 名受訪者的組別被合併進了「Other」類中。其中一些柱狀圖為了美觀而做了縮放處理。如果想要查看所有問題和結果的原始數據,請訪問:https://www.kaggle.com/amberthomas/kaggle-2017-survey-results。
文章原標題《The State of Data Science & Machine Learning》,作者:Kaggle Inc,譯者:夏天,審校:主題曲。
文章為簡譯,更為詳細的內容,請查看原文。
更多技術乾貨敬請關注云棲社區知乎機構號:阿里云云棲社區 - 知乎
推薦閱讀:
※利用de Bruijn graph組裝基因組的時候,Kmer為什麼必須是奇數?
※九章演算法 | Google 面經:找出dictionary里含某車牌號碼的所有英文字母的最短單詞
※九章演算法 | Google 面試題 : 重複子字元串模式
※SMO演算法是幹什麼的?有什麼作用?不要純概念