2018年跳槽指南:如何找到一份人工智慧相關的工作?
本文由 【AI前線】原創,原文鏈接:http://t.cn/RHqaB5p
作者|Tanmoy Ray
譯者|薛命燈
編輯|Emily
AI 前線導讀:「2017 年,大數據把 AI 推向了技術炒作的舞台正中央,數據科學和機器學習在各行各業開始嶄露頭角。機器學習開始被應用於解決數據分析問題。機器學習、AI 和預測分析成為 2017 年的熱門話題。我們見證了基於數據的價值創新,包括數據科學平台、深度學習和主要幾個廠商提供的機器學習雲服務,還有機器智能、規範性分析、行為分析和物聯網。2018 年,AI 的發展腳步會加快,這一年將是 AI 技術重生和數據科學得以重新定義的一年。對於雄心勃勃的數據科學家來說,他們如何在與數據科學相關的工作市場中脫穎而出?2018 年會有足夠多的數據科學相關工作嗎?還是說有可能出現萎縮?接下來,讓我們來分析一下數據科學的趨勢,並一探如何在未來的大數據和機器學習 /AI 領域獲得一份不錯的工作。」
增強技術實力
編程語言和開發工具
365 Data Science 收集了來自 LinkedIn 的 1001 數據科學家的信息,發現需求量最大的編程語言為 R 語言、Python 和 SQL。另外,還要求具備 MATLAB、Java、Scala 和 C/C++ 方面的知識。為了能夠脫穎而出,需要熟練掌握 Weka 和 NumPy 這類工具。
概率統計學、應用數學和機器學習演算法
你需要牢固掌握概率統計學,並學習和掌握一些演算法,比如樸素貝葉斯、高斯混合模型、隱馬爾可夫模型、混淆矩陣、ROC 曲線、P-Value 等。
不但要理解這些演算法,還要知道它們的工作原理。你需要牢固掌握梯度下降、凸優化、拉各朗日方法論、二次規劃、偏微分方程、求積法等相關演算法。
如果你想找一份高薪的工作,還需要掌握機器學習技術和演算法,比如 k-NN、樸素貝葉斯、SVM 和決策森林等。
分散式計算和 Unix 工具
現在大部分機器學習都需要海量數據,所以你無法在單台機器上進行機器學習。所以,你需要用到集群,需要掌握 Apache Hadoop 和一些雲服務,如 Rackspace、Amazon EC2、Google Cloud Platform、OpenStack 和 Microsoft Azure 等。
你還需要掌握各種 Unix 工具,如 cat、grep、find、awk、sed、sort、cut、tr 等。因為機器學習基本上都是在 Unix 系統上運行的,所以需要掌握這些工具,知道它們的作用以及如何使用它們。
查詢語言和 NoSQL 資料庫
傳統關係型資料庫已經老去。除了 Hadoop 之外,你還需要掌握 SQL、Hive 和 Pig,以及 NoSQL 資料庫,如 MongoDB、Casssandra、HBase。
基於 NoSQL 分散式資料庫的基礎設施已經成為大數據倉庫的基礎。原先在一個中心關係型資料庫上需要 20 個小時才能處理完的任務,在一個大型的 Hadoop 集群上可能只需要 3 分鐘時間。當然,你也可以使用 MapReduce、Cloudera、Tarn、PaaS、Chef、Flume 和 ABAP 這些工具。
數據可視化工具
在掌握編程語言和演算法的同時,不要忽略了數據可視化的作用。如果無法讓你自己或別人理解數據,那麼它們就變得毫無意義。數據可視化就是指如何在正確的時間向正確的人展示數據,以便讓他們從中獲得價值。主要的數據可視化工具包括:Tableau、QlikView、Someka Heat Maps、FusionCharts、Sisense、Plotly、Highcharts、Datawrapper、D3.js、ggplot 等。
正確選擇教育背景和專業
要成為數據科學家,不一定非要拿到數據科學方面的學位。事實上,你完全不需要這麼做,這樣做反而不是個好主意。如果你能拿到計算機學位、工程學學位、經濟學學位、數學學位、統計學學位、精算師學位、金融學學位或者自然科學學位(物理、化學或生物)都是可以的。甚至是人文科學(包括社會科學)也是可以的。
365 Data Science 的研究表明,20% 的數據科學家擁有計算機學位,19% 擁有統計學或數學背景,19% 主攻經濟和社會科學專業。只有 13% 擁有存粹的數據科學學位。不過很少有大學提供數據科學本科學位,他們大部分都提供了碩士學位。因為該職業是一個新興職業,所以毫無疑問,很多人在本科階段並不會接觸到數據科學。
如果能夠繼續深造,拿到數據科學或機器學習 /AI 相關的碩士或博士學位,自然會助你一臂之力,特別是如果你想在世界 500 強公司里找到一份數據科學家的工作。365 Data Science 研究發現,擁有碩士和博士學位的 1001 數據科學家比例分別是 48% 和 27%。
不過,碩士學位確實不是那麼好拿到的,但如果能夠拿到,那絕對是如虎添翼。如果你想從事數據分析工作,但不一定要接觸數據科學和機器學習,那麼碩士學位就不是必需的。你完全可以在沒有碩士學位的情況下獲得一份數據分析的工作。不要把數據科學和數據分析混淆起來了。
獲得實際的經驗
在實習結束後,有 18% 的人可以直接進入數據科學領域。所以,如果你已經有了碩士學位,最好先找一個實習崗位,而不是直接繼續讀博。
在現實當中,很少有公司會直接正式招聘應屆的數據科學家。他們大部分人都是從分析員(數據分析、BI 分析)、實習生、IT 專員、軟體工程師和諮詢顧問做起的。只有 2% 的人在一開始就從事數據科學工作。
有意思的是,數據科學家中有 27% 是博士,所以大學自然就成為培養數據科學家的搖籃,有一些高校學者直接被聘請成為數據科學家。另外,從事 IT 工作的人比從事顧問工作的人更容易成為數據科學家,所以紮實的編程功底絕對是個優勢。
在某種程度上,大學排名很重要
一組研究數據表明,排名靠前的高校會培養出更多數據科學家。
28% 高收入數據科學家來自世界排名前 50 的高校,不過也有 25% 來自不在排名之列的高校。
所以,這個與學校排名有一定的關係,但不是全部。知識、技術實力和實戰經驗比畢業院校更重要。實際的經驗和良好的編程技能是必需的,而好學校是錦上添花,但不是決定因素。
參加在線教育課程
我參加在線課程有很長一段時間了。為了獲得一份數據科學家的工作,或者為了拿到數據科學家碩士學位,需要努力自學。
40% 的數據科學家參加過在線教育課程。另外,平均每人獲得 3.33 個證書。所以,為了成為好的數據科學家,你需要通過參加在線課程、觀看視頻資料和獲得 MOOC 證書的方式進行自學。
加強你的軟技能
數據科學都是關於數學、編程和技術。但在現今以數據為驅動的工作場所,軟技能也是很重要的,如溝通技能、求知慾、創造力、文化智能、情商和商業敏銳度。
求知慾
數據科學的終極目標就是探索,以創新的方式發現新的想法。好的數據科學家受求知慾的驅使,以各種創新的方式探索數據。好的公司不只是需要那些會回答問題的人,也需要那些善於提問的人。
積極性和激情
有些人能夠在學習和工作之外做一些體現自己激情的事情,這些人比較受招聘者的青睞,所以請主動加入一些數據科學項目吧,去解決一些實際的業務難題或做一些調研。創新思維能力和為舊問題尋找新方案的能力是區別優秀數據科學家和一般數據科學家的主要依據。
溝通和分析技能以及團隊合作
好的數據科學家是技術團隊和業務團隊之間的粘合劑。作為數據科學家,你需要成為好的溝通協調者。
有時候,你要以一種大家都能明白的方式來陳述事實。如果數據分析的結果暗示公司的策略需要發生變化,你需要通過良好的人際關係技能將公司帶向正確的方向。
業務敏銳度
作為數據科學家,你需要對所在行業有非常深刻的認識——行業發展趨勢、客戶的痛點、競爭對手。你要知道公司想要解決什麼樣的業務問題。數據科學家需要知道要解決什麼問題以及如何找出合適的解決方案。深入了解業務,並能夠將其與客戶喜好、產品生命周期和盈利目標結合在一起,是找到創造性解決方案的關鍵。
為面試做好準備
不要忘了花點時間為面試做準備。不管你的技術有多強,面試官總有辦法用一些你不知道的問題把你掃地出門。在面試中,面試官有可能問各種各樣的問題,要求候選人具備非常強的技術功底、很強的抗壓能力、創造性思維以及很好的溝通能力。面試官會通過各種方式來考察你的你的知識、編程技能和數據建模技能,所以提前做好準備是成功應聘的關鍵。
結論
2018 年,整個行業需要大概 100 萬個數據科學家。人工智慧、大數據和物聯網技術被用於挖掘新的業務洞見,據福布斯估計,「在 2020 年之前,它們將從還在沉睡中的同伴那裡每年偷走 1.2 萬億美元」。不過,要進入這個領域,要先確保你對統計、編程和數據建模有足夠的熱情,不要盲目隨波逐流或盲目追求高薪資。
但或許你會在其他領域得到更好的發展,比如經濟、應用數學或工程領域。首先要確定數據科學這條路是不是適合自己。2018 年絕對不會讓那些有志在數據科學領域一展身手的人失望。不過還是那句話,一個具備分析能力的大腦、熟練的編程技能、誠摯的熱情和持續自我提升的毅力將決定你的數據科學家之路會走多遠。
原文鏈接:
https://www.stoodnt.com/blog/285/how-to-get-data-science-and-machine-learningai-jobs-how-to-become-a-data-scientist
關注後回復「AI」你懂的
推薦閱讀:
※2018年,AI晶元之戰將打響
※當00後,10後步入社會時,他們會面對一個怎樣的世界?
※2016波瀾壯闊的人工智慧元年從AlphaGo到國產狗絕藝系列評論之二
※如何看待4月7-10日的德撲人機比賽?是否意味著博弈工種會被取代?(例如金融市場,電子競技)?
※機器學習中的目標函數、損失函數、代價函數有什麼區別?