如何才能進入數據孵化器中心

01-28

提示：文章中劃線部分涉及的鏈接列在文章的末尾。

我們數據孵化器中心收到成千上萬份想要加入我們數據分析協會的申請。我們的要求非常高，以致於經常有人問我們以下問題：「我要怎麼做才能加入你們的數據分析協會呢？」

接下來我將介紹我們最看重的五個技能以及相應的學習資源，雖然我們並不要求申請者同時擁有這些技能，但是大多數申請人需要掌握大部分的技能。

爬蟲技術

互聯網上有許多數據，你需要學習如何獲取它們。不管它們的格式是 JSON，HTML 或者其他一些自製的格式，你都應該能夠輕鬆地把它們抓取下來。像 Python 專業的現代腳本語言是寫爬蟲程序的理想工具。在 Python 中，有許多便捷的軟體庫幫助我們更好地完成爬蟲工作，比如 urllib2,requests,simplejson,re 和 beautiful soup。進階的爬蟲相關軟體庫有處理錯誤機制的 retrying 和並行處理的 multiprocessing。

SQL

當你獲得一大堆結構化數據後，接下來你需要考慮的問題是如何儲存它們？SQL 是一門原始的查詢語言，以至於許多語言都有 SQL 查詢介面，比如 R 語言中的 sqldf和 HIVE。通常情況下，安裝 SQL 的過程非常麻煩。不過幸運的是，這裡有一個在線學習網站，該網站提供了一個互動式環境，你可以在網站上提交自己的 SQL 查詢代碼。此外，如果你想在本地環境中使用 SQL，那麼你可以嘗試使用 SQLite。

數據框

雖然 SQL 可以很好地處理大批量的數據集，但是 SQL 中缺乏機器學習模型和可視化的工具。因此我們通常利用 SQL 或者 MapReduce 來預處理數據，然後利用 R 語言中的數據框或者 Python 的 pandas來做進一步的數據分析。對於 pandas 來說，在視頻網站 YouTube 上有其創始人 Wes McKinney 發布的教學視頻。你可以點此觀看視頻，並跟著github上的代碼親自練習。

機器學習模型

許多數據分析只需要用到 select, join 和 groupby（或者 map 和 reduce）等操作即可完成，但是有時候你需要構建更深入的機器學習模型。在你接觸複雜的演算法之前可以考慮使用一些相對較簡單的演算法，比如樸素貝葉斯模型和正則化回歸模型。在 Python 中，我們利用 scikit-learn來實現相應的機器學習模型，而在 R 語言中我們主要使用 glm 和 gbm 軟體包。你應該確保你在了解相關基礎知識之後再進一步嘗試更深入的演算法模型。

可視化

數據科學的一個重要過程是與他人共享你的一些發現，其中數據可視化是一個非常有效的手段。Python 中提供了 MATLAB 風格的繪圖軟體包 matplotlib，R 則提供了一個非常強大的繪圖工具 ggplot。當然如果你想嘗試動態可視化繪圖工具的話，你可以試下 d3。

以上都是一些數據科學家的基礎技能，掌握這些技能後對你的職業生涯會有很大的幫助。如果你僅僅只掌握了一部分技能，這是一個很好的開始。而且如果你已經做好準備的話，那麼就來加入我們吧！

更多課程和文章盡在微信號：「datartisan數據工匠」

原文鏈接：How to Prepare for The Data Incubator

原文作者：Michael

譯者：Fibears