全棧 - 2 序言 數據工程和編程語言
01-31
這是全棧數據工程師養成攻略系列教程的第二期:2 序言 數據工程和編程語言。
現在大數據的概念火得不行,太多的人言必稱大數據,所以我這裡就不談大數據,而是介紹如何去做一些個人能hold住的小而美的數據工程和數據應用。
如何玩轉數據
玩轉數據基本包括以下四個流程:
- 第一是採集,我們的數據從何而來?要麼是別人準備好提供給我們,要麼就需要我們自己去採集,或者從互聯網上抓取;
- 第二,我們需要把採集到的數據存儲下來。可以存儲到靜態文件,例如txt、csv、json等,也可以存儲到一些通用而且成熟的資料庫里,例如mysql、postgres等;
- 第三,對存儲的數據進行清洗和分析。一方面是做一些統計匯總的工作,並得出一些結論;另一方面是用機器學習的方法訓練一些模型,並且用來解決實際問題;
- 最後,用數據可視化的方法將所得的結論和模型進行展示,畢竟一圖勝千言,數據可視化可以幫助我們更好地展示從數據中挖掘出的價值。
關於編程語言
很多人都在爭論,到底哪種編程語言最好;也有很多人在困惑,要做數據分析的話,應該從哪種編程語言學起。其實在我看來,只學習一門語言可能遠遠不夠,而是各個方面都應當有所涉足,但是同時又有最擅長和習慣使用的一兩門語言。
C++和Java這兩門語言你需要至少熟悉一門,從而了解語法的基本內容和面向對象的編程思想。熟悉的意思是不用完全掌握,只要在要用的時候,查一查,能夠快速回想起來相關內容即可。
Python是一門簡單好用而且功能強大的語言,也是我使用最多、最為熟悉的一門語言,開玩笑地說,Python大法好,除了炒菜別的Python都可以干。
R是一門統計分析語言,近幾年它的學習門檻和成本都在不斷降低,可以用來做一些專業的分析和繪製一些漂亮的圖形。
然後就是和Web網站開發相關的一些語言,例如後端的PHP、NodeJS,前端的HTML、CSS和JavaScript等。
就我個人而言,比較習慣於用Python採集數據並且寫入到文件或資料庫,做分析的時候結合使用Python和R。至於可視化,則是用R繪製一些靜態圖形,使用Web網站做一些交互可視化。
在接下來的教程中,我會以Python為主,為大家介紹如何進行數據的採集、存儲、分析和可視化,帶大家去做一些簡單而有意思的事情。
視頻鏈接:數據工程和編程語言
推薦閱讀: