013【數據分析】利用Python進行數據分析第二版 (2017) 中文筆記

02-18

中期回顧：
10月下旬我就開始在做這本書的筆記，現在三周過去了，這期間發生了很多事，但終於，終於，完成了一半……
不過，起碼現在已經完成了一半，總算是有點底氣貼出來以饗讀者。

寫中文筆記比我想的要花時間，不過這個筆記有兩個好處：
1. 適合英文不好的初學者拿來練習。我已經盡量翻譯成中文了，對於英文不好的同學更友好一些；
2. 可以直接當字典來索引，以後遇到問題直接找對應的章節，不用到處問來問去。
2017第二版主要更新：

1. 所有代碼，包括Python教程，都升級到了Python3.6（第一版用的是Python2.7）
2. 更新了Python的安裝介紹。這次改用Anaconda Python發行版，以及其他一些需要的Python包
3. 使用了最新的2017版pandas
4. 新增了一章，用來介紹pandas的高級應用工具，和其他一些有用的小貼士
5. 簡單介紹了如何使用statsmodels和scikit-learn

如果使用python做數據分析的程序員，我想應該沒有人不知道Python for Data Analysis（利用Python進行數據分析）這本書。

自從這本書2013年第一版發行後，就廣受好評，尤其是搞數據科學的，這本書可以說是必讀書籍了，裡面對於pandas進行了重點的介紹，並輔以numpy，matplotlib等包進行說明，裡面的內容完全可以讓一個小白學會用python進行一般的數據分析任務。

最近時間多了些，本來打算把這本書完整過一遍，不過在做第三章的筆記時，發現作者已經在2017推出了第二版，不過現在還沒有中文版。所以這裡我打算直接把書里的內容翻譯成中文，做一個簡潔的中文筆記版本（Jupyter Notebook）。

這本書第一版的時候使用的語言是Python 2，不過隨著Python2的維護年限將近（2020），以及Python3的推廣，整個社群向Python3轉變已經成為不可扭轉的趨勢。所以在第二版里，作者使用了Python3.6。而我實際寫的代碼則是基於Python3.5，實際使用過程中沒有什麼差別。

在寫筆記的時候，我盡量寫中文，不過有一些專有名字我是直接寫英文，然後配上中文翻譯，畢竟有時候知道英文單詞的話查找英文的文檔也方便一些，而且我相信這樣做對提升中文和英文專業名字的對照關係有幫助。畢竟在程序員的世界裡，不懂英語會很艱難，即使是一些簡單的單詞，也是我們走向新世界的起點。

這裡是github鏈接：https://github.com/BrambleXu/pydata-notebook

如果覺得有幫助的話，就點個Star吧：）

吐槽
這個專欄終於要寫一點關於編程的東西了……本來就是打算以深度學習為主題創建的專欄，結果完全沒有分享技術的東西，現在終於對回到正軌感到了一絲欣慰

013【數據分析】利用Python進行數據分析 第二版 (2017) 中文筆記

013【數據分析】利用Python進行數據分析第二版 (2017) 中文筆記