利用 python 進行數據分析 數據結構的小總結
1. 學習目標
學習其實是將未知的知識,添加到自己的知識體系的過程。學習的知識與已經掌握的知識聯繫越多,新學的知識越是能夠掌握牢固。本來是要學習 r 語言的數據結構,當然要盡量和 python 體系的數據結構做好類比,這樣既是對新知識的拓展,也是對老知識的鞏固。
刷完了這一課,感覺重新再使用一個不順手的工具還是不太好,決定還是繼續使用更順手的工具吧,如果有一天真的需要再開始學習,畢竟比起兩個工具都馬馬虎虎,還是不如一個工具用的熟練的。
2. 數據結構
2.1 各種數據結構分類
2.2 python 數據結構操作
有現成的就不浪費自己時間整理了。。
numpy
Cheat Sheet NumPy Basics
pandas
Cheat Sheet Pandas Basics
- 關於 data_pd.loc[:][1] data_pd.loc[: , 1] 區分兩者的關係,前者是先索引行,返回一個對象,再對這個對象索引列,後者是直接通過行列位置信息,只有一次返回過程
python, numpy,pandas 三者數據結構的互相轉換
- python:list,dict(或者OrderedDIct)
- numpy:array
- pandas:Series,Dataframe
python <-> numpy, pandas
- list
pandas 中的數據結構都有行列名,所以列錶轉換的時候需要附帶上相關信息
ser = Series(data, index = [ ])df = DataFrame(data, index = [ ], column = [ ])ndarray = np.array(data)lst = list(oneD_array)
- dict
dict 的 key 值分別作為 Series 的 index 和 Dataframe 的 column
ser = Series(data)df = DataFrame(data)dict1 = dict(df) #使用 python 內建函數
- OrderDict
可以使生成的 Dataframe 保持和字典一樣的順序
dict1 = OrderedDict([(1,["a","b"]),(3,["c","d"]),(2,["e","f"])])dict1_pd = pd.DataFrame(dict1)
numpy <-> pandas
- array -> Series, Dataframe
ser = pd.Series(ndarray,index= [ ])pd = pd.DataFrame(ndarray, index = [ ], columns = [ ])
- Series, Dataframe -> array
data.values # 轉換成 array 類型
3. 資料
- R語言實戰(第2版)
- 利用Python進行數據分析
- numpy 文檔 https://docs.scipy.org/doc/numpy-dev/user/quickstart.html
- pandas 文檔http://pandas.pydata.org/pandas-docs/stable/
推薦閱讀:
※2017下半年8場雲計算相關會議合集 聚焦大數據未來!
※怎麼才能用數據實現商業價值?
※工業大數據分析實踐:基於CRISP-DM方法論的再認識
※如何成為大數據產品經理
※《大數據和我們》讀後感