利用 python 進行數據分析 數據結構的小總結

1. 學習目標

學習其實是將未知的知識,添加到自己的知識體系的過程。學習的知識與已經掌握的知識聯繫越多,新學的知識越是能夠掌握牢固。本來是要學習 r 語言的數據結構,當然要盡量和 python 體系的數據結構做好類比,這樣既是對新知識的拓展,也是對老知識的鞏固。

刷完了這一課,感覺重新再使用一個不順手的工具還是不太好,決定還是繼續使用更順手的工具吧,如果有一天真的需要再開始學習,畢竟比起兩個工具都馬馬虎虎,還是不如一個工具用的熟練的。

2. 數據結構

2.1 各種數據結構分類

2.2 python 數據結構操作

有現成的就不浪費自己時間整理了。。

numpy

Cheat Sheet NumPy Basics

pandas

Cheat Sheet Pandas Basics

  • 關於 data_pd.loc[:][1] data_pd.loc[: , 1] 區分兩者的關係,前者是先索引行,返回一個對象,再對這個對象索引列,後者是直接通過行列位置信息,只有一次返回過程

python, numpy,pandas 三者數據結構的互相轉換

  • python:list,dict(或者OrderedDIct)
  • numpy:array
  • pandas:Series,Dataframe

python <-> numpy, pandas

  • list

pandas 中的數據結構都有行列名,所以列錶轉換的時候需要附帶上相關信息

ser = Series(data, index = [ ])df = DataFrame(data, index = [ ], column = [ ])ndarray = np.array(data)lst = list(oneD_array)

  • dict

dict 的 key 值分別作為 Series 的 index 和 Dataframe 的 column

ser = Series(data)df = DataFrame(data)dict1 = dict(df) #使用 python 內建函數

  • OrderDict

可以使生成的 Dataframe 保持和字典一樣的順序

dict1 = OrderedDict([(1,["a","b"]),(3,["c","d"]),(2,["e","f"])])dict1_pd = pd.DataFrame(dict1)

numpy <-> pandas

  • array -> Series, Dataframe

ser = pd.Series(ndarray,index= [ ])pd = pd.DataFrame(ndarray, index = [ ], columns = [ ])

  • Series, Dataframe -> array

data.values # 轉換成 array 類型

3. 資料

  • R語言實戰(第2版)
  • 利用Python進行數據分析
  • numpy 文檔 docs.scipy.org/doc/nump
  • pandas 文檔pandas.pydata.org/panda

推薦閱讀:

2017下半年8場雲計算相關會議合集 聚焦大數據未來!
怎麼才能用數據實現商業價值?
工業大數據分析實踐:基於CRISP-DM方法論的再認識
如何成為大數據產品經理
《大數據和我們》讀後感

TAG:數據分析 | 大數據 | 數據 |