標籤:

Github上Pandas,Numpy和 Scipy三個庫中20個最常用的函數

幾個月前,我看到一篇博客中列出了 Github 網站上 Python 常用庫中使用頻率最高的一些函數/模塊。我在這個基礎上做了可視化處理,並撰寫了每個庫中使用頻率前十的函數示例。其中本文中只包含了部分示例,完整的示例可以參見我的 Github。

首先我利用 requests 和 BeautifulSoup 從原始博客中爬取相關的數據,然後利用 matplotlib 和 seaborn 來繪製條形圖,其中函數的排序由包含該函數的資源庫(Repositories)數目所決定。比如,雖然 pd.Timestamp 的總頻次特別高,但是該函數僅在少量的資源庫中出現,所以它的排序相對靠後。

Pandas

DataFrame: 創建一個 dataframe 對象

merge:聯結兩個 dataframe

Numpy

arange: 創建某個區間內等間距的序列數組

mean: 沿著某個軸向計算列表/數組中所有數據的平均數

Scipy

stats: 常用的統計函數或分布函數

linalg: 常用的線性代數函數,如逆矩陣(linalg.inv)、行列式(linalg.det)

interpolate: 樣條函數和插值函數

signal: 包含信號處理工具

misc: misc.imread 和 misc.imsave 分別用於讀取和保存圖像數據

weixin.qq.com/r/WkMCGqv (二維碼自動識別)

原文鏈接:Top 20 Pandas, NumPy and SciPy functions on GitHub

原文作者:Alexander Galea

譯者:Fibears
推薦閱讀:

直播 | Facebook Analytics Manager如何運用300PB海量資料庫?
沒用過TF,沒摸過GPU,我算不算是真正的數據科學家?
利用 SQL 進行數據分析初學者教程 - ep1
如何可視化城市的交通便捷性

TAG:数据科学家 |