Github上Pandas,Numpy和 Scipy三個庫中20個最常用的函數
01-26
幾個月前,我看到一篇博客中列出了 Github 網站上 Python 常用庫中使用頻率最高的一些函數/模塊。我在這個基礎上做了可視化處理,並撰寫了每個庫中使用頻率前十的函數示例。其中本文中只包含了部分示例,完整的示例可以參見我的 Github。
首先我利用 requests 和 BeautifulSoup 從原始博客中爬取相關的數據,然後利用 matplotlib 和 seaborn 來繪製條形圖,其中函數的排序由包含該函數的資源庫(Repositories)數目所決定。比如,雖然 pd.Timestamp 的總頻次特別高,但是該函數僅在少量的資源庫中出現,所以它的排序相對靠後。
Pandas
DataFrame: 創建一個 dataframe 對象
merge:聯結兩個 dataframe
Numpy
arange: 創建某個區間內等間距的序列數組
mean: 沿著某個軸向計算列表/數組中所有數據的平均數
Scipy
stats: 常用的統計函數或分布函數
linalg: 常用的線性代數函數,如逆矩陣(linalg.inv)、行列式(linalg.det)
interpolate: 樣條函數和插值函數
signal: 包含信號處理工具
misc: misc.imread 和 misc.imsave 分別用於讀取和保存圖像數據
http://weixin.qq.com/r/WkMCGqvEoPbfre959xZI (二維碼自動識別)
原文鏈接:Top 20 Pandas, NumPy and SciPy functions on GitHub
原文作者:Alexander Galea譯者:Fibears推薦閱讀:
※直播 | Facebook Analytics Manager如何運用300PB海量資料庫?
※沒用過TF,沒摸過GPU,我算不算是真正的數據科學家?
※利用 SQL 進行數據分析初學者教程 - ep1
※如何可視化城市的交通便捷性
TAG:数据科学家 |