標籤:

python有哪些數據分析和數據展現的模塊可以用?

最好可以生成數據報表,或者可以作為數據存儲中心


1、python下的數據分析模塊

pandas:依賴於numpy和sciepy,主要用於數據分析,數據預處理以及基本的作圖,這個包不涉及複雜的模型。

statsmodels:統計包,設計各種統計模型,包括回歸、廣義回歸、假設檢驗等,結果類似於R語言,會給出各種檢驗結果。

對於numpy和scipy是作為科學計算用的,提供各種向量矩陣計算、優化、隨機數生成等等。

以上都是一些包,如果是分析環境的話,可以考慮spyder和ipython notebook——其中ipython notebook 是可以把代碼、結果以及報告同時結合在一起的東西——類似於R語言的Rmarkdown。

2、python的數據可視化

最常用的matplotlib,用於科學製圖——基礎的繪圖,已經集成在pandas里。此外,ggplot2在R語言下的繪圖神器,也同時支持python的喲,非常推薦。

3、數據存儲

一般都用資料庫吧。如果怕麻煩,用cPickle直接把數據保存成文本,下次使用直接load就可以。此外,python是內置了spqlite3資料庫的,可以直接使用。對於複雜的數據,可以使用資料庫介面——各種的,包括hadoop。


ipython:只是個notebook,但是很好用。。。

numpy

scipy :

pandas

matplotlib: python畫圖

nltk, gensim:nlp

statsmodels: 各種模型

scikit-learn: machine learning模塊,很全


樓上講了那麼多,應該有人想看實例,看看我的以pandas為例的代碼演示吧:sherryup - 簡書


數據分析圖表工具matplotlib還可以


簡單的畫圖也可以用seaborn,很好用。

見鏈接Seaborn: statistical data visualization


我來貢獻兩個——

  • Python中著名的數據分析庫Panda

Pandas庫是基於NumPy 的一種工具,該工具是為了解決數據分析任務而創建,也是圍繞著 Series 和 DataFrame 兩個核心數據結構展開的,其中Series 和 DataFrame 分別對應於一維的序列和二維的表結構。

Pandas提供了大量能使我們快速便捷地處理數據的函數和方法。這個庫優點很多,簡單易用,介面抽象得非常好,而且文檔支持實在感人。你很快就會發現,它是使Python成為強大而高效的數據分析環境的重要因素之一。

  • 數據可視化採用Python上最常用的Matplotlib庫

Matplotlib是一個Python的圖形框架,也是Python最著名的繪圖庫,它提供了一整套和Matlab相似的命令API,十分適合互動式地進行製圖。


Python機器學習庫

【轉】Python機器學習庫


一般的數據處理,用numpy和scipy夠了,數據展示用matplotlib和plotly也完全可以實現絕大多數常用圖形的繪製。


強力推薦statsmodels


除了樓上的我還知道一個networkx

不過這些都傾向於圖論

數據分析肯定是NumPy, SciPy


推薦閱讀:

下載了rqalpha源代碼,不知道如何用ipython直接在源代碼中調試運行。?
如何制定python學習計劃?
如何閱讀goagent的代碼?
Python中Turtle模塊的基本指令都有哪些?
如何在同一程序中調用分別用python 2和python 3寫的多個第三方模塊?

TAG:Python |