數據可視化,透視隱藏的信息——如何用Python繪圖和製作數據分析報告
一.信息時代,如何掘金?
GAFATA:Google、亞馬遜、Facebook、蘋果、騰訊、阿里巴巴
理由1:這6家公司連接了所有人,具有壟斷性優勢
理由2:擁有2個相同的武器(數據智能和網路協同)
理由3:這6家公司在移動互聯網是霸主
理由4:這6家公司都在投資人工智慧
結論:財富機會:
1、學習人工智慧的核心技術,通過高端的技術能進入這些公司工作、
2、購買這些公司的股票實現獲得時代的紅利
二、我們生活中常見的圖形
1、技術成熟度曲線
2、2017中國技術成熟度曲線
庫布勒羅斯轉變曲線
成功屬於堅持下來的那些人
數據清洗好後,需要我們再次探索該數據,以便理解數據,比如知道數據的分布方式,,某些變數是否有關聯,數據可視化可以繪製數據的分布情況,並創建散點圖來看相關性,有助於發現數據中有趣的規律,幫助我們的做出決策。
三、 數據可視化基礎
畫板:figure
畫紙:Axes/ Subplot
基本的視覺元素有3種:點、線、柱狀圖
(1)數值類型:散點圖(scatter
plot):散點圖可以顯示數據之間的相關(2)時間序列:折線圖(Line
plot):數據隨著時間變化的趨勢(3)分類數據:柱狀圖(bar
plot)顏色:熱圖(heatmap):用來表示第三個維度
四、繪圖包Matplotlib如何使用?
pyplot官網教程https://matplotlib.org/users/pyplot_tutorial.html
需要先在conda中安裝matplotlib包,命令: conda install matplotlib
如果還不會使用conda,可以參考《conda使用文檔》:https://www.zhihu.com/question/58033789/answer/254673663
當以後需要了解更多圖形屬性的時候,再參考如何設置折線圖屬性(長按複製鏈接):https://matplotlib.org/api/_as_gen/matplotlib.lines.Line2D.html#matplotlib.lines.Line2D
上面圖片我們引入一個新的方法叫setp,它可以同時給多個折線圖設置屬性。當我們有多個折線圖時,使用這個方法很方便。
如果matplotlib參入的參數只能是列表的話,這對數據處理很不利。一般,我們傳入的是numpy的數組。實際上,所有參入的值內部都會轉換為numpy的數組。
**表示冪運算
10**2表示10的2次方
如何添加文本
學習道具:如何解決中文亂碼(長按此處鏈接打開):
https://www.zhihu.com/question/25404709/answer/309806474
多個圖繪圖
五、如何使用pandas繪圖
案例:股票數據分析可視化
先使用conda安裝:
1)先在conda中進入你notebook使用的python環境,例如你在notebook中使用的環境名稱是py3, 那麼conda命令就是:activate py3
2)在你需要的python環境下安裝數據分析pandas包,和互聯數據獲取包pandas-datareader
1、導入包
2、6家公司
3、獲取股票數據
4、查看數據
5、數據可視化
分析結果:通過圖中顯然可以看出阿里巴巴的股票價格總體趨勢是增長的,是值得投資的一家公司。
散點圖:成交量和股價
因為谷歌和亞馬遜的股價比較高,造成我們看不出其他4家公司的股票走勢。 所以根據股價我們可以將這6家公司分成2組,一組是股價較高的谷歌和亞馬遜。另外一組是股價較低的4家公司。
分析結果:可以看出,僅從股票價格上來判斷,亞馬遜和谷歌的股票價格要遠遠的超過了其他四家。但是這裡只是算的平均值,下面我們看下用四分位數繪製的箱線圖
六、如何使用notebook製作數據分析報告
1、數據可視化步驟:
提出問題——理解數據——數據清洗——構建模型——模型評估——方案實施
2、Markdown是一門標記語言。
(1)標題
# 一級標題 輸出 一級標題 # 2.理解數據
## 二級標題 輸出 二級標題 ## 2.1採集數據
### 三級標題 輸出 三級標題
#### 四級標題 輸出 四級標題
##### 五級標題 輸出 五級標題
###### 六級標題 輸出 六級標題
以此類推
注意空格
(2)無序列表和有序列表
例如
(3)加粗和傾斜字體
**加粗字體** 輸出 加粗字體
*斜體內容* 輸出 斜體內容
加粗和斜體
(4)插入超鏈接和圖片
插入本地圖片
(5)引用
在引用內容前用>號
> 我是陳旭清 輸出 我是陳旭清
這裡注意符號和文本間的空格
(6)水平線用來分隔和換行:下文字下面用---
(7)幻燈片
如果想深入了解可視化,可以接下來學習seaborn 這個繪圖包,它是在matplotlib上封裝而成的,有更多的高級功能,官網:http://seaborn.pydata.org/index.html
推薦閱讀:
※2017上半年數據分析學習計劃
※感動到流淚!數據分析師的福音:跨視圖粒度計算
※Kaggle機器學習之泰坦尼克號生還預測
※翻身鹹魚把歌唱--數據結構入門啦
※用Python做數據分析