用Excel進行數據分析——分析股票行情

用Excel進行數據分析——分析股票行情

來自專欄數據分析(初級)8 人贊了文章

前言

文章也許會長點,但是離我們的期望也會近一點,我希望我們一起努力~

我自己想成為一名機器學習工程師,但是我也知道任何東西不可能一蹴而就,所有的學習都是圍繞實際場景開展,所以小夥伴們最好是直接找到一份工作開始是最好學習的,在工作中最容易得到成長。

我的目標方向:初級數據分析師——中級數據分析師——機器學習工程師

千里之行始於足下,我們先從最基本的做起,成為一名初級數據分析師再說以後的話

一、明確整體思路

培養分析思路,避免無從下手,下面給出一張數據分析整體思路圖

上面這圖根據實際的需求,進行選擇不同的路線(在於分析層)

針對建模分析——模型測試——迭代優化,比較偏重數據模型的建設,如果想走機器學習方向的同學就需要學習這個,難度較高,當然薪資也高

對於描述分析——洞察結論,偏商業分析比較多,不需要有很強的技術(說實話,我感覺數據分析對技術要求確實是很低),比較適合新手入門,難度較低

這次是講比較簡單的,等時間久點,就跟大家講講模型的事情(大夥可以預習下)

二、數據分析旅程

1、目標確定

簡單點就是你想得什麼,提出問題,圍繞問題中心點來進行你的每一步

本次我們是想分析當日所有股票的行情,分析出茅台股票在這近期的變化情況

2、數據獲取

獲取數據的方式多種多樣,我介紹我常用的兩種

第一種:使用工具獲取,詳情請看我專欄的第一篇文章,適合小白的朋友獲取數據,這一種的獲取問題可以直接問他們的客服

第二種:利用Python去抓取數據,需求一丟丟就一丟丟編程能力(看過編程的都應該能懂)

今天就介紹第二種,畢竟第一種不是教過了嗎不是

環境:Anaconda3-5.1.0-Windows

python3.6.3

依賴包:Tushare

Tushare是一個免費、開源的python財經數據介麵包。主要實現對股票等金融數據從數據採集、清洗加工 到 數據存儲的過程,能夠為金融分析人員提供快速、整潔、和多樣的便於分析的數據,為他們在數據獲取方面極大地減輕工作量,使他們更加專註於策略和模型的研究與實現上。考慮到Python pandas包在金融量化分析中體現出的優勢,Tushare返回的絕大部分的數據格式都是pandas DataFrame類型,非常便於用pandas/NumPy/Matplotlib進行數據分析和可視化。傳送門

利用Tushare抓取代碼(是不是很簡單!!!!)

抓取的Excel文件如下

3、數據清洗

提示:在我們進行數據清洗之前,一定要養成一個好習慣,對原始數據進行備份

日常中數據清洗佔了我們大概六成的時間,清洗的方式有很多種,常見的就一下幾種

更深層次的清洗——>傳送門

1)選擇子集

針對每一個列,選擇我們需要的數據,不需要的可以隱藏。

恢復隱藏

2)列名重命名

雙擊列標籤直接進行重命名

3)刪除重複值

點擊數據——刪除重複項,出現一個方框,選擇你想要清楚的某列重複的行數據

我們只選擇判斷代碼是否重複。刪了了64行重複的數據

4)缺失值處理

選擇數據里任意一個單元格,點擊ctrl+A,全選選中存在數據的單元格,點擊開始——查找和選擇——定位條件——勾選空值——確定

因為我這個是直接用包導出來,理論上是沒有空數據存在

假設:存在空值,Excel會返回空值所在的空格,你可以對空值進行處理

缺失值處理的4種方法,根據情況靈活使用:

通過人工手動補全

刪除缺失的數據

用平均值代替缺失值

用統計模型計算出的值去代替缺失值

技巧:在一個空格上輸入數據後,按Ctrl+Eneter快捷鍵,其他空格也會直接填寫一樣的數據。在不連續的單元格中同時輸入同一個數據或公式時很好用。

5)一致化處理

這一部分在於用網路爬蟲的時候比較常見,因為我們經常會爬到串到一起的數據

因為我這裡數據是不存在這種問題,所以參考了別人的

重點:對該列數據複製到數據的最右邊,否則處理後的數據會覆蓋後邊的數據!!!切記

6)數據排序

排序有兩種:升序、降序、自定義排序

操作:選中你想根據哪一列進行排序的列標籤——開始——排序和篩選

擴展區域表示整一行的數據都會對應變動,當前選定區域僅僅變更選中的列

7)異常值處理

針對偏移較大的數據,我們需要斟酌處理,這一部分在建造模型的經常會遇到

在這個股票分析中,就存在開盤價、最高價、最低價為0的數據,這時候根據實際情況去決定

通過連續對三個列進行排序,然後直接刪除或者隱藏

8)其他

在實際情況中,我們往往需要搭配各種函數去實際操作,大部分是數學函數,下面獲取數據的幾種

FIND(查詢的數據,單元格) 返回所在的位置,第一個字元串坐標是1

LEFT/RIGHT(單元格,從左/右開始的第X個位置)

MID(單元格,起始位置,目標長度)

VLOOKUP(源數據,在哪一個區域裡面找,返回這個區域裡面第幾列對應的值,是否是精確查找)

4、數據整理

為了更好體現這一塊,我打算只是針對一個股票進行分析,獲取茅台近期的股票詳情

1)構建模型——數據透視表

拖動欄位到下方區域,在欄位的下滑按鈕,可以根據需要選擇

2)數據可視化

選中你需要的列數據——插入——勾選圖表,是不是很清晰,馬上可以看到其中的關係(領導要的就是這個啊朋友們)

5、描述分析——洞察結論——報告撰寫

主觀上你從這一堆清洗後的數據中得出什麼有效的信息,我們需要回到初始我們提出的問題,我們的目地就是解決提出的問題。所有的技術都要圍繞業務場景才有意義

這時候就要體現你獨到的專業眼光了(俗稱吹水),這部分我就不過多描述,因為實際情況是針對不同維度多個場景去描寫。

通過對2018-07-02至2018-07-19的數據分析,結合圖標,可以看出茅台的股價呈緩慢上升的趨勢,有些許波動,可以繼續持有或者買入(茅台可是會繼續升的,但是近期三大GDP馬車都不太給力,股市大部分都不太給力,所以需要自己斟酌斟酌,近期建議不要入比較好)

好啦,本次我們使用Excel進行數據分析的課程結束啦,希望都能在自己喜歡的事情上前進


推薦閱讀:

《Excel數據圖表360招之二級下拉列表》花隨花心著
泰坦尼克
數據可視化總結
紐約時報廣告數據分析(二)
ch5 離散型概率分布

TAG:數據分析 | MicrosoftExcel |