用Excel進行數據分析——分析股票行情
來自專欄數據分析(初級)8 人贊了文章
前言
文章也許會長點,但是離我們的期望也會近一點,我希望我們一起努力~
我自己想成為一名機器學習工程師,但是我也知道任何東西不可能一蹴而就,所有的學習都是圍繞實際場景開展,所以小夥伴們最好是直接找到一份工作開始是最好學習的,在工作中最容易得到成長。
我的目標方向:初級數據分析師——中級數據分析師——機器學習工程師
千里之行始於足下,我們先從最基本的做起,成為一名初級數據分析師再說以後的話
一、明確整體思路
培養分析思路,避免無從下手,下面給出一張數據分析整體思路圖
上面這圖根據實際的需求,進行選擇不同的路線(在於分析層)
針對建模分析——模型測試——迭代優化,比較偏重數據模型的建設,如果想走機器學習方向的同學就需要學習這個,難度較高,當然薪資也高
對於描述分析——洞察結論,偏商業分析比較多,不需要有很強的技術(說實話,我感覺數據分析對技術要求確實是很低),比較適合新手入門,難度較低
這次是講比較簡單的,等時間久點,就跟大家講講模型的事情(大夥可以預習下)
二、數據分析旅程
1、目標確定
簡單點就是你想得什麼,提出問題,圍繞問題中心點來進行你的每一步
本次我們是想分析當日所有股票的行情,分析出茅台股票在這近期的變化情況
2、數據獲取
獲取數據的方式多種多樣,我介紹我常用的兩種
第一種:使用工具獲取,詳情請看我專欄的第一篇文章,適合小白的朋友獲取數據,這一種的獲取問題可以直接問他們的客服
第二種:利用Python去抓取數據,需求一丟丟就一丟丟編程能力(看過編程的都應該能懂)
今天就介紹第二種,畢竟第一種不是教過了嗎不是
環境:Anaconda3-5.1.0-Windows
python3.6.3
依賴包:Tushare
Tushare是一個免費、開源的python財經數據介麵包。主要實現對股票等金融數據從數據採集、清洗加工 到 數據存儲的過程,能夠為金融分析人員提供快速、整潔、和多樣的便於分析的數據,為他們在數據獲取方面極大地減輕工作量,使他們更加專註於策略和模型的研究與實現上。考慮到Python pandas包在金融量化分析中體現出的優勢,Tushare返回的絕大部分的數據格式都是pandas DataFrame類型,非常便於用pandas/NumPy/Matplotlib進行數據分析和可視化。傳送門
利用Tushare抓取代碼(是不是很簡單!!!!)
抓取的Excel文件如下
3、數據清洗
提示:在我們進行數據清洗之前,一定要養成一個好習慣,對原始數據進行備份
日常中數據清洗佔了我們大概六成的時間,清洗的方式有很多種,常見的就一下幾種
更深層次的清洗——>傳送門
1)選擇子集
針對每一個列,選擇我們需要的數據,不需要的可以隱藏。
恢復隱藏
2)列名重命名
雙擊列標籤直接進行重命名
3)刪除重複值
點擊數據——刪除重複項,出現一個方框,選擇你想要清楚的某列重複的行數據
我們只選擇判斷代碼是否重複。刪了了64行重複的數據
4)缺失值處理
選擇數據里任意一個單元格,點擊ctrl+A,全選選中存在數據的單元格,點擊開始——查找和選擇——定位條件——勾選空值——確定
因為我這個是直接用包導出來,理論上是沒有空數據存在
假設:存在空值,Excel會返回空值所在的空格,你可以對空值進行處理
缺失值處理的4種方法,根據情況靈活使用:
通過人工手動補全
刪除缺失的數據
用平均值代替缺失值
用統計模型計算出的值去代替缺失值
技巧:在一個空格上輸入數據後,按Ctrl+Eneter快捷鍵,其他空格也會直接填寫一樣的數據。在不連續的單元格中同時輸入同一個數據或公式時很好用。
5)一致化處理
這一部分在於用網路爬蟲的時候比較常見,因為我們經常會爬到串到一起的數據
因為我這裡數據是不存在這種問題,所以參考了別人的
重點:對該列數據複製到數據的最右邊,否則處理後的數據會覆蓋後邊的數據!!!切記
6)數據排序
排序有兩種:升序、降序、自定義排序
操作:選中你想根據哪一列進行排序的列標籤——開始——排序和篩選
擴展區域表示整一行的數據都會對應變動,當前選定區域僅僅變更選中的列
7)異常值處理
針對偏移較大的數據,我們需要斟酌處理,這一部分在建造模型的經常會遇到
在這個股票分析中,就存在開盤價、最高價、最低價為0的數據,這時候根據實際情況去決定
通過連續對三個列進行排序,然後直接刪除或者隱藏
8)其他
在實際情況中,我們往往需要搭配各種函數去實際操作,大部分是數學函數,下面獲取數據的幾種
FIND(查詢的數據,單元格) 返回所在的位置,第一個字元串坐標是1
LEFT/RIGHT(單元格,從左/右開始的第X個位置)
MID(單元格,起始位置,目標長度)
VLOOKUP(源數據,在哪一個區域裡面找,返回這個區域裡面第幾列對應的值,是否是精確查找)
4、數據整理
為了更好體現這一塊,我打算只是針對一個股票進行分析,獲取茅台近期的股票詳情
1)構建模型——數據透視表
拖動欄位到下方區域,在欄位的下滑按鈕,可以根據需要選擇
2)數據可視化
選中你需要的列數據——插入——勾選圖表,是不是很清晰,馬上可以看到其中的關係(領導要的就是這個啊朋友們)
5、描述分析——洞察結論——報告撰寫
主觀上你從這一堆清洗後的數據中得出什麼有效的信息,我們需要回到初始我們提出的問題,我們的目地就是解決提出的問題。所有的技術都要圍繞業務場景才有意義
這時候就要體現你獨到的專業眼光了(俗稱吹水),這部分我就不過多描述,因為實際情況是針對不同維度多個場景去描寫。
通過對2018-07-02至2018-07-19的數據分析,結合圖標,可以看出茅台的股價呈緩慢上升的趨勢,有些許波動,可以繼續持有或者買入(茅台可是會繼續升的,但是近期三大GDP馬車都不太給力,股市大部分都不太給力,所以需要自己斟酌斟酌,近期建議不要入比較好)
好啦,本次我們使用Excel進行數據分析的課程結束啦,希望都能在自己喜歡的事情上前進
推薦閱讀:
※《Excel數據圖表360招之二級下拉列表》花隨花心著
※泰坦尼克
※數據可視化總結
※紐約時報廣告數據分析(二)
※ch5 離散型概率分布
TAG:數據分析 | MicrosoftExcel |