學會數據分析思維,學會透過事物看本質
來自專欄猴子聊數據分析
4 人贊了文章
這段時間通過學習數據分析相關的知識,最大的變化就是看待事物更加喜歡去了解事物後面的本質,碰到問題後解決問題思路也發生了改變。
舉個具體的例子,我在學習數據分析,將來會考慮從事這方面的工作,需要掌握的相關專業知識這個問題暫且按下不表,那哪些具體的問題是我需要了解的呢,以下簡單羅列:
1、了解數據分析師這個崗位在各個地區的需求情況?
2、數據分析師的薪資待遇如何?
3、根據日後工作年限的增加,薪資待遇的增長情況會如何呢?
通過以上問題的簡單羅列,我已經完成了「我該怎樣進行數據分析?」的第一步:提出問題。那要進行數據分析,應該怎麼做?
數據分析的流程:
第一步:提出問題;
我們應該明白,一切進行數據分析的行為(目的)都是為了解決我們生活和工作中遇到的問題,明確的問題為我們將要進行的數據分析提供了目標和方向。
第二步:理解數據,可分為以下兩步驟:
1、採集數據:根據研究的問題,採集相關的數據;
2、查看採集到的數據集信息,其中包括描述統計信息,從整體上理解數據。
第三步:數據清理(數據預處理);
很多數據在被採集到的時候不符合我們數據分析的標準,裡面有很多「臟」數據或重複數據,這樣的數據我們就需要對它進行「整容」,把它處理成我們需要的樣子。
第四步:構建模型;
對清洗後的數據進行分析,一般簡單的要求是得出一些業務指標,複雜的可能需要運用機器學習演算法來訓練這個模型對數據進行分析。
第五步:數據可視化;
在與他人交流我們得出的研究成果的時候,最好的方式就是運用圖表展現。把得出的分析結果運用圖表展示給你的上級(老闆)或客戶。
當我們了解了數據分析的流程以後,我們就可以進行數據分析的操作了。回到上面提出的三個問題,有了明確的任務目標以後,那就是要進行第二步中的採集數據了,在這裡我使用 Gooseeker 這一款免費的數據採集工具(爬蟲工具)去前程無憂(51job)收集關鍵詞「數據分析」的相關職位信息,在嘗試的過程中碰到了很多問題,最大的感觸就是任何一個小問題都可能導致你偏離所達成的目標很大一截,要充分學會使用搜索工具找尋相應解決方案,很多情況下都需要舉一反三的去理解。
接下來我們要進行第三步,數據清理。打開我們收集的相關數據(考慮到爬蟲工作的工作效能問題,我只爬取了杭州市的數據作為分析對象),首先我們根據最初提出的三個問題來簡單判斷哪些內容是我們需要的必要欄位,哪些是不需要的,將不需要的欄位所屬列進行隱藏處理,養成好的習慣,不要輕易刪除數據,這樣在我們有可能出錯的時候可以通過保留的數據找回。
在查看數據的時候發現從「職位名稱」往後一直到「薪資待遇」其中「學歷」、「招聘人數」、「發布時間」這三項顯示的都是「工作年限」的內容,說明我們在數據抓取的時候設置某個參數時出現了錯誤,依據第一步提出的三個問題做判斷,得出結論出錯的三項內容為非必要欄位,將其做「隱藏」處理。註:如出錯的是必要欄位,例如:「薪資待遇」,那就要重新收集數據處理。
依據 Gooseeker 爬取規則的原理(二級頁面依據上一級列表頁的鏈接爬取),在這裡我們選擇用二級招聘信息內容展示頁鏈接為依據做去重操作,提示「未發現重複值」,說明我們採集的數據每一條都是唯一(具體步驟:選擇菜單欄中「數據」-「刪除重複值」-取消全選-選擇「內容頁鏈接」項)。
由於我選擇的數據是整個杭州市的「數據分析師」的招聘信息,用於判斷所屬「工作地點」將以「區」為依據展開,在查看數據的時候發現部分數據是以為城市為單位,這裡需要對缺失值根據具體情況做出相應處理。
首先將「工作地點」整列複製到最後一列中進行「分列」操作(「分列」操作會把分出的數據列直接覆蓋到後一列,建議複製到最後列操作最為可靠)
通過「刷選」功能去除非杭州城市。註:由於後續其他地方依然會使用到「刷選」功能,所有需要將怎個工作表複製到新工作表中用於保存刷選後的結果。
當我執行複製整個表格到新的工作表中的時候,發現 Excel 直接卡死,並提示內存不足,多次嘗試後我發現原因是 Excel 工作表中有大量的隱藏列和行,或是使用「篩選」使大量的欄位被隱藏後,在使用「全選」欄位的時候再把大量的空白單元格也複製了(全選的時候連續按兩次 ctrl+a),這樣的情況就會出現上述問題,解決方案是只選擇有欄位的單元格即可,如下圖:
當我執行完上述操作後,查看到「詳細地區」中有多處缺失值,可做如下處理:
1、首先通過通過「篩選」功能判定有多少缺失值,如果數量少,且容易通過人工甄別判斷,可根據具體情況補全對應缺失值;
2、如果通過「篩選」後發現缺失值是錯誤收錄,例如:所屬地區不屬於杭州,被HR錯誤的標記為杭州,那就做刪除處理;
3、如果存在大量的缺失值,且欄位屬於未出錯欄位,是由於書寫習慣或是對區域的理解不一樣,比如這份數據集中可能HR對於該職位在所屬公司工作性質定義為全市範圍內的,這樣的情況就會出現只有工作地點杭州,沒有具體所屬區域了,這樣的情況我們可以整體套用上級標註,全體標註為「杭州」。
通過篩選空白值可以得出判斷結果,詳細地區缺失值多達1145處,通過「定位」功能對所有缺失值進行標記,補全欄位為杭州,並通過組合快捷鍵 ctrl+enter 將所有缺失值全部補全,如下圖:
在數據採集中經常會出現多個欄位被自動放在了一個單元格中的情況,比如此數據集中的「公司概況」,其中包含了三部分內容:「公司性質」、「公司大小」「所屬行業」,在這裡我們就要將其進行「分列」、一致化處理。
如上圖所示,在公司概況中公司性質、公司大小以及所屬行業之間是用「|」分割開的,我們可以用以作為「分列」的分割符號,但是首先需要通過整體替換功能去除空白值,如果是在「分列」之後再去除空白值會更加繁瑣,具體操作如下:
我們要了解杭州市數據分析師的薪資待遇情況就需要對薪資待遇進行拆分為「最低薪資」、「最高薪資」、「平均薪資」,需要運用到函數Left、Mid、Find、Len、Average;但是在此之前,我們通過「篩選」觀察可以看到個別「薪資待遇」HR填寫的方式不太一樣,例如:「XXX-XXX千/月」、「XXX-XXX萬/年」「XXX元/天」「XXX元/小時」以及空置未填寫,為了方便後續的一致化處理,首先做「分列」處理,把時間剝離。
通過「篩選」並刪除掉未填寫「薪資待遇」的無效數據,這裡參考了 ExcelHome 論壇版主的方法:
Excel 篩選後的表,批量刪除時時提示「無法在篩選過的區域或表中移動單元格。」-Excel基礎應用-ExcelHome技術論壇 -※俞飛鴻:成長就是有選擇權
※請對身邊愛裝的人,好點... ...
※你以為你很辛苦,其實你是在逃避責任
※為什麼越會獨處的人越優秀
※年輕人千萬不要碰的有哪些東西
TAG:自我成長 |