數據分析入門必備之excel運用
1.實踐案例:分析招聘網站數據(用爬蟲獲取招聘網站有關數據分析工作崗位的數據)
註:分析數據時使用的是清洗後的數據,同時原始數據需要保留。
2.提出問題:如圖21)在哪些城市找到數據分師工作的機會比較大?
2)數據分師的薪水如何?
3)根據工作經驗的不同,薪酬是怎樣變化的?
3.首先熟悉分析工具excel如圖3
4.了解列名如圖4
5.單元格顯示不完全時,設置自動換行,如圖5全選表格,點擊開始,選擇自動換行,並設置列寬。
6.了解數據類型,在任意單元格右擊,選擇設置單元格格式,出現數據類型,字元串,邏輯型,數字型,如圖6,文本(字元串)類型不能用於計算,遇到這類情況,文本類型數字需要處理之後才能被分析。判斷數據類型有個小技巧,在默認情況下字元串類型是左對齊,數字類型是右對齊,文本類型和數字類型的顯示是不同的,可以用來判斷數據類型。如圖7
7.下一步是清洗數據,其實在數據正是分析之前,有多達60%的時間用於數據清洗和整理。有哪些數據需要清洗呢,處理缺失數據,刪除異常值,整理數據以便分析和探索,一般清洗步驟,如圖8,選擇子集(選擇需要分析的列)、列名重命名(改為自己需要的)、刪除重複值、缺失值處理、一致化處理(處理未統一命名的列)、數據排序(用於發現更多有價值的信息)、異常值處理。
在選擇子集上,隱藏不需要的列,選擇一列右擊隱藏,如圖9(可恢復,如圖10,全選表格,在「開始」中,選擇「格式」,在「可見性」選擇)
註:數據分析需要好的習慣,盡量不去刪除數據列,選擇隱藏更好。
列名修改:雙擊列名單元格進行修改
刪除重複值的步驟如圖11,全選表格,在excel最上面選項卡中找到「數據」,取消全選,勾選列名,在對應選擇「刪除重複項」並確定。
8.先回顧前面的三個操作,選擇子集(隱藏列,公司ID公司全名,選中一整列右擊隱藏),列名重命名(雙擊單元格出現游標可修改列名),刪除重複值如圖表格截圖。
9.缺失值處理,首先我們需要知道目標列是否缺少數據,缺失多少,選擇一列,在最下方出現計數,與未缺失列對比相減,得到缺失計數,如圖12,
註:缺失值處理的4種方法,根據情況靈活使用:
1)通過人工手動補全(在數據量少的情況下
2)刪除缺失的數據
3)用平均值代替缺失值
4)用統計模型計算出的值去代替缺失值
如何手動補全缺失值,首先選擇整列,在開始選項卡中點擊查找和選擇,點擊定位條件,選擇空值並確定。如圖13,然後補全,如何手動一次性補全所有缺失數據,在找到空值之後輸入一個空白單元格,按ctrl+enter,則自動填充完其餘空值為上海。如圖14
10.再次回顧前面三個操作,計數缺失值(分別選擇兩個整列,作差兩列計數值)、填充空值(選中有空缺值的列,在開始選項卡中點擊查找與選擇,再選擇定位條件,選擇空值並確定)、手動一次性補全空值(補全一個空值後,按ctrl+enter,在一次性全部補全)。
11.一致化數據處理:如圖15,首先複製列,選中整列右擊複製到最右空白列,分列如圖16,選中新複製的列,在數據選項卡中選擇分列,選擇分隔符選項,下一步選擇分隔符號.,再下一步完成。中間練習分列操作。
註:需要注意的是,分列功能會覆蓋掉右列單元格,所以我們記得先要複製這一列到最後一個空白列的地方,再進行分列操作。
12數據經過簡單整理之後,如何使用excel中的函數以達到如圖的效果如圖17,用於分析薪水列,先建立拆分出的對應列,最高薪水,最低薪水,平均薪水,第一種方法:使用分列功能,設置分隔符-,並刪除k字元串;第二種方法:利用文本函數常用方法,函數,來清洗數據。首先什麼是函數?函數就是一個處理邏輯,你輸入東西給他處理,他會經過自己的邏輯處理後輸出一個東西。我們首先試著運用平均值函數處理數據,如圖18,19選中需要求值的單元格,在插入項點擊fx的圖標,出現對應選框後,確定被求值區域後求值,平均值所在列的求值,從第一個單元格選中,在其右下角出現黑色十字時下拉選框,或者選中單元格之後在公式選項卡中找到插入函數,轉到平均值並確定。如圖20。(去除k字元串也可以選中整列,在開始中選擇查找替換,將k替換為空白)
練習:1.如何拆分對應列,找到最高薪資,最低薪資並計算平均薪資:設置分隔符為-,進行分列;設置分隔符為k進行分列可以去除字元串k,選中單元格插入平均值函數計算平均值,雙擊右下角黑色十字架完成整列平均值求值。
13截取字元串的函數如何應用,函數Find可以確定目標字元在字元串中的位置如圖21,在單元格輸入=FIND(「要查找的字元串」,單元格位置),其中截取字元串時通常根據位置不同有RIGHT/LEFT/MID三種不同的函數,如圖22根據提示在選擇框里輸入選中的單元格,再輸入字元串的位置,確定之前可以看到是否截取了想要的字元串,然後確定。或者截取字元串時結合FIND函數,如圖23,相當於用LEFT函數把find函數找到的所在位置的字元截取下來,則表示為=LEFT(單元格位置,FIND(「字元串內容」,單元格位置)與字元串相關的目標字元位置用-1表示),截取最高薪水用RIGHT函數結合FIND函數的方法。如圖24252627,同樣在選中的單元格的右下角黑十字處雙擊應用至整列。(手動輸入函數格式不熟練)
練習如何截取字元串:1用find找到分隔符;2left找到最低薪水;3right找到最高薪水
14.篩選數據:如圖28,在最高薪水列,在數據項選擇篩選,點擊單元格內出現的小框,找到異常值,找到錯誤原因,用查找替換功能修改。
練習:如何得出最低薪水和最高薪水(分列);如何在列中找到錯誤值(選中整列,在開始中點擊篩選,出現新的選項框,只勾選#VALUE,可能出現#DIV/O也是一樣的,找出錯誤原因);如何查找替換(選中列,在開始中找到查找替換功能,輸入替換項和被替換項,選擇全部替換。)如圖293031
註:篩選功能需要多次。
15.計算平均值:出現錯誤時,一般出於數據類型錯誤,由於薪水列有帶有k的表示,為文本類型,可以選擇該列,用分列功能,分隔符選擇k。若是沒有k且還有數據類型錯誤則將整列複製,並選擇性粘貼,選擇數值類型並確定。如圖3233,複製完後新列單元格左上角有小的綠色三角,此時用分列功能,選擇分隔符號文本識別符號並確定。註:帶雙引號的為文本類型數據,操作如圖34
16排序;得出平均薪水之後,我們將其排序,選中該列,在開始選項卡中選擇篩選,默認擴展至其他區域,降序排列。如圖35
17回顧:1選擇子集,隱藏列(選擇列,右擊隱藏);2列名重命名(右擊單元格輸入);3刪除重複值(全選表格,在數據選項卡選擇刪除重複值,點擊取消全選並勾選列,不能單選整列會需要擴展選定區域,再取消全選);4使用excel的條件定位功能,快速定位缺失值,並對其進行處理,處理方式有四條(選中兩列,對照完整列計算計數差;選擇整列在開始中用定位查找功能,選擇查找條件為空值,查找後補全,按ctrl+enter可以全部補全);5一致化處理,(對公司領域進行分列處理,分隔符自定義);薪水處理(用數據截取的方式,截取最高薪水和最低薪水,FIND/LEFT/RIGHT/MID函數,對於函數運用,可在單元格手動輸入,也可以在彈出的條件框里選擇,後者適合新手);或者用分列功能,分隔符選擇-;註:出現數據報錯是數據類型出錯,明顯的是帶了字元串,可以分列處理也可以查找替換為空白/不明顯的是數值是文本類型數據,剪切並選擇性粘貼,選擇數值並確定);6排序:選中列,在開始中篩選,點擊頂部單元格小框,選擇降序排列)。
18.異常值處理:需要用到excel的數據透視表,其數據處理模式為數據分組-應用函數-組合結果如圖36,數據分組是按某種規則對數據進行分類;應用函數是分別求函數值;組合結果是對上一步結構進行匯總。通過看一個例子如圖37383940.因此數據分組是按屬性進行分組每一組都要有相同的數據特徵,比如例子中飛機航班起訖點統一;應用函數是分別分析計算數據;組合。應用到現有的數據中具體操作為如圖41,選中職位名稱列,再插入選項卡中選擇數據透視表並且新工作表,在新工作表中勾選數據透視表中職位名稱欄位,並點擊拖到下方行和值兩個區域內,如圖4243,在行標籤單元格右下角點擊排序框,其他排序選項中選擇計數項對職位名稱並降序排序,如圖44。當需要把不屬於數據分析師的名稱去掉,則需要處理掉其他異常值,操作思路為先查找出不屬於數據分析師的職位,屬於的設置為是,不屬於的設置為否,然後用數據篩選功能篩選出是的數據如圖45,構建思路中的查找函數
=IF(COUNT(FIND({"數據分析","數據運營","分析師"},S:S)),"是","否"),篩選出是的數據如圖46,複製出來到一個新建的表中做數據透視。
19構建模型,建立數據透視表,並排序如圖4748,下載excel數據分析工具4950。完成後繼續,在數據選項卡中選擇數據分析,按如圖5152在總表中操作得出平均薪水列的描述統計分析。現在數據透視表中按城市統計平均薪水如圖5354,其中平均薪水在值的區域點擊倒三角下拉選框選擇平均值(項)。
練習:根據工作經驗的不同,薪水是如何變化的:在數據透視表中,行裡面選擇工作年限要求,值依舊是平均值項:平均薪水,如圖55
20.要求:多回顧和練習,才能熟練運用。
配圖在本地,貼上整體就太丑了。。。需要的私我發你,估計沒人需要吧,哈哈哈
推薦閱讀:
※15款免費預測分析軟體!收藏好,別丟了!
※一個數據分析師的養成
※數據分析師職業生涯規劃與等級
※50個工作中最常用excel技巧
※《利用Python進行數據分析》之數據整理