數據分析入門必備之excel運用

06-02

數據分析入門必備之excel運用

1.實踐案例：分析招聘網站數據（用爬蟲獲取招聘網站有關數據分析工作崗位的數據）

註：分析數據時使用的是清洗後的數據，同時原始數據需要保留。

2.提出問題：如圖21）在哪些城市找到數據分師工作的機會比較大？

2）數據分師的薪水如何？

3）根據工作經驗的不同，薪酬是怎樣變化的？

3.首先熟悉分析工具excel如圖3

4.了解列名如圖4

5.單元格顯示不完全時，設置自動換行，如圖5全選表格，點擊開始，選擇自動換行，並設置列寬。

6.了解數據類型，在任意單元格右擊，選擇設置單元格格式，出現數據類型，字元串，邏輯型，數字型，如圖6，文本（字元串）類型不能用於計算，遇到這類情況，文本類型數字需要處理之後才能被分析。判斷數據類型有個小技巧，在默認情況下字元串類型是左對齊，數字類型是右對齊，文本類型和數字類型的顯示是不同的，可以用來判斷數據類型。如圖7

7.下一步是清洗數據，其實在數據正是分析之前，有多達60%的時間用於數據清洗和整理。有哪些數據需要清洗呢，處理缺失數據，刪除異常值，整理數據以便分析和探索，一般清洗步驟，如圖8，選擇子集（選擇需要分析的列）、列名重命名（改為自己需要的）、刪除重複值、缺失值處理、一致化處理（處理未統一命名的列）、數據排序（用於發現更多有價值的信息）、異常值處理。

在選擇子集上，隱藏不需要的列，選擇一列右擊隱藏，如圖9（可恢復，如圖10，全選表格，在「開始」中，選擇「格式」，在「可見性」選擇）

註：數據分析需要好的習慣，盡量不去刪除數據列，選擇隱藏更好。

列名修改：雙擊列名單元格進行修改

刪除重複值的步驟如圖11，全選表格，在excel最上面選項卡中找到「數據」，取消全選，勾選列名，在對應選擇「刪除重複項」並確定。

8.先回顧前面的三個操作，選擇子集（隱藏列，公司ID公司全名，選中一整列右擊隱藏），列名重命名（雙擊單元格出現游標可修改列名），刪除重複值如圖表格截圖。

9.缺失值處理，首先我們需要知道目標列是否缺少數據，缺失多少，選擇一列，在最下方出現計數，與未缺失列對比相減，得到缺失計數，如圖12，

註：缺失值處理的4種方法，根據情況靈活使用：

1）通過人工手動補全（在數據量少的情況下

2）刪除缺失的數據

3）用平均值代替缺失值

4）用統計模型計算出的值去代替缺失值

如何手動補全缺失值，首先選擇整列，在開始選項卡中點擊查找和選擇，點擊定位條件，選擇空值並確定。如圖13，然後補全，如何手動一次性補全所有缺失數據，在找到空值之後輸入一個空白單元格，按ctrl+enter，則自動填充完其餘空值為上海。如圖14

10.再次回顧前面三個操作，計數缺失值（分別選擇兩個整列，作差兩列計數值）、填充空值（選中有空缺值的列，在開始選項卡中點擊查找與選擇，再選擇定位條件，選擇空值並確定）、手動一次性補全空值（補全一個空值後，按ctrl+enter，在一次性全部補全）。

11.一致化數據處理：如圖15，首先複製列，選中整列右擊複製到最右空白列，分列如圖16，選中新複製的列，在數據選項卡中選擇分列，選擇分隔符選項，下一步選擇分隔符號.，再下一步完成。中間練習分列操作。

註：需要注意的是，分列功能會覆蓋掉右列單元格，所以我們記得先要複製這一列到最後一個空白列的地方，再進行分列操作。

12數據經過簡單整理之後，如何使用excel中的函數以達到如圖的效果如圖17，用於分析薪水列，先建立拆分出的對應列，最高薪水，最低薪水，平均薪水，第一種方法：使用分列功能，設置分隔符-，並刪除k字元串；第二種方法：利用文本函數常用方法，函數，來清洗數據。首先什麼是函數？函數就是一個處理邏輯，你輸入東西給他處理，他會經過自己的邏輯處理後輸出一個東西。我們首先試著運用平均值函數處理數據，如圖18，19選中需要求值的單元格，在插入項點擊fx的圖標，出現對應選框後，確定被求值區域後求值，平均值所在列的求值，從第一個單元格選中，在其右下角出現黑色十字時下拉選框，或者選中單元格之後在公式選項卡中找到插入函數，轉到平均值並確定。如圖20。（去除k字元串也可以選中整列，在開始中選擇查找替換，將k替換為空白）

練習：1.如何拆分對應列，找到最高薪資，最低薪資並計算平均薪資：設置分隔符為-，進行分列；設置分隔符為k進行分列可以去除字元串k，選中單元格插入平均值函數計算平均值，雙擊右下角黑色十字架完成整列平均值求值。

13截取字元串的函數如何應用，函數Find可以確定目標字元在字元串中的位置如圖21，在單元格輸入=FIND（「要查找的字元串」，單元格位置），其中截取字元串時通常根據位置不同有RIGHT/LEFT/MID三種不同的函數，如圖22根據提示在選擇框里輸入選中的單元格，再輸入字元串的位置，確定之前可以看到是否截取了想要的字元串，然後確定。或者截取字元串時結合FIND函數，如圖23，相當於用LEFT函數把find函數找到的所在位置的字元截取下來，則表示為=LEFT（單元格位置，FIND（「字元串內容」，單元格位置）與字元串相關的目標字元位置用-1表示），截取最高薪水用RIGHT函數結合FIND函數的方法。如圖24252627，同樣在選中的單元格的右下角黑十字處雙擊應用至整列。（手動輸入函數格式不熟練）

練習如何截取字元串：1用find找到分隔符；2left找到最低薪水；3right找到最高薪水

14.篩選數據：如圖28，在最高薪水列，在數據項選擇篩選，點擊單元格內出現的小框，找到異常值，找到錯誤原因，用查找替換功能修改。

練習：如何得出最低薪水和最高薪水（分列）；如何在列中找到錯誤值（選中整列，在開始中點擊篩選，出現新的選項框，只勾選#VALUE，可能出現#DIV/O也是一樣的，找出錯誤原因）；如何查找替換（選中列，在開始中找到查找替換功能，輸入替換項和被替換項，選擇全部替換。）如圖293031

註：篩選功能需要多次。

15.計算平均值：出現錯誤時，一般出於數據類型錯誤，由於薪水列有帶有k的表示，為文本類型，可以選擇該列，用分列功能，分隔符選擇k。若是沒有k且還有數據類型錯誤則將整列複製，並選擇性粘貼，選擇數值類型並確定。如圖3233，複製完後新列單元格左上角有小的綠色三角，此時用分列功能，選擇分隔符號文本識別符號並確定。註：帶雙引號的為文本類型數據，操作如圖34

16排序；得出平均薪水之後，我們將其排序，選中該列，在開始選項卡中選擇篩選，默認擴展至其他區域，降序排列。如圖35

17回顧：1選擇子集，隱藏列（選擇列，右擊隱藏）；2列名重命名（右擊單元格輸入）；3刪除重複值（全選表格，在數據選項卡選擇刪除重複值，點擊取消全選並勾選列，不能單選整列會需要擴展選定區域，再取消全選）；4使用excel的條件定位功能，快速定位缺失值，並對其進行處理，處理方式有四條（選中兩列，對照完整列計算計數差；選擇整列在開始中用定位查找功能，選擇查找條件為空值，查找後補全，按ctrl+enter可以全部補全）；5一致化處理，（對公司領域進行分列處理，分隔符自定義）；薪水處理（用數據截取的方式，截取最高薪水和最低薪水，FIND/LEFT/RIGHT/MID函數，對於函數運用，可在單元格手動輸入，也可以在彈出的條件框里選擇，後者適合新手）；或者用分列功能，分隔符選擇-；註：出現數據報錯是數據類型出錯，明顯的是帶了字元串，可以分列處理也可以查找替換為空白/不明顯的是數值是文本類型數據，剪切並選擇性粘貼，選擇數值並確定）；6排序：選中列，在開始中篩選，點擊頂部單元格小框，選擇降序排列）。

18.異常值處理：需要用到excel的數據透視表，其數據處理模式為數據分組-應用函數-組合結果如圖36，數據分組是按某種規則對數據進行分類；應用函數是分別求函數值；組合結果是對上一步結構進行匯總。通過看一個例子如圖37383940.因此數據分組是按屬性進行分組每一組都要有相同的數據特徵，比如例子中飛機航班起訖點統一；應用函數是分別分析計算數據；組合。應用到現有的數據中具體操作為如圖41，選中職位名稱列，再插入選項卡中選擇數據透視表並且新工作表，在新工作表中勾選數據透視表中職位名稱欄位，並點擊拖到下方行和值兩個區域內，如圖4243，在行標籤單元格右下角點擊排序框，其他排序選項中選擇計數項對職位名稱並降序排序，如圖44。當需要把不屬於數據分析師的名稱去掉，則需要處理掉其他異常值，操作思路為先查找出不屬於數據分析師的職位，屬於的設置為是，不屬於的設置為否，然後用數據篩選功能篩選出是的數據如圖45，構建思路中的查找函數

=IF(COUNT(FIND({"數據分析","數據運營","分析師"},S:S)),"是","否")，篩選出是的數據如圖46，複製出來到一個新建的表中做數據透視。

19構建模型，建立數據透視表，並排序如圖4748，下載excel數據分析工具4950。完成後繼續，在數據選項卡中選擇數據分析，按如圖5152在總表中操作得出平均薪水列的描述統計分析。現在數據透視表中按城市統計平均薪水如圖5354，其中平均薪水在值的區域點擊倒三角下拉選框選擇平均值（項）。

練習：根據工作經驗的不同，薪水是如何變化的：在數據透視表中，行裡面選擇工作年限要求，值依舊是平均值項：平均薪水，如圖55

20.要求：多回顧和練習，才能熟練運用。

配圖在本地，貼上整體就太丑了。。。需要的私我發你，估計沒人需要吧，哈哈哈