誰說菜鳥不會數據分析(入門篇)
誰說菜鳥不會數據分析
入門篇
1 淺談
1.1建立分析框架,
營銷方面的理論模型:4P,用戶使用行為,STP理論,SWOT等。
管理方面的理論模型:PEST,5W2H,時間管理,生命周期,邏輯樹,金字塔,SMART原則等。
1.2數據來源:資料庫,公開出版物,互聯網,市場調查。
1.3數據處理:數據清洗,數據轉化,數據提取,數據計算
1.4 一般的數據分析:EXCEL,高級數據分析:SPSS Statistics等
1.5 職業要求:
(1)懂業務:熟悉公司業務及流程。比如公司運營收入為1000萬,要明白由哪些業務收入構成
(2)懂管理:搭建框架,提建議
(3)懂分析:基本方法:對比,分組,交叉,結構,漏斗圖。高級方法:相關,回歸,聚類,判別,因子分析法,時間序列等。
(4)懂工具:Excel,Access,SPSS,SAS
(5)懂設計:設計圖表
2 確定分析思路
常用的數據方法論:
(1)PEST:用於對宏觀環境的分析,包括政治,經濟,技術,社會環境的分析
(2)5W2H:Why,What,Who,When,Where,How,How much。比如可以用來分析用戶行為
(3)邏輯樹:把一個已知問題當成樹榦,然後開始考慮這個問題和哪些相關問題有關
(4)4P營銷理論:Product,Price(影響定價的因素:需求,成本與競爭),Place,Promotion。如果需要了解公司的整體運營情況,可以使用該方法論
(5)用戶行為理論:
3 數據準備
3.1 數據表:數據表需要以一維的形式存儲,但是在實際操作中接觸的數據往往是以二維表格的形式存在的。此時應將二維錶轉化為一維表的形式存儲數據。
二維錶轉一維表的方法:PDF所在:57/250
3.2 數據來源
3.2.1導入數據
(1)導入文本數據:https://zhinan.sogou.com/guide/detail/?id=316512980745
(2)自動導入網站數據:WPS表格不支持直接將網頁數據導入到表格之中,可用微軟的excel
(3)手工錄入
例如問卷錄入要求
數值題:錄入數值即可
單選題:用1,2,3,4代表A,B,C,D,選擇什麼就錄入相應的數字
多選題:
a二分法:選擇的項視為1,未選的視為0.比如選擇了ACF,則錄入A,B,C,D,E,F,的數字為1,0,1,0,0,1
b 多重分類法:有限選個數要求。事先定義錄入個數的數值
排序題:與多重分類法類似
4 數據處理:分為數據清洗(將多餘重複的數據篩選清除,將缺失的數據補充完整,將錯誤的數據糾正或刪除)數據加工(提取想要的數據)
4.1 數據清洗
4.1.1 重複數據的處理
(1)函數法:COUNTIF函數
(2)高級篩選法
(3)條件格式法:標記出重複數據
刪除重複數據:數據-刪除重複項
4.1.2缺失數據處理
找出空值區域:Ctrl+G,選擇「空值」
處理缺失值的四種方法:
(1)用一個樣本統計量代替缺失值
(2)用一個統計模型計算出來的值代替
(3)刪除
(4)保留,僅在相應的分析中做必要的刪除
檢查數據邏輯錯誤
IF函數進行條件判斷
4.2 數據加工
4.2.1 數據抽取:保留原數據表中的某些欄位的部分信息,組成一個新的欄位
(1)欄位分列:菜單法(數據-數據工具-分列),函數法(LEFT,RIGHT)
(2)欄位合併:CONCATENATE函數
(3)欄位匹配:VLOOKUP函數
4.2.2 數據計算
4.2.3 數據分組:VLOOKUP函數
4.2.4 數據轉換
行列轉換:https://jingyan.baidu.com/article/7c6fb428d0226c80642c90c4.html
4.3 數據抽樣:主要涉及到RAND()函數的使用
5 數據分析
5.1 數據分析方法
現狀分析(對比):對比分析,平均分析,綜合評價分析等
原因分析(細分):分組分析,結構分析,交叉分析,杜邦分析,漏斗圖分析,矩陣關聯分析,聚類分析等
預測分析(預測):回歸分析,時間序列,決策樹,神經網路等
5.1.1 對比分析法:
靜態比較:同一時間條件下對不同總體指標的比較。如不同部門,不同地區,不同國家等。簡稱橫比。
動態比較:在同一總體條件下對不同時期數值指標的比較。簡稱縱比。
主要有幾個維度:(1)與目標對比(2)不同時期的對比(3)同級部門,單位,地區對比(4)行業內對比(5)活動效果對比,即活動前活動後
5.1.2 分組分析法
確定組數,組距,根據組距大小對數據進行分類整理
5.1.3 結構分析法
指被分析總體內的各部分與總體之間進行對比分析。
結構相對指標(比例)=(總體某部分的數值/總體總量)*100%
如市場佔有率的計算
5.1.4 平均分析法
5.1.5 交叉分析法
通常用於分析兩個變數之間的關係,即同時將兩個有一定聯繫的變數及其值交叉排列在一張表格內,是各變數值成為不同變數的交叉節點,形成交叉表。
5.1.6 綜合評價分析表
基本思想是將多個指標轉化為一個能夠反映綜合情況的指標來進行分析。
(1)數據標準化---0-1標準也叫離差標準化,對原始數據作線性變換,使結果落在[0,1]區間
第N個經標準化處理的值=(第N個原始值-最小值)/(最大值-最小值)
(2)權值確定方法
目標優化矩陣表:將縱軸上的項目依次與橫軸上的項目對比,如果縱軸上的項目比橫軸上的項目重要,那麼在兩個項目相交的格子中填「1」,否則填「0」,最後將每行數字相加,根據合計的數值進行排序。
某指標權重=(某指標新的重要性合計得分/所有指標的重要性合計得分)*100%
5.1.7 杜邦分析法
見杜邦分析體系圖,將若干個用以評價企業經營效率和財務狀況的比率按其內在聯繫有機地結合起來,形成一個完整的指標體系,並最終通過權益收益率來綜合反映。
5.1.8 漏斗圖分析法
最有用的分析方法,可以告訴我們用戶在業務中的轉化率和流失率,也可以知道各業務在網站中的受歡迎程度或重要程度。
5.1.9 矩陣關聯分析法
(1)矩陣
根據事務的兩個重要屬性(指標)作為分析的依據,進行分類關聯分析,找出解決問題的一種分析方法。(畫矩陣圖)
(2)發展矩陣
(3)改進難易矩陣
5.2 數據分析工具
5.2.1 數據透視表的使用
例如使用數據透視表實現多選題的分析
6 數據展現
圖表:表格,餅圖,條形圖,柱形圖,折線圖,散點圖
平均線圖:在原來的柱形圖或折線圖的基礎上添加一條平均線
雙坐標圖:圖表中有兩個系列及其以上的數據,並且他們的量綱不同或者數據的差別很大時,在同一縱坐標軸無法展示數據原本的面貌時使用雙坐標圖。
豎形折線圖:主要用在市場研究,諮詢等。用它來展示產品功能,品牌形象在消費者中的評價。
瀑布圖:在企業的經營分析,財務分析中使用較多。用於表示企業成本的構成,變化等情況。
帕累托圖:按照發生頻率的高低順序繪製的直方圖。
旋風圖:
(1)同一事物在某個活動影響前後不同指標的變化。
(2)同一事物在某個條件下(指標A的變化),指標B受影響隨之變化,具有因果關係。
(3)兩個類別之間不同指標的比較。
漏斗圖:
第N環節佔位數據=(第1環節進入人數-第N環節進入人數)/2
第N環節轉化率=第N環節進入人數/第(N-1)環節進入人數
第N環節總體轉化率=第N環節進入人數/第1環節進入人數
7 圖表美化
一個完整的圖應該有:圖表標題,單位。腳註,資料來源,圖例。
不要把圖表撐破,最好一個圖表只反應一個問題
8 數據分析報告
結構:標題,目錄,前言(主要包括分析北京,目的及思路),正文(系統全面的表述數據分析的過程與結果),結論與建議,附錄(提供正文中涉及而未予以闡述的有關資料,有時也包含正文中提到的資料。)
推薦閱讀:
※《Excel數據圖表360招之數據高級精選》花隨花心著
※Python筆記--Matplotlib及seaborn繪圖基礎
※自學數據分析的學習計劃
※爬蟲告訴你, 互聯網數據行業有多賺錢【數據挖掘&機器學習篇】
※數據分析的業務知識