教育行業分析指標及案例——用Excel解開Ted神秘面紗

誕生於1984年、享譽世界的TED大會將「Idea Worth Spreading」宗旨流傳至今。TED就像一個「舞台」,將TED三個字母縮寫所代表的Technology(科技)、Entertainment(娛樂)、Design(設計)三個領域內的思想領袖與實幹家聚集起來,講述值得傳播的創意和知識。從2006年開始,高質量的演講視頻被翻譯成100多種語言在全球網路免費傳播,深受追捧。

關於我是如何獲取數據的在第一篇文章已經介紹過了,今天我主要想聊一下數據分析的幾個重要步驟以及如何使用excel來做數據分析。

Tianna:終於要開始分析ted啦!!!?

zhuanlan.zhihu.com圖標

數據分析過程

在正式開始分析數據之前,我先為大家介紹一下教育行業的關鍵指標

在線教育的分類很多,不同類別下的產品業務方向和內容都各不相同,衡量指標自然也不同。

這裡我將在線教育行業的需求主要分成三類:

  • 渠道
  • 用戶和產品功能
  • 約課流程

本文梳理在線教育行業在用戶行為分析時常用到的一些名詞和通用指標、課程付費指標和課程反饋指標,幫助讀者更快上手解決數據分析的核心需求。

  • 通用指標:每月活躍用戶數、每月新增 App 用戶數、各渠道銷售額增長總覽、本月銷售目標完成率、各課程月銷售額、各課程銷售熱度、用戶粘度轉化率、各課程支付觀看率。
  • 課程付費指標:課程銷售量、課程購買用戶數、課程銷售總額、各課程銷售頁預覽量、各課程銷量、課程付費轉化率、試聽引導成單率、各課程退課訂單總金額。
  • 課程反饋指標:學習任務完成情況、課程學習完成程度、各教師受歡迎程度、各課程人均學習時長、課程學習頻次分布、各等級學員學習時長分布、退課率。

本數據集用到的指標,準確來說TED網站並不是標準的在線教育網站,而屬於非營利性知識分享類網站,因此並不存在教師與學生的關係和課程付費行為,我們可以說每一位演講者都是老師,每一位傾聽者都是學生。但是在其他層面上的有些指標在本質上一樣的,比如各課程月銷售額與數據集中演講月份指標、各課程銷售熱度與數據集中評論數指標、各教師收歡迎程度與數據集中播放量指標


Lets start

第一步:提出問題

一切數據分析的目標就是為了解決我們生活和工作中遇到的問題,我們所做的所有工作都是圍繞問題展開的,所以明確的問題為後面的數據分析提供目標和方向。通過分析這個Ted數據集我想解決一下四個問題:

  • 哪些演講是最受人們歡迎的?
  • 人們最喜歡哪些類型的演講?
  • 最受歡迎的演講者都是從事的什麼工作呢?

第二步:理解數據

在kaggle上獲取的數據集一共有2551條數據,共17個屬性

數據時間範圍:截至到2017年9月21日官網上傳

每個屬性的數據類型如下:

圖一:數據描述與取值

第三步:數據清洗

這是數據分析最耗時也最重要的一步

  • 選擇子集

將不需要的列進行隱藏,本次分析不需要用到持續時間、拍攝時間戳、發布時間戳、演講名稱(與標題重複)和鏈接五項屬性,所以將它們隱藏。

  • 列名重命名

下載的下來的數據集屬性是英文,我用中文將他們重新命名,結果如下:

圖二:選擇子集和列名重命名

  • 刪除重複值

選擇一個可以唯一標識每個演講的欄位,原數據集中沒有能夠唯一確定數據 屬性,因此我在第一列加了「演講ID」選項。

圖三:刪除重複值

  • 缺失值處理

通過【查找與選擇】→【定位條件】→【空值】可以找到數據中是否存在空值,我使用的是人工補全的方法

圖四:缺失值處理

處理缺失值有四個方法:

  1. 人工補全(我使用的方法)
  2. 刪除缺失的數據
  3. 用平均值代替缺失值
  4. 用統計模型計算出的值代替缺失值
  • 一致化處理

有兩個地方需要進行一致化處理

(一)有的演講者有多個職業,有的用「,」分開,有的用「/」和「;」我們可以用分列的方式來對「演講者職業」進行一致化處理

圖五:一致化處理

(二)「標籤」列裡面的每條屬性都是以數組的形式出現的,將「標籤」進行分列後,我們需要用MID()函數和FIND()函數處理得到的字元,這一過程稍微有點複雜,所以我把「標籤」列單獨複製到一張表裡做演示,具體過程是先將數組的【】去掉,然後將標籤進行分列,在用函數把一個個標籤取出來

圖六:標籤一致化處理

  • 數據排序

在原表中按播放量排序可以直接看到哪些演講最受歡迎

圖七:按播放量排序

  • 異常值處理

通過對數據屬性進行分析,並無異常值,不需做異常值處理。

第四步:構建模型

1.哪些演講是最受歡迎的?

使用數據透視表對數據進行分組和匯總

圖八:最受人們喜愛的演講

播放量最多說明最受歡迎,通過透視表可以很清楚的看到Ken Robinson在TED2006年發表的"Do schools kill creativity?"(學校扼殺創造力嗎?)是TED網站上最受歡迎的演講,播放量高達四千七百多萬,也就是說截至到大約有數據集獲取時間2017年九月每天有近12萬人觀看這個視頻。

2.人們最喜歡哪些類型的演講?

對清洗好的「標籤」屬性進行透視表分析,因為好幾列「標籤」屬性,我只取標籤2這一列

圖九:播放量最多的是什麼種類的演講呢

從這一步可以得知人們最關心的是文化(culture)、商業(business)、腦科學(brain)、設計(design)、創造力(creativity)、娛樂(entertainment)、全球問題(global issue), 這很符合TED的初衷,我們前面提到過TED就是Technology、Entertainment和Design的縮寫。

那麼前面在第一個問題裡面總結出來的最受歡迎的演講屬不屬於這十大話題呢,他們之間有什麼聯繫呢?下面繼續用數據透視表進行探索

圖十:最受歡迎Top10演講都屬於什麼類型呢

將每個演講的全部標籤都顯示出來,與上面的十大種類相比較之後,不難發現,在播放量最多的十大演講中幾乎每一個都涉及到了文化(culture),其次是商業(business), 這讓我又產生了一個問題,人們最喜歡聽的是不是同時也是Ted speakers最喜歡講的呢?答案幾乎是100%肯定的

圖十一:Ted Speaker們最愛講啥

果不其然,各路大佬很懂觀眾的胃口,文化(culture)和商業(business)依舊榜首,唯一不同的是更多的人喜歡談論與藝術(art)和行動力(activism)相關的話題。

3.最受歡迎的演講者從事的都是什麼職業呢?這與他們受歡迎有關嗎?

我們還是可以用數據透視表來搞清楚這個問題


推薦閱讀:

TAG:TED | MicrosoftExcel | 數據分析 | Excel使用 |