好指標與壞指標
使用Power BI做數據分析的核心是實現度量。下層基礎決定上層建築,寫出一個好的度量值的前提是有好的指標設計。什麼樣的指標才是好指標呢?
Specific 明確性
電影院的數據分析經常會使用到上座率,即一部影片獲得觀眾人次的多少 / 提供的總座位數,它是評價電影優劣的好指標,但對於電影院自身的運營並不會有明確的幫助,因為上座率的高低很大程度取決於一部電影的火熱,而這不是電影院自己可以改善的事。
前幾天看到一則新聞,一般影廳里選擇第一排座位的觀眾較少,北京一家電影院為了改善這種情況,把第一排座椅做了特殊改造,真皮沙發、電動調節、可以躺著看電影並贈送爆米花飲料,於是第一排的上座率大幅提高。
換個角度來思考,明確想要回答和解決的問題,同一類公式瞬間可以變成指導行動的指標。
Measurable 可度量
上座率的邏輯其實可以應用在很多地方,比如大學裡課程的出勤率。受歡迎的老師場場爆棚,乏味的課程門可羅雀。如果可以把這個度量落實下去,那一定是讓老師們殫精竭慮的指標,也必定帶來教學質量的改善。
但如何能夠公平地衡量可能存在一些操作上的困難,比如出勤人數的計算是通過老師本人點名進行還是有獨立的人臉識別設備做監控;學生是自發參加課程還是受學校考勤制度的約束;課程的時間安排對出勤率有多大的影響;如果有學生簽到後中途離開,又怎樣去確認...
如果無法實現公平的度量,再好的指標也是個理想狀態。比如顏值,你怎樣把它數字化呢?
Attainable 可實現性
電影院的上座率最高值是100%,考慮電影的票價、影廳座位數以及每天能夠運營的電影場次,能夠實現的收入必然存在上限。如果定個超範圍的目標,那隻能是再造一家影院了。
同理,成績分數也是個有上限的指標,想起來小時候立下豪言壯志上清華北大,隨著高考的倒計時,發現距離是漸行漸遠,一個大目標就這樣一步步妥協成切合實際的志願填報。分數帶給了無數學生夢想、幻想以及挫折感。
你設計的指標影響力有多大呢?
Reliable 可靠性
2011年-2014年因所在公司對當地GDP有舉足輕重的影響,我曾代表公司成為了統計局的常客,切實體會到了「增長黑客」般的「統計教育」。感謝當年老闆給我講了個「不以GDP論英雄」的國家基調,並督促實事求是的原則。當我回首那份工作任務,做正確的事,其意義遠大於工作本身。
2017年初,遼寧政府工作報告中首次對外確認:「遼寧省所轄市、縣財政普遍存在數據造假行為,且呈現持續時間長,涉及面廣、手段多樣等特點。虛增金額和比例從2011年至2014年,呈逐年上升趨勢。」
如上圖所示,2016年全國GDP增速6.7%,低於平均值的只有遼寧、山東和黑龍江,其餘28個省市自治區全部高於全國,水分不言而喻。2018年1月初,內蒙古、天津相繼承認GDP造假,大幅下調歷史數據。
糾錯也是一種進步,你的指標是否經得起時間的考驗?
Time-Based 時間
關於時間需要結合Power BI來講了。在時間智能函數的學習中我把公式分成了兩類,時間段和時間點。
這是一個很重要的問題,你設計的指標是評價一段時間的發生值,還是某一時點值?
前天出版社的編輯老師告訴我新書的第一批庫存快賣光了,要開始加印。讓我在關注銷售冊數的同時又加入了一個庫存量指標。顯然銷售冊數是時間段指標,庫存量是時間點指標。
對於時間段指標通過日期表可以得到年、季度、月、周的對應值,並且利用時間智能函數可以輕鬆求得環比、同比等等,這並不難。
讓很多人感到頭痛的是時間點指標,其實大多數的問題可能在於你沒有歷史時點數據,而只有時間段的歷史發生數據。
比如你想要知道每日的銀行存款餘額是多少,如果系統中有每日的記錄自然計算起來很簡單;但如果沒有,我們也可以從歷史的發生數據中做推導。基本的思路就是把指標拆解成流入和流出,再分別求累計至今的發生值。
這個原理適用於大部分類似的時間點指標:
銀行存款=初始餘額+累計現金流入-累計現金流出
庫存量=初始庫存量+累計入庫數量-累計出庫數量
在職人數=初始人數+累計入職人數-累計離職人數
Power BI 的確提供了一個很好的解決方案,但從根本上講,公式的設計不是工具能夠解決的問題,而是基於使用者對指標的理解。
以上是目標管理的SMART原則,也可以作為判斷指標好壞的參考。簡而言之,能夠解決問題的就是好指標。
推薦閱讀:
※Challenge2:R語言數據結構入門
※用數據化的方式解析投資條款之十一:最惠國條款
※第四講實踐:人均GDP和政府廉潔度對幸福指數有何影響!!
※簡單的認識R語言和邏輯斯蒂回歸