數據分析能很好的支持管理決策嗎，如何支持？

01-05

目前在做BI系統的實施工作，比較疑惑的是，數據分析到底能以什麼樣的方式，如何支持決策呢？
我目前對數據分析的看法可以簡化為：
能驗證決策是否有效,

能確認問題發生的原因,
能挖掘潛在的風險；
能驗證對未來的預測,
不能預測未來。
但這樣的理解正確嗎？有沒有具體的例子可以驗證？
謝謝各位的賜教！

你的理解是網上千篇一律的，所謂BI商業智能帶來的最終結果。但是實際上要想輔助決策、挖掘風險、監測未來，不光光需要實施商業智能，背後還要依靠業務邏輯，架構方案，甚至需要大數據、數據挖掘技術的支撐。

關於BI在數據分析方面的應用，可以多看看這裡面的案例帆軟 - 頭條號(www.toutiao.com)

摘錄一個案例說明一下。

--------------------------------------------分割線

無論是做數據報表還是數據分析，目的都是為了用數據去做決策。數據分析說白了就是依照業務邏輯，分析目的去構建一個數據展示的過程。

隨著，企業信息化的不斷建設，會積累越來越多的數據數據，這個數據你要管理，要變現，要讓它產生價值，尤其是對一些注重市場營銷、客戶管理或者具有複雜業務流程的企業是一個寶貴的資源。因為這些數據積累了業務經驗、行業數據和行業標準。站在行業信息化角度來看，如何利用好這些數據成了關鍵。

比如保險公司，信息架構分為三層，最上面一層是科技管理層。第二層就是數據倉庫以及系統數據的介面服務，大部分管理者對於報表的一些疑問，或者對現在的一些經營問題都會把它細化成為更細的分析目標，下沉到分析人員這一層來進行處理。第三層是一線人員的業務數據產生的環節。

在數據分析查看這一方面，領導會通過熱力圖來了解各地的銷售情況，各種產品的對比以及同比環比，數據一目了然。這麼一來就能避免整理報表、傳輸報表過程中帶來的意外。其次能讓領導根據自己的業務經驗，以及自己所處的經營高度去快速發現問題，指導第二層數據分析人員，快速開展數據分析工作。

保險公司最關心兩個指標，一個值是估損偏差率另一個是結案失效平均天數。通過這兩個指標可以看到我們理賠隊伍運行的狀況是否正常。

以上重點還是在於展示——分析。

分析——決策又是另一個問題，也要業務邏輯與數據展現的深度配合。

如何讓數據分析真正指導決策？

很多人認為很多數據分析工具的使用，僅僅是對歷史數據的歸納和重組，做了可視化展示，並沒有很好的支持決策過程。主要原因是在做項目時跟多關注了歷史數據的消化過程，而沒有關注歷史數據的分析過程。在這樣一個分析過程中需要的第一個是工具，而BI在數據挖掘和預測方面為我們提供更多的方法。

利用數據分析的過程去優化管理決策

決策過程是為分析提供場景。決策可以分為這樣幾個層面：最高的層面是戰略決策，然後是戰術決策，還有經營決策。它們的頻度和影響是不一樣的，戰略層面上的影響非常大，但在頻度上是5年、10年或者是更大的一個周期，我們才會做一個戰略上的變化。戰術的決策次之。經營層面的決策是伴隨著經營的過程中可能會實施、遇到和面對的實際問題做決定的。

數據分析的過程其實是對歷史數據重新產生新的信息的一個過程，這個過程希望可以服務於我們的目標，用分析的過程去優化管理決策的過程。實際過程中，我們其實更多面對的是日常的經營決策，這樣的決策離不開報表和BI去做可視化，讓運營部門去分析。

如何推動數據的利用效率

以下是關注數據時我對數據利用程度的分析圖，一方面是、技術的創新，另外一方面是技術創新對運營改善的影響。可以看到這分為4個象限。首先第一個象限，是做數據的積累，並沒有做任何的數據加工處理過程。第二個象限，利用所積累的數據幫助企業提升效率。第三個象限，就是更進一步，數據能不能對我們的企業產生新的戰略和機會。最後一個就是將效益和機會兩者兼并。

圍繞這個，做了這麼幾件事。

數據整合：基於報表系統，我們把各個系統數據整合到同一個數據平台上，通過這個平台，我們能夠為我們的業務部門或者運營部門去展示。
建立儀錶盤：把關鍵指標、關鍵績效通過儀錶盤展示出來。
分級報表：通過數據平台建立分級授權機制。
流程電子化：可以對流程不斷的進行跟蹤和優化，並由系統提供優化分析。

通過這些數據積累，可以更多地利用報表去發現問題，發現問題後去糾正和優化，解決了很多不能量化和展現的問題。

數據決策如何應用於業務管理？

比如醫藥行業。

醫藥商業作為供應鏈的中間環節，在發揮物流配送功能的同時，承擔著資金周轉的重要職能，因此對於醫藥企業利潤最大化的關鍵因素是毛利水平的提升和費用成本結構的優化。運用全成本核算的方法，創新了CVP價值分析模型，精確測算客戶、品種、供應商的凈利潤水平，並進行因素影響分析，通過挖掘利潤增長點，提供營銷決策參考。

那麼這個對於整個醫藥運營來講一個算輸入一個算輸出，圍繞著輸入輸出可以開展了幾個維度的分析，客戶層面的和業態層面的，第二個是供應商層面的，第三個是品種層面，然後是我們業務人員層面。在這個模型中，有很多指標，很多關鍵項因素，我們要讓大家知道每個指標之間的關係是什麼，每一項指標的語意的定義是什麼並且統一。

於是，又做了這麼幾件事。

首先建立了上下一致的對數據理解的過程，除此之外利用這樣一個架構我們去完成幾個場景的決策。

第一個就是我們業務結構的優化，通過平台上的數據去分析什麼樣的品種可做什麼樣的品種不可做，哪些品種帶來的利潤收益最大，哪些不掙錢。目的是指導大家做業務的結構調整。

第二個就是談判就是貿易。引入新品種時思考能夠帶來多少收益？於是通過數據平台的這些參數的關係，在每一次談判之前由我們的財務部門做分析和策劃。

第三個是經濟化的預算。

第四個是對人員的考核，考核的指標來自之前提到的各個維度，比如說利潤。

第五個是項目決策，每一次做項目投入，都通過數據平台來做支持。

需要預測未來的問題，可以分為兩類：

一、時間序列問題

即以時間順序記錄的一系列數據。這類數據分析叫做時間序列分析【1】，多用於經濟問題。數據規律不同，採用的方法就有很大的差異性，以下僅對一般性問題做分析。

首先，時間序列的相關數據，需要有兩個基本前提：

事物發展具有延續性，即無特殊情況，沿用以前的規律，不會出現大的突變；
事物發展具有隨機性，會受到各種偶然因素的干擾，在一定範圍內波動

根據兩個前提，可以將數據分解為兩個部分：

數據 = 規律 + 誤差

其中，規律的部分，可以通過數學模型去近似估計。而誤差的部分，可以認為是隨機誤差【2】（不是則採用其他方案），大多數服從正態分布。因此數據可以繼續改寫為：

數據 = 模型 + 隨機誤差

對模型細化，常見的影響時間序列的因素有：長期趨勢、季節變動、循環變動，則上式可改寫為：

數據 = f( 趨勢，季節，循環 ) + 隨機誤差

到此為止，就能湧現出很多實用的模型：

自回歸模型（AR模型）【3】
自回歸滑動平均模型（ARMA模型）【4】
差分自回歸滑動平均模型（ARIMA模型）【5】

但畢竟現實沒有模型那麼理想。比如說，除了趨勢、季節、循環以外，還有其它的影響因素，比如市場推廣、假期、預算額度等，這些因素並非規律發生。於是數據變成了：

數據 = f( 趨勢，季節，循環，其它 ) + 隨機誤差

解決這類問題，我們可以通過參數回歸的問題來解決，時間僅作為參數之一，而其它因素都可以作為參數，即自變數。最終，大都可以轉化為多元線性回歸模型【6】。

這部分問題的實例，網上書上很多，對於財務規劃、市場活動安排、網站流量預測、庫存預警、疾病傳播等，都能發揮巨大作用。

到這裡還沒完，比如：影響因素要是有一萬項怎麼說，一百萬項又怎麼說；影響因素之間如果不獨立怎麼辦，相互影響牽一髮動全身怎麼辦？解決這類問題還有神經網路、支持向量機等機器學習模型，但應用場所大多在互聯網企業。傳統企業應用少，一方面是因為「解釋」比「模型預測能力」更重要，機器學習很容易搞成黑盒；一方面是傳統企業節奏慢，新技術普及需要時間。真要找例子，離錢近的會用，比如金融；複雜度高的會用，比如晶元製造中的產能優化。

提到金融，就不得不提量化金融，尤其各大對沖基金，套利、追逐阿爾法的過程，數據使用的爐火純青，預測的是股票、期貨、債券、衍生品的未來。

二、事件發生概率問題

有些數據，發生了就是發生了，沒發生就是沒發生，是離散的，而非一串的時間序列。最典型的就是賭博，擲骰子是大還是小；21點下一張牌會不會爆。最初概率統計誕生，就是為了解決這類問題。

永恆不發生的事是不需要預測的，如果事情可能發生，那麼預測就轉化成了事情發生的概率是多少。進一步就可以轉化成隨機變數的分布問題。比如化驗結果，體檢血生化裡面，低密度脂蛋（LDL）白符合對數正態分布（Log-normal distribution）【7】，那麼下一個人LDL大概在一個什麼區間就可以估算。再比如預測一批活躍用戶，在隨後的24小時內上線的概率，一般符合泊松分布（Poisson）【8】。

假如事件不符合隨機，而是受一個個關鍵因素影響呢？那就通過邏輯回歸（Logistic regression）【9】來解決。這類回歸就是專門用來預測「 To be or not to be」的二元問題，比如：一個顧客會不會買這件商品；一個用戶會不會喜歡這款遊戲；一個患者會不會死亡；一個借貸人會不會償還貸款。只要你買保險，辦信用卡，你的個人信息就在logistic回歸裡面過了幾個來回了。

舉個實際的例子吧，有幫銷售部門計算過每個銷售對象的成單率。清洗過去5周的銷售記錄，在16個屬性中，通過逐步logistic回歸，篩選出相關性強的5個屬性，就可以預測未來的銷售對象，有多大概率能夠成單，從3%到55%都有。為了保證模型有效性，通過自動腳本每周重新計算。這樣管理人員就可以通過成單率，來調整分單策略，提高銷售人員對單子的珍惜程度，通過分單來激勵或者懲罰，選合適的單子培訓新人等。

像阿里小貸就少不了用logistic回歸模型，用貸款人的歷史行為和屬性，來預測最佳貸款額度，並實現自動化。國有銀行單筆貸款成本起碼2000元，而阿里小貸只需要2.3元。國有銀行房貸常常要7個工作日以上，阿里小貸只需要3分鐘。（當然，貸款額度、抵押也有區別）

一個有趣的例子，是Google在2009年，發表於《Nature》雜誌的論文【10】，利用logistic回歸，關鍵詞搜索量作為自變數，預測流感指數。預測結果與CDC（美國疾控中心）發布，並且比CDC結果還能早發布1-2周：

然後在2014年，《Science》發表了一篇論文【11】，指出google的流感預測失敗，並且指出了其中的過度擬合和模型有效期問題。所以這個例子其實是很典型的。google也一向喜歡搞這些探索性研究，最近還發了一篇文章是預測電影票房【12】。

對了，還有，影響因素要是有一萬項，機器學習就又來了，比如貝葉斯推斷、決策樹等。

總：

預測自古就有，比如占卜、八卦。掌握未來對人類總是有巨大吸引力的。因此數學模型是不會放棄這個領域的，由此衍生出的各種方法，遠不止上面提到的這些。而數據，顯然要比龜甲、塔羅牌好用的多。沃爾瑪用它管理庫存，7-11用它安排配送，製造業用它來Tuning、DOE，遊戲公司用它來做資源分配，而我相信，這只是個開始。

補充：

數據驅動的公司，可以講數據全面的融入管理中去。管理，尤其是科學管理，自誕生以來就同數據緊密相連。Frederick Taylor在1881年，為了完成他的工時研究，用手錶一點點的收集數據。那個年代的數據如此珍貴，而當下大數據時代，數據從未如此廉價，反而得不到太多充分的利用。關於數據提升決策質量，有興趣的同學可以看看《證析》【13】，這本書前言很有味道。

簡要補充一下平時遇到的數據用法：

決策方向對比。決定投入數百個小時在某個項目上之前，完全可以且應該花幾十個小時來尋找方法、嘗試它們，並且找出最適合自己的幾種。各方向上的資源投入，可以通過人工評估，層次分析法客觀化，再計算個方向理想產出，即得到投入產出比，確定最佳方向。
KPI制定、分解、轉化。如果事情多了，單一KPI就無法衡量工作產出，可根據規則定義綜合KPI。像顧客滿意度之類的指標，可以作為部門級考核指標，但於執行無用。找出可能的決定因素，並且使用COX回歸之類的模型，確定核心影響因素，並將其作為小組、員工KPI。類似於30天返回率之類的KPI，需要長期等待才能拿到結果，尋找相關因素，或者多因素回歸KPI，可以將長期KPI轉為實時KPI。
尋找最優點。跟DOE實驗設計方法類似，通過數學模型計算最優解。因為管理中遇到的很多事情是矛盾的，比如廣告投放，A的效果比B好，但是全給A的話吃不掉，效果不如分給B一部分好，那麼A和B個投放多少比例，最佳點就可以通過投放記錄+函數計算得到。再輔以回歸分析，可以一定程度上處理效果未知的投放。

多說一句，領導不理解、不支持，再好的數學模型也是浮雲。

參考資料：

【1】時間序列分析_百度百科

【2】隨機誤差_百度百科

【3】自回歸模型

【4】ARMA模型

【5】ARIMA模型

【6】線性回歸

【7】Reference range

【8】泊松分佈

【9】Logistic regression

【10】 Detecting Influenza Epidemics

【11】The Parable of Google Flu:Traps in Big Data Analysis

【12】Quantifying Movie Magic with Google Search

【13】證析 (豆瓣)

數據分析的作用主要歸結為3個方面：

1、統計驗證。這個就是大多數的BI報表、統計報表等。它的作用通過結果來論證業務流程、執行、工作到底效果如何，是一個可以作為評估手段的應用。如果沒有可量化的統計數據指標，那麼業務效果評估和改進無從談起。所以這是基礎作用，是不可缺少的。例如，當我們通過數據發現銷售額環比下降20%，我們就知道本周期做的不好，然後是第二項找到原因並加以改正。例如：

昨日訂單量超過30000單，超過正常水平230%。
過去的1小時內流量突然下降了75%，這是一個異常的信號。
過去一周內的註冊會員量環比增長7%，這是正常波動。
晚上6點流量下降到50萬在線UV，這是正常流量下降。

2、洞察分析。這個是指對數據進行探索和研究以便發現進一步的數據觀點和數據洞察。數據探究是挖掘數據深層次原因和關係的關鍵動作，也是數據論證的主要過程，表現在數據結果中大多是數據論證過程。傳統的下探分析、多維分析、OLAP，項目類、專題類數據分析和數據挖掘報告都是此類的表現形式。例如：

昨日網站訪問量提高77%，是哪些原因導致訪問量突然增加？
最近一周公司日均註冊量下降7899，是什麼原因導致註冊下降如此嚴重？
最近網站訂單轉化率提升15%等，是由於購物車、流量提高還是站內活動等因素導致？

3、預警預測。預警和預測是數據發揮作用的高級形式。對未來的預估和推斷，常被應用在業務執行前的計劃和評估階段。效果預測可以幫助業務建立合理的預期目標，並為實現目標建立資源需求圖譜；同時預測還能夠幫助企業提前識別未來會發生的異常情況，通過建立相關機制減少或避免損失。例如：

未來一個月內，商品價格會下降20%。
本次促銷活動預計響應率會達到80%，帶來300萬訂單收入。
預計下周會員活躍度會從一般活躍上升到非常躍度。
預期下個月網站日均流量會在300萬到500萬之間。

其實包含這三類中的一些，但實際是否有價值，要高你們公司對於BI應用的落地，以及更重要的數據工作文化、機制以及是否嵌入工作流程中。

有些可以，關鍵在於構建模型的數據的有效性，數據的可靠，數量，緯度非常重要。我們不能為了建立模型而選擇數據，現實往往都不會有非常整潔的模型，更多的是不規範的，而且置信區間很重要。畢竟商業的影響分子太多了，這些都是難以預料的。不過解釋過去方面作用還是很大的，但要保持一慣性，和可擴張性，還是難度不小的，其實經驗往往挺管用的，雖然看起來不科學。

而有些數據分析更多是說服別人支持你，經常客觀是做不到的，就像兩個競爭者，都可以那一部分數據分析的結果說明自己更好，因為緯度很多，你在每個緯度的比重分配可以做文章。所以，就是數據只是為了自己服務了。

業務，業務，業務！系統必須要和業務結合，要有業務人員提供原始數據，數據關聯，期望的分析方向。顧問分析，將其轉換為模型，最終實現，再從數據中取得結果，結果再提供給業務人員一起分析其價值。很可能還需要再對模型再進行修正，如此反覆

多和業務經理溝通，看他的問題在哪以及了解一下他對未來的判斷，然後你用數據逐步解決你們溝通過程中他所提到的問題就行～