標籤:

將業務問題轉化為數據問題 & 準備數據

將業務問題轉化為數據問題 & 準備數據

來自專欄 如何用數據解決商業問題

將業務問題轉化為數據問題

一般來說,業務問題都是比較抽象的、寬泛的、甚至感性的,比如:

  • 「希望能夠提升我們連鎖超市的銷售額,它的競爭對手去年的銷售額增長了 8.3%,而我們基本沒有增長。」
  • 「我們想知道在這個渠道投放廣告是不是一個正確的選擇?」
  • 「作為銀行,我們的網點數量和結構合理嗎?需不需要關掉一些?是不是需要把一些社區網點升級為旗艦網點?」

直接試圖解決這樣的問題是很困難的,可能有時候可以依賴直覺或經驗,但更多時候這樣是沒有說服力的,因為缺乏科學的分析和推理。而且,這些問題背後通常隱藏著更多潛在的問題和需求,客戶詢問某個問題的答案「是不是」的時候,並不只想聽到一個「是」或者「不是」這樣一個簡單的答案,而是希望聽到圍繞這個問題的思考和邏輯,更多是「為什麼」。

因此,不要試圖去從整個業務問題本身的角度去提出解決方案,而是需要把大的業務問題分解成若干小的問題、把抽象的問題變成具體的問題、把難於衡量的問題變成可以量化的問題。然後,再使用技術手段去解決這些小的、具體的、可以量化的問題,提出解決方案。

比如以第一個例子為例,想要提升這家連鎖超市今年的銷售額,我們是不是可以大致按下面的流程和角度去分析:

  1. 目前來超市購物的客戶都有哪些類型的人群,他們購買的商品有區別嗎?這和我們的競爭對手的情況是不是類似?
  2. 不再購物的客戶都是什麼類型的人群,他們都是因為什麼原因離開的?
  3. 目前購物者的人均消費、會員卡使用、通過公眾號互動情況分別是什麼樣的,和之前相比的變化如何?
  4. 宏觀市場、促銷活動、商品數量、服務質量……都有哪些因素有變化?
  5. 基於前面的分析,目前和超市銷售額關係最大的是哪些因素?
  6. 如果對這些因素進行改變,預測這樣的改變能帶來的變化分別是多少?
  7. 設計一個能夠提升銷售額 10% 的改變方案。
  8. 主動思考:通過這個方案提升銷售額的同時,利潤率會不會有所下降?如果有,我們是不是應該調整這個方案?

數據準備

準備數據是技術環節中至關重要的一個部分,在數據分析中,垃圾數據的輸入就會產生垃圾的結果,因此,要確保用於分析的數據盡量準確、全面。而且,這個過程並不一定在一開始就是非常確定的,很有可能隨著分析的進行,會發現原先的設想有誤、分析的方法需要調整、採集的數據不足以說明問題等等。那麼,這個時候很可能還會反覆進行這個環節。

但是,這裡也不要進入另一個誤區,就是認為數據必須準備到完美的狀態才可以進行分析。一方面,數據有些程度的缺失和錯誤是一個普遍現象,做到 100% 的乾淨、準確幾乎是不可能的,因此,必須在數據不完美的現狀下確保得到儘可能準確的結果;另一方面,我們是在工業界而不是理論界去尋找解決方案,能夠解決實際問題是第一要求,那麼,即使有方法可以將數據準備到完美,我們也需要評估這個過程需要花費的人力、物力、以及時間成本,尋找到最經濟的平衡點。

收集數據

收集數據需要建立在基本了解問題的基礎之上,在了解問題之後,就需要依靠常識、領域知識、以及創造力,來思考哪些數據對分析這個問題是有幫助的。那麼,有沒有可能你遇到一個問題,沒有任何相關的數據可以用來分析,或者你覺得不可能有相關的數據可以回答這個問題呢?永遠不要從這個角度出發去思考問題,只要問題是明確的、可以量化的,那麼都可以從一定程度獲得分析和解答,我們要做的就是在現實存在的數據資源中,儘可能多地發現有效的信息和知識。

收集數據的方法有很多,對於文檔表格、資料庫、網路數據等各種類型的數據,收集的方法各不相同。但是,數據收集的原則還是相同的:

1、不要收集無用的數據:大數據並不代表了什麼數據都可以拿來為我所用,甚至有些人會在解決問題的時候想儘可能多地給模型各種各樣的數據,剩下的工作都有機器來完成,希望能得到一個很好的結果,這是不現實的。這樣的想法請保留到強人工智慧時代——等機器有了邏輯分析、推理演繹、甚至意識和情感的時候,再來看是不是可行。目前,在收集數據的過程中,有一個基本原則:儘可能收集包含有儘可能多的信息量、並且這些信息量和你分析的問題相關的數據

2、不要忽視數據的特性:有些數據是有特點的,比如很多移動大數據監控廠商,追蹤了很多用戶的行為,然後將這樣的數據用於分析甚至售賣,但是,很多時候他們能夠植入 SDK 去監控的對象是有特點的,比如可能遊戲 App 採用得較多,那麼很顯然,監控到的對象是年輕的遊戲愛好者比例會很多,那麼用這樣的數據作為一個普遍的人群基礎數據顯然是很有問題的。 同樣,如果從大姨媽或者護膚美妝類 App 獲取數據,那麼其中女性用戶一定佔據了絕大部分。因此,在使用這樣的數據的時候,一定要注意這些數據的特性。

在 1936 年美國總統選舉前,當時權威的《文學摘要》雜誌社,為了預測蘭登和羅斯福誰將當選下一屆總統,採用了大規模的模擬選舉,他們以電話簿和車輛登記簿上的地址發出 1000 萬封信,收到回信 200 萬封,在調查史上這麼大的樣本量是少見的(但是,請注意 1936 年電話和汽車擁有者基本都是富人)。雜誌社花費了大量的人力物力,認為蘭登將以 57% 對 43% 的比例獲勝;最後結果恰恰相反,羅斯福以 62% 對 38% 的巨大優勢獲勝,連任總統。這就是在收集數據的過程中,沒有注意數據特點的一個著名反例。

3、避免不適用的理論和經驗:現在的時代日新月異,而且在方方面面都存在很大的差異性,因此,要以謹慎之心來對待一些理論和經驗,哪怕這些理論和經驗曾經被證明過是有效的。比如,在美國做商業地理分析,很多時候都會採用車程範圍作為商圈分析的基礎,但在中國的大城市裡,地鐵等公共交通的佔比也很大,單純採用傳統商圈的分析理論和經驗就不足以說明問題了,因此在獲取數據的時候,除了地面路網數據,還很可能需要軌道交通數據。再比如這幾年移動 App 用戶和 Web 用戶的此消彼長,導致很多原來通過 Cookie 去追蹤用戶的方法都不同程度受到了影響,那麼獲取類似的數據來源的時候就需要格外謹慎。

清洗數據

在收集數據之後,還需要對數據進行清洗工作。清洗數據的目的在於儘可能找到並剔除錯誤的數據、補充缺失的數據、糾正失誤的數據,最後整理成乾淨的、便於使用的數據。顯然,不同數據的具體清洗方法肯定有區別,需要具體場景具體分析,下面先通過一些例子來說明數據清洗的常見目標:

1、剔除錯誤的數據:比如我們在做移動位置數據分析的時候,經常遇到一個城市的某個位置有異常多數據的情況,其實這是因為這些數據沒能獲取到用戶精確的坐標,於是就把城市的中心位置或者一個比較常見的坐標作為了這個數據的位置,比如北京經常有不少數據聚集在天安門附近,這些數據都是需要被剔除的。再比如房價的數據,會有一些房價極高或極低的情況,這很多時候是錄入數據的時候把總價當成單價進行了輸入,這樣的數據也需要被剔除。

2、補充缺失的數據:對於數據中的缺失部分,並不一定要做補充處理,因為有時候數據的缺失也反映了一些信息。但很多時候補充缺失的數據也是有必要的,比如在一個數據中雖然缺少了某人的年齡數據,但是記錄有身份證號碼,那麼這個年齡數據就可以從身份證號碼中提取出來,補充上去。

3、糾正失誤的數據:「失誤」數據和「錯誤」數據的區別在於「失誤」的數據中是包含了正確的信息的,舉個例子,中國互聯網上合法的坐標信息都是經過非線性偏移的,所以直接拿來使用必然是錯誤的。但是,我們是可以通過演算法把這個數據「糾正」到正確的經緯度坐標上來的,這樣,這個數據就成為一個可用的正確數據了。

4、整理和標準化:比如,在數據中同樣是描述肯德基,可能有些地方存儲的是「肯德基」,有些地方存儲的是「KFC」,這樣的數據需要整理到一個統一的標準下才可用。另外,數據中可能存在了一些無用的屬性、重複的記錄等等,也需要進行整理,儘可能給出一個乾淨的、便於使用的數據。

推薦閱讀:

數據銀行的建設思路
今日數據行業日報(2016.07.08)
今日數據行業日報(2017.6.7)
數據會說謊,我們如何鑒別真假數據?
數據分析雜談 2 - 用戶為什麼留下來

TAG:數據 |