結構思維——用結構化思考讓數據分析到達問題的底層
文 | KEYA 來源: keeya - 簡書n作者是國內某高水平數據挖掘與數據分析公司的數據分析師
對數據分析而言,不僅僅是直接回答問題,同時還需要針對問題,不斷去探求,不斷去深入。當探求問題的時候,可以用到圖表可以用到統計,不過圖表和統計的方式只是解決問題的手段,真正要解決問題,就需要用到結構思維。
分析的目的
結構思維就是對應著數據分析的目的。需要通過數據分析來解釋的問題,無外乎在三個方面:what,why,how即是什麼,為什麼以及怎麼樣三個方面的問題。針對問題的拆分和對比也是圍繞著三個點展開
對what而言,就是需要了解現在的情況是什麼樣子,有哪些對象,在對象中涵蓋了哪些數據,對象可以分成哪些部分,各個部門數據的大小如何,主要的數據貢獻是來自於哪些地方等等。What就是狀態進行展開,尤其是現狀展開。比如分析現在各家產商的份額就是屬於what的問題。
對why而言,比what更進一步,從現狀進行回溯,需要通過分析來理清問題發生的因果關係以及對象之間的邏輯關係。和what聚焦靜態數據相比,why更專註於動態數據,重點在考察哪些數據在不同的情況下發生的變化。比如需要分析市場份額為什麼發生的變化,價格為什麼上漲或者下降等等。
對how而言,從關注原因發展到了關注結果,更注重未來的情況,各個對象的數據未來會如何變化,對於分析的對象而言未來是什麼樣子。比如在制定了一項市場決策後,就會預測未來的投資收益情況。
從what到why再到how,數據分析起到的不僅是知其然的作用,同時也起到了知其所以然的作用。在這些問題的背後,都是對問題進行拆分和對比,可以說what,why和how都是問題進行拆分和對比的立足點。
問題分解的基本原則
在數據分析中,實際上是對問題的不斷分解。對分解而言,最基本的原則的就是MECE。MECE來源於麥肯錫方法,是互相獨立,完全窮盡的意思,在有的場合中也被稱為窮舉法。
問題在分解的過程中,一方面不斷擴展廣度,將一個問題再下一個層級中被平行分成若干部分,另外一方面,在一個方向上逐漸深入,步步下鑽,在深度上不斷深化。當廣度和深度互相結合的時候,就能夠把問題說透。
MECE的互相獨立、完全窮盡原則就是在各個層面和對象上進行施用,從而起到廣泛分解和深入鑽探的作用。在用MECE分解問題的過程中,首先將問題分解成若干的方面,這些方面合起來,都能夠完全解釋這個問題,同時各個方面上都不能互相影響。
如圖所示,將問題分解成了方面1和方面2,方面1和方面2都是互相獨立,完全窮盡的。接下來,針對某一方面,再用同樣的方式去分解出次一級的子方面,如方面1被分解成了方面1.1和方面1.2.同時也對分解出來的每個方面按同樣的方式分解,不斷地循環往複,知道不能夠分解成更細的顆粒,最終形成一個樹狀結構。圖中在第二層中,方面2.1還可以繼續分解,於是加上方面2.1分解出來的方面2.1.1和方面2.1.2,整個問題就被分解成了三層。
分解的模式
MECE是對問題分解的方式,對問題的分解除了要有正確的方式,還需要有合適的維度,也可以說是合適的模式。
在分解問題的模式,其實是指從哪些角度來來分解問題。通常而言,可以從時空維度,即問題按時間與空間的關係進行分解。可以從成分維度,即問題在物理上或者社會意義上的構成進行分解。可以從要素維度,即問題的影響因素上進行分解,已經不再簡單的考慮時空和關係。同時也可以從邏輯維度,即將問題中的邏輯連接進行分解。當然對問題的分解的問題不僅僅限於此,只要能夠想到可以,進行分解。
基於時空分解
在在問題的分解中,基於時空分解的落腳點在於時間和空間,其反應的是事物的結構和變化情況。
在時間維度上,就是把整體的時間,按照時間順序劃分為不同的時間單位,並在時間軸上進行對比,體現出對象在不同時間的變化情況。這個時間段比前一個時間段是增加還是減少,這個時間段的數據和其他時間段的數據相比,變化的幅度有多少。
在對時間的分解中,可以以常用的時間單位進行分解。比如將一年分成四季或者12個月,將一個月分成四周,將每周分成七天,或者將每天分成24小時,甚至將小時拆分為分鐘。在基於時間單位的分解中,常見的例子就是股票K線圖,股票價格變化可以按年,月,周,日,小時,分鐘的單位進行呈現,同時也可以根據自定的時間單位進行呈現。
在時間維度上,除了按照標準的時間單位分解外,也可以通過事物發展的階段分解,比如在市場營銷中就把產品的生命周期分為了」導入期-成長期-成熟期-衰退期」四個階段.
此外,在時間維度上,還可以按照流程進行分解,比如將業務處理或者生產中的每一個步驟分解出來,對比流程中每個點的產出,就能夠知道每個點的效率。在電商中,從搜索到最終下單有若干個步驟,對比經歷每個步驟的人群,就可以知道每步的轉化情況。
在空間的維度上,就將對象從按照空間的組成進行分解成不同的單位。
首先可以根據地域進行分解,全國可以分解成各個省,省再往下分解成縣市區。當觀察全省或者全國的數據時,就可以拆分成更小的地理單位進行對比。
同時,可以突破地域的限制,根據地理位置的分布,劃分為不同的網格,按照網路進行分解,在地圖軟體上我們常常的見到的熱力圖,就是把地圖分成了若干的小單位,然後統計每個單位的數據,最終按照顏色的深淺,顯示數據分布情況。
地域和空間,都是在一個平面上進行分解,也可以按照空間進行分解,一個大樓可以分解成不同樓層,考察每層樓的人群分布和消費情況,天空可以分解成不同的高度,來對比每個高度上的飛機密度,同樣水下也可以分解成不同的深度,來對比不同深度的水文特徵和自然資源分布。
基於成分分解
這基於成分的分解,是將分析對象按照其在物理和在社會關係的維度上,分解成各個子對象的方式,其中既包括了以人群為對象的分解,同時也包括了以事物為對象的分解。
以人群為對象,顧名思義,就是將一大群人按照某種特徵和相關的關係,分成一個又一個的小群體,在這個基礎上,可以對比對象之間的數據分布。
常用的方式有根據組織結構分解,人群網路分解,人口類別分解等等。比如將一個組織展開後,可以對比各部門的編製人數和工作內容,然後知道各部門的工作負荷情況,這樣可以用於調整編製、人群網路分解,其實將一群人按照其社會關係進行分解,在一群人中,可以根據他們之間的關係,劃分為同一家公司的同事,沾親帶故的親戚,一起讀書的同學,同一家學校出來的校友。根據種種關係,就可以把一大堆人分成很多細微的人群。
人口類別的分解,是按照一些人口統計學的特徵,劃分成不同的人群情況。比如一堆用戶可以按照年齡,性別,文化程度,職業甚至星座和血型等特徵劃分。這樣即可以分析各個人群的佔比情況,進一步地也可以對比人群之間的數據分布,如總體貢獻,或者人群平均的數值情況等等。
以事物為對象,是將事物根據按照更小的顆粒度進行分解。事物相對人群而言,構成更加豐富,成分之間的關聯也變得多樣化起來。因此圍繞事物進行分解,也會呈現出多種形式。
在針對事物的分解中,可以將產品按照形態或者組合進行分解,對現在的很多公司而言,都有不同的產品線,各個產品線中又有不同的產品,產品線的寬度和深度都共同的構成了公司的產品體系,因此按照「產品體系-產品線-產品「的維度,就可以把公司的所有產品,按照隸屬關係,一步步拆分成更小的集合。在這種情況,能夠對比產品的銷售貢獻情況和利潤情況。
對單個物體而言,也能夠在物理上進行分解。如一輛車可以分成不同部分,發動機,轉向系統,底盤系統,電器系統等等。就像車一樣,各個部分可以組合成一個更大的實體。對象被拆分成部件後,可以對比各個部件之間相關數據,從而分析對整體的影響。如在工程領域就有可靠性理論,通過計算各個部分的可靠性,來推測總體的可靠性。
除了實物以來,事物可以按照社會形態進行分解,一個常見的情況就是根據行業分解,分解以後分析各個行業的情況,包括從業人數,經濟產出等等。例如一家公司就可以分析各個行業市場的份額,銷售金額,利潤,從而制定出相關的市場組合決策。當然在行業下面,還可以拆分成不同的公司,可以進一步分析各個客戶的貢獻情況。
以事物為對象的分解,一方面可以在物理成面展開,還有一方面可以在社會關係層面展開,總之展開的方向可以多樣,不僅僅是產品,部件和行業的形式,總之只要能夠想到合理的形式,都可以步步分解。
基於要素分解
問題可以通過時空和成分關係進行拆分,然而並不是所有時時候都能單獨按照時空和成分的模式進行拆分。很多時候,問題可以分解為不同的要素,可以在不同的維度上來將問題拆分為更小的對象。問題可以有多種多樣,通常有一些對問題的拆分方法就是按照要素的模式對事物進行分解。
5W1H是對問題的按照六個維度進行分解,分別圍繞對象(何事What)、原因(何因Why)、地點(何地Where)、時間(何時When)、人員(何人Who)、方法(何法How)對問題的進行展開。在5W1H中既可以引入定性的因素,也可以引入定量的因素。當對比其中一個維度時,就可以拉通其餘的五個要素進行對比。比如產品的銷售可以按照,時間、地點、人員、方式等維度進行依次對比。
魚刺圖是質量管理中常用的工具,就是圍繞事物發生,去一層一層剖析原因,直到發現問題發生的根源。在魚刺圖中,每一根大刺是對問題分解的一個方向,在大刺的基礎上,又可以進一步分解為中刺去進一步發現原因,同時基於中刺,還可以去進一步拆分為小刺以及更小的刺,直到發現問題根源所在。
在營銷領域中,也將營銷問題按照要素進行展開,其中4P理論就是一個典型的例子。在4P理論中,將營銷分為了產品、價格、渠道、促銷四個要素。在對營銷問題的拆解中,可以圍繞這幾個方面進行分拆和對比。比如對比不同產品的價格情況,不同產品的促銷手段,不同產品的渠道覆蓋等等。
在基於要素的分解中,對於問題的分解並不一定非要按照一定的固有套路,只要邏輯清晰都可以在不同的維度上進行分解。在進行數據分析時,數據往往以二維表的形式存在,在一張二維表中,橫向是不同的記錄數,而縱向是不同的變數,因此就可以圍繞已有的變數去一層一層向下分解。
在下面是一個關於不同客戶的收入和銷量的二維表分解例子。
在例子中可以對所有客戶按照收入是否大於100分成兩類,不大於100的有AE兩個對象,而大於100的有BCDF四個對象。進一步地,對大於100的進行拆分,拆分的維度時銷量是否大於10,因此拆分過後,CF銷量大於10,而BD銷量未大於10。
這個例子中,把六個客戶首先分成了2類,並將其中一類更進一步地又分成了2類。圍繞拆分的過程,就可以生成一張決策樹的圖形。
在對問題的分解中,可以圍繞問題本身,去梳理因子之間的關聯關係,圍繞種種聯繫,去一步一步拆解問題。
系統動力學是一個常用的工具,在系統動力學中,將問題視為系統,並且將系統拆成了一個個的因子,然後在因子之間體現出了因子之間的互相作用的機制,並且能夠通過系統內部結構來找到事情發生的根源。在累積旅遊收益的例子中,就拆成了年收入和年支出兩個因子,並且年收入和年支出也進一步發掘到下一層的因子,所有因子在一起構成一張有向圖,體現出了各個因子對累積旅遊收益的影響情況。當要分析累積旅遊收益時,就可以通過展開的結構,去追根溯源。
在戰略領域中常常用到的平衡記分卡也是一種基於因子間關聯關係對問題的分解。圍繞戰略目標,依次分為了財務層面,客戶層面,內部運營和學習成長層面,這背後的邏輯是學習與成長會影響內部運營,內部運營影響客戶和財務,客戶層面影響財務層面。在每個層面中,又細分為了不同要素的,這些要素之間都會互相影響。當分析戰略是否能夠達成時,就可以圍繞這幾個層面去發掘,哪些是有利因素,哪些還是瓶頸需要進一步加強。
在商業領域常常會用到各種管理工具,這些管理工具其實也是對商業問題按照要素進行分解。
在分析宏觀環境時,就會用到PEST分析,PEST將宏觀環境氛圍了政治、經濟、社會以及技術四個大維度,在四個大維度也有再進一步分解出來的因素。通過PEST就可以將企業面對的環境,分成四個方向組成的結構,在這個結構的基礎上去發現有利和不利的因素,並做相關的定量和定性分析。
在分析企業自身與環境互動的時候,會用到SWOT分析,SWOT分析將企業環境因素展分為了內因-外因,積極-消極的兩個維度,並在這兩個維度上,衍生優勢、劣勢,機會、威脅這四方面的要素。其中內因包括了積極的優勢和消極的弱勢,外因也包括了積極的機會和消極的威脅,圍繞這四個要素可以進一步去分解出更下層級的因子,並且圍繞各個要素去找到重要的因素,並且制定相應的措施。同時通過SWOT分析,也可以按照同樣的維度去對比競爭對手和標杆企業。
在商業領域中,除了PEST和SWOT外,還有各種各樣的工具是將商業問題分解為了要素,除了商業領域,在社會科學和自然科學領域,其實也存在將問題按照要素分解的情況。不管在任何領域,只要足夠熟悉相關的理論和對問題有一定的認識,都可以按照基於要素的分解,去拆解問題,讓問題體現出結構出來。
基於邏輯分解
在針對問題的拆分中,有種方式是基於邏輯進行拆分,當問題基於邏輯拆分後,分解出來的單位之間具有邏輯關聯的關係,在邏輯關聯中還伴隨著數學運算。在邏輯聯接中,計算包括了加減乘除,加權匯總甚至到微積分的關係,隨著邏輯鏈接的豐富和深入,更多更高深的計算關係也會出現。
在加減關係中,可以將問題本身按照加減關係進行拆分,比如可以將利潤根據「收入-成本」公式拆分為收入和成本兩部分,將總額度按照「總額度=已用額度+未用額度」拆分為已用額度和未用額度兩部分。
在乘除關係中,可以將問題本省按照乘法或者除法關係進行拆分,如通過「路程=時間×速度 」公式就可以把路程的拆分為時間和速度兩個要素,又如通過「利率=利息÷本金」公式,可以將利息拆分為利息和本金兩個維度。
加權匯總其實是將加法和乘法關係互相融合,在問題背後有若干的要素,要素的佔有不同的權重,在乘以權重後,就可以得到問題相應的數值。加權匯總通常用於計算KPI,同時在計算相關的指數時,也會用到微積分的關係體現出的是因子的變化引發問題本身數值的變化,這也是一種邊際效應,即每一個因素變化以後,背後的結果也相應會發生變化。
在各行各業中,都會體現出對問題基於邏輯的分解,只要可以構成相關的計算邏輯,就能夠基於邏輯進行分解。
杜邦分析時在財務領域中,對投資問題的按照計算邏輯分解的框架。在杜邦分析中,依次有乘法關係和除法關係。可以通過以下公式進行拆分
權益凈利率=資產凈利率×權益乘數
資產凈利率=銷售凈利率×總資產周轉率
銷售凈利率=凈利潤÷銷售收入
總資產周轉率=銷售收入÷資產總額
通過公式,能夠將權益凈利率拆解乘一個樹狀結構,在樹狀結構中,各個指標都互相關聯。
從關聯關係中可以知道,提升權益凈利率可以通過提升資產凈利率或者提升權益乘數的方式。同時提升資產凈利率,可以通過提高銷售凈利率和增加資產周轉的方式。要提升銷售凈利率在於提升凈利率,進一步地提高收入降低成本。要增加總資產收益率,需要增加銷售收入,同時採取輕資產運作的方式的,降低資產總額。
在客戶關係領域中,確定消費者的價值的問題可以通過RFM模型,將消費者分成多類,這背後的思想就是基於邏輯將消費者的整體進行拆分。RFM模型中RFM指數的計算公式是「RMF指數=R×M×F」,其中R為最近一次消費(Recency),F為消費頻率(Frequency),M為消費金額(Monetary)。通過這三個指標,可以構成一個立方體,並按照指標中的高低關係,將立方體分成八塊,即消費者拆分為八類,對八類消費者採用不同的管理手段。
在生產領域中,如何管理機器故障就用到了FMEA模型來衡量故障問題,起背後是基於邏輯關係將各種故障進行了細分。在FMEA模型是失效模式及後果分析的英文縮寫,其中的指標計算公式為「FMEA程度=故障探測度×頻率×故障嚴重度」,探測度表示故障難易的成都,嚴重度是指故障帶來後果,即損失有多大。通過FMEA模型,將故常在探測度、發生頻率,嚴重程度三個維度上,可以分成多類,從而用不同策略來應對。
結構思維總結
數據分析的目的是為解決問題,解決問題的前提就是要對問題進行剖析。剖析就是要梳理問題的結構,往最小的顆粒的方向分解,並在分解的過程,逐級地進行對比和向下拆分,直到發現問題的核心所在。
結構思維就是數據分析思維中,科學、合理,可靠地分解問題的思維。
問題的分解需要有合理的方式,當前一個公認科學和有效的方式的就是MECE,中文的意思就是完全窮盡,互相獨立。即在分解的過程中,同一個層級中的因素或者對象,都是互相獨立的,不存在統屬關係。同時對象合併後,能夠完全解釋或者組成他們的上一個層級。分解的過程是以完全窮盡,互相獨立為原則,層層遞進,步步延伸,最後對問題形成一個樹狀結構。
分解可以從多個維度進行,以時空維度圍繞事物結構和變化進行分解,如把一年分成12個月,以成分維度圍繞單位的構成和聯繫進行分解,如把人分成男女老少,要素維度圍繞因果關係或者組合因素進行拆分,如營銷中的4P和4C,邏輯維度按照相關的數學邏輯進行分解,如經營中的利潤和收入成本之間的層級關係。
推薦閱讀:
※數據分析師的春節攻略!五大經典問題爆笑回答
※數據分析進階要怎麼做?
※R for data science之purrr包(上)
※BI轉數據挖掘,我的脫產學習路