數據分析的魅力和坑

前言

說實話,數據分析是人人都會的,只是沒有把它提升到是一個分析的過程,在每個人的腦子裡都有不同的思考的方式。所以今天講「數據分析的魅力和坑」可能只是在各位原有的一些思維層面上,有一些不太注意的地方會變成坑,然後導致一些不太好的結果。今天主要把我遇到的坑和大家分享,以後在遇到同樣的情況下,也可以避開那些坑的情況。我們先思考一個簡單的邏輯題,讓我們的思維更快速一點。

珠寶店被盜,警察問了4名嫌疑人,甲說「不是我做的」,乙說「是丁做的」,丙說「丁沒有偷」,丁說「肯定是乙偷的,」4個人里一個人說一句話,誰偷的?

「甲偷的」。為什麼是甲偷的?因為這裡面有兩個人說話是矛盾的,一個是「丁偷的,」一個是「丁沒有偷」,兩個裡面肯定有一個是真的,因為只有一個人說真話,其他兩個都是假話,所以甲說「不是我做的,」那就是他做的,就是這樣。因為四個人里只有一個人說了真話,有兩個人說了相反的一句話,那麼其中有一個人肯定是真,有一個人肯定是假的。我不問這兩個人誰說的真,誰說的假,另外兩個人說的肯定是假,所以是甲做的。這就是邏輯上的關於矛盾的點,一定要關注。其實數據分析也是這樣,當你看數的時候,首先看到的有矛盾的數。應該是甲大乙就大,但是現在甲大,乙小了,這兩個之間出現了矛盾,就要去關注它。

下面,我們接著來說數據分析到底能做些什麼。

第一、數據分析來源於生活,每個人在生活中都在解決數據分析的問題。

第二、數據在很多地方呈現的時候都會誤導你,誤導你的時候是基於什麼?你自己如果有一定的準備你就會知道。

第三、職場發展的需要。

第一章:數據分析的作用——解決生活問題

大家先思考兩個問題(如圖一)。這兩個問題相當經典,也是在數字思考中會出現的問題。只是說遇到的事不一樣,但是思維方式是一樣的。關於這兩個問題,當時我們老師在學校里上課的時候給了我們五分鐘的時間思考,當時最快完全答對只有學財務的同學。

(圖一)

第一道題目,27元是三個人出的,服務員是他進的(賬),所以這是兩個東西。進(賬)的還有誰?老闆。所以出的是27元三個人,進賬的是老闆的25以及服務員2塊,所以沒有那個1塊錢。

第二道題目,出的是他的50塊,為什麼只有50塊?因為這50塊是為了完成這一單交易,所以他所有的出就是這個50塊。但是他有入的,就是這一筆生意所賺的利潤,這個利潤是4塊,所以就是46,因為他打了八折。

當時我們很受啟發的原因在於,可能我們把很多東西都想得複雜。但是分析的過程應該是把複雜的東西簡單化,儘可能地用一到兩個概念來解決它。所以我們說通過這些生活中的故事或者說發生這些大家經常討論的東西,我們會得到三個點:

第一,聚焦在矛盾的地方上。如果兩個數值,比如說註冊到充值、充值到首投是一個流程性的過程,常態來說應該是漏斗流失這樣的過程,如果中間出現了反向的,比如註冊量少,充值量大,它就是出現了矛盾,那麼就要去關注引起這個矛盾的原因。

第二,避免偷換概念。剛才說的那個一塊錢去哪了?那個一塊錢根本不存在,你去哪找那一塊錢?其實概念已經被偷換了。

第三,要把複雜的過程想得簡單一點。財務的同學當時就是考慮兩個維度,一個是出,一個是入,所以他很快就能得出結果。而我們就會在過程中一而再再而三地反覆地算,然後得不出正確的答案。

這就是我舉的例子想要跟大家分享的點了。數據分析除了要思考,你可能還要得出結論,如何得出結論?剛才講的是比較零散的點,我們現在用一個我們生活中實際發生的案例來跟大家過一下一般是怎麼樣的思維過程來形成完整的報告或者結論。

這道題目就叫「大姨媽與小表弟」。什麼意思?過年的時候我回家,我大姨媽跑過來跟我媽聊天說我小表弟快要中考了,然後這次期末考得不太好。大概是這樣的情況,她也很擔心,說不知道要是考不起好的中學該怎麼辦。因為我在房間里,我也沒聽太清楚,但是我出來的時候就接了一個工作,就是我媽給我的。我媽說「快安慰安慰你大姨媽,幫幫你小表弟」。

對於我們來說,就等於是接了一個任務目標了,這個任務目標就是這兩句話。這其實是兩件事情,在場的同學會從哪些角度去考慮?當然你可以問問題,因為你大姨媽就坐那兒,你可以問她。她的目的也很清晰,她擔心的是小表弟能不能考上好高中。接著就是你媽說讓你安慰一下她、幫一下你的表弟。大家遇到那種情況,一般會問些什麼或者說會從哪些角度來考慮這件事情?在這裡,我給大家說一下我的思考方式。

首先,從趨勢上進行分析。剛才也有同學談到,包括環境、行業、競爭對手,就是說小表弟本身的學校排名是什麼樣的情況。如果他本身是在重點初中里的排名已經很高,你安慰大姨媽肯定首先就是說「這基本上上好一點的高中的問題不大,只是說我們要去哪一個」。好與更好,而不是說好與能不能上,這是兩個概念。

另外,班級最近的氛圍怎麼樣?是不是因為環境造成了小表弟這次考試可能沒考好?另外就是小表弟近期的情況,是不是身體原因或者怎麼樣。

這些其實都是外圍的情況,看完外圍的情況就會多維分解一下小表弟自己的考試。比如說他的分數怎麼樣、有沒有偏科、試卷結構怎麼樣、怎麼樣制訂目標。比如說他有一科很強,其他的很弱,很弱是因為什麼?比如說如果是語文很差,語文是哪一塊差?

你這些可以輔助來判斷。從安慰大姨媽到幫小表弟的過程應該是更深度地聚焦在到底該怎麼樣幫的點上,所以要更加往下細分。比如說語文卷面是閱讀不好,閱讀該怎麼辦?那就得往下分。

至於用戶細分的考慮這一塊其實只是一種運用,可能不是特別恰當,但是只是說有這種思維,你會去分析一下。比如說你剛才已經分析出假如小表弟是語文不太好,那麼他們班上語文學習好的這些同學是有哪些特徵或者他們是怎麼樣去學語文的。比如說大家都背詩詞或者都在看一些報刊,甚至是不是有老師開小課?這些情況你有沒有了解清楚或者說家長知不知道?這些都需要去了解。

另外,除了本來就學得好的,還有那種排名上升特別快的同學,這些同學是用了什麼方法在這麼短的時間內有提升?這個方法是不是小表弟也可以學?這個也可以觀察。再下面,關於漏斗流失以及如何分析,按道理來說應該是一個路徑,這裡不應該這樣講。但是實際上可以把思路變化一下,而不是這樣的豎向的固定流失,而有可能是橫向的結構問題。我們就可以分析他試卷的以往錯誤率,是因為這次沒考好考砸的,還是你本來這一科就一直不好?這也是需要去了解的。另外就是你錯誤的板塊,到底是因為什麼原因?是這次的原因還是歷史的原因?這是需要提前了解的。

最後,要快速嘗試一下。比如說有些同學排名上升很快的學習方法適不適用?你總要去試一下。

不僅僅是這些維度,還可能有更多的維度。當然因為數據分析是一種思維,思維是沒辦法拘禁的。無論你經過多少的思考,最後會有一個結論。這個結論一般會是什麼樣的結構?你已經問了大姨媽這麼多問題,最後怎麼樣整體來回答她?

我們的目標一個是安慰,一個是幫小表弟。我們最終得出的是這樣的結論。

首先安慰大姨媽。「大姨媽,你不要著急。從學校和班級的排名來看,小表弟怎麼樣」,因為首先要對這次小表弟的排名情況或者說考試情況作一個整體的判斷,看看這個程度到底去到什麼程度,是真的慘不忍睹還是還有得救?你總得給大家一個心理準備,是真的考不起要去花錢找關係,還是說補一補花點錢也能夠讓他自己努力得了,或者說其實也不要太在意,這次就只是一次小失誤。你首先要對大的這次的情況作一個判斷。老師對他怎麼樣是定性?他本身是個什麼樣的狀況?接著就說這次沒考好主要是因為什麼,這是剛才我們說的哪一個東西影響到他。也就是說我們這次考試除了判斷他的事態和程度,還要找到他這次情況的現狀,並且分析是因為什麼原因導致的。然後「小表弟在這個考點上一直怎麼樣,從以前的考試情況來看怎麼樣」,其實是對歷史作一個總結。是一直就不怎麼樣還是說以前的考試還可以,這次不怎麼樣,要對歷史作一個總結。接著就說「他班上的誰在這塊學得挺好的,主要是因為怎麼樣,」那你就要看一下競品在這一塊上到底是怎麼做的、有沒有借鑒意義?最後就說「我們可以怎麼樣,下一次考試的目標就是怎麼樣」,你要對整體作一個建議,以及對目標進行管理。你也不能讓大姨媽的期望值太高,要管理期望,不能直接說「高中沒問題,考個一中二中什麼的」,那也不行,也得讓你小表弟喘口氣。

整體的回答就會是這樣的邏輯結構。你從接到一個標題或者你要分析的東西一直到它最後出結果,整個流程的輔助維度可能就是這些,其實還會有更多的維度來輔助。其實數據分析在生活中是很常見的,大家也都經常使用它。

第二章:數據分析的作用——降低被誤概率

除了剛才那些問題可能時不時會發生,但是更多出現的是一些容易被誤導的數據。我沒有說被騙是因為它也不能叫做騙,只是它誤導了你,而你選擇了相信。我們經常在一些報刊雜誌上看到很多數據就開始傳播,我也希望這次聽完這些之後,如果不是特別確定的還是不要傳播,容易引起恐慌。

如圖二,我們來看這些報刊雜誌上是怎麼樣描述這些數據的。首先是「情感專刊的專家通過讀者的反饋研究發現,有80%的家庭表示後悔要小孩」。「人們一般認為平均23度感覺舒適」。「當今交通危險日益增長,據不完全統計,現在因為飛機事故喪生的人數是20年前的15倍」。「北京2012年離婚率是39%,有點不敢結婚。居全國之首,預計到2017年將超過50%。」「甲同學期末五科總分450分,乙同學期末五科總分460分,乙同學比甲同學優秀」。接下來這個是最常見的,「2015年,全國32個主要城市平均薪酬為6070元」。最後是參軍海報上寫的,「美國海軍的死亡率為千分之九,而同期的紐約死亡率為千分之十六。所以參軍更安全,鼓勵大家參軍」。這些都是摘自一些報刊雜誌上或者說平時經常會出現的一些東西。至於為什麼感覺不是騙了你,而是你被它誤導?我們講完這一章之後來回答,大家也可以想一下,大部分可能已經知道在哪有有不對了。

(圖二)

我們已經發現了很多生活中出現的「騙」或者說被誤導的東西,我們為什麼還要統計。哈佛的統計學院的創始人莫斯特勒說過「要用統計很容易,但是不用統計騙人就更容易了」。

什麼叫做數據分析?數據分析是指用適當的統計方法對收集來的大量第一手資料和第二手資料進行分析,以求最大化地開發數據資料的功能,發揮數據的作用。為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。裡面包含兩個關鍵信息:第一,有用信息。第二,形成結論。

第一,有用信息。對於數據來說什麼是有用信息?主要是三個方面的東西:1、數值。2、比率。3、圖形。它還會有很多種,但是我們經常接觸到的東西比較多的會是這三種類型。

1、數值

大家平時接觸得非常多,算術平均數、眾數、中位數,平均數大家知道了,眾數就是一個數組裡出現得最多次數的那個數,中位數就是它的位置處於那一組數據的中間位置的數字。這三個數裡面,只有眾數是真數,它是不會改變數本身的任何特性的。中位數是半假數,因為當數組出現偶數的時候,它是需要計算的。只要是你需要第二次計算的,就會出現人為操作上的或者是任何形式上的失誤,所以中位數叫半假數。而算術平均數實際上就是一個假數,因為它需要你進行二次計算,而且在計算的過程中會經常出現不可意料的坑。

看圖三,三月份投資人數10個,投資總金額1萬,平均客單價1000。到了四月份,投資人數漲了,投資金額翻一番,平均客單價是10倍。如果你是做數據分析的,一看到這個數第一時間估計就興奮得崩潰了,真的要這樣往上報嗎?

(圖三)

它上面寫的是平均客單價,當提到「平均」這兩個字的時候,需要去看一下數本身的情況,也就是說裡面有沒有異常值。如果說你追回去,最後發現四月份雖然來了20個投資人,投資金額這麼大,結果其中一個投資人自己就投了15萬。你再一算,平均客單才2500。結果你把這個報上去,老闆跟你說「10倍的增長不錯,下個月做平均客單12000吧」,你就把自己坑上了,結果實際才2500,也許整個部門都被你坑上了。

如果真的出現了這樣的數要往回追溯,我們說有坑就要埋,怎麼樣來埋這個坑?首先你要看整個數組裡有沒有異常值,有異常值是不能用平均值的,必須把異常值剔除掉再來看。

其次,按道理來說數組裡應該是看方差,但是實際工作中我不建議引入更多的數據概念。因為能夠得出結論並不是說你用的工具越複雜、越高端越好,而是越能快速、精準地定位到問題並得出結論越好。所以我會建議直接用最大、最小值以及中位數就能看出是否異常,這樣比算方差或者再去理解的標準差的概念更方便,所以我會建議直接用大家都理解的東西去得出結論。

2、比率

大家用百分比的更多,可能比看絕對值看得更多。大家都會說「環比是什麼情況,同比是什麼情況」。我們先對同比和環比作一個概念上的區分。同比是指相同時間點進行比較,比如說2015年3月和2016年3月。環比就是時間點的比較,比如說2015年3月和2015年4月是一個前後沿的關係。並不是說比例就是我這個月的比上個月的,這就是值,沒什麼坑好出現。但是不然,還是有的。我們再來挖一個坑。

看圖四,這是模擬的投資金額數。這是2015年2月1日到7日,以及2016年2月1日到7日的投資金額分布情況。老闆看了這個數,他就看著你,你就看著圖。如果是這樣的情況,既然有坑,我們就應該把坑埋了。特殊日期節點是不能單純從絕對日期上進行比對的,最好是以特殊日期本身作為對比的基準。比如說「春節前一周的投資金額的比對」,在這個時候尤其要區分周六和周日的情況,在你看波動性的時候有沒有周期性波動。周六、周日屬於周期性波動,而這種是屬於特殊日期的節點性波動,所以這兩個在看圖和做圖的時候都要很小心,一不小心就把自己坑了。

(圖四)

3、圖

這些大家都非常清楚,平時也用得比較多,包括柱形、餅圖、折線和條形圖。這些圖形有很多是以組合圖的形式出現,這裡只需要區分一點就是柱形圖和條形圖用得比較混,可能條形圖主要是區分類別,而柱形圖更偏向於區分時段。所以條形圖有一個很大的特徵在於它的任何軸之間是可以變換位置的,而柱形圖一般不太可以。圖形其實很容易誤導,因為人在第一時間看的時候是很容易受圖形影響的,我們就來看看圖的坑在哪?如圖五,如果單純從圖上看大家可以得出什麼結論?

(圖五)

先看上半部分,其實只是因為它的數標軸不一樣,所以在看圖的時候,尤其是兩個月的圖形進行比對的時候,先看的是大情況,基準線很重要。一個是0起點,一個是400起點,那麼400起點的波動看上去肯定會更大。

再看下半部分,看起來感覺增長都是一樣的,但是這個會看得比較清楚一點。其實這兩個表達的是同一個意思,因為一個是增量,一個是基礎量,這個是兩周期之間的差值,但是看上去一個增長明顯,一個增長緩慢。這並不是坑,而是說你該如何從圖形上表述你的觀點以及該用什麼樣的圖形來表達這個事情是怎麼樣一個情況和趨勢。

剛才已經說了有用的信息是數,三種數——真數,半假數和假數,我現在問一下還記得假數是哪個數嗎?平均數,平均數必須要考慮什麼?考慮異常值。

接下來我們會形成結論,對剛才的信息進行判斷之後,我們要形成結論用什麼樣的方法?會說到四種方法:1、對比。2、拆分。3、增維和減維。4、假設

在這裡,只會講一下對比和拆分,為什麼?因為增維和減維是在你實際需要的過程中主要為了輔助你判斷使用的,而假設是你需要根據你得出的結果或者說你得不出結果的時候去進行一次假設,這個相對而言是比較抽象的,而對比和拆分就是我們平時使用得最多的兩種方法。

1、對比

對比的定義不需要過多解釋,因為在座的同學應該對於對比都比較清楚,平時也經常使用,但是我在這裡強調需要關注的四個點:

(1)對比的對象要一致。什麼意思?就是兩個值之間進行比對的時候,它基本對象是一致的。這個可以回憶一下剛才我們看的報刊雜誌里有些會誤導你的其實就是因為它的比對對象不一致造成的。

(2)時間屬性要一致。比如說有兩家企業,一家企業跟你說「我的離職率是12%。」你大概心裡有數,然後問到下一家企業的時候,他說「你不要去那個,那個12%不行,我這邊很穩定,我才4%。」然後你說「不錯,那就去他那吧」。結果回頭一問,一個是年度的,一個是月度的,這坑就大了。所以你在時間屬性上一定要問清楚是否一致,當然剛才那個數只是打個比方,月度和年度不可能差那麼小。

(3)定義和計算方式一致。這就真的要非常注意,我在以前遇到過,當時是做一個報告,要定位的人群是青年人。世界衛生組織定義青年人的時間是從14歲到44歲。國家統計局定義青年人為15歲到34歲。所以再一次強調,定義很重要。你說的青年人跟我說的青年人壓根就不是同一波人,所以在這塊上,定義非常重要。

(4)數據源要一致。這與剛才的定義是一樣的,你從國家統計局拿數,我從世界衛生組織拿數,也許我們倆的數永遠都對不上。所以你的數也是對的數,我的數也是對的數,我們倆的數就是對不上的數。所以這就是數據源的問題,一定要很清晰。

2、拆分

拆分是用來快速定位為有問題的欄位的,比如說成交額出現了異常波動,你就要把成交額這個欄位進行拆分,拆成成交用戶×客單價。成交用戶又被拆分成訪問數以及轉化率。A有問題了,B有沒有問題?B和C哪個有問題?B下面的D和E哪個有問題?拆分是為了最快地找到出現異常問題的那個數,也可以用排除法從下到上排。就是說哪一個出現了問題就可以快速地解決它,拆分是最大程度地快速定位到需要解決的那一個模塊上,它是一個聯動的過程,每一個數值的變化後面可能是有原因的,這個原因是什麼就能快速地找到。所以這是平時就要建立的一個邏輯問題,這邊也是單獨拿出來跟大家講,拆分這個東西真的非常重要,這個功課平時就要做,出現的時候才能夠找到是哪塊出現問題,而不是一到出現問題的時候再去找。

這就是我們先前看到的那些報刊雜誌里的問題,我們再來回溯一下到底這些數值誤導了我們什麼。

1、有80%的家庭表示後悔要小孩。這就是剛才我說的你的統計對象必須要一致,為什麼不一致?你得出的這個結論是情感專刊的專家通過讀者的反饋,比如說平時喜歡看一些情感專家的情感多少都有點問題,那麼他有80%的家庭表示後悔要小孩似乎也能接受了,因為一般是誰有問題誰吐槽。

2、這還是一個平均值的問題,更確切的表述應該是「體感」吧,23度感覺會舒適,而不是平均,因為你腳踩火盆頭頂冰同樣也是平均23度,但是那樣會非常不舒服。所以「平均」這個詞的使用是要很小心的。

3、現在飛機喪生的人數是20年前的15倍,貌似很嚇人,但是它對比的是絕對值。從時間屬性上來說,20年前才多少人坐飛機?才有幾輛飛機對吧?其實這就是要考慮時間的問題,如果是這樣的表述,應該是百分比,是說當年的坐飛機人數和喪生的人數和與現在坐飛機的人數和喪生的人數的比,而不是用絕對值去直接比。

4、關於離婚率的問題。北京2010年的離婚率是39%,預計到2012年要超過50%。現在超了嗎?我也沒關注。反正這個數當時闢謠了幾個月,最後得出的是統計方法上的問題。按結婚的跟離婚的比率就是39%。可能更科學的演算法就是離婚的佔總人口的,因為他是算離婚率,所以離婚率應該是按人口數來算的。

5、甲同學期末五科的總分是450分,乙同學期末五科的總分是460分,得出乙同學比甲同學優秀。這其實是定義問題,就是優秀怎麼判斷的問題。優秀是指分數這句話可能問題不大,但是比如說中間有一個是特長生,他在他特長的那一塊,你也可以說他優秀。這就是關於優秀的定義不一樣。

6、平均薪酬不用說,出來的時候大家每年都吐槽,都是被馬雲爸爸坑了,都是「被平均」的那個。

7、關於海軍死亡率的問題就是剛剛提到的關於統計對象的問題,海軍的死亡率雖然是千分之九,但是死的都是身體健康青壯年。而同期紐約死亡率雖然為千分之十六,它有可能是因為交通事故、病、老等各種原因。本身的統計對象都不一樣,所以你要得出「參軍更安全」的結論本身就是誤導,所以大家都不會相信。

第三章:數據分析的作用——職場發展需要

當然,也不是說數據分析那麼神乎其神,而是如果有這樣的數據分析的思維方式,會使工作更加便捷,就像得出結論或者說反饋一些信息的時候不至於誤導別人或者說被別人誤導。相對於職場發展的需要,前面兩塊幾乎都是一個基礎,因為不能說數據分析是一個工具,而只能說是一種能力,這種能力需要經常去培養。我講到職場發展的需要是在中間單獨拎出一塊來說,平時大家也遇到比較多的就是關於怎樣提數據需求。因為很多同學不會直接接觸到資料庫,可能會提很多需求給提數據的那個人,中間會產生很多溝通成本,可能得出的結論也不是自己需要的。其實提數據的需求就是從Word轉成Excel的過程。

接下來我們說幾個點,不說完全能覆蓋,但是這幾個點平時忽視得比較多,需要關注。就是Word的這句話如何拆分、如何定義、目的是什麼、限制條件是什麼,很多同學會問「目的難道不是應該排在數據分析得第一位嗎?沒有目的怎麼提數」但是有時候你想分析一個東西的時候,你是模糊的,你是不太知道你到底是為了幹嘛,但是我就想知道,很多人會有這樣的想法。你在拆分和定義這句話的時候,你的目的會越來越清晰,所以我才把你最核心的目的放在第三塊,那麼到了第三塊的時候,對於為什麼要提這個數,你已經非常清晰了。

舉個簡單的例子,這是一個初步的想法,他就說「我想知道近期有短標投資行為的用戶的復投行為」。可能就是很簡單,就是說我想知道這個東西。然後我們對它進行拆分,它的核心欄位是定語後面的主語,他就是想看復投行為。它的定語是什麼樣的復投行為?是近期的、買過短期的、有過投資行為的用戶的復投行為。那麼就是把這樣一個Word的文字表達變成了欄位的形式,這是第一步拆分。

然後我們要定義它。什麼叫做復投?

(1)復投是指單筆到期之後再投還是說這個用戶第二次再投資了?這是要區分的。

(2)「復投」、「行為」是核心,行為是指質還是量?我要的是復投的金額佔比還是復投的次數?你到底是要分析什麼?這個投資的行為到底是什麼行為?

然後再是近期,近期是一個月、三個月還是半年?如果說你是單筆到期復投之後,你的近期就要和它的投資標的相關。如果近一個月,你要說單筆到期再復投根本就不會有數。所以這需要考慮清楚。

然後就是短標。短標是15天還是30天的?你是怎麼界定它的?這個標包不包括新手標?

然後就是投資行為。因為你上面說的是近期有短標投資行為,是首次投資短標行為還是只要近期有過投資的行為?

最後就是用戶。用戶好像也很容易界定,它是首投用戶還是復投用戶?當然復投用戶在這裡應該是不存在,但是你還是要對用戶本身進行界定,因為它要對象清晰。

只有你自己把這些都理清楚了之後,你就知道你的目的是什麼、你會得出什麼結論,當你把你的這句話拆成這樣的核心內容以及定義完之後,你就會知道你這個數提出來會得到什麼結論,那麼你就知道你的目的是什麼。像很多時候提數之前我會問「你要什麼數你想清楚了沒有?」其實這就是想清楚的過程。

至於限制條件就是有些條件需要特別清晰,比如說短標包不包括新手標,這是作為限制條件。如果你要的復投行為只是說他有沒有過,那麼限制條件只要判斷他是否有復投行為,而不需要提到他復投了多少次、多少錢。

所以在提數據需求的時候,我當時有幾個建議:不是非常必要的欄位越少越好。因為一個人能分析的欄位是有限的,不可能一個人覆蓋到七、八個或者九、十個詞,這樣兩兩關聯會很難判斷,因為中間的因素太多了,最好就是兩到三個詞,能聚焦到核心內容。

其實這些就是實際工作中可能會涉及到的一些內容,今天總共作了三個方面的分享:

第一、數據分析在生活中的一些情況。

第二、會誤導你的一些數。

第三、從實用的角度談談提數據需求所關注的一些點。


推薦閱讀:

數據化管理在餐飲業中的應用
如何用大數據軟體分析金融數據,目前哪個領域最有分析價值,以及發展方向?
有了這些數據指標,讓活動「運營」起來!
Mysql——將CSV文件導入表中

TAG:数据分析 | 互联网 | 运营 |