數據分析中會常犯哪些錯誤,如何解決?

在大大小小的數據分析中會因為各種原因犯不同的錯誤都是哪方面的呢,又如何解決的各位大神可分享經驗嗎


謝邀。

剛休假回來忙著加班就看到這麼有 bigger 的問題,怎麼能不怒答一發。

來點入門的吧(因為我就是入門水平啊)

  • 錯把相關性當成因果性 correlation vs. causation

經典的冰淇凌銷量和游泳溺水人數成正比的數據,這並不能說明冰淇凌銷量的增加會導致更多的人溺水,而只能說明二者相關,比如因為天熱所以二者數量都增加了。這個例子比較明顯,說起來可能會有人覺得怎麼會有人犯這樣的錯誤,然而在實際生活、學習、工作中,時不時的就會有人犯這樣的錯誤。

舉個栗子

數據顯示,當科比出手10-19次時,湖人的勝率是71.5%;當科比出手20-29次時,湖人的勝率驟降到60.8%;而當科比出手30次或者更多時,湖人的勝率只有41.7%。

根據這組數據,為了贏球,科比應該少出手?並不一定如此。有可能科比出手少的時候是因為隊友狀態好,並不需要他出手太多。也有可能是因為球隊早早領先,垃圾時間太多。而出手太多的比賽是因為比賽艱難或者隊友狀態不好,需要他挺身而出。當然,以上也只是可能之一,具體是什麼情況光靠這組數據並不能得出任何結論。

圖片來源:http://www.statisticshowto.com/wp-content/uploads/2014/12/correlation.png-- 聲明:非科比粉,路人偏黑。

  • 倖存者偏差 survivorship bias

數據分析中看到的樣本是「倖存了某些經歷」才被觀察到的,進而導致結論不正確。

比如比爾蓋茨、喬布斯、扎克伯格都沒有念完大學,所以大家都應該退學去創業。這一結論的最大問題在於那些退學而又沒有成功的例子,很多時候我們是看不到的。另一方面,他們是因為牛逼才退學,而不是退學才牛逼的,看,相關性/因果性真是限魂不散。

再比如 Uber 發現新用戶有10塊錢優惠券,但是平均評價卻只有3星。相反,第二次再用的時候沒有優惠券了,評價卻高達4星半。這說明,不給優惠券用戶評價會更高,果然用戶雖然愛用優惠券,但內心還是覺得便宜沒好東西的?很明顯,倖存者偏差在這個例子里體現在那些打一星二星評價的用戶,之後可能就沒有第二次了。更明顯的,這個例子是我瞎扯的。

圖片來源:http://66.media.tumblr.com/3a600f05e67d4995557ccb788e7db97b/tumblr_nnzx8oTLo91uqr0clo1_1280.png

  • 樣本跟整體存在著本質的不同

以知乎為例,會有種錯覺人人年薪百萬,985/211起,各種GFSBFM,天朝收入水平直逼灣區碼工。然而一方面這是倖存者偏差,知乎大V們的發聲更容易被看到(看,倖存者偏差也是陰魂不散)。另一方面,不要小瞧知乎跟天朝網民的差別,以及天朝網民跟天朝老百姓的差別--樣本跟整體的差別。

類似的例子有水木的工作版塊、步行街的收入和華人網站的貧困線。

圖片來源:http://i.stack.imgur.com/yZQgZ.gif

  • 過於追逐統計上的顯著性 statistical significance

統計101告訴我們,要比較兩組數是否不同,最基本的一點可以看它們的區別是不是統計上顯著。

比如 Linkedin 又要改版了(我為什麼要說又呢),有兩個版本 A 和 B. 灰度測試發現,跟現有版本比起來,A 的日活比現有版本高20%,但是統計不顯著。而 B 的日活跟現有版本雖然只高了3%,但是統計顯著。於是 PM 拿出統計101翻到第二頁說,來,咱們把統計顯著的版本 B 上線吧。苦逼的數據科學家 DS 說,等一下!並不是所有時候都選統計顯著的那一個,咱們再看看版本 A 的數據吧(具體分析略過一萬字)。

很顯然,這個例子也是我瞎扯的。

圖片來源:https://s-media-cache-ak0.pinimg.com/736x/a2/3c/db/a23cdb849c2f0b25f9798cfd1f6fddda.jpg

  • 不做數據可視化,以及更可怕的:做出錯誤或者帶誤導性的數據可視化

比如 @謝科 這個回答里提到的

「數據會說謊」的真實例子有哪些? - 謝科的回答

在趨勢圖中,為了說明增長趨勢多明顯,把Y調成不從0開始。這樣差距會看起來很大,增長很大,但是如果把Y軸從0開始看的話,會顯得基本沒有差距。

圖片來源:https://s3.amazonaws.com/lowres.cartoonstock.com/business-commerce-data-big_data-data_specialist-bar_graphs-data_chart-jcen1296_low.jpg

(一下步就是要編排一個 twitter 的例子了23333,因為數據分析表明,有 twitter 公司這樣的例子讀起來會更有趣)

  • 數據分析提供的結果和建議不具有可行性

twitter通過分析文本數據發現。。。

算了,我編不出來,由此可見,不具有可行性的結果雖然是「理論正確『的分析結果,然並卵。。。

圖片來源:https://pbs.twimg.com/media/BlSiygoCEAEJC8S.png

  • 不做數據分析

別笑,據以前的校內後來的人人現在不知道叫什麼的 PM 說,這是真的。(開個玩笑,人人的同仁要是介意的話我刪掉)

-- 此片應有人人小秘書配圖

  • 最後的大招:如何解釋 p-value

具體我就不講了, 講錯了我明天還怎麼面對老闆和同事啊。

有興趣解釋 p-value 的歡迎留言。

圖片來源:http://3.bp.blogspot.com/-y_hvRb5anNc/VTGkru5LZeI/AAAAAAAABNo/GAVvAbPS-CQ/s1600/worship.gif


不少容易出現的錯誤在這個問題里都已經介紹過:「數據會說謊」的真實例子有哪些? - 數據

我只補充一個,就是要保證研究的可重複性(reproducibility),也就是說別人用同樣的數據和同樣的方法,能夠得出同樣的結果。這樣的好處是能夠保證分析結果的客觀,沒有人為篡改數據,而且能夠很容易的發現哪裡出現了問題。

為了保證可重複性,應該堅持對數據每一步的處理都有記錄。如果你使用的是寫代碼的軟體,當然就不存在這個問題。不過如果使用的是點擊操作的軟體,比如excel (非VBA),那就要小心。excel雖然方便,但是處理完數據後,很快就會忘了之前對數據做了些什麼,如果之後出現什麼問題就很難再查找了。

還有原始數據要保存好,我一般都會把原始數據(網上收集的、下載的、別人傳過來的等等)都備份一下,這樣之後如果要追根溯源也可以找到數據最開始的出處。

重要代碼多保存幾份,不管是放到雲上還是本地硬碟。或者用GitHub

「可重複性」對數據科學方面的專業人士來說可能是常識,但在其他領域的學術研究中,不少人會忽視這一點。

因此,在coursera上開數據分析課程的幾位統計學教授,專門在課上強調了這個問題,並在這篇文章中對可重複性研究的方法做了簡單介紹:

Instead of research on reproducibility, just do reproducible research · Simply Statistics


數據指標的選擇,是數據分析的一個大坑。最近看《精益數據分析》收穫頗豐,指標本身分為可行動的指標和虛榮指標,報告性指標和探索性指標等,我做了一些總結和摘選,供參考。

(一)虛榮指標VS.行動指標

當你進行投放評估時得知,A渠道CTR 0.27%,B 渠道CTR 0.09%,如何選擇?

毫不猶豫,A 渠道!

然而你並不知道,A 渠道的CVR 僅為0.5%,而 B 渠道的CVR為 1.1%。

新活動拉新,當日PV 增加 300%,新增會員數量增加高達100% - 200%。

指標的飆升令人興奮

或許你並不知道,相比自然流量,該活動拉新的留存率與轉化率均低50%。

這是我們經常會犯的錯誤:我們習慣沉溺於虛榮指標的增長。

虛榮指標,會讓你感覺良好,盲目追求會陷入自我膨脹;

可行性指標,能夠指導最佳行動方案,指導商業行動。當產品調整思路正確,行動指標會相應增長。

數據分析,並非簡單的PV、UV 的基礎指標的分析,「粗糙」的數據僅傳遞出「用戶做了什麼?」而非「用戶如何做的?為什麼要這麼做?」

為指導產品測試、科學迭代,相比虛榮指標,我們更需要關注可行性的指標。比如渠道評估,平均訪問次數、平均訪問時長能衡量網站的用戶體驗,跳出率直接反應網站流量質量,它更能引導你如何頁面優化、匹配核心關鍵詞調整。

一個案例:用行動指標驗證產品思路

某教育平台採用敏捷開發,在30天的迭代周期中,產品經理會按照客戶實際需求對工作按輕重緩急排序,並從用戶的角度寫出一系列「用戶故事」來定位產品迭代列表。

這與精益創業的認知階段性目標非常相似:推出早期產品,並建立某種基準線衡量指標,快速優化並不斷迭代。面對增長,該產品經理認為,衡量指標(顧客總數、回答問題總數等)讓團隊感到自己好像在進步,然而他自己並不滿意對用戶了解程度:

增長的數字是否真的由產品開發促成?

據用戶需求所排列的優先順序真的科學?

如何讓更多顧客註冊和購買?

怎麼把產品宣傳出去……

基於此,公司從關注總數指標轉向以同期群為基礎的指標。通過A/B測試挖掘因果關係,改為把每個新產品的發布當做一次真實的對比測試。

這些指標幫助他調整了產品思路,並為此採取一些行動,如執著於改善顧客交流工具的研發意義不大;推出單人或社群學習的模式等。

(二)報告性指標 VS. 探索性指標

創業公司應該把時間花在探索並得出一個可擴展、可複製的商業模式上。

——史蒂夫·布蘭克

報告性指標讓企業時刻了解企業的日常運營、管理性活動;

探索性指標讓企業了解「你不知道自己不知道」的事實,提供原本不為所知的洞見。

對於創業早期的客戶,「我們不知道我們並不知道」的內容最為重要,他們會轉化為未來的秘密武器。以下這個案例,通過深入挖掘數據,以調研數據為基礎,發現了一個「他不知道自己不知道」的事實,頗具探索性與膽識。

一個案例:業務轉型探索——從「朋友圈」到「媽媽圈」

Facebook 發布開發者平台不久,麥克·格林菲爾德在該平台上推出「朋友圈」。到2008年,「朋友圈」已在病毒式傳播,並已有了 1000 萬的用戶。麥克視用戶增長為首要使命,他發現:只有不到

20% 的圈子在創建後有活動的跡象,這意味著變現效果不會理想。於是,他通過用戶資料庫開始了深入的探索式分析。

他發現,在整個群體活躍度十分低迷的情況下,一個特殊群體撐起了整個產品的活躍度——媽媽群體。這些探索性指標成為他的依據:

與其他群體比,媽媽群體發站內信篇幅長 50%;

與其他群體比,媽媽在帖子中附圖片的概率高 115%;

與其他群體比,在Facebook深入交流的對話概率高110%;

與其他群體比,點擊「提醒」的概率高 75%……

於是,2008 年,麥克團隊重新調整了產品重心,做出關鍵選型——10月在上Facebook推出了「媽媽圈」的社交產品。2009 年底,「媽媽圈」社區用戶數達到450萬,參與度極高。最終擺脫成為獨立的網站。

(三)先見性指標 VS.後見性指標

先見性指標可預測未來,如新增潛在客戶量等。比如通過「銷售漏斗」中現有的潛客數,你大致能夠預測新客戶數。在得知數據後,你尚有時間去應對——未雨綢繆,有備無患。

後見性指標可解釋過去,如季度訂單量、流失率等。等你有機會收集數據,找出問題,卻為時已晚。但你依舊可以有所作為,這類似「亡羊補牢」——丟的羊回不來了,但可以嘗試不再丟羊。

從價值上來說,先見性指標與後見性指標都可以指導行動。一些創業者經常會困惑:由於數據量有限,很難進行有效的數據分析。

實際上,當企業擁有的數據量不足以預測未來時,先見性指標更是頗具價值。例如,投訴量的增加或意味著客戶會終止產品與服務,而產品退貨、賬號註銷等指標則在探尋問題方面具有一定的滯後性。

一個案例:戴爾如何做到零庫存?

曾被稱為國際「 PC 之王」的戴爾,其成功精髓之一是「幹掉庫存」。一般產品從渠道到最終用戶手裡的庫存周期大約為大概是20-40天,國內知名品牌——「聯想」的庫存周期在

20 天左右,而「戴爾」的庫存周期只有

4 天。

眾所周知,IT產品的銷售周期的過長必定會帶來成本壓力,戴爾是如何做到「零庫存」?

銷售漏斗是戴爾最常用的銷售預測分析工具,也是分析先見性指標重要渠道。銷售漏斗將每份銷售單子被分為五步,通過贏率計算,戴爾就能夠估算在某一時間點,中國市場或者某區域內需要多少台伺服器、哪款型號

PC,據此每一台 PC 機需要拆分的零部件有多少等。

針對這些預測準確的訂單,戴爾公司馬上對訂單進行整合,分揀現有的原材料,把需要的其他原材料向供應商下訂單。原配件由供應商直接運送到裝配線上。整個設計、製造、分銷和市場全過程中建立起來高度集成的供應鏈。2000 年初,戴爾坐到了 PC 市場第一的寶座。

最近因為工作關係(作者阿里斯泰爾·克羅爾會來北京參加2017數據驅動大會),所以一直在讀《精益數據分析》,陸續會在個人主頁更新心得……


(這篇回答中的部分內容來自於之前的一篇專欄文章,但會根據生活工作中遇到的各類「數據騙局」長期更新,分享給大家的同時,也作為自己的筆記)

寫一點自己在日常的產品工作中經常遇到的吧。作為一個小頭目,經常會讀到來自各種團隊的數據分析報告,看似基於理性和事實的雄辯,然而有可能是有意或無意的詭辯。搞得我經常像面對各種花式追求的傻白甜美少女一樣,要多長几個心眼留給這些看似嚴謹的數據分析。

粗暴得講數據分析劃分為從底層到上層的四個模塊:數據基礎、結果推導、因果關聯和結論呈現。而每個模塊都容易遇到常見錯誤,比如:數據基礎最常見的問題就是樣本問題。

1、樣本選擇錯誤。避免方法是仔細選擇樣本,特別當心小樣本和樣本偏差。

一個創業的朋友,反反覆復得嘗試各種App。經常為一個新上線App的留存率感到興奮,幻想著只要加大投放就會帶來滾雪球的DAU以及走上人生巔峰。而我總是不合時宜得潑上冷水:每天就100左右的新增,應該有不少是產品經理和測試工程師的把玩以及各種親朋好友礙於情面不得不辣眼睛得試用;這種小樣本的留存率毫無意義。

說完別人,還要說自己。前一段我們公司搞用戶開放日,與應邀前來的用戶做Focus Group(用戶焦點訪談)。結果在訪談中用戶對我們產品簡直是滿意無比,大大出乎我們意料。除去用戶保持紳士風或淑女風不敢當面懟我們之外,更主要的原因或許是通過我們App上面的推廣來完成用戶邀約,願意來走一趟的用戶都不是被我們傷碎了心的人,所以好感爆棚。如果基於這些用戶的評價或者建議去改善產品或者嘗試新功能,很可能會出現偏差。這就是所謂的倖存者偏差。

在日常生活中,這樣的錯誤也很常見。最近的一篇新聞是關於波多黎各公投加入美國成為第51個州,97%投票贊成。這看似已經鐵板釘釘,然後情況卻非如此,因為只有不到25%的人參與了投票,而且不去投票的人不少是堅決反對此提案的,因此這次投票是明顯的樣板選擇偏差。用一句經典的話來概述就是,「沒來的人請舉手」。詳情見(如何看待 2017 年 6 月 12 日美國的自治邦波多黎各公投贊成成為「美國第 51 個州」?),

2、樣本組成改變結論。避免方法是注意樣本的組成,還原真實。

上一部分提到了樣本選擇偏差帶來的錯誤,特別是小樣本。然而把樣本量擴大到一定量級,仍然可能遇到麻煩。

產品經理為了工作的嚴謹性,經常利用AB測來觀察新功能,為了準確性還會把量級逐漸放大。然而一個詭異的現象卻是,AB測試效果不錯的功能,全量切換之後卻差強人意。這往往可能是因為取樣過程中改變了真實的組成結構,有意或者無意帶來完全不同的結果。這裡面最常見的就是辛普森悖論(畫外音:辛普森,你怎麼又冒出來了?)。

下圖是從網上摘取的一個關於腎結石治療方案的AB測試。單個病例看,A方案都優於B方案;然而,總體看,結論反轉。這麼詫異的結論主要是來源於樣本的不同:大小結石病例在A和B中的構成比例相差較大,從而形成兩個完全不同的樣本,從而造成這樣的結果反轉。

這方面的最高級玩法當然是來自於政治,有個專有名詞叫做「格里蠑螈」。1811年,麻省州長Elbridge Gerry(名詞中的格里),將本州的選區重新劃分以確保同黨在下一年的選舉中獲勝。劃分的核心選擇是打破地理位置關係,而使得支持同黨的選民集中到一些地方,同時反對同黨的選民攤薄到各區。這樣操縱之後,可以讓對手在盡量多的選區輸掉,那麼他的同黨就贏了。因為選區劃分後成為一個酷似蠑螈的圖形(名詞中的蠑螈)如下圖,格里蠑螈成為一個數據欺騙的手段。

3、使用絕對值推導結果。避免方法是做判斷之前要有各種維度的對比,用標杆參考。

經常聽到團隊在數據分析中提到:這個功能轉化率不錯,達到xx%,然後就沒有然後了。然而,如果只是拋出一個絕對值,而沒有相對值做標杆比較,結論往往是蒼白無力。

這裡面最著名的例子是在辛普森事件中的律師辯護。著名的美國橄欖球運動員辛普森因涉嫌殺妻而被指控並在法庭辯護,德肖威茨(Alan M.Dershowitz)為了辯駁控方提出的辛普森有家庭虐待的行為有有可能升級為殺妻的指控,拋出了「家庭虐待導致謀殺的可能性極小」的論斷,數據顯示僅為千分之一。

不管辛普森是否殺妻,這個論斷確實達到混淆視聽的目的。首先,謀殺妻子的概率本來就極低,不虐妻的丈夫謀殺妻子的概率可能遠低於千分之一,這是就是所謂的「檢察官謬論」。其次,據另外的數據統計顯示,長期遭受家庭虐待的婦女被謀殺了,兇手是虐待她的家人的概率大於50%。儘管這樣,陪審團只是盲目得相信了千分之一這個看起來很低的數據。

4、使用孤證講感情騙結果。避免方法是談數據就不要講故事。

「林子大了什麼鳥都有」,這句俗語特別適合於使用孤證來證明自己價值的論證方法,這是大公司里經常出現的一些場景,因為大公司產品經理偏愛依賴巨大流量來嘗試一些新功能。

比如最近某產品推出類社區的產品功能,大家都質疑其與主方向毫無關係。產品經理立即跳出來反駁,使用該功能的好幾個用戶已經找到了工作(找工作是該產品的核心功能之一),這是我調研他們時候獲得的反饋。

然而每天上千萬用戶在產品里晃來晃去,做出啥事兒都不稀奇,舉出孤證有意思嗎?這時候想起知乎名言:脫離劑量,談論食物毒性,都是耍流氓。

5、推理邏輯混亂。避免方法是理清楚思路,嚴格執行一步步的推導。

許多數據分析雖然帶有翔實的數據,但是邏輯推理極其混亂。這是一類高級錯誤,需要特別小心。

前段時間遇到某產品在一級入口上線新功能X,然而卻有可能和位於二級入口的原有功能Y衝突,X搶奪了使用Y的用戶。

如同大家都了解的,大公司裡面做產品,經常發生的事情就是左兜掏右兜,把用戶像趕鴨子一樣趕來趕去;不過總有一個兜的人因為數據大增要得到嘉獎。這裡面最直觀的例子就是:不少公司的小程序用戶大增而受表揚,不過主App的數據跌了。

當挑戰這個產品經理的時候,他經過一天的數據分析後得意宣稱:擔心是多餘的,因為數據顯示,使用X功能的用戶有60%使用了Y功能。

畫外音:那麼使用X而不用Y的40%用戶在幹嘛呢?算不算Y功能的流失?

6、亂配因果關係。避免方法是每次做因果推斷的時候,加倍小心,多從業務層和商務層面思考因果關係的合理性。

上面講了推理的邏輯混亂,這是因為世界上比曖昧關係更難證明的關係是因果關係。同時因果關係也比曖昧關係更加容易搞錯而陷入泥潭。這裡舉自己犯過的錯誤再恰當不過了(生活中的數據犀利哥之五:找錯因果關係 - 知乎專欄)。

在面對冷門問答(百度指數詩歌這個詞為什麼在每年十一月二十多號的時候出現急速增加的趨勢,這幾天有什麼重要的日子嘛? - 百度指數 - 知乎)時,自鳴得意得使用百度指數相關功能,發現「詩歌」和「感恩節」之前的強相關性,於是又找到各種理由來相信他們之間的因果關係。

雖然總覺得哪裡有點不對,為了騙贊還是忍不住發了。結果被人打臉,更為可能的因果關係是:被人教版語文課本折磨的六年級小學生,趕上綜合性學習活動「輕叩詩歌的大門」,課本的進度正在這個時間點左右,於是大量小學生搜索「詩歌」來完成左右。

說完自己再說別人,因為這樣錯配因果關係的案例在生活中實在不少,大家可以留意收集。不過有個很有趣的國外網站(15 Insane Things That Correlate With Each Other)已經這麼做來搞笑了,專門列出來看似邏輯相關但是其實因果關係錯亂的例子。發出來與大家共享,以便行文自嘲。

(1)尼古拉斯凱奇在電影中的出鏡和淹死在游泳池裡的人數,高度相關。

(2)被床單纏死的人數和人均乳酪消耗量,高度相關。

(3)美國在科技及空間領域的投入和絞死及各種窒息的花樣作死的人數,高度相關。

7、可視化障眼法,視覺誤導。避免方法是用最簡單的數據和呈現方式傳遞真實的信息。

一般來說,畫出圖表就容易讓人肅然起敬,至少架勢是足的,然而其中卻容易出現詭計。

下圖的作者為了表達中國城鎮化率的增加以及家庭小型化趨勢對房價的支撐作用,擺出了兩個柱狀圖,然而為了表達這兩個指標的強烈趨勢,Y軸都不是從0開始,於是在視覺上更容易讓人有衝擊力,然而卻含有誤導性。(不過被誤導也就罷了,一二線這個趨勢,早幾年買房也不是壞事兒)

下圖的作者為了表達軟體開發類不等級別之間的工資巨大差異,居然把最低值、平均值和最高值疊加在一起進行呈現。效果是出來了,但邏輯和節操卻大珠小珠落玉盤。

註:本回答的案例來自於平時生活的激烈以及《數字是靠不住的》、《How to Lie With Statistics》等書,同時會根據日常的積累長期更新。

...更多文章請到數據冰山 - 知乎專欄

...更多回答請看何明科的主頁


謝邀。

我認為比較大的一個問題是, 數據分析≠大數據 這一點並不被很多人理解,特別是當下大數據這個詞兒火熱,很多公司在做產品、搞路演、拉投資的過程中都玩兒命弄個大數據的概念進來,但往往最終的ROI並沒有期待那麼高。

數據分析通常偏重於基於業務的分析建模和寫演算法,首先要對業務非常熟悉,知道分析的店在哪裡、維度是什麼,然後會做出相應的演算法模型。可能有些業務數據量並不大,甚至用Excel拖拖公式就能搞定,這就和大數據沒什麼太大關係了,關鍵是要看業務需要。

大數據通常指工程方面的,包括ETL、數據清洗加工、數據存儲、數據運維管理等等,要考慮到如何構建一個支持海量數據、穩定高效的數據平台以提供給數據分析師做分析,也就是平常總提到的HDFS、Hadoop、Spark、Storm等等這些東西。


瀉藥,排名第一的說的很多,我也感到受益匪淺。我就聊聊技術以外的事情:

1. 不要隱藏真相——要反應客觀事實

做數據分析,並不僅僅是分析,還有一部分責任是糾錯,數據只是反映客觀事實,不會討好任何人,因為源頭出現問題而導致你的分析結果出錯,第一個挨罵的肯定是你,但是你不能因為害怕而隱藏這個事實,一定要揪出錯誤來源。

2. 不要裝逼——用合適的工具解決問題

搞數據分析,技術上有很多解決方案,無論是Oracle、MySQL這種傳統的RDBMS,還是Mongodb、Redis以及我們常見的HBase、Hive技術都可以用來做數據分析,不要一味的迷信技術實現,明明只有一個G的數據,為何要用HBase存儲?搞數據分析最忌諱的就是用錯工具——高射炮打蚊子累死你。

3. 永遠不要說你的數據足夠多了——你的數據夠不夠支撐你的分析?

大多數公司,如果僅僅是為了滿足業務,實際產生的數據並不多,你需要自己去挖掘——我這裡所說的挖掘不是技術上的挖掘,而是業務上的挖掘,通過被人忽視的細節得到對你業務有用的數據。

4. 永遠不要說你的數據分析結果是精準的——數據分析就是算命

其實說白了,很多所謂的數據分析最終要達到的目的就是預測未來,預測股票、預測期貨、預測生男生女、預測生老病死……但是真的能準確嗎?很多值得去分析的數據,想要預測未來都幾乎是不可能的,你能做的就是儘可能的提高準確率——如果你的準確率超過了行業內最有經驗的人,就已經很流弊了。

5. 不要局限在自己的行業——多出去看看

生活是最好的老師,期貨是現貨的晴雨表,多出去看看,多想想關聯,你能發現令人驚奇的關聯性——哪怕是自己YY的,例如排名第一科比的那個例子,你找到了線性關係,剩下的就是琢磨合理性。


文章凝聚多年數據分析經驗,推薦閱讀。

先表明身份,本人從事互聯網運營崗,定期需要對新媒體、網站等平台數據進行復盤,電腦操作系統Win7 64bit,分析過程中不涉及編程及專業分析軟體,直接上Excel 2013和WPS。下面以網站數據(為保密,部分展示數據經過處理)分析為例,聊聊我在數據分析中的一些淺見。

▍數據獲取

01.數據來源平台的選取

大多中小企業都是直接外掛的三方統計軟體,如GA、百度統計、CNZZ、51la等,雖然大多數統計平台在功能上相差無幾,但是統計數據還是有微小的差別。我曾在百度統計和CNZZ兩個平台的優劣選取上糾結過一段時間,後來索性兩個平台都上,當雙重保險。平時的分析中我比較習慣CNZZ,但是如果你的網站上了百度競價,那麼百度統計是更好的選擇。現在統計代碼基本都是非同步載入,不用太過擔心速度問題,如果你還糾結,那就和我一樣都上吧。

02.本地保存「即時數據」

統計軟體後台都會保存大部分數據,如CNZZ的來路頁面、受訪頁面等,基本不受時間限制,隨時可以下載的。但是要注意那些需要即時保存的數據欄目,如CNZZ後台的「訪問明細」,該欄目只保存最近7天的數據,這就意味著如果你一不注意,放個長假回來,數據找不回來了。所以,類似的「即時數據」,一定要保存到本地。

03.下載數據格式選「.xls」

統計後台遇到報表需要下載時,基本都會出現下載格式選項,CNZZ是.csv和.xls,百度統計是.csv和.pdf。pdf數據自帶圖表;csv為純文本數據格式;xls為Excel專用,便於數據分析。其中.csv文件和.xls下載下來後,數據的長相極其相似(這就有個坑,後文有避坑方法)。因為csv文件是純文本數據,並不是數值,所以不能進行數據上的求和,求平均值,只能計數!如果你不小心用了.csv文件,一定要先處理成數值,否則後期數據分析時會有無法正確統計的情況!

04.多頁數據採集及合併

當你需要保存在線數據時,需要注意一個小細節,比如CNZZ的「訪問明細」欄,右上角顯示的下載按鈕是「下載本頁報表」,而其他欄目的下載按鈕是「下載報表」,下載報表是不管當前顯示多少頁,系統默認下載所有頁面數據,不會缺失。而下載本頁報表就只下載當頁顯示的頁面數據。我被坑過一次,分析數據時發現數據明顯少了很多,一看原來只下了一頁的數據,再想下載的時候,伺服器數據已經過了7天,沒了...

下載每頁報表,會遇到的第一個問題是:當網站訪問量大時,訪問明細數據每一頁都需要點擊下載。我目前的解決辦法是使用「火車頭採集器」,模擬人工點擊,下載每頁數據;第二個問題是:自動下載的數據每一張都有表頭/尾,人工合併也會累死。可以使用Excel VBA功能,但我的辦法是使用「慧辦公」插件的合併多表功能(有次數限制,需購買)。

這兩大問題,有更好的解決辦法,歡迎告知。

▍數據清理

01.盡量不對源數據做修改

我做數據分析有個原則,就是「堅決反對對源數據進行直接修改」。首先,專業的統計軟體在設計統計後台的數據時,已經千挑萬選,選出的數據能符合絕大多數用戶的需求。當源數據不符合你的要求時,千萬別在源數據中插入行和列,比如要插入日期列,請插入在數據表頭或者尾。因為每次保存數據時,都是直接從下載好的表格中粘貼數據,在源數據表中多出任何一行或列都會增加你的操作成本

我曾經為了數據看起來更直觀,把下載好的源數據兩列值進行位置對調,最後導致我每次粘貼數據時都要先調換列。特別是有一次做工作交接,我忘記提到這個細節,交接人員沒注意位置和源數據不一樣,導致分析出錯。

也就是說,對源數據盡量減少人為干預,省心省力。

02.坑貨csv要轉化為數值

在數據獲取部分我提到了關於源數據是.csv格式的問題,如果你知道這裡有坑不進去是最好的,但是已經進去了,怎麼辦?我最開始下載源數據一直用csv,因為csv的文件小,下載速度快,最後數據分析時蒙B了。那麼已經保存為csv格式的數據怎樣變成數值呢?答案是Excel的分列功能。

1)Excel打開源數據表,複製部分數據到.txt文本中,觀察源數據用的什麼符號;

2)選中某列數據,點擊導航欄「數據」—「分列」;

3)下一步,如圖中的數據分隔符是「Tab」+「"」,那麼選擇Tab和其他兩項,繼續下一步;

4)選擇目標區域(要複製在哪裡),搞定。

▍如何製表

01.報表是你思考結果的展示

我發現在工作中,有的小組製表人和分析人不是同一個。這很可能導致成員在分析報表時變成了「看圖分析」而不是真正的「看數據分析」。製表的基礎是製表人必須清楚的知道源數據是從哪兒來的?怎麼來的?是怎樣從數據變成表格的?在變成表格的過程中有沒有因為美觀被隱藏掉某些內容等。

要記住報表是要把分析人的思路更簡潔的展示給其他人。所以我推薦,製表人就是分析人本人。不要以浪費時間和辦公軟體不熟悉為由拒絕,熟練掌握辦公軟體,我覺得是運營人的基本素質

思路的展現邏輯一般是「總分總」,以網站分析說,我的框架是:流量趨勢→來源渠道→渠道1明細→渠道2明細...→來路分析→受訪分析→搜索詞→外鏈。

02.制定表格規範

在製表的過程中,不少同學表格做的很隨意。展示圖表亂用,用折線圖表達百分比關係?數據對比用折線圖??為數據選擇最合適的圖表類型,比較數據間區別時,用條形圖;表示不同項在總體的佔比時,用餅狀圖;反映事物變化時,用折線圖;觀察不同項目長短板時,用雷達圖...

還有其他諸如符號使用規範、配色規範等,不一一列舉。總之,秉著「方便他人」的思路就對了。

03.數據分析後一定要給出可執行建議

不可否認很多人把數據做成表格只為了裝逼,讓別人看起來很牛。但是作為一個專業人員始終記得「報表只是你思考結果的展示」,最重要的是你通過數據分析出來了哪些對今後工作有指導性的建議,其他人可以直接按照你的建議執行,就能取得良好效果。

比如,觀察數據發現「本周的PV大幅度降低」,沒有指導意見的說法是「增加文章更新頻率」。雖然這個說法沒錯,但真正具有指導意見的應該是先分析PV下降的具體原因,找到原因後針對解決,而不是說「增加文章更新頻率」這樣一個大方向。

把報表做的漂亮是一種能力,但是美觀始終流於表面。只有真正有指導性的建議才能長久的打動人。

這一步很難,可是做到了,你就絕不只是個專員。

04.透視表,降維打擊

早前我使用Excel做分析的時候,基本上是直接用基本的篩選、公式(sumif、countif、sumproduct)、條件格式之類,雖然操作逐漸變得熟練,速度越來越快。可是想像一下,當你需要對比源數據中兩天某一項數據的區別時,可能需要先加入三列輔助列,然後使用countif函數對兩列進行計數,第三列使用減法再加上顏色的條件格式。如何對比兩個月的數據呢?用sumproduct,多塞幾個條件??

我推薦越早學習透視表功能越好,使用的Excel的「數據透視表」功能後,洪荒之力暴漲,「對比功能」「創建組」功能,分析起來簡直不要更爽!哪裡需要繁瑣的公式?一開始別覺得很麻煩,你只要記住「『列』丟對比項;『行』丟分析項;『值』丟數據結果項」。不懂的多試幾次,自然就熟了。花幾個小時,可以省掉你用Excel基本功能時80%的時間。

另外,對於Excel的學習,基本功也別落下,對數據的基本函數和條件格式,用好了也能飛。

▍分析要素

01.日記:當天有特殊情況記錄在趨勢表中

作為網站運營者,每天上班的第一件事就應該是粗略過一遍昨天的統計數據。在每天的過程中要密切關注不同小組有沒有做可能大幅度影響網站流量的工作。比如EDM、活動運營開展了一次線上活動、內容運營抓取了某個欄目的文章、技術人員對某個欄目改版等。這裡存在溝通問題,本部門作為各平台負責人一定要事先強調事先通知的重要性。雖然事後可以通過數據反推,但是可能導致思考過於發散。

把每天收集到可能影響到網站數據的情況「批註」在趨勢表中,等到周報時進行數據對比,會方便很多。

02.峰值:高峰、低峰都不能放鬆

在面對圖表分析時,峰值最為明顯。但是很多人只分析不好的低峰而忽略高峰,對高峰擅自代入。

面對峰值時,首先要縮小粒度。如觀察8月8日出現低峰,那麼再看是在8月8日當天哪幾個小時數值降低,再分別篩選出這幾個小時的來訪及受訪數據,逐一分析,找到根源。低峰找出原因,今後避免;高峰,也找出原因,今後重現,驗證你找到的原因。

03.對比:約束變數,同軸對比

在上文中提到了「制定表格規範」,其中對比規範的核心就是要同軸。比如數據對比坐標軸不能瞎變,這周記錄的是星期一到星期天,對比的是本周和上周;下周記錄的變成了星期三到星期五,對比的是上半月和下半月。坐標軸一定要按照表格類型來,周報告就以周報告為軸,對比的也是本周7天和上周7天的數據。有特殊情況需要在周報告中顯示更長的時間段時,也請固定該時間。頻繁更換坐標軸或者完全亂來,不僅會影響報告的可讀性,也可能會導致分析人分析出錯。

04.經驗:記住周期性現象,這是你的寶藏

什麼叫周期性現象,比如「每逢節假日流量下降」、「每逢周末流量下降」、「每周三9點PV暴增」等等,多次重複並反映在數據波動上的情況。

針對平台運營,記住所有周期現象,這就是你今後工作比別人更專業的經驗來源,不需要企業花費大量試錯,節約的人力物力就是你的價值。

但要注意的是,周期性現象也是有「周期」的。互聯網時代知識日新月異,不要守舊,經驗也可能騙人。

05.反常:事出反常必有妖

什麼叫反常現象,比如大多網站在中午12-14點間,流量都會因為網民需要休息顯著降低,且PC流量降低,移動流量驟升。但是如果某一天,或者某一周的12-14點流量全體暴增呢?

反常現象就是在周期性現象的異變,當多次出現反常現象時,你找到原因後就要開始重新審視周期性現象是否產生了變化,是否是政策變化;是否是環境風向變化;是否是平台玩兒變化等。

▍理論誤區

01.猜測不代表結論

進行數據分析時,先看日記中記錄了哪些行為,再對比數據結果看記錄該行為的同時是否產品數據波動,如果數據波動符合日記中的行為常識,那麼就可以大膽猜測該項數據變化是由該次行為導致。

接著你要做的就是通過數據驗證它,而不是武斷的認為數據波動就是這個行為產生的。

舉個例子,某次公司派同事去路演,路演PPT尾頁留有微信公號的二維碼。結果在數據分析時,發現當天微信新關注數量暴增。然後運營人員不經過驗證就直接武斷的把新增用戶的效果歸於路演,甚至得出了要多參加路演的指示。可是最後在數據分析時,發現當天新關注數的增長來源是「名片分享」而不是「掃描二維碼」,後來一問才知道,是社群組的同事進行了一次小範圍的社群名片互動。

始終要記住「猜測不代表結論」,提出猜測後,要證實它。當出現實在找不到根源的問題時,先暫時放棄,記錄下你的猜測,找機會再驗證它。

02.深入分析,結論可能是假的

剛才提到了「猜測不代表結論」,這裡面存在連環套。因為數據分析工作面對著大量數據,時間一長,人難免會焦躁,特別是老是找不到原因時,很容易得到假結論。

舉個例子,某次分析網站數據時,對比發現有一天網站的PV暴增許多,縮小粒度後發現數據增幅集中在當天14-17點,然後開始分析「受訪頁面」的訪問次數,一排序,發現某個欄目PV暴增,一問部門同事才發現是因為內容運營開了爬蟲,抓取了大量的信息流,提高了PV量。

這時候,如果不細想很容易得出「PV暴增是由於內容組抓取大量內容導致」的表面結論。因為回到問題中,原現象是「14-17點,PV暴增」,現有的表面結論並沒有按照小時粒度去分析,最終分析14-17點小時數據時,發現原來是因為這三個小時來了一位新訪客,瀏覽了多篇資訊文章,然後把所有欄目都看了一遍。

所以最終PV暴增的原因應該是「新訪客瀏覽整站」和「內容組開爬蟲」共同作用引起的,而非單一項。在實際工作中,人們很容易只是看到了第一層表象就得出結論,時刻記住多深入分析,想想現有的結論是不是到最小粒度了,有沒有可能是個陷阱?

▍結語&題外話

01.當你的某項工作長期不見起色,懷疑源頭試試

以數據分析來說,分析人員有時候會出現分析來分析去就是得不出結論的現象,導致這種現象的原因除了上文提到過的「csv格式」等操作問題時,還有可能是數據源本身出現了錯誤。別想著機器就一定正確,如CNZZ後台統計「來源分類」時,四個來源渠道數量相加出現了不等於總和的情況。這裡面有部分來源是後台統計不到的,所以沒有計入。也會有下載數據表格時,後台出錯下載一了張空表,合併時就出現大坑。

所以適當的懷疑源頭,說不定會有意想不到的發現。

02.三方平台不可靠?那就自建

剛才提到了統計後台出錯的一些情況,當後台出錯的次數很高,就降低了運營者對統計軟體的信任度。一旦對源數據的正誤產生了懷疑,工作起來絕不會順心。

既然三方平台不可靠,有實力就讓公司的技術人員自行搭建後台吧。在技術人員實力過硬的情況下,不僅可靠,而且可擴展性強,分析粒度也更細(如CNZZ不能統計用戶行為路徑),可以完全按照運營人的數據要求進行定製,後期為用戶建模時,提供全面的數據支撐。

03.數據不會說話,但你要負責

在數據分析中,你會慢慢找到很多樂趣。第一次學會用Excel某個函數的得意、第一次知道透視表時的興奮、第一次製作PPT被誇獎時的欣喜...你發現了很多坑,也學了很多小技巧。會從小白變成大神,能輕易的使用某個小聰明的手段,掩蓋掉真實數據的缺點。這些,數據永遠不能開口說話,但是你要對自己負責。

每一次不經思考的結論,都可以幫你忽悠到外行人,但終會被打臉。

04.樂於分享,永遠好奇

終於寫到最後了,這幾年來在數據上走過的路都變成了這些文字。保持對知識的敬畏,一直是我的理念。可能某一天你還在為自己的某個發現自鳴得意時,就發現不過是坐井觀天。

希望能和朋友們共同學習,如你對上述觀點和方法有不同的意見,歡迎大家一起探討,見識更大的世界。


其中一個問題是不注意數據採集和建模,只是按照需求做數據分析,然後發現每次都要整數據,從雜亂的數據開發定製化的程序,像推石頭的西西弗斯。


瀉藥,我不是大神,平時做一些數據挖掘相關的工作。

我個人認為常犯的錯誤,主要有以下幾個方面:

(1)不注意數據的清洗。很多人認為數據挖掘是個很高大上的工作,但其實我的工作有相當一部分時間是花在了數據清洗方面。具體清洗的方法,可自行Google。

(2)不注重業務!數據分析人員一定要懂業務,這樣會達到事半功倍的效果。平時沒事多和業務人員溝通,有機會也可以出去見一見客戶,了解一下市場需求。

(3)過分迷戀演算法。其實數據和演算法一樣重要,甚至比演算法更重要。做一件工作前,先分析數據,確定可行性。俗話說得好:巧婦難為無米之炊。同時不要過分迷戀各種複雜演算法,有時候越簡單的演算法反而越容易出效果。

(4)過分迷戀自己的編碼能力。造輪子不如用輪子,現在開源這麼火,盡量不要自己去實現演算法。當然如果你是學生,建議你去實現一些演算法,一是加深印象,而是提高自己的編碼能力。

(5)數據分析的門檻說低也低,說高也高!低是因為現在市面上各種軟體巨多,各種入門教程巨多,各種開源框架巨多!高是因為此職業如果想深入,確實需要一些數學統計基礎,需要較強的邏輯能力,需要數據敏感性。

暫時先講這幾個吧,想到其他的再說。

說句題外話,我承認中國的機器學習水平比不上國外,大家也都很願意去看國外最新的文章,確實厲害,但真的沒有必要滿口拽英文,有幾個人是真的需要天天追最前沿文章的?你把大學中的數學課程看一遍,學習一下李航老師的統計學習方法,還有最近周志華老師新出的機器學習看一遍,我相信你能勝任90%數據分析挖掘的工作!


業務方面不聽業務的

數據分析方面聽業務的

數據質量很重要,錯的數據再多也沒用

大多數用不到高大上的演算法

比較,異常,趨勢,佔比,顆粒度分析這些是主要的

得到的指標不能用於業務,有鳥用?


在數據分析中,一不小心就會踩到坑裡。下面我們在大家回答的基礎上補充幾個實際工作中容易被忽視的錯誤和解決方案。

1. 不區分訓練和測試數據

在模型擬合時,很多人會用同一批數據擬合模型並評估模型效果。這樣會導致模型僅僅在這批數據上表現特別好而在其他數據上表現特別差。

例如,當我們用非參數回歸擬合購物金額時,需要選擇合適的帶寬。如果只用一組數據擬合檢驗模型效果,這組數據點對應的人可能有特定的特徵,比如羊毛黨、土豪等,不能體現所有用戶的消費特點。

在建模時,要注意區分訓練和測試數據。常用的模型選擇方法是交叉驗證:將數據隨機分成k份,每次用k-1份用作訓練數據估計模型,剩下1份作為測試數據檢驗模型擬合效果,保證每一份數據都要用到作測試數據。最後將k個模型擬合誤差取平均值,選對應模型誤差最小的參數。

2. 量級不可比,不做Log變換

將量級差別很大的變數直接進行擬合,這是一個常會被忽略的小錯誤。

例如,我們在分析購物貢獻的時候發現企業用戶的購物金額高達百萬,而普通用戶的購物金額一般以千元為單位。這兩種金額如果直接進行模型估計,就會出現下圖所示的擬合很差的結果:前面100個樣本點比較下來幾乎是水平線。

如果將購物金額取Log變換,我們就可以在同一個量級上比較合理地進行模型估計了。

3. 過擬合

凡是物極必反,如果在數據建模時一味追求擬合效果,便可能會出現過擬合。

在一個自變數很多的非參數回歸模型中,為了模型擬合效果,我們可能會取過於小的帶寬(光滑參數),以至於模型就是將所有樣本點連了起來,無法有效擬合其他新的樣本點。

這種情況下,有必要加入懲罰因子,如變數個數、模型的光滑程度等,保證模型擬合和變數個數、模型曲線光滑程度的平衡。

4. 錯用定性變數分析方法

有些數據分析方法只適用於定量變數,如果將分析定量變數的分析方法用於含有定性變數的數據,便會出現問題。

我們預測用戶下次購買的品類時,除上次購買金額之外,還會有歷史購買品類、用戶的學歷、性別等定性變數。如果這時用適合定量變數的聚類或者分類方法,顯然沒有任何意義。因為定量變數的方法是基於連續型分布的,而定性變數的分布是離散的。

可以考慮用適用於離散變數的方法進行分析處理,例如,將定性變數Dummy化,然後加入到Logistic回歸分析或者SVM中進行模型估計;或者用決策樹來進行分類。


預測模型最經典的兩個錯誤居然貌似沒人說: Overfitting和omitted variable bias。


憑藉本能的隱藏錯誤!

正確的做法是:不要隱藏錯誤,直接承認過失,最快的速度修正錯誤。

任何人都會犯錯,在做數據分析的過程也是。而數據對錯誤是0容忍的,要麼100%全對,要麼就是0,不存在「99%的數據都是對的」這樣的情況。另一方面人天生就是害怕別人的指責的,在數據出現問題的時候也是如此。

作為數據分析師如果在數據上犯下錯誤,不要試圖隱藏、不要試圖遮掩、不要心存僥倖,立刻承認錯誤,修正錯誤,接受批評!

這是許多新人都會犯的錯誤,數據嚴謹性必須是100%,沒有彈性,沒有讓渡,這個算是數據分析師的基本素質之一吧!


想起個人工作中的幾點經歷:

一是沒有明確的目標,盲目的數據分析是耍流氓,個人覺得在工作中,我們應該憑藉自己的經驗去大膽假設再小心求證,當然,最後可能數據會證明你的假設是錯誤的,但是只有預設了一個想法,我們的分析才不會盲目。

二是數據不清洗,很多數據中夾雜的擾亂因子太多,會影響最終的決策。記得當時分析一個產品的ARPU值,簡單一看,感覺價值還可以,就決定擴大範圍做,後來才發現,當時的數據中有一部分用戶屬於異常消費導致整體ARPU值偏高,實際剔除掉這部分後,當時的決策是值得再考量的。

三是數據分析結果過於片面,沒有深度去挖掘背後的原因。數據分析應該站在全局角度去考慮,既要考慮單個結果的原因,又要考慮不同結果之間的關聯性。


辛普森悖論 https://en.m.wikipedia.org/wiki/Simpson%27s_paradox


數據分析的作用不必多說,在網站運營、網路推廣等方面都需要數據分析作為支撐,所謂兵馬未動,數據先行,數據分析是我們做網路推廣必須要掌握的技能。通過觀察學員們在做數據分析的過程中以及最後的數據情況,發現大家最容易犯的幾個錯誤,在此也幫大家總結一下。

各位覺得總結的還不錯,記得贊一下,碼字不簡單呢!

1、沒有明確分析數據的目的

咱們要分析一個數據,首先要明確自己的目的,為什麼要收集和分析這樣一份數據,也是只有明確了目的之後,才能夠把握好接下來應該收集哪些數據,應該怎麼收集數據,應該分析哪些數據等。

2、沒有合理安排時間

數據分析也要合理安排時間,一般我們有幾個步驟,收集數據&>&>整理數據&>&>分析數據&>&>美化表格,在做這些之前,我們要預估一下每一個步驟需要花多少時間,哪一步比較重要,需要花更多的時間等,這些都要在開始收集數據前就計劃好,然後在操作的過程中在規定的時間裡完成每一個步驟。

3、重收集輕分析

培訓里有不少同學就犯了這樣的一個錯誤,做任務的時間為3個星期,卻用了兩個多星期來收集數據,最後基本沒有時間去分析,緊趕慢趕最後交上來一份沒有怎麼分析的數據。數據分析重點應該在於分析,應該以最快的速度收集完數據,才有更多的時間整理和分析,最後經過分析的數據才是最有價值的。

4、收集數據太多,導致無法整理及分析

在我們開始收集數據的時候,容易犯的一個毛病就是看到什麼內容比較符合的就都收集下來,這樣的情況是數據越來越多,表格里文檔里的內容越來越多,到最後一看,自己都暈了,該怎麼整理和分析啊!其實我們在收集數據的時候也要有一個標準,什麼樣的數據是我們需要的,什麼數據是不符合條件的,作一個初步的判斷,這樣就可以減少後面整理的更多工作量了。

5、不懂得分析哪些數據

這是比較普遍的問題,收集了數據後不知道要分析哪些項目,哪些數據點才能體現出分析的目的。其實這也是前面說的目的不明確造成的,不清楚為什麼要收集這份數據,這份數據是用來做什麼用的,那就不會有一個評判標準,就沒有辦法找到數據的要點。比如我們要分析排名前十的在線旅遊網站,那就要知道什麼樣的旅遊網站才是最好的,最好的在線旅遊網站應該具備什麼條件,把這些條件列出來,然後根據條件去收集網站的數據,最後滿足所有條件的網站就是最好的旅遊網站之一了。

6、表格不美觀,不清晰

咱們做數據分析一般使用的是excel表格記錄,一份美觀清晰的表格不僅使我們可以清楚的看到這份數據的重點,方便查到所想要的數據,我們在收集數據的過程中,也可以提高我們收集和分析數據的效率。Excel還不熟練的同學,建議多找些教程,然後多練習,最後得到一份漂亮的數據,自己看著也舒服。

7、不能堅持

數據收集和分析是一件非常悶的工作,不管是收集還是分析,海量的數據里,經常會讓人摸不著頭緒,數據越多,整理分析起來越麻煩,也越容易讓人煩燥,堅持不了的就會半途而廢。所以,做好以上6點,也就是明確目標、合理安排時間、把握重點、懂得取捨數據、製作精美表格,都可以讓你更輕鬆的完成數據的收集和分析。

沒有最好,只有更好,適合你的就是最好的!

但是可能還是有些建議可以給朋友們,當然,我一直強調每個人都有自己的學習路徑,適合自己的才是最好的。

我經常這麼說:學數學的不一定會統計分析,學統計的不一定就會數據分析!

為什麼這麼說呢?因為社會科學!特別是企業經營分析、市場研究等領域都屬於社會科學。我們在大學學的數學或統計都是基礎,也更多的都是理想數據分析,處理的變數大部分都是數量型的,高測量等級的變數,但是經營分析和市場研究大部分處理的都是非數量型變數,例如都是品牌、行業、地區、偏好、態度、價值觀等!

對於社會科學研究,研究者必須在看到數據的時候,要看到數據後面的人,後面的消費者,後面的領導!

上面這張分析人員知識結構圖較好的詮釋我對從事經營分析、市場研究和統計分析人員的知識框架的理解,

企業需要的複合型人才,雖然一個人不可能全部掌握,那就需要你有好的協助能力和團隊精神,要有溝通技巧!

當然,對大部分人來講,這些不是短期就可以積累的,需要不斷的學習積累,要具有快速學習的能力。對已經工作的人來講,實踐是最好的老師,互聯網是最好的學習資源;

最後,成為一名自信的高級數據分析人員,至少要2-3年的磨練!

還有疑問幫你解答 : 數據分析篇2:數據分析幫你實際解決的10個問題

還可以加入營銷智庫QQ群進行探討。。

http://qm.qq.com/cgi-bin/qm/qr?k=jvGmznuGzVrUib39C_xZdsIAYfXk2tKU (二維碼自動識別)


感謝邀請我最容易犯的是代碼寫錯了。

所以,

一定要反覆檢查代碼的正確性;

一定要反覆檢查代碼的正確性;

一定要反覆檢查代碼的正確性;


就講個大家都知道,都在用,但是大家又並不完全了解的線性回歸分析(regression)。我不能說我是expert,但是也是學了很久,用了很久,現在給小公司做這方面的諮詢。

進行regression analysis的時候最容易犯的錯誤就是garbage in garbage out,為什麼呢?

第一個問題:分析數據首先要確定數據的類型,才能挑選合適的回歸模型。

(以下圖片均是我諮詢用的圖片,如有需要使用,請通知我)

首先要確定你的數據是何種形式的數據,才能選擇正確的回歸模型。 如下:

第二個問題:每個回歸都有assumption,必須要做assumption test。

regression分析有好幾個assumption,必須要滿足assumption才能有效的分析,而不會產生garbage in garbage out這個問題。因為regression模型的成立是建立在完美的條件上的數學模型。所以不要看線性回歸貌似很簡單,中心思想就是擬合一條回歸線,但是根據不同的條件可以分出很多種不同的分析方法和應用方法。同時根據assumption滿足條件的不同,挑選不同的回歸模型。

第三個問題:如果無法滿足assumption,可以用何種方法解決?

方法一: data transformation

不同的transformation,注意的問題和數據的解讀是不一樣的,同時在挑選不同的transformation時也需要注意很多的問題。比如無法滿足normality這個assumption時,可以對數據進行轉換,最常用的就是log轉換,而且解讀起來也比較容易。

方法二:使用dummy或者categorized variable

當然有天然存在的dummy和categorized variable, 比如男女和受教育程度。

Dummy和categorized variable的運用有牽扯到variable是用作dependent 還是independent variable。如果是dependent variable是dummy或者categorized就需要運用GLM模型。GLM模型又有各種變種,比如:logistic,logit,ordered,multilogit,等等,根據不同的categorized dependent variable 的變化來選擇。

Dummy有更細緻的用法,就是使用interaction effects來更加精細化的分析數據,比如男女和教育程度的interaction,男女和年齡的interaction,年齡和教育程度的interaction。

數據變化千千萬,這裡也只講了很少的一些問題,所以每次做數據的時候都要非常小心,做各種test,選擇最合適的方法,滿足各種assumption,儘可能符合實際的分析結果。


一.數據獲取

1.與實際業務負責人充分了解業務的各項細節和數據需求,非常重要,重複導數是數據分析師最常見的問題,不要怕麻煩,溝通溝通再溝通,小技巧:將需求整理成邏輯清晰的文檔,發回給數據需求方確認

2.初次使用某張表時,觀察表結構,確定欄位定義是否與DDL相一致,與同事事先溝通下該表是否坑需要特別注意,是否某些欄位定義有作調整

3.查驗表中數據是否有數據缺失,例如count一下

4.了解表中的數據來源,是否有作清洗,不同的數據來源對分析結果會產生很大影響,但往往是在分析了一半甚至分析完了才會發現

5.如果是通過SQL取數,注意不同平台下SQL的執行順序可能會發生改變,數據分區會對取數結果造成影響也需要注意

二. 數據預處理(EXCEL)

1.保存好所有的關鍵操作步驟,並做好標記

2.對於需要刪除的數據,進行備份或隱藏

3.將所有需要計算的列數值化,常見方法如分列,如調整單元格格式等

4.對於數值較長的列插入數據前應提前設置為文本格式,否則最後四位會變成0

5.對於空數據進行單獨處理,不要將數據簡單的刪除了事,而是先了解清楚為什麼沒有記上數據,是漏計了還是確實沒記,還是就是沒有數據,處理方法為補為0或者打上標記,記住:空值也是有意義的數據

三.數據分析

1.宏觀數據沒有變化,不要就輕易給出結論為數據沒有變化,而是應該再去分維度看下微觀數據,總能有所發現

2.看數據的角度不同,對你數據的分析結果也大相徑庭,因此想好你是作分析的目的,是為了作證領導的意圖,還是為了昭示效果顯著,又或是為了指明下一步的調整方向,再或是為了找到問題的原因,帶著目的去分析才能拿到合適的結論。


天底下沒有不好的結果,啥結果都是有意義的。別跟數據鬧情緒,數據沒情緒。

開始分析前先想好你的hypothesis是啥,想明白。

數據太少的話啥都能隨機出來,多弄點吧。

如果你在flag工作,那數據差不多夠了就行了別跑一年的log就為算個點擊率。

跟時序有關的分析要像防賊一樣防leakage。

通常pie chart沒有卵用。

數據清洗和outlier分析不能省,現在省了一會也還是得重做。

給結果起文件名的時候別叫它final,相信我,你還會有final v2的。

多次實驗總能隨機出統計顯著的結果,別盯著一個東西瞎tune。

發布結果前再檢查一遍。如果是好結果,兩遍。如果是好到升職加薪娶白富美的結果,先睡一覺再說。


推薦閱讀:

作為遊戲運營商(網頁遊戲),如何分析競爭對手?

TAG:數據 | 數據分析 | 大數據 | 大數據分析 |