寫報告的人,你是用數據支撐你的觀點,還是因為數據找到論點?
實際工作過程中,我常常發現,不管你想得到怎樣的論證,即便是相悖的,在海量數據跟前,都能夠自圓其說,並且通過數據去支撐你的觀點。 所以有時候我常想,數據本來是不是就是用來忽悠的人的,區別只是,你是拿那些數據忽悠自己,還是拿來忽悠別人。
我寫報告算寫得比較多的,簡單說說我的看法:1、看到一個現象之後,一般是先根據自己的經驗,建立一個初始假設,之後再用各種數據去驗證這個假設,所以這裡是用數據去支持你的觀點;2、有時候找來的各種數據不能印證你的原始假設,這個時候就需要修改你的原始假設,即這個時候是因為數據而找到論點;3、雖然說用假設驅動是一種最快的解決問題的思路,但是,實際上很多時候我們並不是一上來就能建立原始假設的,這個時候,你就需要去尋找大量的實事,查看大量的數據,並從中建立你的原始假設,即這個時候是因為數據而找到論點;
總結:
所以,問題中所述的「你是用數據支撐你的觀點,還是因為數據找到論點」其實都是對的。最近因為工作的需要,也在研究數據報告這個東西。說說體會吧……
題主說:「實際工作過程中,不管你想得到怎樣的論證…都能夠自圓其說…」 在我看來這是非常正常的。先看個簡單的例子——
上周我們看到一組國內安卓App的類別分布表,我們發現,下載量最大的App里,22%是影音圖像類的應用。那麼問題來了:這意味著最有前途的應用類別是影音圖像嗎?
是,因為那麼多款同類應用都被下載了特別多次,說明用戶需求大;不是,因為大多數用戶已經養成特定的使用習慣,市場趨於飽和;這種時候,怎麼解讀、怎麼理解、怎麼「忽悠」,就全憑對行業的理解了。你可能就會需要特別多的旁證,比方說資本市場的走勢、同類App的DAU均值等等。
其實即便是大數據挖掘,也是有預設的。
這是由出具報告的工作流程決定的。接受一個數據分析項目之後,第一件事情是尋找合適的數據源和欄位。然後會進入數據獲取、清洗、挖掘分析的流程最後,到我們手裡的是一堆表格。怎麼解讀,因人而異。由此不難發現,一份報告頭尾兩個部分,人,都是主要影響因素。因此,也就必然會帶有各人自己的判斷和思維方式。但是「由論點推數據」的「自圓其說」,是不是就是忽悠呢?
其實不然對於數據,我們有兩種非常典型的使用場景:1、客戶把數據直接扔過來,表是現成的,從裡面找bug;
2、客戶覺得我不舒服,但不知道哪兒病了,你們那數據給我看看。兩個場景各有不同場景一,異常數據,無非就是各種和均值、和曲線比對。比對出結果以後,就需要解讀。我今天的DAU環比下降了20%,這個數,你看到了,客戶也看到了,客戶找你是想知道為什麼。於是你就要解讀……所謂解讀,就要先作假設,然後順藤摸瓜去找數據驗證假設,逐漸摸出原因。場景二,是直接先作原始假設、然後做數據挖掘、驗證或證偽;再假設、再挖、再驗證或證偽……其實這也是為什麼到了所謂的「大數據時代」,分析師顯得那麼重要。
如果數據真的會說「人話」,那每個人都能聽懂看懂,還要分析師幹嘛呀。我們需要分析師,就是為了「讓數據說人話」。那麼怎麼把數據「編譯」成人話,這個過程,就參雜了太多的「主觀能動性」在裡面。只要數據不是編的,不論怎麼解讀,都是方法問題,而不是作偽(原則問題)。
所以,個人觀點是,不需要糾結是數據推論點、還是論點推數據。數據無非就是驗證和證偽,只要數據本身是真實的。很多時候自己也覺得是自己太主觀,拿著結論找證據。所以就有了一種強迫症,拿到什麼數據就把所有頻數、詳析都跑一遍再去看,盡量不要先入為主。然而,還是很糾結。「自圓其說」這個說法很好。
如果只是引用一個數字,當然說成黑的白的都由你。數字背後的邏輯、樣本、篩選條件才是決定可信程度的關鍵。
有了數據,說話心裡不是那麼虛。但是好多人,也是拿個數據當幌子,該下什麼樣的結論數據沒出來就想好了
簡答如下
分析過程:
1、首先根據經驗提出假設2、根據假設對數據的未來表現進行預期3、回歸分析,擬合,假設為真;不擬合,重新修正假設4、根據假設進行演繹,得出結論注意事項:
1、事實不能解釋事實2、區分先後關係和因果關係。3、任何假設都是有前提的,前提越詳盡,解釋力越強。4、數據從不同角度理解可以得出完全不同的結論,數據分析結論要用常識驗證。5、對於真實世界的分析和預測永遠是偶然的而不是必然的,真實世界必然存在沒有考慮或者無法觀測的影響因素。
PS:1、從數據分析出來的結論都是一種可能性,一段時間為真,並不代表永遠為真。大多數情況下,我們追求的僅僅是提高可能性。2、很多職場新人經常對我說工作經驗沒什麼價值,而上面也是我對這個問題的答案。經驗不會讓工作百分之百正確,沒有經驗也不會讓工作百分之百錯誤。但是在正確和錯誤之間,還有著巨大的差距,而這種差距給公司帶來的就是不斷試錯(錯誤假設)損失的時間、成本和機會。這確實是個有意思的問題,工作中確實很多人是以數據來支撐自己的觀點,在拋開縝密邏輯的前提下,確實不管什麼論點總能找到支持的數據,中石化也能找到數據來證明他們多麼勤儉節約。。但是,如果你是認真的,當然是通過數據來找到論點,雖然這個很困難,搜集、轉換、展現數據都只是基礎,最終的解讀和tack action能力,才是核心。
你想證明它,你會找一千個理由,你不想證明它,你也會找一千個理由
很不幸待在一個相信"人有多大膽,地有多大產"的公司……寫過很多報告,但是每次寫之前都要探探領導的想法,然後再開始寫,每次都是找數據支持論點。最初寫報告的時候堅持自己對數據的判斷,想實事求是地寫數據反映的問題,分析,結論。但是多年下來已經被磨折了,報告是要滿足領導要求才能交差的,而數據,你只要想辦法總是能滿足支持論點的需求的(不是作假,而是採取方法,比如選取階段、選取方式、甚至調整圖表坐標軸,這樣沒有違背科學和邏輯,但看起來又支持了論點,算是打擦邊球吧)
我們在做數據的時候,從海量數據中找到規律和論點,這個一般稱為歸納法。歸納法能體現眾多事物的根本規律,且能體現事物的共性。但是容易犯不完全歸納的錯誤。所以需要先用演繹推理的方法,先縮小範圍、再用歸納的方法求證、才是比較妥善的方法。
你還有理想主義的熱情,就用數據來找論點,如果你比較現實就找數據支持你的論點。
比較贊同樓上的觀點:需要先有個輪廓,然後對比數據是否支持,然後修改觀點。
當然,其中有幾個環節,可能需要注意一下:1、輪廓是否可觀,你是否考慮了正反兩個方面的情況? 而不是單純地主觀臆斷出「有利」或者「有益」觀點。2、目標是一定要有的,要不然給了海量數據,你沒有個方向,那樣最慘。 就跟出遊似的,出去玩兒肯定有個需求目標,比如去哪兒、比如要幹嘛。否則,突然給你很長的假期,你也會因為不知道幹嘛閑的蛋疼,可能最後就宅在了家裡。反而浪費了假期。3、數據怎麼處理,得出什麼結論還是看你自己,可主觀,可客觀。同1類似。先寫這點兒,以後補充。自己不過也是個還沒畢業的學生,有的想法未必就全面,後續還得繼續補充。我覺得以上的回答忽略了一個問題:調查所得的數據是否可觀。
海量就等於客觀嗎?除非是普查。抽樣調查的數據如果不客觀,你所得的結論只是某些群體在某種條件下的狀態。
比如你的調查對象是大學生,如果只是調查幾所二本學校的隨機遇到的學生,這樣獲得的調查數據再多也是偏頗的,應該保證你所抽樣的對象當中性別、年級、戶籍、專業、一本(二本、三本)等各種結構性要素與實際數量的比例是相同的(或只有極小的偏差),在這種客觀數據基礎上得出的結論才具有可信度,並且調查獲得的這些數據能夠經得起別人的檢驗(使用相同的演繹或計算方法可以得出相同的結論)。而且一般使用這種量化分析方法所驗證的基本上是變數間的關係是否符合假設,調查問卷中問的問題如果帶有研究者的主觀性,也無法得出客觀結論。比如你問的問題是:你覺得共產黨好嗎?A挺好 B一般好 C有時候好,首先這個問題就過於主觀,僅僅得到的是人們的態度,對研究客觀事實基本起不到太大的幫助,其次答案也具有片面性,不包含所有可能的情況。所以對於所研究問題的操作化也很重要,最好是調查對象的身上存在的客觀情況,利於回歸分析里變數的操作。假如你真的想了解人們的某種想法、態度,並進行解釋和描述,不應該使用這種探討宏觀問題的定量方法,而是採用質性方法進行研究。所以,假如數據不客觀,分析靠感覺,這種條件下得出的結論,忽悠誰都不妥。
ps. 我沒有查閱資料,以上內容是憑記憶講的,如有錯漏歡迎指正。寫報告就和做律師一樣。
一般會先有一個KPI或者類似的閾值吧,這是最初步的,剩下的就是從數據中找insight了。然後是假設、論證。。。
最近在寫綜述。
數據可以體現某種規律,比如前輩A的數據線性極好,體現了兩個量的關係。
而將A的數據置於B的海量數據中,會發現雖然A數據分布合理,在B的數據範圍內,但是原有的線性關係已經不再明顯。
僅僅從數據來找規律,會由於數據量不足 或 數據經過篩選 而 獲得並不正確的數據。因此,先提出觀點,然後用來自多個源的數據來驗證,似乎會比較好些。說個不成熟的想法:
當你不知道你要的答案的時候 是通過數據去探索結果的 就像是天文物理學家探索宇宙
當你知道答案或者至少有一種可能的猜想的時候 你是在用數據區證明和去偽存真的這個世界上 只有不超過5%是「是」 不超過5%是「不是」 剩下的90%以上 都是介於兩者之間
無所謂絕對的「對」 與 「錯」
就像是那個著名的統計學原理 硬幣的正反面概率 越是海量的標本 到最後 或許你發現原來根本不是
A或者B 而是兩者都有所以結論是 先問問自己 我到底有沒有答案 或者哪怕僅僅是一個假設的猜想以前分析數據時,我總是在海量的數據中查找規律性東西,希望可以證明些東西,但後來我發現我需要先明確我期望什麼,再拿對應的數據來證明
推薦閱讀:
※哪些必備因素造就了一名優秀數據科學家?
※R 中的哪些命令或者包讓你相見恨晚?
※有哪些數據分析師的博客或網站值得推薦?
※現在是否有社會化媒體營銷的數據分析工具?
※誰能解釋一下,excel數據分析模塊下的回歸分析的參數