做用戶研究如何系統學習數據分析?
從事用戶研究行業,要掌握哪些數據分析的理論(有哪些可供學習的書籍?)?要學會用哪些工具? 是否需要學習大數據分析?
結合個人目前的一點經歷,來說說想法吧。
用戶研究需要結合定性和定量的研究,對於定量如何做,這個要取決於公司的產品。初級的分析可以看看各種趨勢,統計圖,中級點的可以看看聚類、回歸、關聯、預測等,高級點的可以看看時序、文本、社交網路分析等。分析方法很多,依次系統學肯定很慢,跟不上工作的節奏,如果樓主有一定的統計背景,跟著項目學起來應該會很快。
至於書籍,可以先看看Frederick J.Gravetter的《 Statistics for the behavioral sciences》(有一定統計基礎的請忽略),這本書可以讓你快速的理解統計的基本原理,而且不枯燥乏味。中高級的話就需要學習些data mining 的知識了,以後這個肯定是趨勢。書籍推薦兩本目前在學的:Jiawei Han的《Data mining:concepts and techniques》、Yanchang Zhao的《R and Data Mining: Examples and Case Studies》,這兩本我用著感覺不錯。另外,也可以在網上學習下公開課,data mining這塊,國外的發展還是比較成熟的。可以去Coursera,Edx,Udacity上去找自己感興趣的課,有很多,目前我正在學習MIT的 The Analytics Edges。
說到這裡,應該有人能看出來我用什麼工具了,哈哈。。。SPSS+R+Python。工具還有其他的,根據不同的需求,工具也不同,比如數據可視化的工具,樓主可以自行百度下。工具不是重點,重點是數據的提取+數據的思維+數據對商業的價值點。
要不要學數據挖掘,我覺得這個取決於用研人員能達到的深度。個人認為,用研人員如果有研究思維,數據思維,產品思維,商業思維,創新思維,再加上體驗設計思維,服務設計思維,戰略規劃,基本上就可以召喚神龍了,哈哈。。。這個也要取決於公司和個人。
階段一:基本數學了解
1、90%的用研需要的數據分析基礎基本就是中學的數據基礎就夠了,就好像財務管理中杜邦分析法一樣,就是數字加減乘除,關鍵是你要學會進行對比,描述,分類,差異的分析。2、進一步建議需要了解一些概率與數理統計的知識,其實這方面的知識用相應的統計工具都能夠給出來,你只是需要了解一些具體的含義,不需要你去計算。階段二:統計工具熟悉3、統計工具中,你需要了解,描述、交叉分析、因子分析、回歸、相關、聚類幾項基本內容,以及各種假設檢驗4、進階可以了解如何用工具做一些決策樹、神經網路的 分類或者預測分析階段三:自己建模跑數據5、更牛一點你可以自己建複雜模型,這個階段基本上各種數學都可能用得上。不過一般做用研,5年內能碰上1-2個就不錯了。呵呵,屠龍術。總的來說,不建議單獨學習數據分析,在用研過程中,帶著問題去研究數據分析更有效一些。用研做數據分析的目的還是要探索和發現用戶需求的規律,這就是從定量中找到定性的結論。在進行體系化的學習之前,請先用一些現有的數據開始做一些用戶行為和業務發展狀況的洞察。等你積累一定的case之後,再來看自己現在的提問,也許你想另外開一個題了。
首先,不管是什麼學科的數據分析,總是避不開最基本的概率論和數理統計知識。這一點一般的數理統計教科書都能夠滿足入門的要求。除此之外,還需要自學實驗設計的方法,例如 Within-Subject Design Between-Subject Design 等等,了解這些基本的實驗設計方法才能更容易理解之後的數據分析知識。
學習完基礎的概率統計知識之後,就是一系列的數據分析方法了。很多數理統計的教科書都沒有系統地介紹數據分析方法,比如我們本科學的《概率統計(理工類)》(Probability and Statistics for Engineering and the Sciences) 這本書中僅僅介紹了方差分析(包括雙因素方差分析)。想短時間內了解完所有的數據分析方法是不現實的,但是就用戶研究領域而言,最常用的數據分析方法並不是很多,短時間內了解還是完全沒有問題的。之所以強調短時間,是因為我覺得要想系統地學習學科知識,最好的辦法就是快速地上手,而將中間的原理、推導暫時忽略,待後來遇到問題的時候再去了解方法的來龍去脈。
閱讀過的 CHI 論文不多,基本上都會使用到方差分析(單因素、多因素、多元)、因子分析、主成分分析、相關性分析、回歸分析這些常見的數據分析方法等等。這裡引用一下東京大學 Koji Yatani 教授的課程網站的內容:
Some Statistics Basics (Or "before doing an experiment or analysis")
- Types of data
- Null Hypothesis Significance Testing
- Some tips for R
- Graphics in R
Methods to Complement Null Hypothesis Significance Testing
Parametric Tests
- Parametric vs. Non-parametric
- Effect Size
- Power Analysis
- Normality and Data transformation (Shapiro-Wilk test and Kolmogorov-Smirnov test)
- Outlier Detection and Removal
Non-parametric Tests
- F-test
- t-test
- ANOVA (Analysis of Variance) for comparing the means
- Post-hoc tests
- Chi-square test, Fisher"s exact test, and McNemar"s test
- Cochran"s Q test
- Mann-Whitney"s U test
- Wilcoxon Signed-Rank test
- Kruskal-Wallis and Friedman test
Correlation
Latent Variable Analysis
- Correlation
- Coefficients of association (Correlation for nominal data)
- Agreement and Inter-rater Reliability (Cohen"s Kappa)
- Principal Component Analysis
- Factor Analysis
- Correspondence Analysis (Multiple Correspondence Analysis)
Regression Analysis
- Linear Regression
- Multiple regression
- Multi-level linear regression (mixed-effect linear model)
- Logistic Regression (Binary Logistic Regression)
- Generalized Linear Model
這裡包含了絕大部分常用的數據分析方法,使用 R 語言作為示例,對概念都有生動的例子進行解釋,還是很容易看懂的。
當然,如果已經了解了上面提到的數據分析方法,那麼閱讀 CHI 論文應該沒有什麼很大問題了。於是,就可以開始學習統計分析軟體了,例如 IBM SPSS、SAS 等等,當然如果有代碼基礎的話,可以學習 R、Python 這些編程語言等,這兩種語言都有大量的數據分析的包,用來做數據分析還是非常方便的。
如果還是學有餘力,還能再去了解數據挖掘的知識就更好了。
學習途徑:
1. 基礎的概率和數理統計知識很多 MOOC 講得都不錯,這裡尤其推薦可汗學院的統計學,很多課堂上聽得一頭霧水的概念,他一解釋就懂了。2. 數據分析的話,我也沒找到 MOOC,參考中給出兩個都是不錯的自學教材。3. 數據挖掘還沒有深入學習,所以也不能給出建議和推薦。參考:
[1] Quantifying User Experience - Practical Statistics for User Research, Jeff Sauro James R. Lewis[2] HCI Statistics, hcistats:start [Koji Yatani"s Course Webpage]===== 原回答 ======正好最近也在苦惱這個問題,佔個坑,一會回去答。(更新:加入了數據清洗和數據可視化部分)
在談數據分析之前,先明白一點,工具永遠是手段,重要的是思考能力和對產品的了解。」基本的道理永遠就那麼多,而針對同一問題的廣度、深度、以及視野高度是永遠的修行」——劉津。
就整個數據分析的流程來說可以分為:數據清洗和核心的分析部分,如果深入可以進行數據挖掘和模型建立,最後可以進行數據可視化。
數據清洗:
(這部分是需要動手操作的,要自己嘗試做數據清洗,只看理論不行)
數據清洗通常在整個數據分析中的佔據大部分的時間,因為raw data質量好不好就在那裡,但是數據清洗的質量直接關係到數據分析的效果和最終的結論。通常包括以下工作:
1, 了解數據(看數據集說明、人工查看);
2, 刪掉或替換缺失值;
3, 統一格式(日期、字元)或邏輯錯誤的數據;
4, 不必要的部分刪掉;
數據分析的工作就是很繁瑣,要有耐心。
數據分析方法:
這部分是需要功底的,有時間最好系統學習,理論很重要。但是學習這部分的深入程度取決於你的職業規劃。如果你想橫向向產品方向發展,那麼可能就不需要對數據分析方法特別高的要求;當然現在好多公司都在找擅長定量的用研,你也可以向這個方向鑽研,具體還是要自己權衡。通常包括下面的方法:
描述統計、假設檢驗、方差分析、相關分析、回歸分析、主成分和因子分析;決策樹、關聯分析、聚類分析、時間序列分析;
一般心理學出身的用研對前半部分的方法都有了解。後面的幾種屬於數據挖掘的內容,但是也都是用研常用的,需要看相關書籍了解。以聚類分析和關聯分析為例:
聚類分析:將個體按相似程度(距離遠近)劃分類別。例如在用戶細分過程中,可以通過聚類分析劃分不用的用戶類別。
關聯分析:一個典型例子購物籃分析,通過發現顧客放入其購物籃中的不同物品之間的聯繫,分析顧客的購買習慣。通過了解哪些產品頻繁地被顧客同時購買,這種關聯的發現可以幫助制定營銷策略。也就是喜歡什麼東西的人往往喜歡什麼;做了這個事的人一般接下來會做什麼。經典的啤酒尿布。
營銷管理分析方法:
SWOT/PEST/4P/5W2H/用戶行為理論。
網站分析:
(這部分也要動手實踐,涉及到埋點的一些內容)
用戶行為路徑分析VS漏斗分析,用戶點擊行為分析,眼動分析,流量、轉化率、跳出率三個指標。這部分也可以算作工具,如:
GA,Heap,Trak,Mouseflow,AppSee,PadiTrack等
數據可視化:
這部分我也是剛剛接觸,最近報名了某大數據競賽·可視化比賽,所以逼著自己學了一些可視化方面的內容,簡單說說感受吧:數據可視化方面的工具很多,有人用基於js的D3,有人用python包,有人用r…都是不同的語言,我不是說語言 有多難,只是大多數用研恐怕寫代碼的經驗真的不多,總之,不要這個學一點那個學一點,入坑謹慎吧…。D3畫出來的圖很酷炫,但是學習曲線陡峭;我個人還是用r比較習慣,因為數據清洗,數據分析,數據可視化可以一籃子搞定。
數據分析工具:
1, excel/ SPSS
2, R/python(數據清洗、分析、可視化)
3, SQL(獲取原始數據)
4,js(網站分析、數據可視化)
5,D3.js(D3可以看作是js的一個函數庫,數據可視化)
這些都是應該掌握的,具體內容網上一大堆,自行知乎。
說一些我個人的感受,我喜歡的方法是在網上看文章,遇到不懂的概念再擴展、發散。這樣一個概念就可以發散出n多概念,比如:用戶行為路徑分析→漏斗分析→用戶細分→聚類分析→用戶分層。但是要注意這個過程中保持頭腦清醒==。不然容易迷失。
剛開始學用戶研究,歡迎拍磚。
概率是基礎,宏觀的分析靠統計,微觀的靠挖掘。從結果上來看,業務是最重要的
看題主的問題,感覺題主和我一樣是數據小白。我開始SPSS零基礎學。大數據總歸要了解,因涉及零售行業,都是零基礎,大學老師推薦了《數據化管理-洞悉零售及電子商務運營》。感覺淺顯易懂點,適合零基礎。題主有更好的別忘吱我一聲。
別人專業學這個科班出身的,是吃飯的手藝。想要靠自己學習最後做出可靠的分析難度很大。專業的事情要交給專業的人做,要麼請個統計師要麼去讀個統計學位。所謂捷徑只能給你些似是而非的概念最終做一些不靠譜的模型得出不靠譜的結論罷了。這個問題就好比,我想要出個唱片,如何自學鋼琴?自己興趣愛好玩玩就罷了,用來商用的話。。。
推薦閱讀:
※自學數據分析需要看哪些書(從初級到高級)的?
※如何快速成為大數據開發實戰專家?
※Python numpy,scipy,pandas這些庫的區別是什麼?
※如何高效地使用RStudio?
※考慮從事 SAS 程序員工作,有哪些需要注意的點?