如何科學地選擇護髮產品？大數據幫你解答

01-27

文/數據俠陳愉涵

還在為用什麼品牌的護髮品煩惱嗎？有了大數據，你需要做的也許只是動動指頭。就讀於紐約大學的一位數據俠，基於護髮產品的用戶評論等數據，開發了一款選品工具，本文分享了她的數據分析方法，看看對你有何啟發？

如何找到最適合自己的護髮品

你喜歡嘗試新產品嗎？你對現在最流行哪種護髮品感到好奇嗎？又或者你想讓你的頭髮有光澤，並且一直渴望有一款合適的洗髮水、護髮素或者髮油產品？

不妨試試我製作的這個選品工具，可以幫你迅速找到你需要的產品。（DT君註：後台回復「選品工具」可獲取工具及代碼鏈接）

這篇文章我將具體介紹我的研究方法和發現，以及我是怎麼鼓搗出這個小工具的。

（圖片說明：本文作者製作的選品工具頁面截圖，這個頁面集中展示了不同的護髮品牌的得分、網友評論關鍵詞等，在這工具里搜索品牌名或者護髮需求，還可查看對應品牌的平均得分、評論數、產品排名等。）

第一步：提出問題

一開始，需要先明確我想要通過這個研究來解決什麼問題：

市場上，哪些護髮品牌最為流行?
在http://Influenster.com這個網站上，用戶行為又是怎樣的?

（DT君註：Influenster是一個針對互聯網購物產品的發現、評分和分享的搜索引擎，用於幫助購物者能找到最佳的產品，本文作者的選品工具就是基於抓取到的該網站數據。）

哪些因素可能對顧客滿意度有著重要影響?
如果能建一個搜索引擎, 輸入需求是否能直接獲得最相關的那款產品呢？

第二步：數據收集

為了獲取最新的護髮產品信息，我決定抓取Influenster網站上的數據，這個網站上有超過1400萬條評論和超過200萬種產品供用戶選擇。

為了縮小調查範圍，我主要關注三類產品：洗髮水、護髮素和髮油。

我收集了每一類別中排名前54的產品。

對於產品相關的數據集，我抓取了品牌名、產品名、產品評分、排名以及評論等信息。另外，我抓取的評論數據集則包括了作者名、作者位置、內容、評分以及髮型等。

第三步：數據分析

接下來，到了揭曉我的發現的時候了，先是熱門品牌的排名：

需要指出的是，"其他"（others）這一類指的是單一品牌僅佔有一項或兩項熱門商品的集合，因為小品牌一一列出過於瑣碎，因此全部歸類為「其他」。基於此，我們從上面這個餅圖大致可以判斷出：大多數的流行品牌都屬於大品牌。

接著我們再來美國不同地區的人們給護髮品給出的平均評分情況：

為了解答前面提出的Influenster這個網站上用戶行為的問題，我畫了上面這張地圖，它反映了美國各地的用戶的不同評分傾向。

我甚至還繪製了兩張地圖來驗證是否有關於不同地理位置的有趣結果，不過，由於我抓取的是每一類產品中排名前54的產品，它們的最終評分在全國都很高，很難從中發現什麼區域差異。

然而，當我在觀察Influenster網站上來自不同地區用戶對護髮產品的評論數量時，我們看到加州、佛羅里達州、德克薩斯州以及紐約分別有高達4740、3898、3787以及2818條評論。

（圖片說明：美國各州的護髮產品用戶評論數量）

我還分析了評論數量和評分之間的關係，其實兩者之間呈負相關關係。

比如，在總分是5分的情況下，對比之下可以發現，Pureology這款產品得到了最高分數4.77分，但它只有514條評論；而另一方面，OGX的評分是4.4分, 儘管它有超過5167條評論。

（圖片說明：用戶評論數量與用戶評分的關係）

除了具體的評分，我們還會對用戶最關心的因素，以及哪些因素對產品滿意度影響最大等問題感興趣。

為此我專門去查了這7.7萬條評論中最常提到的關鍵詞。

開始時我試著基於洗髮水、護髮素和髮油這三類產品的評論，加上總體的全部評論給出4張詞雲圖，然而，我發現從這4張圖之間並不能看出顯著的區別。

為此，我專門製作了一個「比較詞雲」，來核對在評論中最常見的詞。從中可以發現，顧客認為最重要的因素還是產品的功效和香味。

另外，「推薦」一詞在評論數據集中是經常出現的。所以，我認為口碑是值得品牌們關注的重要的市場策略。

（圖片說明：左圖是基於各品類全部評論得出的詞雲，右圖是將洗髮水、護髮素和髮油三類產品的評論關鍵詞放在一起做對比的情況；相比之下，右圖這種「比較詞雲」的形式更能體現品類差異。）

我的選品工具是怎麼做出來的

前面也提到了我的選品工具，是基於抓取到的數據製作。

下面這個視頻截圖展示了其中的「搜索功能」，比如你輸入smooth這個詞，那麼你可以獲得那些在柔順度方面表現最佳的產品排名：

為製作這個工具，我使用了「詞頻–反向文檔頻率」（TF-IDF）這種自然語言處理法，用來反映一個詞在語料庫中的某個文檔中的重要性。

在我製作的搜索引擎中, 我利用了「tm」包，並對詞頻採用了weightSMART「nnn」加權的方式。簡單來說，weightSMART「nnn」是一種自然的加權計算，它統計了每一個單獨的詞語在數據集文檔中出現的次數。

進行了「詞頻-反向文檔頻率」處理後，我還設法讓每一次查詢，都能根據「餘弦相似度」的分數來推薦產品。

什麼是餘弦相似度呢？

它是在內積空間兩個非零向量之間的一種相似度的度量，即計算他們之間角度的餘弦值。

就信息檢索如搜索引擎來說，兩個文檔的餘弦相似度的值是在0到1之間的，因為詞頻(TF-IDF權重)不能為負。換言之，兩個詞頻向量之間的夾角不能大於90度。此外，當餘弦值接近1的時候，表示兩個向量之間（產品）有更高的相似性。

餘弦相似度的計算公式如下所示：

我的幾點結論

大多數護髮品產品屬於家居品牌。
在Influenster上，來自加州、佛羅里達州、德克薩斯州和紐約的用戶更為活躍。
一款產品的評論數量和評分之間往往呈負相關。
對護髮品來說，功效和香味是最為重要的因素。
儘管「推薦」是一個普遍被使用的詞，但在本文的研究中，其實我們還是很難判斷用戶用這個詞是正面的還是負面的反饋，也許下一步我還可以對用戶的情感進行分析。
我開發的這個帶有搜索引擎的選品工具，採用了「詞頻–反向文檔頻率」這種處理法並且引入了餘弦相似度的概念，如果我能夠再加入一些產品本身的描述，可能會運行地更棒。通過加上產品描述，用戶有更高的概率不僅僅是匹配產品名稱，還可以匹配產品描述來檢索，這樣他們能夠檢索到更相關的商品，並且探索更多產品的新特性。

註：本文編譯自http://NYCdatascience.com網站博客文章，原題《Web Scraping Influenster: Find a Popular Hair Care Product for You》，關注DT數據俠點擊「閱讀原文」可查看，本文已經作者審閱授權。文中所提的選品工具及代碼鏈接可後台回復「選品工具」獲取。

期待更多數據俠乾貨分享、話題討論、福利發放？在公眾號DT數據俠（ID：DTdatahero）後台回復「數據社群」，可申請加入DT數據社群。

數據俠門派

本文數據俠陳愉涵（Chen Yu-Han），紐約大學管理與系統項目專業碩士生，專註於企業風險管理研究。目前在紐約數據科學院（NYC Data Science Academy）擔任數據分析師與課程助教。

加入數據俠

「數據俠計劃」由第一財經數據新媒體DT財經發起的數據人社群平台，旗下有數據俠專欄、數據大咖及愛好者社群、線上線下「數據俠實驗室」系列活動等項目。

+ 投稿：chengyixiang@dtcj.com

+ 合作：zhaonan@dtcj.com