如何通過NLP人工智慧大規模分析評論文本洞察消費者心聲(深度案例)

標題起的有點大,其實這篇文章的主要內容是:針對大的品牌企業,例如家電品牌、手機品牌等,如何利用大數據和人工智慧技術對消費者進行分析,從而幫助品牌企業聚焦用戶心聲,發現並改進產品和業務存在的問題,從而提升品牌價值,獲得競爭優勢。

最近有段時間沒有來更新文章,真的太忙,這篇文章也需要感謝親愛的團隊付出的努力,本篇將以某品牌為例,進行深度分析,文章比較長,歡迎大家多多交流。

要分析消費者的想法,這裡面有幾個關鍵問題需要解決:

1. 需要收集大量的消費者言論,現在互聯網這麼發達,消費者在各種電商平台,新聞媒體,論壇,社交平台等留下了大量的言論,由於本文的重點不是教大家如何從各個網站採集用戶言論數據,所以這裡就不重點展開,感興趣的同學可以看看本專欄之前的幾篇關於數據採集的文章。

2. 要深度分析非結構化數據,用戶的言論通常不是簡單的五星評價,或者5分滿意度,而是有大量的文本內容,因為文本不是結構化的數據,對於非結構化的數據進行分析,傳統的BI工具是不行的,如果數據量很大,唯一可行的選擇是使用NLP自然語言處理技術,可能很多人一聽到非機構化數據、NLP就頭大,這些都是專業術語,非專業人士不需要深究,只要知道,類似文章和評論這種大量的文字內容如果需要進行大規模分析,機器能代替成千上萬的人來閱讀並理解這些內容,並進行深度分析,所使用的就是這種技術。

本文將以電商平台京東為例,選擇不同品牌的兩款家電產品,進行分析,為了簡化問題,不會使用太多數據,實際應用中則必須有幾萬條,甚至幾百幾千萬條數據才能有效洞察消費者。另外對於消費者在評價產品某一些具體功能時所表達的感情,我們也簡化為正面和負面,實際應用中當然也可以區分不同程度的喜歡和不喜歡。雖有以管窺豹之嫌,但對於不太精通大數據和人工智慧的同學來說,這樣更容易理解和掌握原理。另外,本文以純學習交流為目的,消費者正負面評價的分析和對比也只是客觀數據的一種可視化呈現,對具體品牌本文作者持中立意見。不涉及具體產品好壞的主觀引導和推薦。

數據來源說明:

京東 SKU 為 4534356 的商品評論,共 1901 條; url:

【東菱KE-8008】東菱(Donlim)養生壺 玻璃 加厚 蒸汽噴淋式 智能控溫沖泡 多功能全自動煮茶壺 煮茶器 KE-8008【行情 報價 價格 評測】-京東?

item.jd.com圖標

京東 SKU 為 3818500 的商品評論,共 2913 條,這部分僅作為競品補充分析。 url:

【小熊YSH-A15W6】小熊(Bear)養生壺全自動玻璃加厚電熱水壺花茶壺煮茶器黑茶煮茶壺多功能 YSH-A15W6 1.5L【行情 報價 價格 評測】-京東?

item.jd.com圖標

數據收集時間:2018-04-09 T 16:30

數據採集部分略過,本文重點就以下幾個方面進行分析:

一、數據概況 1、採集數據按時間統計 2、用戶評論星級分布及評論等級佔比 二、產品質量問題分析 1、產品問題概況 2、負面評論分析 3、正面評論分析 三、用戶畫像與用戶行為分析 1、用戶群體概況 2、用戶行為時間分析 3、評論影響及認同度分析 四、客服&售後績效分析 1、客服應答時間分析 2、客服應答質量分析 五、競品分析 1、概況比較 2、產品質量問題比較

一、數據概況

1、採集數據按時間統計

圖 1 評論數據時間分布

上圖可見,本次採集的商品評論中,近90%的評論行為發生在近4個月(即2017年12月至今),參考價值明顯。

2、用戶評論星級分布及評論等級佔比

由上表,95.79%的評論顯示為好評,且98.63%的好評為五星級好評,中評和差評各佔2.10%。然而,追評中的正面評價僅佔到91.47%,比評論中好評率低了4.3個百分點。

圖 2 評論等級及追評性質佔比比較


二、產品質量問題分析

對文本這種非結構化數據的深入分析,不像做數值類型的圖表那麼簡單,我們需要從大段的文字中提取出消費者所描述的是產品還是服務,是具體哪個產品功能點,還是某一個零件或者外觀,這就需要建立一套分析的指標體系,也就是說,我們建立一套成體系的分析指標體系,然後利用NLP自然語言處理的技術去讓機器理解這套體系,並且由機器來大量的閱讀理解評價內容,最終形成指標體系的打分和可視化分析結果。

1、產品問題概況

圖 3 一類問題數量&佔比

如上圖所示,用戶關注的產品問題中,功能設計佔比36.19%穩居第一,緊隨其後的是煮茶效果及產品工藝,佔比分別為19.83%和18.09%。外觀設計的佔比為13.00%,也是用戶關注的第四大類問題。相應的對於配件及說明書用戶給的關注則很少。

圖 4 二類問題點數量分布

圖 5 二類問題點分布佔比

上面2個圖可以直觀看出用戶關注的具體二類問題點。關注最高的四個二類問題分別為操作性,做工質量,外觀,煮茶效果。從所屬一級類別來看,用戶對產品功能的關注中,主要關注操作是否便捷,好不好用,佔58.73%,其次是功能設計,保溫效果,煮茶時間,檔位/按鍵設計,各佔10%左右;煮茶效果這一大類下,用戶關注點較全面,各類問題佔比相對均衡;在產品工藝這一部分,66.20%關注產品的做工/質量,21.69%關注材質問題,其餘九個二類問題僅佔12.11%,但其中的頂蓋,生鏽/斑點等問題雖然評論涉及不多,但是負面評論佔比很高,值得後續關注;外觀設計方面,81.96%的客戶直接給出直觀感受,評價外觀是否好看等。


2、負面評論分析

圖 6 負面評論數量(部分)

2.1材質問題&生鏽/斑點

材質問題和生鏽/斑點問題負面評價佔比高達40.3%和87.5%,且負面評論數量多至40+,表達了用戶在這兩方面很強的不滿意情緒。從評論內容看,材質問題主要反映在兩方面的負面評價,一是玻璃很薄,或是不鏽鋼材質很薄,二是底部容易起茶垢且很難清洗掉。部分評論明確提到生鏽或是銹漬則屬於生鏽的問題。以下為這兩方面截取的部分評論內容:

表格 3 材質&生鏽/斑點負面評論內容節選

  • 2.2 功能設計

功能設計方面,負面評價佔比為25.0%,用戶對產品功能設計提到了更多的要求和期待,如:增加洗茶功能,更改壺蓋和濾網設計,自動斷電等。為了突出重點,對具體的評論內容不再舉例展示。原理跟上一節相同。

  • 2.3價格

價格的負面評論佔比高達49.3%,而性價比的負面評論佔比只有8.3%,即:90%以上的用戶認為產品是值這個價位的。從價格的負面評價內容可以發現,約有40%的用戶給出負面評價是因為價格變動過大,買完降價太快等原因,其餘約一半的用戶則是直接表達「價格小貴」「希望更多優惠」等因素。為了突出重點,對具體的評論內容不再舉例展示。原理同上。

  • 2.4噪音問題&其他問題

10條評論認為噪音過大,其餘21條評論提及該問題則認為「噪音不大」「聲音可接受」,負面評論佔比32.3%,產品優化空間明顯。

17條評論提及「下單時有贈品,收到貨沒有」「沒有杯子贈品」「欺騙消費者」等負面評論,且這17條評論中6條是差評,2條中評,1條為追評評論。差評和中評均只提到贈品問題,即:這6條差評均是由於贈品導致的,佔總差評數量的15%。

其餘問題的如「電源線太短」「手柄晃動」等問題,都在評論中有所提及。


3、正面評論分析

圖 7 一類問題正面評論佔比(部分)

如上圖所示,用戶對這款產品的煮茶效果的外觀設計認可度最高,分別達97.43%和94.90%,對產品工藝的認可度則只有76.62%。用戶對功能設計的認可度為94.65%,提及功能設計這一類別的672條正面評價中,416條給了「操作性」,用戶認為產品「使用方便」「好用」。


三、用戶畫像與用戶行為分析

1、用戶群體概況

1.1 用戶客戶端使用分布情況

圖 8 用戶客戶端使用分布

圖 9 用戶客戶端使用及評論星級分布

如上圖所示,51.60%使用京東Android客戶端下單評論,38.87%使用京東iPhone客戶端下單評論,其餘9.53%則選擇了微信或是網站等入口。Android客戶端好評數為942條,佔比96.02%,與iPhone客戶端95.53%的好評率基本持平,並未體現差異。但是,Android客戶端與iPhone客戶端的差評數量分別為16條和19條(差評率分別為1.63%和2.57%),體現了一個百分點的區別。

1.2 用戶會員等級分布情況

圖 10 會員等級分布情況

圖 11 會員等級及評論星級分布圖

圖 12 不同會員等級的評論等級佔比

如圖所示53.55%用戶為PULS會員,鑽石會員與金牌會員共佔27.83%,其餘會員等級佔18.62%。其中PLUS會員好評率最高,為96.76%,高於整體水平1個百分點,而鑽石會員和金牌會員好評率則相對較低。


2、用戶行為時間分析

圖 13 用戶行為發生時間分布

可以看出,下單時間的三個高峰分別為上午10:00,下午15:00-16:00,晚上22:00,這些時間段內可以增加售前客服的人員部署;用戶評論時間整體分布較為均勻,在上午9:00-10:00,中午12:00,14:00,晚上20:00出現小高峰。追評時間分布呈現鋸齒狀,但明顯可以看出,追評行為主要集中在早上8:00-10:00,及下午17:00以後。

3、評論影響及認同度分析

圖 14 評論認同投票數量

在京東的評論板塊中,對於評論有「舉報」「贊」「回復」三種操作,用戶在查看評論的同時,可以對評論內容進行操作反饋,這些反饋動作很具參考意義。如上圖所示,用戶對於 「差評」「貼圖評論」「追評」點贊的次數最多,而這類評論展示了更大量更具體的信息。具體評論內容不再列出。


四、客服&售後績效分析

1、客服應答時間分析

10、客服應答時間分析

如圖10所示,在去除響應時間48小時以上的4個異常值外,響應時間差集中在30小時內。從客服回復時間來看,每日早上9:00,下午15:00,晚上20:00是回復高峰期,與中差評出現的高峰期大致吻合(本次數據所有的客服回復均是針對中差評做出回復)。

圖 16 客服應答時間分布


2、客服應答質量分析

本次採集到客服回復共80條,出現頻次在6次以上的回復如下:

表格 7 客服應答內容(部分)

由客服應答內容可見,所有回復均是使用模板,且對具體涉及較少,存在較大提升空間。


五、競品分析

本次分析的競品為小熊YSH-A15W6養生壺,主要從概況(包括評價星級/評論等級佔比、用戶客戶端使用分布、用戶會員等級分布),產品質量問題兩方面簡要比較。

1、概況比較

1.1評價星級分布及等級佔比

表格 8 評論星級分布及等級佔比比較

圖 17 評論類型佔比比較

如上圖所示,兩者好評率差異較大,小熊養生壺好評率為75.97%,追評正面評價為79.54%,高於評論3.5個百分點;而東菱養生壺好評率95.79%,比小熊好評率高了約20個百分點,差異非常明顯。

1.2 用戶客戶端使用分布

圖 18 用戶客戶端使用佔比比較

小熊養生壺的Android客戶端用戶佔比低於東菱約5個百分點,iPhone客戶端用戶高於東菱約2個百分點,總體數據分布差異不大。從各客戶端的好評率來看,小熊Android客戶端用戶好評率高於iPhone客戶端用戶約5個百分點,比東菱的差異體現的更為明顯。

1.3 用戶會員等級分布

圖 19 用戶會員等級佔比比較

小熊用戶的PULS會員佔比僅34.96%,低於東菱18.6個百分點,金牌會員佔比相對的高於東菱8個百分點。小熊用戶PLUS會員的好評率為83.5%,高於整體水平7.5個百分點,同樣屬於各會員等級中好評率最高的等級。從各會員等級的好評率來看,小熊的PLUS會員好評率高於金牌會員13個百分點,差異明顯。


2、產品質量問題比較

2.1 產品問題概況

圖 20 一類問題概況比較

從用戶關注角度來看,小熊用戶最為關注產品的四個一類問題為功能設計、產品工藝、價格&性價比、外觀設計。相比於東菱養生壺,小熊養生壺用戶並不關注煮茶效果,反而價格&性價比關注程度躍居第三,這主要與小熊養生壺的功能設計有關(小熊養生壺設計了20個功能,用於煮茶的僅佔4個)。且直觀來看,小熊養生壺在功能設計和產品工藝方面的負面評價數量非常大,分別達到了273條和677條。

圖 21 二類問題點概況比較

如上圖所示,可以直觀的看出,小熊養生壺在產品工藝方面的各個二級分類都有較高的負面評論。且小熊用戶和東菱用戶關注的問題點既體現了相似性(如:做工/質量,材質,生鏽/斑點,操作性,功能設計,檔位/按鍵設計,保溫等),又體現了差異性(如:小熊養生壺關注頂蓋,電源線,異味,加熱功能;而東菱養生壺用戶則較多提及煮茶時間,煮茶效果等問題)。

表格 9 小熊養生壺負面評論數量&佔比一覽表

2.2負面評論比較

如上圖,負面評論數量大於10條且負面評論佔比在20%以上的二類問題共計25個,負面評論數量大於等於15條且負面評論佔比在20%以上的二類問題共計有17個,現僅對這17個問題作出分析。

圖 22 小熊養生壺負面評論數量(部分)

2.2.1產品工藝類

產品工藝一類有9個二類問題負面評論數量大於等於15條且負面評論佔比在20%以上。

材質&生鏽/斑點&燒焦 用戶對於材質主要的負面評價高達126條,負面佔比79.7%,高於東菱養生壺40.3%約40個百分點。另外,70條評論提到了生鏽問題;32條評論提到了燒焦問題。材質的負面評論主要體現在三個方面:

玻璃太薄,不鏽鋼質量太差;

壺底出現水垢或是發白髮黃;但如有涉及生鏽的字眼,則直接歸於生鏽/斑點這一類問題中,如涉及發黑/燒焦則直接歸於燒焦這一類問題中。這三類問題具有一定相關性,用戶在描述的過程中常一起提及。

用戶認為膠圈加熱產生有害物質,產品不能使用。這是小熊相比東菱養生壺多的一個問題點。具體評論內容不再展示。

做工/質量 在做工/質量方面,用戶產生的負面評價高達124條,負面佔比33.5%,東菱養生壺此項負面評論佔比僅為8.5%。大部分用戶直接給出評價「做工一般般」「做工粗糙」「質量不好」等字眼。

頂蓋&電源線&手柄 在產品細節方面,如頂蓋,電源線,手柄,負面評論佔比均高達95%左右,即:幾乎用戶提到的具體細節,都是問題所在。如:頂蓋太松,頂蓋蓋不嚴,太薄;電源線太短;手柄鬆動,手柄容易掉等。這些問題點在東菱養生壺上並未體現。

異味 異味問題負面佔比76.8%,負面評論數量43條。其中,21條評論明確表示是「塑料味」「膠味」,其餘評論則多提及「味很重」或是「不鏽鋼的」味道。

晃動 晃動問題也是東菱養生壺未提及的點,主要因為底座質量問題或是底座走線設計問題,29條提及該問題的評論均為負面評論,負面評論佔比100%。

2.2.2功能設計類

加熱 加熱的負面評論佔比接近50%,主要體現在兩個方面,加熱不均勻(即:一半加熱一半不加熱);加熱太慢。相對應東菱養生壺用戶主要用於煮茶的場景,東菱養生壺的煮茶時間負面評論只有2.9%,即97.1%的用戶認為東菱養生壺煮茶較快。

檔位/按鍵設計 檔位/按鍵設計是小熊養生壺的特色之一,然而對此設計,僅45.5%的用戶表示了滿意,其餘用戶均對按鍵設計表達了負面情緒,主要包括「觸屏按鍵經常不靈敏」「旋轉按鈕不好用」「按鈕做工不好等」。相應的東菱養生壺,可調節多個檔位的按鈕收穫了91.7%的好評。

2.2.3 價格&性價比類

小熊養生壺的價格的負面評論佔比為57.4%,東菱養生壺的價格負面評論佔比49.3%,二者用戶均體現了對價格的敏感性。

2.2.4 其他問題&外觀

小熊養生壺用戶提及較多的兩個其他類問題,分別是「溢出」「安全性」,16條評論提及小熊養生壺煮某些特定食材是會發生溢出,8條評論提及未拔插座的情況下底座漏電,存在安全隱患。關於茶壺大小的負面評論則主要是針對不同使用環境產生(如辦公室使用,家庭環境下使用)不同的需求。


小結:

本文有1萬字,能看到這裡要麼是非常認真看了長篇大論的廢話,要麼是直接略過中間一萬字。總之,感謝您的關注,文中如有不妥之處,請您直接私信我,一定積極改正。

版權聲明:本文為原創文章,深圳視界信息技術有限公司(八爪魚採集器)擁有完整版權,未經授權請勿轉載和抄襲。

如果你有任何問題和想法想和我交流,請在下面評論區留言。你也可以關注我的知乎與我互動:點擊前往關注「劉寶強的知乎」。同時歡迎你關注我的知乎專欄獲取新文章通知:點擊前往關注「小白的數據夢工廠」

推薦閱讀:

每周市場評述(2016.6.12)
安踏與耐克還有幾步之遙?
周評(16.4.24)
南方區域電力市場未來發展思考
2016年半年度報告

TAG:大數據 | 人工智慧 | 市場分析 |