從線上數據看2017年上海車展

2017年4月19日,汽車行業的年度盛事——上海車展在國家會展中心(上海)正式開幕。本次車展延續10天,至28日圓滿落幕。上海車展每兩年舉辦一次,和北京車展一樣,是全國頂級的車展活動,並正邁向世界A級車展行列。

本年度的上海車展有千餘家來自世界各地的汽車廠商參展,並吸引了大量的公眾和媒體關注。據官方統計,本年度的參觀人次達到101萬次,有萬餘名記者參與了車展的報導。

在移動互聯網背景下,對車展的參與也遠遠超出了會場的範疇。除了傳統媒體,互聯網媒體、自媒體等新媒體也紛紛參與到對車展的報導中;廣大網友也通過直播互動、論壇討論等方式間接地參與到車展中。新媒體和線上參與所涉及的人數之廣、互動之頻繁也超過了以現場參觀為主的傳統參與方式。在本文中,我們試圖從線上直播採集到的彈幕數據出發,來展現線上參與者對上海車展的期望與印象。

從線下到線上:自媒體和直播崛起,線上受眾遠超線下

除了傳統媒體在現場的報導,互聯網媒體紛紛發力,創建了自己的上海車展主頁。例如,百度推出「車展溫度計」,從百度指數角度反映車展期間的品牌熱度變化;汽車之家、新浪汽車等也推出上海車展專頁,提供信息查詢、新聞報導等服務。

但是,今年上海車展的最大變化來自於報導方式的變化:大量的自媒體和互聯網媒體開始通過以直播的方式實時帶領線上觀眾參觀車展,並和觀眾互動。我們統計了新興直播平台「一直播」下參與直播上海車展的主播,得到了綜合影響力前五的主播:

可以看到,排名第5的主播1天觀看人次就超過車展現場10天的總參觀人數,更不用提排名第一的王兮兮主播高達900萬(3天)的觀看人次。而一直播只是目前國內的主流直播平台之一,由此可見自媒體和直播在本次車展中的影響力之大

此外,我們也研究了「上海車展」百度搜索用戶的畫像。從搜索需求來看,大部分搜索用戶以「時間」、「門票」、「官方網站」等為搜索需求;因而可以認為,「上海車展」的百度搜索用戶基本上代表了線下觀眾或者有意去上海本地參加車展的觀眾。另外,我們以汽車之家對上海車展的直播報導的觀眾作為線上觀眾的代表,來比較線下和線上觀眾的畫像。下圖分別展示了「上海車展」百度搜索用戶的地域分布及汽車之家直播觀眾的地域分布:

可以看到,有意到現場參與上海車展的群眾主要分布在上海本地和周邊的江蘇、浙江兩地,江浙滬三地的群眾構成了上海車展現場觀眾的主力;在這三地之外,只有北京和廣東有較高的分布,其他省份的群眾非常少。而視頻直播的輻射範圍則要廣得多,幾乎全國各省份都有一定程度的涵蓋,而其中以廣東、山東、江蘇、雲南等省份居多。由此看見,通過互聯網和直播,上海車展的受眾得到了極大的拓展

國別和類型:國產車佔據半壁江山,SUV超越傳統轎車

汽車之家也在19日、20日兩天對上海車展做了直播報導,主持人帶領觀眾對主要的參展車輛都進行了較細緻的介紹和鏡頭展示,總觀看人次達到158萬,彈幕總量達到30萬。我們爬取了這場直播所有的彈幕,並通過對這些彈幕進行文本挖掘,通過計算不同國別、類別下的車型的提及次數,得出不同國別、類型的關注熱度。

首先是不同國別下的品牌關注總數:

可以看到,國產自主品牌的總提及數佔到所有參展品牌的一半以上,體現了國產自主品牌在近年來的逐步崛起。排在其後的是日本、德國、美國三大汽車生產國。而韓系車可能由於受到薩德事件的影響,提及數在本次車展中墊底,不僅遠不如日德美這些競爭對手,甚至也比不過瑞典、捷克等國。

轎車和SUV是本次車展的絕對主力,佔到提及總數的90%以上。下圖展示了不同大小類型下的轎車和SUV的提及總數:

可以看到,近年來大受歡迎的SUV在本次車展上的關注度已經超越經典轎車了,尤其是在中型、緊湊型等型號上的關注度與傳統轎車相比優勢十分明顯,可見SUV成長速度之快和受歡迎的程度之深。其中,首次亮相/上市的幾款SUV更是獲得了熱烈關注,預示著今後SUV仍是大熱。

最受關注品牌與車型:領克01和WEY VV7競爭首席新車

同樣基於對彈幕數據的文本挖掘,我們提煉出觀眾對於各個參展品牌和車型的提及次數,並製作出最受關注品牌和車型榜單。

首先是提及次數最高的品牌前20名:

可以看到,排名最靠前的品牌是哈弗。哈弗是國內廠商長城旗下的品牌,其下的哈弗H6曾締造了銷量奇蹟。第二是本田,除了本田已有的車型外,新款的本田CR-V也在本次車展格外得人眼球。第三和第四都是全新的品牌:領克是吉利汽車新推出的高端緊湊型SUV,領克01在本次車展中首次亮相;而WEY則是長城新推出的品牌,WEY VV7在本次車展中正式上市。

在對車型的排名中,我們區分了已經上市/發布的車型和在本次車展中首次亮相/上市的車型。下圖為已經上市/正式發布的車型提及最高的TOP10:

其中,廣汽傳祺GS7位列已經上市/發布的車型中的第一位,跟在其後的是五菱寶駿310和大眾CC。即便是對於已經上市/發布的車型,直播觀眾也更喜歡提及發布不久(如:廣汽傳祺GS7,2017年)和上市不久(如:大眾CC,最近一款為2016款)的較新的車型。

下圖為本次車展首發車型(首次亮相/上市)的提及次數排名前十:

最突出的是,領克01、WEY VV7和新本田CR-V以4000次以上的提及次數位列新車型前三甲。領克01和WEY VV7的領先,展現了這兩款分別由吉利和長城力推的主打中高檔價位的SUV在本次車展中獲得了巨大的關注。緊接其後的新本田CR-V和新別克君威作為之前就廣受歡迎的車型的改進版,也獲得了較高的關注度。

新車印象:總體不錯,便宜、豪華、安全等成為關鍵詞

在車展上首次推出的車型往往引發汽車愛好者對於該車型的大量討論,觀眾對於首次亮相的印象也往往對該車型日後的銷量有所影響。我們爬取了上述最受關注的5款首發車型(領克01,WEY VV7,新本田CR-V,新別克君威,阿爾法羅密歐Stelvio)的汽車論壇在車展期間的所有評論,並針對每一條評論使用TF-IDF演算法提取詞性為形容詞的關鍵詞,並以此為基礎,總結線上車友對這些車型的第一印象。

在剔除掉和車本身無關的形容詞後,在對這五款車的評論中,較多地使用了以下詞語:

可以看到,車友對於這五款車的評價大多為正面:除了「一般」這一中性詞外,其他使用頻率較高的均為正面詞,例如「便宜」、『豪華』、「舒適」、「安全」等。其中,「不錯」一詞使用頻次最高,成為車友最常用的評價詞。為了進一步了解這五款新車在不同方面的印象,我們將詞語劃分為「總體」、「價格」、「外觀/設計」、「性能」等四類。

下圖展示了被劃分為「總體」類型的詞語的佔比:

在對這些車型的整體評價上,「不錯」一詞佔到了73%;其後的是「厲害」、「完美」、「誠意」等更為正面的詞語。而「及格」這一負面詞的評論不足0.1%。

其次是關於「價格」、「外觀/設計」和「性能」三方面的詞語的提及佔比:

在價格上,「便宜」以79%的絕對優勢位列第一。這說明,即使是在有兩款定位較高的車型(WEY VV7和領克01)在內的情況下,大多數車友仍然認為這幾款車較為便宜。另外,在外觀和設計上,「豪華」一詞以44%的佔比位列第一,而「豪華」的評論主要由領克01和WEY VV7兩款車的論壇評論貢獻,反映了近年來國產品牌越來越追求品牌的升級。「豪華」與「便宜」同在,反映了這兩款車在中端的品牌定位和相對合適的市場價格上取得了較好的平衡。最後,在性能上,「安全」以近半數的佔比位列第一,「舒適」和「舒服」也獲得了較多的提及,「穩定」位列第三。

新車展望:領克01和WEY VV7互打擂台,CR-V最受日系車迷關注

為了對新車日後的發展做進一步的展望,我們通過挖掘不同車型之間的關聯規則來探索幾款新車的活力。在關聯分析中,常用的兩個指標為支持度計數(support count)和置信度(confidence)。以經典的「啤酒、尿布」關聯的例子為例,「啤酒、尿布」這一集合的支持度計數是指同時購買「啤酒」和「尿布」的人的數量;而「啤酒、尿布」的置信度是指同時購買「啤酒」和「尿布」的人數和只購買「啤酒」的人數的比率(註:和統計上假設檢驗的「置信區間」並不相同)。支持度計數反映「啤酒、尿布」同時出現的絕對次數;而置信度剔除了「啤酒」本身的頻次影響,反映購買「啤酒」的行為對購買「尿布」行為的預測強度。同時具備一定的支持度計數和置信度的集合中的項被認為具備較強的關聯性。

在彈幕數據中,我們將某個用戶所發彈幕中提及的所有車型視為一個待挖掘的集合。我們選取了三款關注量最高的車型(領克01,WEY VV7,新本田CR-V),並使用Relim演算法找到了這些新車的頻繁項集(最低支持度計數定為5,最低置信度定為0.05)。於某一款新車而言,如果存在較多的頻繁項集,則意味著其他車的車迷也更多地關注這款車;這種普遍的關注,說明了這款車跨品牌、跨車型的吸引力,也會在一定程度上轉化為更廣泛的購買行為

對於領克01而言,我們找到了21個頻繁項集:

也就是說,圖中除領克本身以外的21款車型的車迷都比較頻繁地關注領克01。這意味著,領克01對眾多的品牌、車系的車迷都有較強的吸引力,彰顯出極強的活力。其中,同時關注WEY VV7和領克01的人數最多,支持度排到第一。另外,「領克01 + WEY VV7 + 其他車型」 也成為一種範式,這意味著其他車型的關注者也較多地同時關注領克01和WEY VV7,體現了二者的高度競爭性

下圖展示了和領克01有較強關聯的車型的支持度計數(橫軸)和置信度(縱軸),點的大小代表了該款車關注人數的多寡:

WEY VV7對領克01的支持度計數達到180,置信度也達到14.4%。這意味著有180位發彈幕的車友同時關注WEY VV7和領克01,而這一數字佔到WEY VV7總關注人數的14%以上,進一步說明了二者的競爭性。「WEY VV7 + X」的範式具備超高的置信度(> 30%),體現了這一範式對領克01的關注者的高預測性。其他的車型的支持度計數大多介於5到30之間,置信度大多介於0.05之0.2之間。

對於WEY VV7,我們找到了19個頻繁項集:

雖然稍遜於領克01,跟WEY VV7有較高關聯的車型也呈現出百花齊放的特點,體現了其跨品牌、跨車型的強大吸引力。WEY VV7和領克01互為鏡像:領克01也成為對WEY VV7支持度最高的車型;「WEY VV7 + 領克01 + 其他車型」 的範式對WEY VV7也成立。

有關車型的支持度、置信度分布如下:

領克01對WEY VV7的支持度計數也為180,置信度達到16.8%。除海馬V70外,對WEY VV7置信度最高的也是「領克01+X」的項集,印證了二者的高度重合性和競爭性。

領克01和WEY VV7不僅擁有相似數目的頻繁項集(21 vs. 19),和這兩款車關聯度較高的車型重合度也很高(12款車型重合),說明了這兩款車的潛在消費者十分類似。而且兩款車互相之間的支持度和置信度也較高,說明了很多車友同時關注這兩款車,購買時可能從中選擇一款更中意的。

最後,第三款新車——新本田CR-V有18個頻繁項集:

可以看到,在和新本田CR-V有強關聯的車型中,豐田、本田、馬自達等日系品牌佔到6席,佔比約三分之一。這說明了,新款本田CR-V最受日系車迷的關注,日系車友也更有希望成為新本田CR-V的消費者。從具體數值來看,支持度計數達到10以上、置信度達到0.1以上的強關聯車型有豐田凱美瑞和豐田漢蘭達兩款,均為豐田品牌。從整體來看,新本田CR-V主要吸引日系車友,跨品牌和跨車型的活力遜於領克01和WEY VV7兩款明星車。

總結

4月份的上海車展不僅吸引了大量的公眾和媒體到現場參觀,也吸引了數量更為龐大的線上觀眾通過直播、論壇討論等方式參與到上海車展中。

對於本次車展,自媒體和直播的影響力巨大,觀看直播的觀眾遠遠超過到現場參觀的公眾,在地域上的分布也更為廣泛。從線上數據來看,網路觀眾對國產品牌的提及量約佔到總提及量的一半,對SUV的關注熱度超越了傳統轎車。就具體的品牌和車型來看,哈弗和本田獲得的關注度最高;在首發車型中,領克01、WEY VV7和新本田CR-V位列前三甲。在車展期間,車友們對於關注度最高的五款首發車型的評價都較為正面,「不錯」、「便宜」、「安全」、「漂亮」等詞成為共用的頻繁詞。從不同車型之間的關聯性上來看,WEY VV7和領克01之間體現出極高的相互競爭性,而第三名新本田CR-V則最受日系車迷偏愛。

文:@陶鏖

可視化支持: wentu.io

更多文章關注: 數據冰山 - 知乎專欄

推薦閱讀:

大數據真能預測流感疾病爆發嗎
大數據學習計劃
關於大數據的思考
平均每50個地球人中就1位來自雙11剁手大軍

TAG:汽车 | 车展 | 大数据 |