讓大數據消滅糾紛,別把你消費時受的氣帶回家
文/陳瑤
作為消費者,當遇到消費糾紛時,你會怎麼做?向工商部門投訴是常見做法之一。對工商部門而言,每一年都會積累大量來自消費者的投訴維權數據。如何才能更有效地對這些數據進行分析處理、進而更好地服務於消費者呢?
12月6日的線上數據俠實驗室·SODA專場中,2017年上海開放數據創新應用大賽(SODA)優秀獎團隊——「數決科技與數說故事」的隊長陳瑤副教授,為我們分享了基於消費維權大數據的創新應用。
用數據分析來輔助工商部門搞定「痛點」
在生活中,如果大家有過消費維權經歷,應該知道可以撥打12315或者12345市民熱線向工商局進行舉報。而對工商部門來說,維權、投訴這塊累積的數據量還是挺大的。
僅以上海市為例,工商部門2016年承辦的12315投訴總量就有11.2萬條,且每年以30%速度增長。這些大量的數據都是以非結構化的文本數據的形式來呈現的。
我們對上海市工商局消保處進行了三次實地調研,了解到有四個方面的主要需求:
1. 優化和改進現有的投訴舉報相關的業務流程和系統。
2. 累積的大量投訴案例數據,需要進行文本深入挖掘分析,達到精準監管目的。
3. 投訴量上升趨勢明顯,工作量大,需要提供智能輔助工具降低人工管理壓力。
4. 不僅需要被動接受消費者投訴,更需要整合大量外部數據,主動監控市場熱點、防範風險。
我們的參賽項目,將重點放在解決管理部門的這些痛點。項目結合了管理中的實際現狀、同時做了一些探索。
在數據方面,上海市工商局提供了2015、2016年的大量投訴舉報的數據,另外我們也通過合作夥伴數說故事公司獲得了一些持續採集的、海量的互聯網輿情和新聞的數據。
解決思路:打造一個整合的信息系統
如何才能幫助工商部門解決痛點呢?首先需要說明的是,我們這次參加SODA大賽,其實並不是開發了一個全新的平台,而是在現有的信息系統的基礎上,給出了一個產品的原型。未來如果要具體展開應用,還是需要結合現有的信息系統做再次開發的。
在這個原型產品中,我們藉助自然語言學習、機器學習、運營優化領域的專利技術等,實現了一些功能。包括智能識別職業打假、智能識別相關案件、智能行業分類、基於大數據的群體事件輿情監控、基於大數據的重點對象輿情實時監控、各級人員的運營調度優化等等。
(圖片說明:數決科技團隊「消費維權大數據智能管理平台」新業務流程圖)
文本數據可視化只是為了數據的展示,幫助我們了解現狀是什麼、問題在哪裡?另外還有一個很重要的方面是利用現有的這些數據,我們能否做一些工具,來提高今後的管理、決策的效率。這也是我們這個團隊想要達到的目的。
雖然我們的項目名稱叫做大數據平台,但事實上這個平台的最大特色應該是在決策模型上。因為在展示完數據後,需要做決策,而決策是需要建模的。這也是我們團隊在重點研究的方向。
典型功能一:識別歷史資料庫中的相關投訴
下面我重點介紹我們平台中可實現的部分功能。
第一個功能所要解決的是日常每天都會發生的事情,當工商部門接到一起投訴,需要用文字記錄下來,有需要從歷史資料庫中尋找這起事件是否多次發生,因為我們知道,如果累計發生多次,可能會釀成較大的社會問題、群體事件。我們需要做的功能就是把自然語言處理的聚類模型應用在這個場景裡邊。
這個場景基本上是這樣:當你有一個新的案例錄入成文字,需要在現有的案例庫中去建模和這個新的文本進行對比。
這其中,我們需要通過模型來識別一詞多義的現象,因為可能會有不同的錄入員工,每個人使用的措辭會不一樣,其實這些詞是同義詞,因此我們需要將這些詞識別出來。而在找到了相關的案例之後,我們需要對相關性進行排序。
當文本輸入之後,我們可以通過相似度查看最相關的一些歷史案件。我們劃定了一個閥值,如果相似度達到了0.6,就意味著達到了高相似度。
比如,上圖中的例子中,相關的案件達到了18件,就意味著這樣的事件已經發生多次。對於主管部門來說,可能就要引起重視了。是不是這家企業在經營當中的問題?是否需要重點關注、預防大型群體事件發生?
典型功能二:識別職業打假人
另一個主要開發的功能是關於職業打假。
這項功能是基於現實的一些情況,同時我們也看到了一些新聞報道,我們也想知道這十幾萬條數據中有多少人是真正的消費者投訴、有多少是職業打假人。
為此,我們做了一個模型來嘗試能否將這些人找出來。只要一輸入投訴案例的文本,就會和我們建好的職業打假模型相匹配,從而可以識別職業打假人。
典型功能三:基於外部輿情提前做消費風險提示
第三個主要功能是通過外部的數據源來做輿情的相關監控。就是對某家企業的輿情進行監控。
如果某家企業在互聯網上負面評價較多,從工商部門角度來看,其實也可以提前預防、對消費者進行一些消費風險提示。
這裡我們可以通過自助餐品牌金錢豹歇業事件來做具體觀察。通過輿情數據,我們看到,這個事件早在2016年就已經開始發酵。
當時就已經有全國各地不少消費者為此進行投訴,包括一些媒體的報道,只是並沒有達到群體事件的閥值,沒能引起太多重視。
我們回溯了過去一年中沉澱下來的數據,這些數據來自於新聞、微博、微信公眾號、論壇等,關鍵詞為「金錢豹」(排除動物園傷人事件相關的),最後是獲取到了788條相關數據。
我們發現,在歇業事件的前一年時間裡,新聞媒體上已經陸陸續續有了一些報道。
可以假設,如果工商部門可以提前看到全國的輿情數據,是可以做關於事件的提前監控的。比如,通過在平台上輸入一些關鍵詞來建立實時數據的引擎,主動設置一些預警點等。就如在金錢豹事件中,如果能夠提前向消費者提示充值交費的風險,是可以做得更好的。
另外一個例子是攜程。
我們看到,攜程相關的機票投訴案件有18件,通過詞雲也可以顯示出來企業在網上的口碑情況等。對工商部門來說,這對於第一時間了解企業的網路形象是有幫助的,可以了解到企業的聲量、相關評論的情緒變化、詞語熱詞等。還可以看到投訴人的地域分布、討論該話題的人群等。
項目價值:幫主管部門提升管理決策效率,從而服務消費者
從產品的角度看我們的項目,我覺得其最大價值在於能夠通過這些工具、演算法幫助各級工商主管部門進行分析統計、提升管理決策監管的效果。
而從更大的方面說,如果市場監管人員能夠提升效率,對廣大的消費者也是好事。工商部門可以更快速地幫你解決問題,甚至你還沒有進行投訴,你在網上發的一條評論都可以被採集、進而反饋給主管部門。你的評論也許可以反映行業中遇到的某個典型問題、及時發現並去解決問題,這對於改善消費環境、保護消費者權益有很大的作用。
我們每個人都是消費者,如果能夠提升政府部門的效率,每個人都會受益。現在有很多投訴、反饋的數據其實是被淹沒了,如果能夠通過一個好的平台得到挖掘、體現,那就是有意義的。
註:以上內容根據陳瑤在線上數據俠實驗室的演講實錄整理,文字有刪節,文中圖片均來自作者分享現場PPT,已經本人審閱。點擊「閱讀原文」,獲取作者直播回放。本文僅為作者觀點,不代表DT財經立場。
編輯 | 胡世龍 : hushilong@dtcj.com
期待更多數據俠乾貨分享、話題討論、福利發放?在公眾號DT數據俠(ID:DTdatahero)後台回復「數據社群」,可申請加入DT數據社群。
數據俠門派
本文數據俠陳瑤,數決科技項目總監。2017年SODA大賽優秀獎團隊隊長。上海對外經貿大學副教授,同濟大學博士,上海交通大學博士後。專長領域為運營管理、大數據分析、優化模型、自然語言處理等。
加入數據俠
「數據俠計劃」是由第一財經旗下DT財經發起的數據社群,包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟,旨在聚集大數據領域精英,共同挖掘數據價值。了解數據俠計劃詳情請關注DT數據俠回復「數據俠計劃」,投稿、合作請聯繫datahero@dtcj.com。
推薦閱讀:
※Kaggle數據分析實踐——優秀員工為何離職
※Larry 怒懟 亞馬遜
※用Python進行梯度提升演算法的參數調整
※大數據是回事么?(2016年最新大數據公司全局圖)
※哪些蘋果用戶還會購買下一代產品?讓機器學習帶你精準定位