知識圖譜如何助力輿情監控升級為商業智能
隨著互聯網技術的發展和信息時代的到來,輿情監控已成為眾多大企業和大品牌的普遍需求。及時獲取網上與企業和產品相關的各種正負面消息,分析出裡面的熱點主題,指導市場和公關部門去做相應的處理,對企業有著重要的意義。那麼,輿情監控技術上如何實現,當前存在哪些未解決的問題,最新的知識圖譜等人工智慧技術如何助力輿情監控,這些技術的利用又將給企業帶來哪些超越輿情監控自身的新的業務工具和方法?本文將進行簡單的介紹。
一、什麼是輿情監控
商業場景的輿情監控,一般指對互聯網海量信息進行自動抓取,自動分類聚類,主題檢測和專題聚焦,以實現企業客戶的網路輿情監測和新聞專題追蹤等信息需求,形成簡報、報告和圖表等分析結果,為企業客戶全面掌握網上言論動態,做出正確輿論引導,提供分析依據。輿情監控的主要目標包括企業自身、企業領導、企業產品品牌、上下游企業等。
每天都有上億人在網上生產各種內容,無論是專業的新聞編輯還是普通的社交網路用戶。這些內容對企業存在商業價值,因此需要及時的收集、存儲和分析。這裡面現在企業最關注的,一般是突發的負面內容,無論是新聞媒體記者的揭露批評,還是用戶在社交網路中投訴然後快速傳播,都可能會給企業帶來致命的負面作用。因此,輿情監控對大企業和大品牌特別重要,有較大的市場,甚至有體量巨大的上市公司,專門從事幫助客戶進行輿情監控和引導公關等服務。
二、輿情監控的技術原理
輿情監控系統的工作基本分為三步:
(1)使用爬蟲系統將網上信息下載存儲到本地;
(2)對信息開展分類聚類和主題檢測等分析計算;
(3)選出客戶需要或者可能會感興趣的內容,以一定的形式進行推送。
每一步都已經有不少成熟的技術方法或者開源軟體來支撐實現。
爬蟲系統獲取網上信息,主要面臨如何用有限的帶寬和時間,去儘可能多的從無窮盡的互聯網信息海洋中抓取有價值的目標信息的問題。一般有幾種方法:開發通用爬蟲,在預定義的網上範圍中順著網頁之間的超鏈接關係自動下載網頁;開發元搜索爬蟲,從現有搜索引擎的數據中,過濾和篩選相關的內容,藉助於別人的力量來抓取數據;開發定向主題爬蟲,使用某些網頁集合(例如元搜索的結果)作為種子,通過演算法預判新得到的超鏈接中哪些更有可能指向目標信息,優先下載。
對網頁信息進行分類、聚類、主題檢測、專題聚焦的技術比較成熟。在常見類別目錄下進行文本分類,例如按照屬於軍事、政治還是體育等主題進行分類,由於存在大量的語料,技術較為成熟;對網頁進行聚類則有多種可選的方法,後綴樹聚類以及最普通的K-Means聚類、層次聚類,實際中都有不錯的效果;主題監測則有LDA及其變種等成熟演算法,確保相關的熱詞以及對應的信息被分門別類的展現。
在信息推送上,多數客戶只關注與企業和品牌的正負面相關的內容,因此輿情監控的結果表現形式,大量使用圖表和報告等簡單方式呈現,讓客戶一眼看懂,實現起來沒有太大的技術挑戰。
三、輿情監控當前未解決的問題
雖然輿情監控的概念在十五年前就已經被提出,而且這些年內有成千上萬的公司投身這一領域,但在這個環節始終沒有相應的巨頭出現,市面上的輿情監控軟體系統也多大同小異。而且,在很多企業客戶看來,其效果有如雞肋,給客戶帶來的幫助並沒有想像的那麼大。
究其原因,筆者認為,主要與現有的輿情監控系統沒有較好解決以下三個方面的技術問題有關:
(1) 系統對業務知識建模的能力不足。幾乎所有輿情系統都還在使用關鍵詞加布爾邏輯組合的方式來描述客戶的意圖,就是將客戶關注目標用一個關鍵詞列表描述,需要細化則用AND和NOT等布爾邏輯約束一下。這種方法顯然無法精準表示企業客戶的大多數業務需求,例如「競爭對手收購了哪些企業」,「主管部門針對我的上遊行業發布了哪些政策」,等等。因此輿情系統雖然能統計出熱點主題,但是無法針對業務進一步深入細究。
(2) 系統對文本語義理解的粒度不足。知識建模的能力不足進一步導致了輿情系統對文本語義理解的粒度不夠。例如,即便在輿情系統最應該做好的正負面文本情感分類上,效果也不佳。例如,幾乎所有系統都只能對新聞文本做整體的情感打分,而無法處理新聞中經常同時提及多家公司目標的情況,進而無法識別對提到的每一家公司的不同情感類別;又例如,電商網站用戶提交一條投訴後,無法從商品的功能屬性維度來自動區分他是對產品哪一點不滿意。
(3) 系統的邏輯推理與預測能力缺乏。毋庸置疑輿情系統能夠抓取到與客戶相關的足夠信息,但由於信息的爆炸,客戶看不過來,通常要篩選和排序後顯示重要的部分。但是,除了新聞內容自身,很多客戶還希望看到,該信息中報道的事件會如何直接影響企業,又會帶來哪些間接的影響。這是現有的輿情系統很難做到的。例如美國總統川普提出的關稅政策是否會影響我,有哪些影響,等等。現有方法只是拿關鍵詞去匹配信息,但無法理解信息的語義,因此也就談不上針對企業的業務需求去做推理與預測。
這些問題,導致輿情系統在很多客戶看來,雖然能從網上抓取很多信息,但很多時候不能直接解決業務需求,因此輿情系統也就劃歸那種偶爾會緊急、但平時不覺得重要也不願意去多關注的工作。
四、知識圖譜如何助力輿情監控
知識圖譜是一種高級的語義建模和計算方法,它能對海量的語義目標進行定義、匹配和推理。在商業輿情監控的場景下,待分析監測的輿情目標,例如企業、品牌、型號、人物、原料、輔料、產品、經銷商、上游企業、下游企業、競爭對手、產品屬性、展會、股東、招標信息、投標結果等與商業情報相關的概念,都以知識圖譜中點的形式存在,而它們之間的關係,例如人物擔任企業職位,股東投資上游企業,則以知識圖譜中邊的形式存在。用知識圖譜與爬蟲系統採集得到的信息相匹配,可以直接針對企業客戶的業務需求中的任何分析意圖,進行細粒度的語義理解。
知識圖譜對輿情監控而言有兩方面的重要意義:
(1)在語義的表示上,已經從傳統的關鍵詞詞袋模式,上升為更立體的語義網模式,使得客戶關注的任何目標,都能包容到模型中,而機器學習演算法可以基於人工定義,進一步自學習擴展,找到更多知識點,如找到更多的競爭對手企業和上下游企業;
(2)在知識的推理上,由於大量的知識點及其關係已經被清晰的表示和定義,可以通過計算機自動發現知識點之間隱藏的關係,例如從海量的文本中挖掘「人物在企業擔任職位」,或者基於已有的關係網路進行推理,預測某些知識點之間是否存在人工未曾列出的關係。這種推理基於人工定義的知識體系架構,是一種可解釋的智能方式,因此在實踐中效果更好。
用知識圖譜來提高輿情監控的能力,是典型的「小知識+大數據=大知識」這一模式的探索。即,將少數專家的經驗知識以一定的邏輯形式(如三元組)表示後,用大數據來訓練和發現那些專家未曾定義的知識,進而形成全面的知識結構。這種方式由於不需要開展大量的語料標註(如為成千上萬個知識點中的每一個都標註足夠的案例),因而可以避開冷啟動問題,實踐中較好的落地。
五、知識圖譜能帶來哪些方面的商業智能
利用知識圖譜技術,可以將商業信息分析提高到一個新的水平,因此所帶來的價值也超過了輿情監控這個層面,它能為企業帶來更多的全方位的商業智能。在今後的幾年中,基於知識圖譜和人工智慧技術,以下幾個方面將出現全新的工具和方法:
- 智能生產:建立產品、原料、輔料、上下游企業的知識圖譜後,將能了解消費者對企業所產商品和服務的細粒度口碑情況;分析他們的使用反饋,結合消費者的個人屬性,為不同的人群打造不同的產品,可以實現C2M;除此之外,還可以從網上信息中分析出下游需求的變化(例如從大面積的嚴重內澇這一報道,分析出汽車浸水情況增加,進而引發相關部件和車險需求變化),上游原料和中間件的供給與價格變化(例如從貿易戰導致的玉米進口大幅減少,分析出玉米供給將短缺,進而國內玉米價格上升,豬飼料價格上漲,豬肉價格上漲,以及其它關聯反應),等等。這將為企業根據市場情況按需生產,及時調整轉向,提供關鍵的數據支撐。
- 智能營銷:企業開展營銷是為了去觸達和影響產品的消費人群。可以從人物和產品相關的數百個維度來建立知識圖譜,從數據中分析具有某些特徵的人群會有相應的潛在購買意願,或對相關的產品品牌存在何種情感傾向,進而精準的投放廣告或者開展內容營銷,影響他們的看法。這可以基於從社交網路、論壇、電商採集數據,然後與企業內部的私有用戶數據(如CRM)打通,再結合知識圖譜技術來實現。企業將能全面深度了解用戶想法,無論是在她們進店的一瞬間知道個人的喜好,還是從更宏觀的層面去影響大量特定人群的看法。下圖以「眼藥水」為例展示了我們如何建立消費者洞察的知識圖譜,它能幫助企業客戶從網上廣泛搜集用戶的聲音,分析用戶對商品服務在每一個維度的口碑,並與競爭對手的商品口碑做全方位的比較。
- 智能客服:現有的客服系統,大多還停留在將已有的人工客服整理成機器可以搜索的QA形式,針對用戶的提問來返回最近似的答案,即搜索語義上與預先設置的內容最近似的問題和答案。知識圖譜技術的使用,將超越這個層次,它將使得客服系統具備領域內的專家智能,例如知道每一種產品的規格、適用人群、特性等,能夠智能的回答用戶提出的問題;在用戶提出開放式的問題之後,還能主動引導人機會話,了解用戶的意圖然後指導用戶直接在線辦理業務。
- 智能運營:企業運營是管理部門最重要的工作之一,讓不同部門和崗位的員工按照戰略戰術按部就班推進,避免計劃外的風險,這將可以通過知識圖譜和人工智慧來解決。例如,門店和網店場景,營業員的所有操作、與顧客的對話,將可以錄音上傳至總部;工人、巡檢員在車間或工地現場面臨的具體情況,藉助於語音或是更高級的可穿戴設備上傳至總部;銷售業務員與客戶的溝通記錄,地理位置等,也可以上傳至總部。總部獲得這些數據之後,使用基於現有管理經驗打造的知識圖譜,對數據進行深度分析,將語音轉文本之後,檢查店員、工人、銷售是否在按照正確的方式開展工作,例如店員是否對顧客的相應諮詢進行了規定的商品推薦,工人是否遵照總部發出的指令再進行處理並是否與儀器操作日誌相吻合,等等。
六、我們的知識圖譜工作
南京網感至察信息科技有限公司是一家以自主研發的TML認知計算平台為核心技術的高科技公司,在過去三年為各類客戶和合作夥伴輸出了知識圖譜建設、知識推理和數據洞察等能力,包括 :
(1) 從文本中抽取成千上萬個知識點建立知識圖譜,完成對新聞文檔、電商評論、裁判文書、電子病歷、財報公告等文檔的深度語義理解;
(2) 基於所積累的數十個行業場景的業務知識圖譜,幫助建立對海量非結構化和半結構化業務數據的深度洞察;
(3) 在各垂直領域內基於知識圖譜和歷史案例庫建立智能預診、智能預判等邏輯推理和預測能力,幫助打造行業人工智慧應用;
在商業情報和輿情監控領域,網感至察基於領先的知識圖譜和認知計算技術推出了消費者洞察和智能會員服務等系列解決方案;並同時為司法公安、醫藥醫療、金融保險、智能製造和零售快銷等多個行業的客戶和合作夥伴賦能,輸出技術能力,幫助他們一起打造落地實用的企業級人工智慧。
推薦閱讀:
※為什麼知識圖譜終於火了?|甲子光年
※知識圖譜數據構建的「硬骨頭」,阿里工程師如何拿下?
※【讀論文】Trans系列知識表示學習方法梳理
※如何用知識圖譜識別欺詐行為