Twitter 和 Facebook 向新聞機構和營銷者提供監控時事輿情的工具是如何實現的?對國內有何啟示?
…Facebook推出兩款新搜索工具,向新聞機構和營銷人員提供更方便的熱門話題實時監測服務。這些熱門話題可以是與電視節目、重大新聞和體育賽事有關。在其中一款新搜索工具的幫助下,新聞機構可以使用例如「敘利亞投票」或「東京奧運會」的關鍵字,用於搜索Facebook的個人或公司就這些話題所發表的言論。另一款搜索工具也可以用於搜索Facebook的私人內容,不過搜索返回的結果都是聚合型的和匿名的信息,比如地理位置、性別、年齡等。 via http://tech.qq.com/a/20130910/001198.htm
首先這個問題不是很理解,什麼叫工具如何實現的?是想問具體的內部演算法還是什麼?內部演算法的話就是搜索引擎原理吧。啥叫有什麼啟示?他們做我們也做唄,他們twitterfacebook我們就新浪微博。
1、Twitter、Facebook上的一些消息,因為其數量巨大,對於自然語言處理和輿情監測來說,是不可多得寶貴資料。而且對於當前很多基於統計機器學習的信息處理來說,必須要有足夠大的數據量,才能得到可信的結果。
用於科研,我們可以收集足夠多樣化的數據,進行一些語言學、人工智慧方面的實驗;用於政府,可以實時監測社會熱點話題;用於企業,可以實時獲取用戶對某一特定產品的看法。
2、Twitter Facebook不是公開網站。雖然對於Twitter你可以公開閱讀大部分的內容,但是要想獲得完整的信息,比如包含某特定關鍵字的信息,基本上是不可能通過網路爬蟲來獲得(1、數量太巨大,2、爬得太多可能會被ban)。搜索包含特定關鍵字的信息,必須要由內部來提供。
3、比如Twitter當前有Search API(https://dev.twitter.com/docs/using-search),可以讓你指定一些關鍵字,然後給你返回所有最近發布的相關tweets。這個首先只能返回最近一兩周的,其次有諸多限制(比如每15分鐘只能有180次這樣的請求)。因此如果需要抓到完整的足夠多的信息,現有的Search API無法滿足。(facebook不太清楚,但私人的東西肯定不會隨便讓你輕易得到)
4、因此Twitter現在認為,這個東西不能讓你輕易得到,但是又價值巨大,拿出來賣應該有人買。於是就賣了。實現機制來說,應該類似於搜索引擎,內部對所有的tweets建索引,然後接受關鍵字查詢。
Facebook的東西,應該就更個人化,而且最近一年花了大力氣搞了個Graph Search,基於人際關係、地點、事件等的搜索,可以更智能的抓到更具有意義的信息。比twitter的信息顯然更有價值,當然因為隱私問題,只能匿名聚合之後拿出來賣;即使這樣,仍然也是非常寶貴的財富。詳情可以參見這一系列文章: https://www.facebook.com/notes/facebook-engineering/under-the-hood-building-graph-search-beta/10151240856103920
5、國內有什麼啟示?
5.1 國內做,首先要老老實實盯著政策,稍不小心就越軌了,侵犯個人隱私,甚至政治不正確,泄露國家機密什麼的,抓你沒商量,一定要做前好好搞清楚,法律諮詢上面的錢不能省!
5.2 前期還要知道這些信息是否可得?新浪微博是否提供這樣的API不清楚,但我猜測應該會跟Twitter一樣,不會免費輕鬆地讓你獲得完整的你想要的信息。需要內部信息整理加工後有償出售。
5.3 得到這樣的信息之後,隨便找幾個學自然語言處理的孩子,就可以幹活了。輿情監測也好,對一個產品的喜好也好,都有現成的演算法可以部署在上面。但我們這行信奉 Garbage in, garbage out,就是演算法再好,你給我的數據、信息是沒用的,也很難得到好的結果。中國有。政府在做。外包給某國企了。具體不能說。因為我的回答他們也能看到。所以在網上少說話,多看。個大門戶網,微博,微信,qq群,都監控。站長們應該沒少接到刪帖電話,也應該沒少喝茶。
推薦閱讀:
※《社交網路》中,扎克伯格的合伙人愛德華的股票到底是如何被稀釋的?
※Facebook IPO 不久,股價就跌破 20 美元,投資者主要擔憂什麼?
※為什麼扎克伯格說中文讓大家驚嘆,但馬雲說英文就沒什麼人驚訝?
※Facebook 的用戶體驗有哪些值得吐槽的地方?
※如何評價對出征fb冷嘲熱諷的一些人?