獲取歷史(過去幾年)的全網輿情數據有些(購買)渠道?

Google了挺久,基本沒找到提供幾年歷史輿情數據的公司,新浪的微輿情還能回溯到過去一年內的數據,但其他還是找不到... (可能是google姿勢不對...


首先,全網數據一定是個相對概念,尤其是運用在歷史數據回溯的應用場景上,會隨著網站的信息迭代而沉沒。搜索引擎主要是網站權重因素,而網站信息則受到自己站內搜索介面的準確性影響。即使牛逼如google,能保證抓到全部的互聯網數據咩?25%就很不錯了。。。

其次,再來考慮全網數據涉及的媒體平台。是互聯網文本數據、流媒體數據亦或是其他數據,來決定獲取的方式和方法。

假設輿情數據一般而言指代的是文本數據的話,它們所涵蓋的媒體無外乎:網站新聞、論壇、博客、微信公眾號文章、微博、博客、視頻、問答、電子報刊和APP。一般使用的方法都是爬蟲+購買的方式。

沒有自生態閉環的媒體平台,都可以通過「搜索引擎+站內搜索」的方式進行抓取與驗證,在一些技術帖中已經提示了工具和方法。當然,如果拿捏不好是否觸犯法律和隱私,還是盡量購買吧~總有供應商會告訴你他們是正規渠道獲得的。

我是一個不懂技術的小白,和 @蘇格蘭折耳 大神還有很大差距,可參考大神的歷史文章,會大有裨益。


想糾正一下樓上關於「微輿情」或「新浪微輿情」的認識。新浪微輿情是基於全網信息的輿情/商情監測系統,而不僅僅因為是微博旗下的子公司,就理解為只收錄微博相關的信息。難能可貴的是,新浪微輿情在大數據輿情系統的普及上做了表率,讓以前只能是大型機構、政府部門才能使用的專用系統變得平易近人,讓對大數據感興趣和有實際需求的用戶都能使用得到,還有很實用的、不需要付費就能獲取的功能,不需要經過繁瑣的申請、付費流程,可謂是「舊時王謝堂前燕,飛入尋常百姓家」。

對比其他輿情系統,微輿情的優勢不言自明。

身為微博旗下的子公司,新浪微輿情擁有微博全量的數據。先說說社交數據的重要性:

「社交媒體數據的代表性並不足以取代傳統的以調查為基礎的研究,但我們也認為,它在消費者理解方面起著重要的作用。社交媒體數據有助於我們看到品類發展的趨勢、未滿足的需求,以及在常規的以數據為基礎的調查中可能仍不會被發現的新興課題。此外,通過將經驗證的分析框架應用至該數據,我們已將社會化傾聽提高至社會化智能,以幫助我們的客戶解決有關創新、品牌健康、數字通信和購買路徑的問題。」

---《並行智能 | 社交媒體數據在品牌資產管理中的力量》

中國跟歐美不同,Twitter和Facebook的數據是公開的,中國版的「推特」和「非死不可」---(新浪)微博、微信(朋友圈),前者是社交媒體,是廣場,誰都可以在上面發表自己的見解,讓大眾了解;後者是社交網路,是私人的社交沙龍,只在親密的小夥伴間構成交流圈子。

然而,只有微博數據是相對公開的,微信朋友圈的數據雖然價值千金,但是它的數據是封閉的,只有騰訊才能獲取到最真實的數據。

綜上所述,擁有微博數據是至關重要的。

年前微博起訴脈脈抓取信息的案子,脈脈賠了200多萬,堪稱大數據採集引發不正當競爭的第一案,可以說是中國大數據領域的里程碑事件,以後其他公司如果想抓新浪微博的數據進行商業用途,首先得過新浪微博這關。

從這點來講,新浪微輿情的優勢是相當巨大的。

但如果說新浪微輿情只能搞到新浪微博的數據,這就有點扯淡了:業內人士都知道,所謂「全網數據」是容易做到的,但凡有點爬蟲功力,網上爬些泛泛的數據是沒問題的,儘管爬不全;但是,專有領域的數據(如新浪微博、某些垂直網站)卻不易獲取,有侵權風險,哄騙不知情的使用者時才會用 @張三風 這樣的說辭,因為,它也是做輿情的,是di谷輿情(非微博子公司,居然也說有全量微博數據...)的員工,算是友(dui)商(shou)...

既然有人@我了,我就再多說幾句吧。

上面的話我沒有拷貝,除了那段有標註的引用;我的意思是, @張三風 沒有必要為了做自己企業的公關而捏造混淆事實,現在連個大學生創業大賽做輿情都是做全網的數據,新浪微輿情難道就因為前面多了「新浪」二字就只有微博的數據?你這是把同行和消費者當傻瓜,輿情產品我用了很多,新浪微輿情、紅麥、admaster... x不帶這麼吹的。。。


其實上面的回答都挺瞎掰的,我不認為誰真的要『全網數據』,應該是他想要某個行業或者領域的網路上大多數數據,連這個基本的問題都沒說出來,這個問題本身就是需要完善的,何來正確的回答?提供的這些網站哪個都談不上全網數據的概念,因為全網太大,領域細分太多,歷史數據也沒多少人會整理的很好再發布上來。大多數情況下還是在細分領域裡,圈子裡的玩家會積累對應的數據,沒在這個圈子裡的人,就很難獲得很多的歷史數據。苦逼的數據……


謝邀

給你列幾個相關的工具和平台,可以看下

爬蟲我就不推薦了,歷史數據基本只有數據公司自身資料庫內才有存儲的,所以爬蟲一般只是爬取當時的數據。

京東萬象:是一個數據交易平台,有很多類型的數據,可以看下,也就是相當於數據商城,各家的數據都拿到上面去出售,客戶直接在上面購買。

優易數據:也是一個數據平台,其中包含塊數據和API數據購買方式,數據多,但是比較雜,各種各樣的數據類型。

第谷數據:是一個輿情數據平台,相比較於前兩家,這家平台是專門做輿情數據的,對提問者的需求吻合度最高,據我了解,全網輿情數據能追溯到2010年的歷史數據,輿情資料庫應該是屬於比較資深的了。

以上介紹的三家是我知道並且了解的,希望能夠給您提供幫助!


謝邀!

目前全網輿情數據,市面上有些公司在做,數據質量和全面性是一個很重要的課題。也是衡量輿情數據服務商的重要指標之一,因為工作原因,跟題主一樣,我們也經常會用到歷史輿情數據,也會作比較,目前新浪微輿情和第谷數據都有了解過,兩者都可以獲取新浪微博全量數據,但是兩者側重點不同,前者偏重新浪,後者第谷數據除了新浪全量數據介面還有譬如新聞、論壇、貼吧、微信等輿情數據,更像一個數據交易平台,無論是政企用戶或者個人都可以找到需求點,對於需求大範圍全網數據更有參考意義,最重要的一點是質優價廉,對於我們這種中小企業或個人,確實很有吸引力!但是有一點,確實需要吐槽,網站點進去有點眼花繚亂,可能想要展示的功能較多,如果不是朋友用過指導,確實有點費勁,也希望能夠優化!

不定期在線,歡迎提問交流。


針對 @蘇格蘭折耳 的言論,感覺不像是在糾正話題,更像答非所問有意曲解,而大面積拷貝別人的言論更是毫無意義。首先,閣下對於我要說的是新浪微輿情偏重於微博這點有疑問?偏重OK?坦言講,我們確是第谷數據代理商,第谷數據,雖非微博子公司,但是有著十餘年的行業背景與口碑,確系微博全量介面,雖能理解作為友商的某些觀點,但也不宜厚此薄彼!


向來對事不對人,我所說並沒有針對任何人。反觀,是誰一直在歪曲一個概念? @蘇格蘭折耳 作為一個混跡於知乎的人來講,不相信不理解偏重這一辭彙的概念吧?我們兩人所說的一直都沒聚焦在一個問題點,我說偏重於你講僅限於,是誰在捏造或者說強姦概念?不知道出於什麼目的,你@我,但是既然說了,不妨說的清楚點,我想說的請重新審視理解下別人的觀點,一切沒有充分理解妄加揣測的言論都是不負責任的表現;不管是微輿情代理亦或是子公司也好,請客觀看待問題,謝謝。


邦富輿情採集系統、雲潤大數據平台都可以解決你提出的問題。我此前用它們分析過一年前的跨度幾個月的數據都沒有問題。數據比較全。


推薦閱讀:

燃氣抄表為什麼沒有大規模採用無線通信模式?
Python數據分析及可視化實例之爬蟲源碼(03)
GrowingIO用戶行為數據採集和分析實踐
3小時的Python學習成果展示(附源碼)
如何理解用戶行為事件?

TAG:數據採集 | 輿情 | 輿情監測 | 大數據 |