三種數據獲取方法（輿情數據）

01-29

　　大數據時代已經到來，就當大家也想按照大數據的思想重新定義我們的工作和生活的時候，忽然發現之前我們從不在乎的數據離我們那麼遙遠。

　　大數據分析之所以大，是因為其分析的數據是全量數據（或接近全量），其和以前的採樣分析（樣本）有著本質的區分。為此，我們為了能夠進行分析，我們就需要獲取全量的數據，這往往是很難得到的。

目前，可以獲取我們想要的數據主要有以下三種方法：

1. 通過爬蟲獲取

　　這是大家最主要使用的方法，包括：第三方的爬蟲客戶端、第三方的爬蟲雲平台、開源的爬蟲以及自己使用Python編寫的爬蟲。

　　爬蟲的方式獲取數據尤其優勢，就是爬取自己想要的內容，其針對性很強。但也有其劣勢，即：用好爬蟲是需要一定技術的，而且爬取的網站也在改變，需要隨時更新爬蟲規則。

2. 通過數據交易市場購買

　　現在數據交易市場越來越多，比較有名的有：京東萬象、聚合數據、數據堂和貴陽大數據等，雖然這幾年數據市場做的越來越好，但是其提供的數據還是比較有限，用戶找到匹配自己需求數據的可能性還是比較低。但隨著數據市場的成長，其仍將稱為部分用戶的數據來源。

３. 搜索獲取

　　那什麼是搜索獲取呢？其表面上的含義就是：搜索你想要的數據，然後直接下載搜索結果。其搜索的範圍包括所有主流新聞網站、論壇網站、微信、新浪微博和電子報刊。

　　那麼他是如何做到的呢？其實其實現方式也是很簡單的，即：提供此服務的網站每天實時爬取所有主流數據源，並將其數據放入庫中，你直接從這個庫中進行搜索下載即可。

　　目前支持這種方式的網站只有一家：第谷搜索，平台中的輿情搜索引擎可以做到這點，大家可以嘗試一下。相信在未來會有更多的網站提供這種獲取數據的方式。到那時，大數據的時代才會真正的爆發。

第谷搜索由於剛上線，百度還搜不到，放個連接給大家：第谷搜索

如果還有其他獲取方式，請知乎大神補充！