有哪些「神奇」的數據獲取方式?

剛開始進行經濟學研究,已經感受到能夠找到合適的 data 有多重(jian)要(nan)。

想請教研究前輩,都嘗試過哪些神奇的 data 獲取方式。

能否分享一二。


作為互聯網營銷策劃,經常需要查詢一些數據來完善方案邏輯,因此整理了一些數據網站,分享給大家。

主要為互聯網數據和一些傳統數據的查詢,主要包括:

1. 互聯網部分:移動端數據(微信、微博、APP),網站數據,綜合數據,票房和電視收視率,視頻指數,內容數據

2. 傳統數據部分:經濟數據,企業數據,金融數據,汽車數據,建築數據,醫療數據,服裝數據,建築數據

只涉及數據查詢不涉及報告下載,至於下載數據報告網站(看點贊情況再分享吧),用完這些網站,如果還有什麼數據查不到,私信我,再分享一些網站給你查(我就說說別當真/調皮)

特地將數據網站整理為書籤,點擊此鏈接直接導入書籤:https://pan.baidu.com/s/1nvSBeBn

最近看了一下數據(感謝195,2385次收藏/流汗)別光收藏、感謝呀,順便點個讚唄:越點贊越好運

一、移動端數據

l 微信數據(營銷老是要分析一些KOL和自媒體)

1. 排名列表_日榜

2. 新媒體指數

3. 微問數據_微信公眾號分析

4. 微榜 | 愛微幫新媒體榜 Beta

5. simplyKOL微信數據

6. 微指數_微信大數據領導者_微信文章_微信營銷_微信公眾賬號大全_微信排行榜

7. 微信公眾平台導航_微信公眾賬號大全

8. 可查90數據-易贊 (部分數據配合數據透視,有更多驚喜)

l 微博數據(寶強過後微博又開始紅了一段時間)

1. 知微傳播分析-WeiboReach

2. 微博認證-名人堂

3. 發現-熱門微博

4. 微風雲_微博風雲榜

5. 數據首頁-微博數據中心-新浪微博

l APP數據(幫幾家金融機構的APP,做過推廣和優化,所以收藏了一些網站)

1. 熱門蘋果應用搜索 只查IOS

2. App Annie App Store Stats | iOS熱門 App 排行榜 中國 - 所有類別 只查IOS

3. 應用雷達-iOS深度移動推廣運營服務平台|蘋果APP排名搜索優化統計分析 只查IOS

4. 友盟指數 - 最專業的移動互聯網行業發展趨勢指數

5. 首頁-應用排名分析平台-愛盈利

6. ASO100 - 中國最專業的 App Store 排名、ASO 數據平台

7. App競品大數據平台_App運營、ASO優化必上APPDUU

8. APP宏觀數據—友盟指數 - 最專業的移動互聯網行業發展趨勢指數

9. 應用排名分析平台-愛盈利

10. APP排名查詢-易觀千帆(數據比較詳細,可惜只能免費查三天)

11. 安卓IOS APP數據-酷傳 - 添加應用 安卓和IOS都可以查

二、網站權重和數據(網站SEO和SEM不太懂,但是有一家很牛的供應商,主要做中間商,整理方案)營銷的時候,SEO和輿情更配

1. Alexa網站排名查詢

2. 中國站長站

3. 站長工具-百度權重排名查詢-站長seo查詢 - 愛站網

4. 網站排名_網站數據流量查詢_中國網站排名_網路媒體精品推薦

5. 友情鏈接—友情鏈接查詢|友情鏈接檢查工具-站長幫手網

6. PR真假—PR查詢|PR真假查詢|PR劫持檢測-站長幫手網

7. 友情鏈接交換—go9go友情鏈接平台--想鏈就鏈go9go

8. 行業網站排名_行業網站排行榜_行業網站大全 - 網站排行榜

三、綜合指數(寫傳播結案和分析客戶傳播節奏的時候用)

1. 百度指數

2. 搜狗指數

3. Google 趨勢

4. 好搜指數-搜索大數據分享平台

5. 微指數首頁

6. 熱搜榜單首頁--百度搜索風雲榜

7. 艾曼指數首頁

8. 淘寶指數 - 淘寶消費者數據研究平台(已經沒有了,以前很好用)

9. 阿里指數 - 社會化大數據分析平台(必須要開過淘寶店的賬號,更可氣的是只能查詢單一行業)

10. 阿里指數_最權威專業的行業價格、供應、採購趨勢分析(這個就能完美解決上面的問題)

四、票房和電視收視率(額……為什麼有這些網站,才不會告訴別人,是因為我喜歡看電影)

1. 中國票房

2. 電視收視率—CSM

3. 貓眼票房分析

4. 精選預告片 - 預告片世界

五、視頻指數(近期想切入視頻IP市場的推廣,也就是想想)

1. 搜庫-專找視頻

2. 騰訊視頻指數

3. 中國網路視頻指數 – 網路視頻收視數據分析平台

4. 優酷指數 - 中國第一視頻網,提供視頻播放,視頻發布,視頻搜索

5. 搜狐視頻指數中心 - 搜狐視頻

6. 愛奇藝指數

六、內容排行(這個網站偶爾看一下熱點吧,用的比較少)

1. 網評排行-搜狐

一、經濟數據

1. 人民銀行

2. 國家數據

3. 中國銀行業監督管理委員會

4. 中國統計信息網

5. 統計數據

6. 中華人民共和國國家統計局 統計數據

7. 專項統計數據-中國證券業協會

8. 居民消費價格指數(CPI) _ 數據中心 _ 東方財富網

二、企業數據(有時候接到一些Brief,大部分客戶不靠譜,可能會問候一下他企業背景)

1. 全國企業信用信息公示系統 (官方出品)

2. 企業信息—天眼查-最專業的企業工商信息查詢(這個比官方的好用)

3. 企業名錄-企業黃頁_必途網企業黃頁大全

4. 企業信用查詢_企業信用報告查詢系統_註冊信息查詢網-信用視界

三、金融數據

l 網貸數據(去年P2P,不,是互聯網金融很火的)

1. 金匯金融__平台指數_P2P網貸平台評級_網貸315

2. 【p2p網貸平台排名】最新網貸平台排名_網路借貸平台排名_網路貸款平台排名-網貸之家

3. 平台報告-零壹數據

4. 上海貸款_小額貸款_貸款公司_銀行貸款 - 融360

5. 平台指數_P2P網貸平台評級_網貸315

6. 新金網 - 最專業的互聯網金融導航網站

7. P2P網貸平台數據排行對比_網貸平台數據_網貸天眼

8. p2p排行榜,網路理財排行榜,第三方p2p平台排行榜 - 76676-最大的投資理財產品點評平台

l 上市公司年報(竟然為了分析社媒趨勢去看BAT的年報,表示看不懂呀)

1. 中國—巨潮資訊網

2. 美國—SEC.gov | Company Search Page

3. 香港—:: HKEx :: HKExnews ::

l 信託(信託切入互聯網金融相對較慢,今年剛開始接觸的幾個客戶)

1. 研究報告 - 中國信託業協會

2. 中國互聯網金融研究中心 中國互聯網金融網 中國互聯網金融聯盟 中國電子商務研究中心

l 其他

1. 案例報告列表_融資案例_併購案例_行業案例_企業案例_數據_分析—投資潮

2. 融資數據—融資事件列表頁 | IT桔子

3. 研究院_ChinaVenture投資中國網

4. 百度財富-專業金融服務平台

5. 世界銀行-Data | The World Bank

6. 全球股市指數

7. 股指期貨數據

四、汽車數據(有一個汽車配件的客戶,講真,汽車客戶真的比金融客戶前期好搞,不過後期服務就呵呵了)

1. 數據中心 世界汽車統計 中國汽車工業協會

五、建築數據(我也不知道為什麼有這個網站)

中華人民共和國住房和城鄉建設部 - 單位資質查詢

六、醫療數據

1. 世界衛生組織 | 規劃和項目

七、服裝數據(才不會告訴你,我是學國際經濟與貿易出身的,後來才做了互聯網營銷策劃,其中有一萬隻羊駝在奔跑)

1. 中國皮革原材料指數

2. 海寧周價格指數

3. 中國柯橋紡織指數

4. 大朗毛織價格指數

八、工業指數

1. 今日國際原油價格,原油價格走勢圖,原油價格指數-油價網

2. 上海有色金屬價格指數

3. 水泥指數


其他數據

1. 中國統計信息服務中心 口碑查詢

2. 最具公信力的名人影響力指標 - 必應 影響力

3. 全部榜單--百度搜索風雲榜

4. 百度預測-大數據 知天下

l 原始數據-數據淘(這個網站聽說可以買到原始數據,不過沒有試過)

這些網站還不錯,數據也算可以,其他的數據網站沒有分享了。這只是網站,具體用法太多了,就沒有分享單個教程。強調:網站用的好,真的能用出花來,比如百度指數+百度新聞=客戶和競品的傳播節奏。具體網站的功能多試試,不要執著於網站,要多變通思路,希望能找到想要的數據(說服力)。


導師是研究非洲經濟的,分享過兩個故事:

他一個同行去烏干達找數據,某次從政府大樓出來的時候,發現工作人員在把大量紙張送到附近的垃圾場。他跑到垃圾場一看,居然是烏干達的歷史數據!工作人員說這些沒什麼用,所以領導叫扔了。導師的同行及時搶下,後來組織當地人和他的學生掃描清洗,現已做成世界上最大的烏干達資料庫。

第二個故事更厲害。導師的導師很想研究競選口號對投票結果的影響。在窮國家,我們擔心競選人為了討好民眾,會承諾「私人物品」而非惠及所有百姓的福利(比如承諾「當選後給你這個村修條路」、「當選後招你這部落的人進內閣」)。

要想研究「承諾私人物品」會不會贏得更多票數,你不可能讓競選人賭上自己的職業生涯來幫你做實驗,所以傳統的研究方法是「事後觀察」。

運氣好的話,競選口號播出的電視信號是逐步在全國開通的,那你可以比較先收到和後收到電視台信號的區域。運氣好的話,電視信號在某個地方突然斷了一個月,那你可以比較一直有信號的和信號斷了的區域。這些方法都需要很多其他條件成立,還需要很多後期統計處理。更重要的是,窮地方多半沒有收視率和民調數據,所以研究基本沒戲。

不過導師的導師非常神奇。他出生在非洲國家貝南,國家動亂後輾轉去了美國西北大學讀博,貝南局勢穩定後他成了貝南新領導層的朋友。有了前述研究想法後,他居然說服了貝南各個派別的總統候選人幫他做這個實驗。

2001 年各家的競選口號,一半講「私人好處」(「選上了我給你這個村子修路」),一半講「公共利益」(「選上了我會進行全國改革」)。

當然了,各派系只同意在自身優勢較大的選區做這個實驗,所以實驗結果也有局限性。其他技術細節(例如溢出問題)這裡不再展開。

論文:http://www.nyu.edu/gsas/dept/politics/faculty/wantchekon/research/client.pdf

普通人想做實驗也不是不可以,只是要冒生命危險。有斯坦福和達特茅斯教授 2014 年向美國蒙塔娜州選民隨機郵寄印有競選人信息的傳單,不過傳單設計很容易讓人以為是官方資料,所以教授和所在大學被政府以「企圖影響競選結果」為由而嚴重警告,面臨罰款。研究當然也就此結束。

導師本人沒什麼故事。不過他有一回去非洲某國家機關要歷史數據,對方找給他一沓冊子,說咦這裡還真有一套,你可以拿走了。導師說,既然冊子只有這麼一套,我還是借閱幾天、掃描完歸還。對方說,我們留著也沒用,你就拿走吧。

導師就拿回國了...


有多少人,因為看到一張漂亮的可視化圖表而走上了學習數據分析的道路。
有多少人,因為無法獲取到想要的數據,忍痛半途而廢。

數據啊,要怎麼才能找到你?

在數據團之前的活動中,我們推出過免費和收費的課程,教大家怎麼通過爬蟲獲取互聯網數據。
但是,僅僅有互聯網數據是不夠的……它頂多占常見數據類型的1/8:

剩下7/8的數據去哪裡找呢?

有沒有一個活雷鋒的組織,裡面有許多熱衷於分享數據的小夥伴,甚至會按照我的需求去幫忙收集數據呢?

有!

數據界的活雷鋒、最最神奇的數據獲取方式——

【城市數據研習社】城市資料庫開放啦!

活動平台:
QQ群「研習社—城市資料庫」,群號 143892177(加群註明:城市數據分享)。

---------------------
這是一篇廣告
廣告及其推廣內容免費
---------------------

主要活動說明:

1、數據共享:
由城市數據研習社、國匠城、城市數據團共同提供的數據,公開發放給大家,同時歡迎小夥伴兒分享自己的數據,建議標註數據來源、數據量、數據坐標等信息。現分享數據包括:
(1) 全國重點城市的POI數據
λ 城市:北京、上海、深圳、重慶、南京、青島、西安、武漢、成都、蘇州、廈門、長沙、哈爾濱、貴陽、杭州、昆明、徐州、三亞、關注……
λ 標籤:餐飲、旅遊景點、公共設施、交通設施、購物、教育、金融、商務住宅、生活、體育、醫療、政府辦公、住宿服務
(2) 世界重點城市基礎地圖數據
λ 城市:倫敦、紐約、摩納哥、威尼斯、香港、馬德里、莫斯科、柏林、澳門
λ 標籤:建築面、POI點、道路線
(3) 全國高清影像圖數據
λ 支持地圖:谷歌地圖、高德地圖、騰訊地圖、百度地圖、必應地圖等
(4)全國省界、市界的行政邊界數據
(5)世界行政區劃矢量數據
(6)全國地貌數據

2、數據導航:
數據導航報告是國匠城精心整理的數據獲取網站的匯總,報告見群文件——城市數據研習社數據導航報告;同時歡迎大家積極提供數據獲取的網站與途徑,共同完善數據導航報告。

3、數據申請:
提供由研習社、國匠城、城市數據團三大機構通過商業合作、購買等方式獲取的數據,需要通過協助推送優秀城市數據分析師及相關數據技能分享的方式申請獲得,且以城市(城鎮)為單位,申請該城市(城鎮)相關數據:
(1)城市基礎數據
(2)DEM地形數據
(3)街道單元的人口數據
(4)生態湖泊水係數據
(5)城市公園綠地數據

4、數據眾籌:
通過提交「數據眾籌計劃書」,由城市數據研習社的小智發布「數據眾籌公告」,招募小夥伴,自願組成「數據眾籌小組」,進行數據收集、整理,城市數據研習社提供部分技術支持。

5、數據支持:
城市數據團與滴滴大數據研究中心、TalkingData、同策房產諮詢、銀聯智慧研究院、大眾點評研究院、鏈家研究院、支付寶口碑、上海道融自然保護與可持續發展中心、高德地圖、安居客等多家機構有著良好合作關係,現面向研究者們開放商業級數據申請介面,研究者通過填寫「研究計劃書」參與數據支持活動,通過審核後將由數據提供方對研究者提供數據。

怎樣參與?

加入"研習社—城市資料庫"QQ群,群號碼為560593227(加群註明:城市數據分享)


之前曾開發過一個全是馬賽克的網站:基於 DHT 網路的磁力鏈接和BT種子的搜索引擎架構。

最初的方案是 Python 爬蟲,去各大下載網站爬取種子信息。後來發現這種方案有個最大的缺點就是速度太慢,而且無法知道每個資源的熱度。

有天晚上迷迷糊糊,感覺似睡非睡,似醒非醒,突然冒出了一個想法:如果有人想下載一個種子,那麼必然有人製作了這個種子

了解 P2P 原理的人都知道,BT 不需要中心伺服器,因為每個節點既是客戶端,同時也是伺服器,因此我寫了一個程序,把它偽裝為 DHT 網路中的一個節點,這樣當其他客戶端想下載某個 torrent 時,就會在 DHT 網路發起廣播,當它詢問到我的節點時,我就知道了:哦,原來有人要下載這個種子啊,那麼在 DHT 網路中肯定有這個種子。於是我把這個種子的信息保存到 MySQL 中。 通過檢測別人對我的詢問情況,我還可以知道某個種子的熱度。

本來打算開源,目前已經棄坑。。。

---------------

廣告時間,我的第一場 Live,給大家爆爆我的黑歷史:前端工程師的入門與進階 - 知乎Live - 全新的實時問答。


大數據時代,用數據做出理性分析顯然更為有力。做數據分析前,能夠找到合適的的數據源是一件非常重要的事情,獲取數據的方式有很多種,不必局限。下面將從公開的數據集、爬蟲、數據採集工具、付費API等等介紹。給大家推薦一些能夠用得上的數據獲取方式,後續也會不斷補充、更新。

一、公開資料庫

1.常用數據公開網站

UCI:經典的機器學習、數據挖掘數據集,包含分類、聚類、回歸等問題下的多個數據集。很經典也比較古老,但依然活躍在科研學者的視線中。

國家數據:數據來源中華人民共和國國家統計局,包含了我國經濟民生等多個方面的數據,並且在月度、季度、年度都有覆蓋,全面又權威。

CEIC:最完整的一套超過128個國家的經濟數據,能夠精確查找GDP、CPI、進口、出口、外資直接投資、零售、銷售以及國際利率等深度數據。其中的「中國經濟資料庫」收編了300,000多條時間序列數據,數據內容涵蓋宏觀經濟數據、行業經濟數據和地區經濟數據。

萬得:簡要介紹:被譽為中國的Bloomberg,在金融業有著全面的數據覆蓋,金融數據的類目更新非常快,據說很受國內的商業分析者和投資人的親睞。

搜數網:已載入到搜數網站的統計資料達到7,874本,涵蓋1,761,009張統計表格和364,580,479個統計數據,彙集了中國資訊行自92年以來收集的所有統計和調查數據,並提供多樣化的搜索功能。

中國統計信息網:國家統計局的官方網站,彙集了海量的全國各級政府各年度的國民經濟和社會發展統計信息,建立了以統計公報為主,統計年鑒、階段發展數據、統計分析、經濟新聞、主要統計指標排行等。

亞馬遜:來自亞馬遜的跨科學雲數據平台,包含化學、生物、經濟等多個領域的數據集。

figshare:研究成果共享平台,在這裡可以找到來自世界的大牛們的研究成果分享,獲取其中的研究數據。

github:一個非常全面的數據獲取渠道,包含各個細分領域的資料庫資源,自然科學和社會科學的覆蓋都很全面,適合做研究和數據分析的人員。

2.政府開放數據

北京市政務數據資源網:包含競技、交通、醫療、天氣等數據。

深圳市政府數據開放平台:交通、文娛、就業、基礎設施等數據。

上海市政務數據服務網:覆蓋經濟建設、文化科技、信用服務、交通出行等12個重點領域數據。

貴州省政府數據開放平台:貴州省在政務數據開放方面做的確實不錯。

Data.gov:美國政府開放數據,包含氣候、教育、能源金融等各領域數據。

3.數據競賽網站

競賽的數據集通常乾淨且科研究性非常高。

DataCastle:專業的數據科學競賽平台。

Kaggle:全球最大的數據競賽平台。

天池:阿里旗下數據科學競賽平台。

Datafountain:CCF制定大數據競賽平台。

二、利用爬蟲可以獲得有價值數據

這裡給出了一些網站平台,我們可以使用爬蟲爬取網站上的數據,某些網站上也給出獲取數據的API介面,但需要付費。

1.財經數據

(1)新浪財經:免費提供介面,這篇博客教授了如何在新浪財經上獲取獲取歷史和實時股票數據。

(2)東方財富網:可以查看財務指標或者根據財務指標選股。

(3)中財網:提供各類財經數據。

(4)黃金頭條:各種財經資訊。

(5)StockQ:國際股市指數行情。

(6)Quandl:金融數據界的維基百科。

(7)Investing:投資數據。

(8)整合的96個股票API合集。

(9)Market Data Feed and API:提供大量數據,付費,有試用期。

2.網貸數據

(1)網貸之家:包含各大網貸平台不同時間段的放貸數據。

(2)零壹數據:各大平台的放貸數據。

(4)網貸天眼:網貸平台、行業數據。

(5)76676互聯網金融門戶:網貸、P2P、理財等互金數據。

3.公司年報

(1)巨潮資訊:各種股市諮詢,公司股票、財務信息。

(2)SEC.gov:美國證券交易數據

(3)HKEx news披露易:年度業績報告和年報。

4.創投數據

(1)36氪:最新的投資資訊。

(2)投資潮:投資資訊、上市公司信息。

(3)IT桔子:各種創投數據。

5.社交平台

(1)新浪微博:評論、輿情數據,社交關係數據。

(2)Twitter:輿情數據,社交關係數據。

(3)知乎:優質問答、用戶數據。

(4)微信公眾號:公眾號運營數據。

(5)百度貼吧:輿情數據

(6)Tumblr:各種福利圖片、視頻。

6.就業招聘

(1)拉勾:互聯網行業人才需求數據。

(2)中華英才網:招聘信息數據。

(3)智聯招聘:招聘信息數據。

(4)獵聘網:高端職位招聘數據。

7.餐飲食品

(1)美團外賣:區域商家、銷量、評論數據。

(2)百度外賣:區域商家、銷量、評論數據。

(3)餓了么:區域商家、銷量、評論數據。

(4)大眾點評:點評、輿情數據。

8.交通旅遊

(1)12306:鐵路運行數據。

(2)攜程:景點、路線、機票、酒店等數據。

(3)去哪兒:景點、路線、機票、酒店等數據。

(4)途牛:景點、路線、機票、酒店等數據。

(5)貓途鷹:世界各地旅遊景點數據,來自全球旅行者的真實點評。

類似的還有同程、驢媽媽、途家等

9.電商平台

(1)亞馬遜:商品、銷量、折扣、點評等數據

(2)淘寶:商品、銷量、折扣、點評等數據

(3)天貓:商品、銷量、折扣、點評等數據

(4)京東:3C產品為主的商品信息、銷量、折扣、點評等數據

(5)噹噹:圖書信息、銷量、點評數據。

類似的唯品會、聚美優品、1號店等。

10.影音數據

(1)豆瓣電影:國內最受歡迎的電影信息、評分、評論數據。

(2)時光網:最全的影視資料庫,評分、影評數據。

(3)貓眼電影專業版:實時票房數據,電影票房排行。

(4)網易雲音樂:音樂歌單、歌手信息、音樂評論數據。

11.房屋信息

(1)58同城房產:二手房數據。

(2)安居客:新房和二手房數據。

(3)Q房網:新房信息、銷售數據。

(4)房天下:新房、二手房、租房數據。

(5)小豬短租:短租房源數據。

12.購車租車

(1)網易汽車:汽車資訊、汽車數據。

(2)人人車:二手車信息、交易數據。

(3)中國汽車工業協會:汽車製造商產量、銷量數據。

13.新媒體數據

新榜:新媒體平台運營數據。

清博大數據:微信公眾號運營榜單及輿情數據。

微問數據:一個針對微信的數據網站。

知微傳播分析:微博傳播數據。

14.分類信息

(1)58同城:豐富的同城分類信息。

(2)趕集網:豐富的同城分類信息。

如果你是小白,想通過爬蟲獲得有價值的數據,推薦我們的體系課程——Python爬蟲:入門+進階

三、數據交易平台

由於現在數據的需求很大,也催生了很多做數據交易的平台,當然,出去付費購買的數據,在這些平台,也有很多免費的數據可以獲取。

優易數據:由國家信息中心發起,擁有國家級信息資源的數據平台,國內領先的數據交易平台。平台有B2B、B2C兩種交易模式,包含政務、社會、社交、教育、消費、交通、能源、金融、健康等多個領域的數據資源。

數據堂:專註於互聯網綜合數據交易,提供數據交易、處理和數據API服務,包含語音識別、醫療健康、交通地理、電子商務、社交網路、圖像識別等方面的數據。

四、網路指數

百度指數:指數查詢平台,可以根據指數的變化查看某個主題在各個時間段受關注的情況,進行趨勢分析、輿情預測有很好的指導作用。除了關注趨勢之外,還有需求分析、人群畫像等精準分析的工具,對於市場調研來說具有很好的參考意義。同樣的另外兩個搜索引擎搜狗、360也有類似的產品,都可以作為參考。

阿里指數:國內權威的商品交易分析工具,可以按地域、按行業查看商品搜索和交易數據,基於淘寶、天貓和1688平台的交易數據基本能夠看出國內商品交易的概況,對於趨勢分析、行業觀察意義不小。

友盟指數:友盟在移動互聯網應用數據統計和分析具有較為全面的統計和分析,對於研究移動端產品、做市場調研、用戶行為分析很有幫助。除了友盟指數,友盟的互聯網報告同樣是了解互聯網趨勢的優秀讀物。

愛奇藝指數:愛奇藝指數是專門針對視頻的播放行為、趨勢的分析平台,對於互聯網視頻的播放有著全面的統計和分析,涉及到播放趨勢、播放設備、用戶畫像、地域分布、等多個方面。由於愛奇藝龐大的用戶基數,該指數基本可以說明實際情況。

微指數:微指數是新浪微博的數據分析工具,微指數通過關鍵詞的熱議度,以及行業/類別的平均影響力,來反映微博輿情或賬號的發展走勢。分為熱詞指數和影響力指數兩大模塊,此外,還可以查看熱議人群及各類賬號的地域分布情況。

除了以上指數外,還有谷歌趨勢、搜狗指數、360趨勢、艾漫指數等等。

五、網路採集器

網路採集器是通過軟體的形式實現簡單快捷地採集網路上分散的內容,具有很好的內容收集作用,而且不需要技術成本,被很多用戶作為初級的採集工具。

造數:新一代智能雲爬蟲。爬蟲工具中最快的,比其他同類產品快9倍。擁有千萬IP,可以輕鬆發起無數請求,數據保存在雲端,安全方便、簡單快捷。

火車採集器:一款專業的互聯網數據抓取、處理、分析,挖掘軟體,可以靈活迅速地抓取網頁上散亂分布的數據信息。

八爪魚:簡單實用的採集器,功能齊全,操作簡單,不用寫規則。特有的雲採集,關機也可以在雲伺服器上運行採集任務。


===== 更新 =======
很多朋友想要知道更多應用,因為最近時間比較緊,我這裡先寫一下之前我在美國用過的selenium免費下載天氣數據的辦法。

美國有很多天氣的網站,之前做的一個項目需要我從四個網站抓取同一個地點的數據,然後對比一下。很多網站的天氣數據都是公開的,免費,沒有問題,下載就行。但是有個商業網站,Weather Source 是需要購買api付費的。而且比較貴。

free的那一欄其實很多資源都沒辦法用,然後1000個requests意味著最多1000個地方的數據可以下下來,而且數據量太少了。其他的價格很貴。
後來我看了一下,發現還有一個可以手動下載的地方:

30天,只要40美金。
點擊sign in就可以進去了。進去之後是這樣一個頁面:

然後輸入你的zipcode,查找find report,之後你會發現:

點擊進入 隨便找一個station,點擊view report,然後你會看到

點擊spredsheet downloads就可以下載你需要的數據了。點擊下載的時候會跳轉到一個下載頁面然後告訴你需要保存么?

通過這樣一系列的手工操作我發現了一定的規律,然後就可以用selenium下載文檔了。
你會發現下載的鏈接是:

http://weathersource.com/account/downloads/download?file=dailyCSVsid=t5s950bd4mjfs0fc1mis08k2a4location=94065start-date=1%2F1%2F1970end-date=1%2F1%2F1970obs=tempstation-id=28514latitude=37.5335longitude=-122.25download-csv=download+spreadsheet

其中sid 是你需要的key,這個key當你登錄了之後會直接有的。然後其他的parameter 就非常容易理解。那麼就開始寫腳本:

from selenium import webdriver

# 初始化 webdriver
url = "http://weathersource.com/"
driver = webdriver.Chrome()
driver.get(url)

# 中間你可以設置一個斷點,然後sign in,之後手工獲取你的sid
sid = raw_input("獲取你的sid:")

url = "http://weathersource.com/account/downloads/download?file=dailyCSVsid={sid}location={location}start-date={start_date}end-date={end_date}obs=tempdownload-csv=download+spreadshee"

# 假設你的start date, location,還有 end date 都知道,zipcode 你有一堆的zipcode需要獲取。

for zipcode in zipcode:
driver.get(url.format(start_date=XXX, end_date=XXX, zipcode=zipcode, sid=sid)

# 這裡注意:為了能自動下載文件了,需要在chrome里設置自動保存就好了,不會彈出另存為的頁面

通過上面的方法,我開了4個進程,一天之內就下好全美國的所有的數據,而且花了很少的錢,相對於購買api的價錢來說,省了不知道多少。唯一的缺點是,需要手動登錄然後獲取sid,雖然有些笨,但是對於當時還是個窮學生來說還比較划算。

這個只是一個例子,說明selenium有的時候可以用得很好來巧妙地獲取數據。實際操作的時候,如果有api盡量用api,它只是在不可能中尋找可能。

===== 以前 =======
有好多方式方法可以用來獲取數據,之前去面試一家公司,直接讓我寫個爬蟲。爬蟲腳本是比較容易想到的獲取數據的方法。但是有的時候很多網站不提供api,然後用寫爬蟲的時候又還要用各種軟體去截取信息,有的時候會花費一些時間。

相信很多人用過selenium用來做testing。我想在這裡介紹一下用selenium來獲取數據的方法。selenium可以模擬人在瀏覽器上如何操作,換句話說,當你在瀏覽網站的時候,看到網站上上有數據想要手動截取下來,selenium可以模擬整個過程然後進行規模化的抓取數據。那麼下面我就舉個例子:假如你想要獲得微博某條下面所有回復的用戶id,你就可以用selenium來直接抓取:

以下我用python的selnium來舉例


1. 安裝

pip install selenium

2. 腳本

from selenium import webdriver

url = "http://weibo.com/ttarticle/p/show?id=2309404020700624096846"
# 初始化一個webdriver
driver = webdriver.Chrome()

# 用driver打開微博的鏈接,可能需要登錄,手動登錄一下就好
driver.get(url)

# 很多網站用h5的版本比較容易得到數據 我們登錄微博了之後重新獲取一個url,是h5的url
url = "http://m.weibo.cn/2723620723/E8ODT8Ydl"

# 獲得評論列表(這個需要自己查看網頁的結構,每一個都不太一樣)
comment_list = driver.find_elements_by_class_name("mod-media")
for comment in comment_list:
print comment.get_attribute("href")

result:
http://m.weibo.cn/u/2723620723
http://m.weibo.cn/u/2292913074
http://m.weibo.cn/u/1785845023
http://m.weibo.cn/u/2870114170
http://m.weibo.cn/u/2410507423
http://m.weibo.cn/u/2151174850
http://m.weibo.cn/u/1775468601
http://m.weibo.cn/u/2146208555
http://m.weibo.cn/u/2987324042
http://m.weibo.cn/u/2097203285
http://m.weibo.cn/u/5514270657
http://m.weibo.cn/u/1851751764
http://m.weibo.cn/u/3032379471
http://m.weibo.cn/u/3224372162
http://m.weibo.cn/u/1805635755
http://m.weibo.cn/u/2448378651
http://m.weibo.cn/u/1789747610
http://m.weibo.cn/u/3550528030
http://m.weibo.cn/u/3236610784
http://m.weibo.cn/u/2258176024
http://m.weibo.cn/u/5612221249
http://m.weibo.cn/u/6023204693
http://m.weibo.cn/u/2711823422
http://m.weibo.cn/u/1736956963
http://m.weibo.cn/u/2971442923
http://m.weibo.cn/u/5311296945
http://m.weibo.cn/u/1774168531
......

selenium 通過 webdriver 來控制瀏覽器,然後通過命令讓瀏覽器做一些事情:點擊某個鏈接去某個地方,點擊下載的鏈接下載文件。他的好處是方便,不需要複雜的授權之類的,一般網站都會有cookies,所以你人工手動的授權一次就可以瀏覽所有的文件了。

好處:
1. 有的時候你直接查看pagesource的時候是看不到很多信息的,但是通過selenium的dom你是可以直接得到,因為pagesource很多是沒有執行js,並不能模擬你當前看到的網頁的結構。
2. selenium而且更加方便,不需要知道很多網路知識。
3. 很多時候可以做限制級的事情,因為感覺就是人在操作一樣。善於運用cookies。

壞處:
1. 每一種網站都不一樣,而且網站經常在變化,所以dom的時候你要經常變化。
2. 速度相對來說比較慢

selenium用的好其實可以做很多事情,也可以獲得很多數據。之前我去獲取一些美國的天氣數據的時候,需要下載驗證,就用了selenium做批量的處理,所以感覺相對來說還是很方便的。大家可以試試。


分享一個「神奇」的數據獲取方式,不用寫代碼,不用翻牆,百度就可以

當你需要找一部電影或視頻資源時,在百度搜索頁面,輸入「電影名字 + ed2k」,就可以找到很多下載地址啦:

如圖是找《電鋸驚魂》和《行屍走肉》的下載鏈,ed2k 的鏈接通過迅雷等軟體打開就可開始下載啦。

注 1:這裡並不是為了教大家下載盜版電影,而是有些電影,在視頻網站上並沒有資源,比如《電鋸驚魂》,或者《行屍走肉》,但其實都是非常優秀的電影或視頻。

注 2:ed2k 前可以接很多有意思的關鍵詞,比如某種陸上兵種,各位新老司機自己去發掘吧~


因為研究數據,找過很多數據資源的網站,網上的推薦的也看過了不少。給大家推薦一些個人認為使用價值比較高的數據網站。

我對數據來源的觀點是(主要指國內),如果能自己爬取的話算是一手資源,算是最真實的。但是大部分情況下爬取需要不少成本和精力,而且很多後台數據的話外人看不到的就不好爬取了。其次是官方數據,不只是政府數據,還有行業內龍頭企業發布的數據,總的來說是比較有公信力的。然後是來自第三方的數據,這個就參差不齊了,有特別好的,也有很水的。要參考一下他們的數據來源、分析方法和在行業內的公信力,為了和企業合作出一些有偏向性的數據報告也是有的,所以得擦亮雙眼。另外一些發表在學術刊物上的數據,可以去萬方之類的平台找找,還是很有用的。

還有市面上很多幫助分析程序、公眾號的,這個屬於自家內部分析了,在此不做過多列舉。

下面是我篩選整理的網站,主要偏本國數據

一、導航類:

大數據導航 - 收錄了各行業的大數據資訊、應用等相關網站,找起來很方便

大數據123 - 也是一站式數據網站,裡面的網站相比大數據導航數量上少一些,但是有一些不一樣的網站,可以配合著看。另外還有些數據分析工具的鏈接。

虫部落 - 讓搜索更簡單 - 這是近期發現的, 可以搜數據和學術資源

站長工具 - 站長之家 - 了解SEO數據變化等信息

二 、官方類:

中華人民共和國國家統計局 - 這個不用說了,官方權威數據

國家數據 - 和上面的同屬一家,查詢起來更方便些

三、社會經濟類:

中國知網-中國經濟與社會發展統計資料庫 - 可以按照年鑒查詢各產業發展統計

北京市宏觀經濟與社會發展基礎資料庫 - 北京市的各項宏觀數據

全球經濟數據-中國金融信息網 - 世界主要國家社會經濟數據

螞蟻金服研究院 - 網消指數等

房地產指數 - 房天下的房價指數,統計全國城市的房價走勢

前瞻數據 - 宏觀數據、行業經濟數據

搜數網 - 各行業數據

中國產業信息網

NUMBEO - 全球城市指數,就是把世界各地的物價、收入、生活指數等信息聚到一起。很有趣的網站

WorldBank - 世界銀行開放數據

CEIC - 中國經濟資料庫

Datasets | Kaggle Kaggle資料庫

pewresearch

四、投資類:

國家企業信用信息公示系統

啟信寶. - 企業、法人股東等信息查詢

IT桔子 - 互聯網公司投資數據與信息

Crunchbase 科技公司、技術行業知名人物和投資者相關信息

Angel 美國創業項目

五、互聯網傳播:

百度指數 - 百度的搜索趨勢、輿情監測

百度統計 - 網站流量分析

360趨勢 - 360的熱度趨勢

Google趨勢

Alexa - 世界網站排名

百度搜索風雲榜 - 百度關鍵詞排行榜、分類熱點等

微指數首頁 - 微博指數

今日頭條 - 頭條指數

新榜--內容創業服務平台 - 新媒體排行榜

中國互聯網路信息中心 - 屬於官方信息服務網站

數說風雲

清博大數據 - 清博指數 - 新媒體相關數據,輿情監測等

百度統計流量研究院 - 瀏覽器市場、用戶分布等

易贊- 新媒體數據

六、移動應用類

App Annie

小米應用商店

ASO100

百度移動統計

移動觀象台

ASOU

應用雷達

CQASO

DataEye

蟬大師

七、電商類:

阿里價格指數 - 阿里網購物價指數

京東智圈 - 給商家提供的商圈信息、用戶畫像等

淘寶排行榜 - 淘寶各類商品熱度、排名、關鍵詞等

阿里指數- 阿里網商行業信息、流行商品訊息

百度商情-幫助企業挖掘潛在用戶

趕集網二手市場行情 - 按照細分查詢各類二手市場熱度,價格趨勢

八、影視類:

Imdb- IMDB的電影資料庫

VIDSTATSX - 關於YouTube的統計

愛奇藝指數- 愛奇藝播放趨勢、視頻熱點

愛奇藝風雲榜- 愛奇藝視頻熱播榜

娛票兒票房分析- 全國電影出票量、票房數據

藝恩電影智庫

豆瓣電影排行榜

Box Office Mojo - 票房數據

九、自然類:

中國天氣網- 天氣信息及空氣質量、生活指數等

心知天氣 - 天氣數據API和BI

OSGeo中國中心 - 地理空間數據共享

十、交通:

百度地圖遷徙人氣--全國人口的遷徙路書 - 百度做的城市遷入遷出地圖。裡面還有城市通勤地圖,不過展示的範圍比較有限。

城市擁堵指數 高德地圖 - 中國主要城市的擁堵排名

中國人返鄉地圖 - 360做的最近一次春節人流地圖,還蠻有意思的

高德位智(原高德指數) - 高德基於區域位置的商業大數據分析

數據魔方 - 去哪兒的動態地圖

十一、數據分析機構:

艾瑞網

艾媒數聚

企鵝智酷

易觀

Imshealth

Canalys

Nielsen

十二、數據交易類

數多多

造數 - 新一代智能雲爬蟲 可以幫你爬取數據,當然是要收費的

國雲數據市場 數據好像有點老

其他:

漢典 - 包括漢字語言類數據,及其他人文歷史

萬方數據企業知識服務平台

中國國家圖書館?中國國家數字圖書館

以後實際應用中遇到好的在來添加

如果覺得有用的話,請給我點個贊~


數據獲取的方式么,作為一個深度的數據挖掘控,數據愛好者,我要來回答一次了。

第一是爬蟲
到現在,我最常用的獲取數據的方式也基本上是爬蟲,好處就是看到任何想抓取的數據,爬蟲基本上都可以做到。
抓過的一些數據包括:
100w知乎用戶信息、420w某彩票信息、200w的交通信息、16w的酒店信息、50w的中文網url...(想到這麼多,暫時寫著么多)
你以為爬取以上數據的爬蟲真的很難嗎?錯錯錯!很簡單(30行代碼可以get all
這麼簡單,所見所得,難道你不想試試這種獲取數據的方式嗎?
你可以用十天左右的時間完成學習,給出學習資料:如何學習Python爬蟲[入門篇]? - 學習編程 - 知乎專欄

第二是一些網站可以下載到的數據
(1)、數據分析報告,數據報告,數據圈論壇
(2)、海量數據免費下載
(3)、Datasets | Kaggle
(4)、國雲數據市場
(5)、數據包下載列表
(6)、微盛投資:滬深市場5分鐘數據 wdz格式 轉 txt、通達信,大智慧dad,飛狐dad,錢龍,同花順,csv,dad,lc5,tdx,nmn,sql等
(7)、國家地球系統科學數據共享平台全球變化研究出版數據直接下載
(8)、中華人民共和國國家統計局&>&>統計數據
(9)、分類: 地球物理相關資源
(10)、國家數據
(11)、產業數據_統計數據
(12)、百度數據開放平台

第三是朋友共享
多接觸一些做數據爬蟲的朋友,很多熱愛爬蟲的朋友只是熱愛爬蟲爬數據但是不知道如何分析,如果有機會大家都是願意分享出來給朋友分析的。


有一個利器,能幫你快速爬取你想要的資源……

有時候,你需要下載電影、音樂的資源,卻發現下不下來。

因為你沒安裝客戶端……

或者是找不到下載按鈕在哪

這時候,憤怒的你可能會想要自己寫個爬蟲來搞定,那麼在這裡要告訴你,不必重新發明輪子了,有這樣一個工具,5秒內就能幫你下載好你想要的資源!

使用這個工具,只需要輸入命令,然後你就會看到5秒內視頻下好了……

視頻封面使用 you-get 快速爬取視頻並下載視頻

還可以用來任性批量下圖……

視頻封面使用 you-get 批量爬取圖片視頻


支持64個網站,包括優酷、土豆、愛奇藝、b站、酷狗音樂、蝦米……總之你能想到的網站都有! 還有一個黑科技的地方,即使是名單上沒有的網站,當你輸入鏈接,程序也會猜測你想要下載什麼,然後幫你下載。


這個神器的利器叫做:you-get,是一名華人程序員使用 python 3開發的,在 Github 上已經有接近6000 star, 你可以訪問:You-Get 查看詳細的使用說明。

簡單來說,使用分3步:

第一步:


你要安裝好 Python 3環境,你應該早就安裝了對不對!


第二步:


用 pip 安裝 you-get


看過實戰課程的同學應該對這個很熟悉了

在終端/命令行輸入:pip 3 install you-get

第三步:


在終端/命令行輸入you-get 加上你想下載的鏈接,比如:

$ you-get https://stallman.org/rms.jpg

然後伸個懶腰,就下載好啦~


快去幫女神下載美劇,幫基友下載動畫吧!

雖然是利器,可能還是不能完全滿足你的需求,比如說,如果你想分析熱門視頻的點贊量和發布時間的關係,這些欄位是不包含在內的,還是需要自己寫爬蟲……


總之,編程是很強大的,能開發出高效的工具節省我們的時間。但如果想要完全按照自己的需求來定製的話,還是投資自己比較快,學好爬蟲技能,能讓獲取信息不再受到阻礙。


---

想看更多適合編程小白的優質文章,可以關注微信公眾號「說人話的Python分享」:

http://weixin.qq.com/r/L0hier7E3uOhrfoZ9x09 (二維碼自動識別)


update: 強烈不推薦搞學術、做量化使用此方法,此方法只適用於商科PPT犬,做一些定性分析時使用。
-----
我不是搞經濟學的,但是最近做實習,要找N多千奇百怪的data,其中有些變態的數據,找來找去都找不到。

但是在某個一霎那,你會突然發現某個report/paper 里剛好有我們想要的數據。就像這樣:

來源:http://www.colliers.com/-/media/files/marketresearch/apac/china/northchina-research/bj-residential-q1-2015.pdf

但是然並卵... 你去email colliers 要data 他並不會理你啊。

這時候就輪到神器登場了,Ankit Rohatgi 開發的 WebPlotDigitizer。

上傳我們想要的圖片:

描好坐標軸和點:

導出數據,大功告成!

當然還有其他的,比如
Welcome to DataThief
http://digitizer.sourceforge.net/
Digitize graphs and plots
或者你也可以自己寫matlab code啥的識別反正我是懶得下載軟體/自己寫code。
---------
其他可以解鎖的技能:
NO1.使用 WebPlotDigitizer 自動識別曲線。
NO2.使用 WebPlotDigitizer 處理數據後使用Plotly直接畫出曲線。
NO3.使用 WebPlotDigitizer 識別對數坐標軸


我說個過分的。馬爾獎得主朱松純老師 ucla統計和計算機兩個系教授。2005年時候一心想用他的image parsing徹底解決視覺識別的框架問題 是十分有野心的想法。對如此複雜的框架 收集到足夠的人工label數據做ground truth是很難的。朱老師來到湖北鄂州 弄了一個專科學校一幫學美術的 手工幫他label車 椅子 建築等等等等。 大概一兩年 建了個十萬多張圖片的資料庫。

後來 mit幾個人 還有li feifei 搞了個網路遊戲 有點像大家來找茬 有競賽性質 讓人們來點擊label。當然 這個label精度比朱老師的資料庫查不少 但數量級實在是多出太多了! !我當時就對老美工業思維搞科研的角度震驚了一把 畢竟 幾百萬張label過照片 和10萬張 能做的事太不一樣了。

後來對 vision沒有興趣了 就加入Google掙錢去了。 一天 看到Google收購了一家公司 做recaptcha 就是驗證碼 大概2009年。三四個人的公司 賣了兩千萬 我們組以前的一個intern和他cmu導師和搞的。當時就被其思路震驚了。OCR問題裡頭有很多corner case 一般識別技術是讀不出的 這些corner case要麼是掃描的古籍英語 要麼是角度不對 highly screwed 的路牌 銘片。他們就把這些東西拿出來做驗證碼 用眾數原則判錯或對 同時把majority答案作為label存起來。

Google收購後 直接拿來把Google book掃描未識別出的部分拿來做驗證碼了。label的結果用來改進其識別演算法 加速掃描更多的圖書和改進street view里未識別出路牌 門牌號。

想想吧 每天不得幾億個人工label被收集啊!2000萬我都覺得賣賤了!

思路啊 很重要!


Update:
我最煩伸手黨,我最煩伸手黨,我最煩伸手黨。
重要的事情說三遍。
我幫別人抓數據主要基於三點,人情,合作,我看你順眼。
同樣我找別人要數據也遵循以上三點原則,是否有人情,是否能合作,如果都不能,是否能給個滿意的價格。
直接在評論留QQ郵箱的請自重。
————————————————————————————————————————————

我來說說我的主要數據獲取途徑吧,不知道算不算「神奇」的獲取方式。

  • 人工錄入。應該也是我所做的學科(量化歷史)的主要獲取手段吧。身在這個領域某大牛老師的門下,親身領教了師門各位前輩師兄師姐錄入數據的能力。比如從《清實錄》,《萬曆會計錄》等歷史文獻中尋找相應的變數,如清末進士資料,明代財政稅收數據。這都是非常辛苦而且枯燥的工作,但是或許這也是這個領域有意思的地方之一吧。

附,《萬曆會計錄》某頁

  • 網路過往數據爬取。算是我另一個重要獲取手段。R或者Python爬蟲,基本上可以做到所見即所得。雖然我不是職業的碼農,但還是在這方面下了些功夫,比不上大牛,但是能滿足自己需求就行。在忙完自己的事情空閑,也會幫同門的師兄弟抓一些感興趣的數據,互通有無吧。
  • 網路實時數據監控。其實算是一種沒法獲取過往數據的補救手段。很多網站的數據是具有時效性的,比如某招聘網站招聘數據,某二手房交易出租網站數據,某地污染實時監控數據,這些數據每過一段時間會失去時效性,因此必須讓爬蟲每隔一段時間,甚至實時去監控網站數據的改變,自己建立一套面板數據。我目前在監控的網站有10多個,都是比較有意思的數據。
  • 「特殊」漏洞渠道。我個人經常關注烏雲,會對有關數據的漏洞敏感一些,有一些個人感覺「有意思」的數據,會在漏洞爆出的時候想辦法獲取。但是這些數據往往牽扯到對數據來源正當性的質疑,因此至今從未將其用於學術研究,只是個人感興趣或者叫數據收集癖吧。前幾天發現有個政府網站在後台掛了一套自己省的電子版縣誌,果斷拿下。其他有意思的比如XX開房數據,五毛數據等等,總之先入手,說不定有用呢不是?
  • 學術合作。有時候數據是靠「換」來的,我有你要的數據,你有我要的數據,那大家互通有無,或許可以推進學術合作,做出對你我都有意義的研究。這應該也是目前學術界普遍流行的模式。歡迎同樣有數據收集愛好的同仁私信互通有無哈,如果各位學術界的前輩大佬有需要抓得數據也可以聯繫我哈,力所能及盡量幫忙。
  • 眾籌。沒錯,你別笑,就是眾籌。比如這個,哈佛中國經濟史大數據研究項目。請注意獎勵部分。

研究簡介

中國經濟史大數據研究項目通過收集和電子化中國縣誌中數據,分析新中國成立至今(部分涉及民國年間)的社會經濟發展。此研究旨在建立新中國成立後最完善的社會經濟資料庫,其數據涵蓋中國近2000個縣(市),時間跨度長達65年,包括120個變數。

談古說今--中國社會經濟分析大賽

作為中國經濟史大數據研究項目的一部分,此次大賽主要有如下願景:

1.通過數據分析和報告撰寫,增進各高校學生對新中國成立後的社會經濟改革和發展途徑的了解,促進其對今日中國改革的思考。

2.篩選符合資質要求的優勝參賽者暑期赴哈佛協助研究,並邀請他們參加由哈佛經濟學系Richard Freeman教授在NBER(NationalBureau
of Economic Research)舉辦的學術研討會。

了解Freeman教授:Richard B. Freeman"s Home Page

3.為參賽者提供平台與世界知名的經濟學家對話,了解中國和世界經濟學界最新動態。

面向對象

本大賽面向所有在校或畢業大學生,專業、年齡、國籍不限。

比賽流程

1.在線申請

時間:3月18日-4月30日

團隊申請:以團隊(3-4人)名義申請,團隊中須有一名成員作為負責人

個人申請:以個人名義申請,所有申請個人將被隨機安排組成團隊

2.培訓

時間:定期在各高校為新加入參賽者舉辦

各高校負責人對所在高校的參賽者進行培訓,培訓內容包括:熟悉變數表,正確掌握重命名。

3.參賽任務:縣誌掃描文件的重命名

時間:提交時間不晚於5月10日

完成規定量的掃描數據重命名任務,並在完成後及時提交。

3人團隊:30個縣

4人團隊:40個縣

4.專題報告

時間:提交時間不晚於5月31日

提交第一階段任務後,參賽團隊在給定的若干題目中自主選題並提出數據申請(僅限參賽小組重命名的數據),完成一篇區域經濟發展分析報告。

注意:參賽小組需要在40天內完成重命名和報告(重命名後的數據錄入時間一般在一周之內,不計入參賽團隊總時間),團隊自行分配時間(即:如果15天完成重命名任務並提交,在獲得反饋的數據後,參賽團隊需要在25天內完成報告並提交)

評分標準

是否完成規定量的重命名任務:通過/不通過(不通過則取消參賽資格)

重命名的完成質量:評分制

報告質量:評分制(組委會將反饋意見與建議)

參賽時間

參數團隊的所有數據處理需要於5月10日前提交,報告於5月31日前提交。

獲勝獎勵

1.所有參賽者(除任務未完成不通過者)都將獲得參賽證明,優勝者將得到Richard Freeman親筆簽名出版物。

2.傑出的參賽小組將在暑期受邀赴美,參加Richard Freeman教授在NBER舉辦的學術研討會,並在哈佛大學參與進一步研究工作。

雖然我對這個「獲勝獎勵」表示呵呵,但是這確實是個不錯的想法。如果組織方在賽後會公布數據的話,我要恬不知恥的說:
大神數據分享給我一份吧我給您跪下了。


有興趣學習爬蟲的童鞋可以穿越到
如何入門 Python 爬蟲? - 挖數的回答

---------------分割線
互聯網數據分析從業者來答。

學會寫爬蟲,整個互聯網就是你的資料庫,爬蟲可以自動化地,大批量地幫你將互聯網上大量無規則數據爬取下來並歸整。

比如用爬蟲爬取智聯招聘上所有心儀的職位,並對職位描述做詞頻分析,從而了解該崗位的核心技能要求是什麼。

  1. 爬取智聯招聘上深圳地區所有數據挖掘的職位,共608個

對職位描述做詞頻分析,用字體大小代表職位覆蓋數量

2. 爬取藝恩網上所有華語電影的票房數據,並做成散點圖

3. 爬取Mtime時光網上所有香港電影的海報,按時間線做成海報牆,展示從1960年到現在香港電影海報風格的變化

初次接觸爬蟲,是為了學Python,作為一個數據分析師,不會一門開源的編程語言實在說不過去,作為一個數據收集癖,爬蟲自然是當仁不讓的學習Python的切入點,而我第一個爬取的對象,是糗事百科。

看到這坨便便真的十分有親切感

當時還不會用BeautifulSoup,只是學了用urllib的簡單循環爬取,爬取了熱門笑話的前10頁並用txt保存。看到刷刷刷的幾秒,我的文件夾多了一個寫滿幾百個笑話的txt文件,我的表情是這樣的

爬完糗百,然後是豆瓣的電影排名,然後是爬搜房網的二手房信息,接著是學Scrapy,然後是爬JS,一步一步。

爬蟲的神奇之處,除了獲取data的方便快速外,還在於他的自動化。

  • 你可以設置定時爬蟲任務,每天爬取招聘網站上新更新的公司及職位並對已爬取的職位進行排重,然後每天回到家看到電腦屏幕上顯示

今天深圳地區新增15個數據分析職位及8家招聘單位,然後下面顯示詳細信息

相較之下,別人找工作是不是low爆了?

  • 你可以爬取每天微博上的信息,用Python的分詞模塊進行分詞,每天統計微博上出現最多的詞語,這樣你可以比別人更早知道最近流行的網路用語,或者是一些輿論熱點。

  • 你可以爬取網上或者QQ群里的各種表情包,這樣跟別人斗圖再也不怕彈藥不足了。

  • 你還能爬取Mtime時光網上熱門電影的影評,比如《美人魚》有20000+條影評,進行分詞後統計出每部電影的標籤,然後把這些標籤化的電影資料庫賣給電影輿情公司,撈一筆。

評論區有童鞋在問文科生學爬蟲難么,以及怎麼學的問題。我的回答是不難,Python就是給文科生學的編程語言(大神輕噴,我知道Python是易學難精)。Python的偽代碼式的語句,可以讓你像看文言文一樣,只要稍加聯想就能看懂,Python語句的簡潔與高效,可以讓你在剛學1天就做出一個爬蟲的Demo,讓你有神器在手,天下我有的感覺。

舉個栗子,把天涯社區首頁上的所有新聞標題爬下來並展示在屏幕上,比如這樣

只需要短短的15行語句,如下

import urllib
import urllib2
import re
import pandas as pd
a=[]
url="天涯聚焦_天涯社區"
request=urllib2.Request(url)
response=urllib2.urlopen(request)
content=response.read().decode("utf-8")
pattern=re.compile("&.*?title="(.*?)".*?title" &>",re.S)
items=re.findall(pattern,content)
for item in items:
a.append(item)
b=pd.DataFrame(a)
print b

首先是引入需要的模塊,urllib和urllib2是連接網路請求數據用的,re是正則表達式用於提取特定的文本,pandas用於將數據用表格的形式規範地展現;

接著定義一個空的隊列,用於裝入爬取的新聞標題,然後請求天涯的網頁鏈接,將請求到的網頁信息用utf-8解碼,接著用正則表達式提取需要的新聞標題;

最後用循環的方式把提取到的新聞標題挨個裝入隊列,轉換成表格形式並展現。

如果用requests模塊代替urllib還可以縮短到12行左右,是不是很簡潔?


最後,請關注我哦,我會好好維護你的時間線的 *( ^ v ^ )/*


免費的數據知道有這些獲取方式:
上面的數據都可以申請試用通聯-數據商城

如果用二級市場的數據可以用通聯旗下的量化平台優礦網,上面通聯的數據都是永久免費的,算是母公司對優礦項目的補貼
通聯-量化實驗室

調用方式如下以滬深股票日行情為例,先選一個API

然後寫一行代碼:data.to_csv(u"spd_data.csv"),就可以把數據存在本地了。

另外還有TuShare -財經數據介麵包


有關於如何獲取自己的網站數據的數據獲取方式,注意啊,我說的只是自己的網站數據......我只說一個,避免過多信息讓人無從下手。

很多人在做線上活動推廣、廣告宣傳時,根本不知道自己投在這些廣告渠道上的錢有沒有浪費,也不知道如何去評估,做了很多無用功與無效的營銷活動,在這個看有效流量的時代,實在是落後了不止一點點。

GA(谷歌)分析工具,是一款免費的數據獲取、分析工具。通過在你的網站布署前端代碼即跟蹤代碼,再用工具生成網頁鏈接,待到用戶點擊時鏈接時,就能夠把相關的數據記錄下來。

那麼如何給你的網站添加跟蹤代碼?

登錄谷歌分析,進入Google Analytics

點擊註冊

按照提示將你需要跟蹤、監測的網站填上,並給你的監測起一個名字。谷歌就能給你一個監測代碼,將這串監測代碼布署到你的網站上的每一個網頁,在GA後台就可以實現網頁跟蹤了。

那麼他能夠做什麼呢?

1、監測實時數據

2、受眾特點

3、流量來源

4、查看你投放的哪個廣告帶來的流量最多

5、監測目標達成效果(轉化率)

還可以知道用戶行為,用什麼瀏覽器、設備來訪問你的網站,從而對使用頻率高的適配性進行優化;;找到最有價值的訪客來自哪裡、及他們的特點;評估一個推廣活動是否盈利。


如果是要對你所投放的廣告渠道的效果進行監測的話,還需要對你所要監測的網頁設置監測鏈接,並將這些鏈接投放在你的廣告渠道,在GA後台就能看到有關這個廣告的數據了。

監測鏈接設置網站。

https://ga-dev-tools.appspot.com/campaign-url-builder/

最後的監測鏈接長這樣:

最後把這些設置好的鏈接投放到你的宣傳渠道中,有用戶點擊了就可以在GA後台的「廣告系列」里看到相關的數據了。如果還不明白的話,可以聽這下這門課:數據篇:給你的廣告設置監測鏈接

當然,用谷歌分析的前提是,你需要fanqiang

如果想了了解更多的有關互聯網知識的童鞋,可以來這裡看看: 系統學習互聯網市場運營 - 暖石


IP數據查詢

高精度Ip

IP區縣庫

ip138

查錯網

bgp

ip位置

IP.cn

淘寶IP庫

IP小秘書

網站檢測

360網站檢測

百度安全指數

百度安全檢測

PunkSPIDER

安犬

ZMap

Web工具

站長工具

WhatWeb

雲悉指紋

T00LS工具

C段查詢

Whois

Robtex

CAApp

WebArchive

DNS工具箱

C在線工具

程序員的工具箱

JSONtc711

隨機密碼生成

XSSEE

暗雲木馬查殺

regex101


讀博士,做實驗,數據很重要。
我之前讀博的時候,親身經歷的和聽說的,有不少跟收集數據有關的趣事:
1. 為了抓數據,寫了一個簡單的爬蟲程序,為了快,速率調太高,結果搞得全系ip被某知名資料網站封了好幾天。。。系裡別人還以為那個網站掛了呢。
2. 還是用爬蟲程序,把某個研究機構內隱藏很深的A片也下載下來了。當晚我去察看收來的數據,花費了很長時間。。。
3. 某知名教授讓我幫他預處理一些圖片,我說這個怎麼搞?他說我有一個好東西,然後就發給我了一份盜版的ACDSee。。。我才知道原來美國教授也用盜版軟體。
4. 還是該教授,為了收集不同蚊子的叫聲及其頻率,依然在計算機實驗室內養蚊子。一個大玻璃箱矗立在若干計算機當中。我嚴重懷疑他收集到的嗡嗡聲是蚊子的還是電腦的。當然他們組的學生沒少被咬,而且包的種類繁多,令人眼花繚亂。
5. 某實驗室給我們的數據解密密碼是FXXX,當時就驚呆了。對方馬上解釋,他們的密碼格式其實是AXXX,BXXX,CXXX……

另外再補充一個我在linkedin工作後遇到的收集數據的趣事,這個我在其它回答提過。
http://www.zhihu.com/question/29431605/answer/44390542
我們組之前在ingest http://lynda.com上的課程的data。他們給我們提供了api,但是根本不好用。
然後一天我們在上廁所時還在抱怨此事。突然,身後傳來馬桶沖水的聲音,俺們的CEO從某個單間里大咧咧地走了出來,沖我們呵呵了一下。(因為我們和CEO在同一樓層,所以經常能在廁所碰見。)
他這可真是微微一笑,深藏功與名啊:沒過幾天他就宣布,Linkedin收購Lynda了。
我們再也不用擔心data問題了,吼吼…


說兩個行業情況:
1、高德地圖的路況數據是人工瀏覽交管網站更新;
2、大眾點評的冷門店鋪數據是網路抓取的;
有時候你覺得理所當然的數據獲取方式,反而是用更土鱉的方式獲取的。


一天吃完飯出去散步,周圍的小房子不少有開始翻修了,有的直接準備起了6層樓。哎?突然產生一個疑問,怎麼這麼統一?都這個時候修?春季溫度上升終於可一開始攪拌水泥而不必擔心被凍住?而且可以一直持續到深秋?這是一個我能想到的最合理的解釋。那麼為什麼同一個星期或者有的就在同一天就開始了呢?我覺得有一種冥冥之中的力量在推動他們~~~~


據說有錢的土豪都很迷信風水,也很迷信黃道吉日,沒準就是看了今天適合動土就選了今天了。老一輩看陰曆,年輕人看陽曆,都選在5月20號結婚也可以支持這一心理選擇偏差。

來吧,找點數據統計下看看先。


恩,百度的萬年曆

每天的禁忌還蠻多的, 雖然我完全不知道什麼意思。


找到API準備爬數據,精簡之後的地址如下,其中query=urllib.parse.quota(「yyyy年mm月」),感興趣的同學大可以去爬一爬。

https://sp0.baidu.com/8aQDcjqpAAV3otqbppnN2DJv/api.php?query=2016%E5%B9%B46%E6%9C%88resource_id=6018

百度只有2008年倒2020年的吉凶計算,大概是為了存儲空間吧,也可能是按計劃存儲執行的任務,13年的數據算周期是夠了。但是我發現了個秘密。百度家2012年以前沒有大小月之分,在api里隨處可見這種異常。大概是他們的程序員覺得這樣方便hash?行吧,將就用吧~~~

首先兩張全部分類的統計數據,一共118個分類簡直桑心病狂,吉凶的差集還不為空,看著如此符合古代生活作息的分布規律,我隱隱感覺到了其中的一些端倪。

取其中8年的數據,按每天吉凶類別數量畫出時間序列:

看到了期中幾個周期性的極大值和極小值,貌似很規律的樣子,來做一下自相關

果然,不僅360作為一個大周期,還有31天的小周期,隨機和混沌是肯定有的,做一下以360為長度的差分計算:

也就是說,你會發現某月某日是個大吉的日子,次月該日又是一個大吉的日子。

以下是自然月對應的事件吉凶比,貌似五月,十一月還是個挺吉利的月份,明明是忙種和收貨的日子,所以是希望這段時間不論你做什麼都會給你釋放積極信號么。

那麼看一下我們最初的問題,是不是對於某一個事件,在某個時間段更適合執行呢?

找出最熱的吉凶事件[入宅,出行,嫁娶,安葬,開市,祭祀]。

祭祀在4月和12月分別出現了極值,分別是清明和元旦所處的日期。

而星期則沒有任何周期現象存在

星期制從唐代波斯才開始引進中國,在農曆開始時還沒有星期這個概念,沒有這種周期現象也就並不奇怪了。

是不是古時,統治階級為了普及知識,又迫於底層民眾的愚昧,動過天干地支太極八卦對每天應該做的事情進行編碼,最後聚合成一種策略,也不失為一種好的管理方式。例如年用60個天干地支表示,月日分別用一個卦相表示,可以組成14位2進位編碼,一共可以出現2^14次方也就是約4096種組合,然後hash到每一天的事件上,然後就成了黃曆。如果這種激勵制適合古代,那麼黃曆適合現代社會嘛? The MITRE Corporation有一個研究Twitter的項目,通過每條推文的分詞來計算當天的幸福指數

選取09年到16年的數據。

周五和周六要比平常更加幸福,而且並沒有季節性波動,現代已經脫離了農耕社會。黃曆需要改進啊。


同時,這些數據已經整理好了,需要的同學可以發私信給我,數據打包給你,好了,就這樣吧。

歡迎各類奇葩怪咖加微信FavorMylikes,嘻~~~

http://weixin.qq.com/r/ZFEIEHLEjC-zrTZz9wR2 (二維碼自動識別)


推薦閱讀:

有哪些數據風向標更好地預測了這次美國總統選舉結果?
如何評價亞馬遜新推出的 Amazon Machine Learning?
數據科學家 (Data Scientist) 的核心技能是什麼?
機器學習的演算法和普通《演算法導論》里的演算法有什麼本質上的異同?
大數據在電力行業的應用前景有哪些?

TAG:數據挖掘 | 統計學 | 爬蟲 (計算機網路) | 大數據 |