有哪些好的數據來源或者大數據平台?
市場調研中經常需要各種數據證明觀點,或者從大數據中發現規律,那麼有哪些可以使用的數據來源(如國家統計局)或者大數據平台(如淘寶指數、百度指數)?
———————————————————————————————————————————
我先把題干里的網址寫出來好了。。
國家統計局:http://www.stats.gov.cn
淘寶指數:http://shu.taobao.com
百度指數:http://index.baidu.com
百度商情:http://shangqing.baidu.com
另外還有百度推廣,是款軟體,看關鍵詞熱度的。
拋磚引玉,求大神。
最近把答案中的所有網站收錄到我的小站中了,大家有需要的可以收藏這個,方便查詢。。
http://hippter.com/data.html
————————————
分享下我自己平時收集的..共100多個O_O
網站分析類:
百度指數 - 以百度海量網民行為數據為基礎的數據分享平台
Google趨勢 - 了解 Google中熱度上升的搜索
360指數 - 基於360搜索的大數據分享平台
Alexa - 網站排名
Google Analytics - Google出品,可以對目標網站進行訪問數據統計和分析
百度統計 - 百度推出的一款免費的專業網站流量分析工具
騰訊雲分析 - 是騰訊數據云,騰訊大數據戰略的核心產品
移動應用分析類:
友盟指數 - 以友盟海量數據為基礎的觀察移動互聯網行業趨勢的數據平台
移動觀象台 - 20億獨立智能設備為依據,提供應用排行榜
ASOU趨勢 - 每日跟蹤超過 100萬款應用,分析超過6億條數據
蟬大師 - App數據分析與ASO優化專家,應用與遊戲推廣平台
百度移動統計 - 基於移動APP統計的分析工具
QuestMobile - 國內知名的移動大數據服務提供商
應用雷達 - 專業的APP排行歷史跟蹤軟體實時榜單排名分析
Appannie - 移動應用和數字內容時代數據分析和市場數據的行業領導者
CQASO - 國內最專業的APP數據分析平台
媒體傳播類:
微博指數
優酷指數
微票兒票房分析
BOM票房數據
愛奇藝指數
數說傳播
百度風雲榜
微博風雲榜
愛奇藝風雲榜
豆瓣電影排行榜
新媒體排行榜
品牌微信排行榜
清博指數
易贊 - 公眾號畫像
電商數據類:
阿里價格指數
淘寶魔方
京東智圈
淘寶排行榜
投資數據類:
Crunchbase - 一個免費的科技公司、技術行業知名人物和投資者相關信息的資料庫
清科投資界 - 風險投資,私募股權,創業者相關投資,私募,併購,上市的研究
IT桔子 - 關注TMT領域創業與投資的資料庫
創投庫 - 提供最全的投資公司信息
Angel - 美國創業項目大全
Next - 36kr子站,每天更新新產品介紹
Beta List - 介紹初創公司
金融數據類:
積木盒子 - 全線上網路借貸信息中介平台
網貸中心 - 告網貸行業危機,公正透明地披露網貸平台數據
網貸之家 - P2P網貸平台排名
網貸數據 - 網貸天下 - 行業過去30天詳細交易數據,網貸天下統計、發布,每天6點更新
中國P2P網貸指數
零壹數據-專業互聯網金融數據中心
大公金融數據
全球股票指數
愛股說-基金經理分析找股平台
私募基金管理人綜合查詢
中財網數據引擎
遊戲數據:
百度網遊風雲榜
360手機遊戲排行榜
360手游指數
CGWR排行榜
App Annie遊戲指數
小米應用商店遊戲排名
TalkingData遊戲指數
遊戲玩家排名賽事數據
國家社會數據:
中國綜合社會調查
中國人口普查數據
中國國家數據中心
中國家庭收入項目
中國健康和營養調查
中國統計數據
全國企業信息查詢
北京宏觀經濟資料庫
中國金融信息網
其它數據:
螞蟻金服研究院 - 網消指數互金指數
二手市場行情
中國網路騙子地圖
春運遷徙地圖
房價指數
中國城市擁堵指數
百度研究院PC平台
百度城市熱力圖
數據分析機構:
艾瑞iResearch
艾媒iimedia
易觀國際
企鵝智酷_騰訊網
手游那點 - 全事球互聯網市場研究
dataeye - 專註於泛娛樂領域的大數據分析和挖掘
Accenture(埃森哲)
Analysys
Asymco
Canalys
CTR
CNNIC
CB Insights
Deloitte(德勤)
Digi-Capita
Forrester(弗雷斯特)
Gartner(高德納)
GfK(捷孚凱)
IDC(國際數據)
KPCB(凱鵬華盈)
MMD研究所
Nielsen(尼爾森)
NPD(恩帛源)
Ofcom
Piper Jaffray Co
Strategy Analytics
UBS(瑞銀)
pewresearchcenter
花了兩天時間,整理了以下40+個數據豐富、操作簡單的網站:
網路趨勢分析
1、5118 / chinaz——主要用戶:SEO專員
支持查詢網站排名及發展趨勢、百度收錄情況等信息
2、艾瑞指數——主要用戶:互聯網從業者
艾瑞旗下/包括移動APP指數、PC Web指數、影視指數、廣告指數、移動設備指數五類指數查詢工具。
3、百度指數——主要用戶:營銷人
百度旗下/以百度網民行為數據為基礎的數據分享平台,支持查詢需求圖譜
4、微指數——主要用戶:微博營銷人
新浪微博旗下/反映微博輿情或賬號發展走勢的數據分析工具
5、搜狗指數——主要用戶:營銷人
搜狗旗下/基於搜狗用戶行為的數據分享平台,同時支持搜索微信熱度
6、微信指數——主要用戶:微信公眾號運營人
微信旗下/基於微信大數據分析的移動端指數,打開微信→搜索「微信指數」可用
細分行業趨勢分析
1、阿里指數——主要用戶:淘寶賣家
阿里旗下/反映淘寶平台市場動向的數據分析平台
2、CBO中國票房——主要用戶:電影行業從業人員、愛好者
基於國內票房數據,統計票房排行、上座率等信息。
3、愛奇藝指數/——主要用戶:愛奇藝用戶/視頻行業研究人員
愛奇藝旗下/基於愛奇藝播放數據,展現視頻播放趨勢、視頻受眾畫像等信息
4、360大數據平台——主要用戶:網路安全相關人員
360旗下/支持地區最熱新聞、中國人返鄉熱度、詐騙地圖等信息的查詢
5、易車指數——主要用戶:購車者、汽車從業者
反映國內汽車銷售市場,為購車者或汽車從業者提供參考的數據指數
6、高德地圖——主要用戶:交通情況關注者
支持實時查看國內交通情況,此外高德周期性提供一系列數據報告
7、房天下——主要用戶:房地產從業者及相關人士
網站數據來源於中國指數研究院和CREIS中指數據,展示國內房地產數據情況
移動端數據監測
1、移動觀象台——主要用戶:移動行業從業人員/關心者
基於移動設備用戶的操作行為,提供應用、公眾號排行等,此外還發布大量數據報告
2、艾瑞APP指數——主要用戶:移動行業從業人員
支持按照月度獨立設備數、日均獨立設備數、月度總有效時長等多角度展示移動端數據情況。
3、APP annie——主要用戶:ASO專員
付費產品,支持用戶監測APP在線數據情況,市場監測範圍可拓展到全球。
4、蟬大師/ASO114 /ASO100/CQASO/APPBK
以上幾款工具比較類似,支持APP監測,主要用戶:ASO專員
支持查詢APP在應用市場的數據情況,可根據手機、應用市場等不同角度進行檢索
5、新榜/微小寶/易贊——主要用戶:新媒體工作者
以上幾款工具比較類似,支持查看公眾號排行、看公眾號人群畫像等功能
以研究報告形式發布的數據信息
1、艾瑞網——主要用戶:互聯網從業者
艾瑞旗下/支持查看較新的數據報告,主研究網路媒體、電子商務、網路遊戲等新經濟領域。
2、艾媒網——主要用戶:移動互聯網行業從業者
艾媒與艾瑞無關,艾媒網發布的研究報告多偏向移動互聯網方向
3、易觀智庫——主要用戶:互聯網從業者
易觀國際推出/主要推出新媒體經濟方向的行業信息報告
4、DataEye——主要用戶:遊戲行業、汽車行業從業者及愛好者
基於國內遊戲、汽車行業數據,進行多角度的行業調查報告撰寫發布
5、投中研究院——主要用戶:關心投資信息的人群
網站保持著較高的頻率,為用戶推送投資領域的分析報告
6、CBNDdata——主要用戶:電商行業人士
以阿里巴巴的商業資料庫為基礎,輸出產業經濟分析報告
7、QuestMobile——主要用戶:移動互聯網關注者
網站周期性地發布一些關於APP的研究報告
8、阿里研究院——主要用戶:電商行業從業者
阿里旗下/發布研究電商等方向趨勢的數據報告,內容多與阿里相關
9、騰訊大數據——主要用戶:互聯網從業者
騰訊旗下/發布與騰訊息息相關的研究報告,常會出現一些比較有趣味性的專題
10、360研究報告——主要用戶:互聯網安全關心者
360旗下/移動、PC、網站、企業、詐騙等安全領域的研究,以及大數據等非安全領域的研究
11、藝恩——主要用戶:影視從業人員、愛好者
CBO中國票房數據的提供方,提供一些行業數據報告,如動漫IP價值研究報告
12、199IT——主要用戶:互聯網從業者
容納眾多互聯網數據報告,其導航網站收集了眾多數據相關的網站鏈接
官方發布數據(多立足社會民生)
1、國家數據——主要用戶:社會情況研究人員
國家統計局開設網站,公布我國各個領域的宏觀經濟情況,權威度高
2、國家統計局——主要用戶:社會情況研究人員
鏈接各省市地區的統計網站,提供更多官方統計報告
3、中國裁判文書網——主要用戶:法律從業/學習/愛好者
中國最高人民法院開設,權威可信,可用於查詢國內裁判文書,可作數據統計來源
4、中國互聯網信息研究中心——主要用戶:互聯網研究人員
經國家主管部門批准組建的管理和服務機構,經常發布一些有價值的互聯網信息報告
5、中國信通院——主要用戶:互聯網研究人員
針對互聯網多個行業的發展趨勢,發布白皮書,角度較為宏觀
6、國土資源部——主要用戶:相關研究人員
國土資源部對外公開的信息報告,內容權威
7、中國氣象局——主要用戶:氣象相關研究人員
中國氣象局對外公開的年度報告,支持下載查看
本文由支持用戶自由搭建數據管理應用的簡道雲提供,數據搜集、數據整理、數據協作、數據分析,都可以在簡道雲中完成。
不知道題主關注的是哪些領域,其它知友提供了非常棒的回答。考慮到他們的分享以國內數據源為主,我來補充一些國外數據源。
美國管理協會( AMA)旗下雜誌《Marketing News》每年會發布一份Gold Top 50(原為Honomichl Top 50)榜單,列舉過去一年美國營收排名前50的市場研究公司。上榜的公司就是非常好的數據來源。
2016年發布的Gold Top 50榜單,前10名數據公司及其官網分別為:
- Nielsen(What People Watch, Listen To and Buy)
- IMS Health(Creating Connected Solutions for Better Healthcare Performance)
- Kantar(Research, data and insight consultancy)
- IRI(IRI - Delivering Growth for CPG, Retail, and Healthcare)
- Ipsos(Global market and opinion research specialists)
- Westat(Westat.com |)
- Gfk(Market research and user experience research experts)
- comScore(Precisely Everywhere)
- NPD(NPD Group - Market Research)
- JD Power(A Global Market Research Company)
剩餘機構及其網站,請查看下列詳細列表:
摘取常見的幾家機構,介紹下它們的數據類型:
Nielsen:全球性的市場研究公司,它的調研集中在快消、汽車、電信等領域,數據涉及消費者偏好、購買行為等多項內容,有時還會提供具有代表性的案例研究。
Kantar:同樣是一家綜合性的市場研究公司,研究覆蓋快消、健康、品牌、金融等領域,數據涉及產品的用戶喜好、品牌認知度等內容。Kantar對公眾比較開放,網站上的數據和分析可以免費查看。
comScore:一家在教育、能源、醫療領域均有研究的市場分析公司,但最擅長的領域還是媒體營銷。comScore的數據通常涉及網站流量、流媒體視頻消費、用戶購買行為等,對美國本土市場的研究很深入。過去幾年,comScore以每年一期的節奏發布美國應用市場報告,分析當年應用市場的現狀和未來趨勢。今年移動市場表現出非常明顯的衰落跡象,comScore兩年前就發現了。
NPD:綜合性市場研究公司。NPD每年訪問超過1200萬顧客,服務範圍覆蓋服裝、電氣、汽車、消費電子、體育等多個領域。它能夠提供產品銷量預測、用戶行為等數據。
除了Gold Top 50,再補充一些常用數據源,以科技、互聯網為主:
科技IT數據來源
IDC(IDC: The premier global market intelligence firm.)
Gartner(Technology Research):
兩家公司在IT、電信、消費電子、應用軟體領域有很深積累,每年都會發布全球市場智能手機、平板電腦、PC出貨量,經常關注科技資訊的知友對它們應該很熟悉。
其實除了科技產業,IDC和Gartner還會定期公開能源、健康、製造等的調研數據。進行相關領域研究時,可以將它們的數據作為一項參考。
上市公司數據來源:
1. 美股:
納斯達克(NASDAQ Stock Market)
紐交所(https://www.nyse.com/index)
SEC(SEC.gov | Home)
2. 港股:
香港聯交所(HKEX)
3. A股:
上交所(上海證券交易所)
深交所(深圳證券交易所)
證監會(http://www.csrc.gov.cn/)
研究上市公司的人員結構、業務構成,財報是常用手段。以一定時間跨度分析一家公司的財報,比單純看某個季度更有價值。美股財報可以訪問納斯達克、紐交所或SEC的網站獲取,港股財報可以訪問香港聯交所網站獲取,A股財報可以訪問上交所、深交所或證監會網站獲取。
媒體與營銷數據來源:
1. 皮尤(Pew Research Center)
獨立民調機構,調查範圍覆蓋政治、社會趨勢、宗教,媒體新聞、科技互聯網,調查報告和數據可以免費查看。皮尤具有非常現代化的網頁設計,體驗好過大多數調研機構網站。
2. VidStatsX(YouTube Stats, YouTube Statistics)
第三方YouTube統計平台,可以提供不同頻道的訂閱數、排名、視頻觀看量等數據。VidStatsX數據的時間跨度很大,時效性也很強,可以觀察一些爆款視頻的數據變化。
移動應用數據來源
App Annie(https://www.appannie.com/dashboard/home/)
App Annie可以提供一款應用在不同應用商店中的日排名,歷史排名以及在不同國家的評級數據。用戶也可以查看更詳細的下載、收入預估等數據,但這些都需要付費訂閱。簡單瀏覽幾個答案竟然沒有人提到Data | The World Bank。
強烈推薦Data | The World Bank,去年做一些case的時候查數據用了很多很多次。
然後這個好像是Google的一個數據,Freebase
其實你想要不付費得到高質量的有時效性的社會經濟數據蠻難的,個人經驗以前做過的地方會有時候像去尼爾森等等機構買數據還是一筆很大的開銷的。
對了還有這個地方我覺得蠻有趣的定期回去看,NIFTY - Weekly Visualization,這是斯坦福做的一個數據可視化的項目,我理解他是做一寫text clustering或者topic model去檢測每一天或者一段時間的news article的topic變化。瀏覽了一下,看到還沒有人提到Kaggle的datasets:Datasets | Kaggle。
Kaggle是給數據分析和建模的競賽平台,他們現在也有提供一些開放的數據集來讓大家使用,比如:
歐洲足球的資料庫,NBA數據
2016年美國大選的數據(也有希拉里郵件)
IMDB電影數據,
一些公司的數據(Uber,Twitter ,Lending Club, Reddit)等。
而且還有很詳細的數據描述:
不僅如此,他們還做了一個社區,就是對這些數據集有使用經驗的人可以在一起交流,提出問題,用數據回答問題。
點擊進去可以看到別人完整的分享和數據使用流程,對於學習來說非常有用。
用這些數據源+自身的練習+和別人思路技法上的切磋交流,可以進步很大。
作者:鎮元子
鏈接:一份存檔:互聯網上最重要的50個目錄 - 產品說明書 - 知乎專欄
來源:知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。
0、互聯網存檔 網頁歷史
1、維基百科 百科全書
2、IMDB 電影電視
3、Google文化學院 文藝歷史
4、生活時代雜誌照片存檔 攝影照片
5、最全的設計模式庫 設計模式
6、Google老報紙存檔 媒體歷史
7、CC電影庫 電影設計
8、絕對伏特加的雞尾酒 調酒
9、漢典 漢語言
10、BODYBUILDING超全的動作指導 健身
11、葡萄酒搜索 葡萄酒
12、Vogue網站主題地圖 時尚 (Archive - Vogue 會員才能看)
13、計算機歷史博物館 計算機歷史
14、MSDN、Google Developers、Apple Developer、IBM developerWorks、Intel Developer、Facebook Developers、Amazon Web Services 開發
15、CIA的世界概況 百科
16、GettyImages 圖庫 更多:作為一名平面設計師,你是如何找素材的?
17、Google趨勢熱榜 搜索歷史
18、Archive | Industrial Light Magic 特效
19、Archive - The New Yorker、紐約時報存檔 、時代雜誌存檔、Wired Magazine Issue Archive、 Vanity Fair 、The Economist 文藝科技歷史
20、Google 學術搜索 論文
21、豆瓣標籤 興趣
22、RARBG、KAT 找片
23、谷歌地球 地理信息
24、Wikia 主題維基
25、GIPHY GIF搜索
26、搜狗微信搜索、搜狗知乎搜索 微信知乎搜索
27、棗書 電子書搜索
28、App Store 排行榜、小眾軟體、最美應用、少數派 應用
29、百度搜索風雲榜 大陸搜索趨勢
30、NASA 航天
31、Smithsonian 歷史博物
32、電子商務500強 電子商務
33、Pixar 電腦動畫
34、Top Advertising Agencies: Global Rankings, Profiles Timelines 廣告
35、蓋洛普、麥肯錫、尼爾森 調查諮詢
36、IDEO 設計
36、MAME 模擬器
37、The Video Game Museum 視頻遊戲歷史
38、Swatch Group、LVMH、Kering、Richemont 奢侈品
39、Olympics、FIFA、NBA、Formula 1、NFL、體育
40、The Rock and Roll Hall of Fame and Museum 音樂
41、WorldCat 圖書館目錄
42、WPP 廣告傳播
43、可口可樂公司、麥當勞、Altria、星巴克、AB InBev、百勝、Red Bull、PepsiCo、Nestlé、bacardi 垃圾食品
44、PG、Unilever 洗化
45、National Geographic 攝影照片
46、NIKE、Under Armour、adidas 體育用品
47、DMOZ 目錄
48、hao123 目錄
49 Deep web
50 Steam 遊戲
在這裡推薦一下我們自己開發的工具,目前還在迭代中,但很多功能已經基本可用了,主要功能之一是提供各種數據可視化
使用非常簡單,通過一個關鍵詞,可以立刻得到與之相關的各種圖表,例如我搜索鹿晗,可以得到:
鹿晗的熱度趨勢,圖中的峰值是啥你們應該知道
微博上關於鹿晗的討論的情緒判斷,為啥這麼多負面情緒,你們也應該知道
微博上關於鹿晗的討論的詞雲圖,為啥關曉彤出現在鹿晗上面,你們同樣應該知道
這是知乎上關於鹿晗的問題的詞雲圖,和微博有點差異,有點意思
你甚至還可以看到,全國各地討論鹿晗的地域分布,所以你能夠理解為啥鹿晗是國民偶像了
所有的數據圖表,僅僅需要你搜索「鹿晗」這個詞就可以得到,並且完全免費。
我們的產品:紐扣數據
PS:如果你正在學習或者想要學習數據分析,又苦於沒有數據集,可以在微信公眾號「一個程序員的日常」後台回復關鍵詞「0」獲取一套我整理好的上百萬條各個網站的數據集合。
做數據可視化或者數據分析的朋友可能經常會碰到的問題就是有想法沒有數據。想到我有幾位朋友就是這樣,因此每次我抓取了數據我會第一時間輸出給他們。
有些可視化或者數據分析的朋友可能自己會爬蟲所以當自己有想法的時候他們就回自己手動取做爬蟲去抓取一些數據。但是往往是有可能有些數據抓取不到,還有可能有些人根本不會爬蟲。這時候為了更加方便我們快捷的學習可視化和數據分析的知識,我們的時間應該投入到後續的研究而不是數據的獲取。
但是 如果你很倔強(比如我)非要通過爬蟲方式抓取數據進行研究分析那麼同樣可以給你推薦一個學習爬蟲的路線和學習資料,助你10天入門爬蟲:如何學習Python爬蟲[入門篇]
沖著以上的一些方面,於是在今天想給大家推薦一些可以免費或者只需要花費很小的代價就可以獲取數據的網站或者方式,一下推薦的網站格式為標題加簡單那介紹加網站的一張配圖,你可以按照介紹取尋找你需要的資源。
第一推薦這樣一個獲取數據的方式:有哪些「神奇」的數據獲取方式? - Liu Cao 的回答
(1)、數據分析報告,數據報告,數據圈論壇
不得不說這真是一個獲取數據的好地方,
主要包含:國內宏觀、區域數據、世界經濟、價格數據、工業行業、區域數據、國內宏觀、區域數據、世界經濟、價格數據、工業行業、區域數據。
是否免費:否(花費論壇金幣)
(2)、海量數據免費下載
此網站數據就比較多涉及的方面也比較多了,合適各種行業各種朋友。
主要包括數據:語音識別、醫療健康、交通地理、電子商務、社交網路、圖像識別、統計年鑒、研發數據等領域。
是否免費:否(論壇金幣,部分免費,部分花費少量金幣)
(3)、國雲數據市場
主要包含數據:生活服務、教育、能源、建築、交通運輸、政府、金融、農業、醫療、衛生
是否免費:否(大部分免費,根據自己選擇)
(4)、數據包下載列表
主要數據包括:社交網路、電子商務、企業名錄、 金融數據、生活服務、科研數據、知識庫
是否免費:否(不全免費,部分需要rmb)
(5)、微盛投資:滬深市場5分鐘數據 wdz格式 轉 txt、通達信,大智慧dad,飛狐dad,錢龍,同花順等(此網站界面有點low,不截圖解釋請自行訪問查看)
(6)、國家地球系統科學數據共享平台全球變化研究出版數據直接下載 (有部分數據)
(7)、中華人民共和國國家統計局&>&>統計數據
聽名字就知道是什麼數據了吧,而且所有數據都是免費,當然這個網站還有彩蛋。在文末的友情鏈接裡面有很多地方的數據以及國外各國的數據。所以不要簡單的認為只有本網站那麼點數據喔。網站最後的友情鏈接請仔細查看,不要說我沒告訴你。
(8)、分類: 地球物理相關資源
這一位博主的博客,maybe出於研究目的,他整理了一些 地球物理相關的資,如果有人需要研究這方面的東西可以這裡去下載你想要的資源,當然全部是免費的資源了。
(9)、國家數據
同樣包含了國家的各種數據,點進去你可能會發現新世界的大門,而且所有數據均是免費!果然黨是不會騙你錢的,好好跟黨混沒錯。
(10)、產業數據_統計數據
數據主要包括:能源、電力、冶金、化工、機電、電子、汽車、物流、房產、建材、農林、安防、包裝、環保、食品、煙酒、醫藥、保健品、IT、通信、數碼、家電、家居、傢具、文化、傳媒、辦公、文教、服務、金融、培訓、旅遊、服裝、玩具、禮品、工藝品
是否免費:全部免費
(11)、百度數據開放平台
不噴不噴不噴!重要的事情說三次。這點數據還是有用的!
以上來源於我的文章:有哪些可以獲取數據的網站?[大數據] - 學習編程 - 知乎專欄
(註:本文根據小講「企業大數據戰略及價值變現」中的「大數據平台」章節的分享整理而成)
關於大數據平台,前面的作者給大家分享了很多。其實,學習別人的大數據平台,倒不如自己從頭到尾的搭建一個大數據平台學習得多。
大數據有非常大的價值,不管是從幫助企業創造營收還是從提高效率、節省企業成本角度。大數據要是做好了,將會是一個企業增長的發動機,推動業務突飛猛進的發展。要實現大數據的價值,真正讓大數據為企業創造貢獻,首先必須要積累有大數據,把日常的業務和用戶行為數據收集起來。有些數據是可再生資源,但更多的數據是不可再生資源,這就需要我們搭建一個平台負責數據的採集、規整、運算、存儲、應用、展現等,有了這樣一個大數據平台,我們才能做好數據的積累,從小數據到大數據,數據是企業的資產,好的數據是企業的優質資產。大數據平台該怎樣搭建呢?請看下面這幅圖,不管我之前在阿里還是在騰訊工作,還是到哪個企業工作,基本上我都是通過這幅圖進行一些簡單的適應企業的調整,就可以完全搬過來使用了。
針對上面這幅圖,有幾點跟大家講解說明下:
1)大數據平台由三個平台+一個服務組成:工具平台,大數據倉庫基礎平台、大數據門戶,其中,工具平台又包含運維平台和數據採集平台,大數據門戶又包含大數據分析平台和大數據產品應用平台。
2)講講每個平台的作用。
運維平台主要負責整個大數據平台的任務調度、任務監控、元數據管理、許可權管理等,分別由調度系統、任務監控中心、元數據管理系統、許可權管理系統等系統組成。
大數據採集平台主要負責把數據採集到大數據倉庫平台中。企業的大數據來源從大的角度來說,主要是從三個方面獲取數據,業務系統、行為日誌採集系統、外部數據來源。每一個方面來源又包含途徑,大家可以看上面的圖就了解。這裡特別要強調的是外部數據來源,可以通過網路爬蟲工具收集,通過和相應的合作方進行數據交換,通過從數據商那裡採購過來,也有極少部分可以通過一些大公司的開放平台介面獲取,比如阿里、騰訊等。
大數據基礎平台,在傳統的關係資料庫時代,這個平台也是企業必須要做的平台,只不過當時叫數據倉庫系統,在大數據時代,我稱作為大數據倉庫基礎平台。這部分是整個大數據平台的核心。我們接下來會詳細討論。
大數據門戶,是數據成果的集成一體化平台,包含大數據分析平台和數據應用平台。大數據門戶作為整個數據部門的窗口,所有數據研究成果都會展現在數據門戶中,極大的方便了企業各層級、各職能人員使用數據。我們接下來也將會詳細討論下這部分內容。
用戶服務,使用我們數據的人主要有公司的各層級的管理人員、數據分析人員、運營人員、產品經理、技術研發工程師、企業的投資相關方,還可能有部分的公司提供對外的數據服務。提供服務的方式有多種多樣,或通過大數據門戶、或通過API介面、或是直接在分析報告中體現。
註:具體詳細的怎麼構建大數據平台的分享內容,歡迎大家參加小講「企業大數據戰略及價值變現」,會有很多的乾貨和獨門絕技分享。
第二部分:大數據平台構建用到的技術工具和組件
(註:本部分根據小講「大數據人的數據科學家之路」中的「大數據基礎技術」章節分享整理而成)
hadoop和Spark是兩種不同的大數據處理框架,他們的組件都非常多,往往也不容易學,我把他們兩者整理在一幅圖中,給大家一個全貌的感覺。初學者可以針對如下圖中的組件,逐個的去研究攻破。至於各組件的詳細介紹、相關聯繫和區別,以及它們在大數據平台建設中的具體實施關注點,待點贊數達到1000,我再對帖子進行詳細的更新,請大家隨手幫忙點個贊。
以上這些大數據組件是日常大數據工作中經常會碰到的,每個組件大概的功能,我已經在圖中做了標識。下面,針對這幅圖我給大家兩點重要提示:
a.藍色部分,是Hadoop生態系統組件,黃色部分是Spark生態組件,雖然他們是兩種不同的大數據處理框架,但它們不是互斥的,Spark與hadoop 中的MapReduce是一種相互共生的關係。Hadoop提供了Spark許多沒有的功能,比如分散式文件系統,而Spark 提供了實時內存計算,速度非常快。有一點大家要注意,Spark並不是一定要依附於Hadoop才能生存,除了Hadoop的HDFS,還可以基於其他的雲平台,當然啦,大家一致認為Spark與Hadoop配合默契最好擺了。
b.技術趨勢:Spark在崛起,hadoop和Storm中的一些組件在消退。大家在學習使用相關技術的時候,記得與時俱進掌握好新的趨勢、新的替代技術,以保持自己的職業競爭力。
HSQL未來可能會被Spark SQL替代,現在很多企業都是HIVE SQL和Spark SQL兩種工具共存,當Spark SQL逐步成熟的時候,就有可能替換HSQL;
MapReduce也有可能被Spark 替換,趨勢是這樣,但目前Spark還不夠成熟穩定,還有比較長的路要走;
Hadoop中的演算法庫Mahout正被Spark中的演算法庫MLib所替代,為了不落後,大家注意去學習Mlib演算法庫;
Storm會被Spark Streaming替換嗎?在這裡,Storm雖然不是hadoop生態中的一員,但我仍然想把它放在一起做過比較。由於Spark和hadoop天衣無縫的結合,Spark在逐步的走向成熟和穩定,其生態組件也在逐步的完善,是冉冉升起的新星,我相信Storm會逐步被擠壓而走向衰退。
(註:想看更多乾貨,了解更多大數據獨門絕技,歡迎參加小講「大數據人的數據科學家之路」)
歡迎大家拍磚指正,歡迎大家關注我的知乎專欄「大數據實踐與職業生涯」並留言,專欄會陸續的推出過往十多年的大數據工作經驗總結和我的一些研究實踐成果。如果你是大數據新人,或者想轉行進入大數據領域,或者職業生涯上存在一些疑惑,都歡迎關注我的知乎live分享「大數據人的職業生涯規劃」 和 「數據分析師-從零入門到精通」、「大數據人的數據科學家之路」、「企業大數據戰略及價值變現」。
浪潮卓數
http://hao.199it.com/mobile/
知道一個DevStore(http://www.devstore.cn),app開發,絕對大數據
數據搜索 - 讓數據搜索更簡單
這個應該有用吧虫部落 — 讓搜索更簡單
這個是總站,除了上邊的搜數據,還有學術搜索,圖搜等
有了這個可以少收藏很多網站
之前把主頁設置成了這個網站下的快搜,後來覺得他更新後頁面太丑,就放收藏夾了
數據堂 目前就知道這一個
看這裡
國內外有哪些比較權威的統計數據網站? - 互聯網
推薦一個:數多多大數據交易平台
各大社工庫
大眾一點兒的,還有這些可以參考:
歡迎補充
【新浪微博指數】微指數首頁
主要是查看話題的熱議度,具體的討論人群,時間段,關鍵詞的正負相關性等,還是蠻有用的。
【優酷視頻指數】中國網路視頻指數
個人認為優酷的很多戰略布局都是領先其他視頻網站的,比如很早之前就開始有在做視頻播放指數分析,之前也有使用過,還是不錯的,具體如圖。
【360搜索指數】好搜指數-搜索大數據分享平台
百度有百度指數,360搜索雖然是後起之秀,但發展還是不錯的,自己肯定也做了屬於自己的搜索指數,還是有亮點的。
【搜狗指數】搜狗指數
基本上每個主流的搜索引擎都搞了屬於自己的大數據分析平台,但各自都尤其側重點,比如搜狗的新聞指數、站點指數,媒體影響力排行等。
【百度預測】百度預測-大數據 知天下
這個算是大數據的實際應用吧,且可視化的效果結合起來,更具有商業價值,等技術成熟之後,應該不錯。
【百度輿情】百度輿情-互聯網輿情專業分析系統
就目前自己所知道的方面來看,百度的大數據方面開發得比較多新項目,比如這個輿情,對於社會熱點的把握還是有用的
其實還有好些比較細分的指數平台,歡迎大家補充!
除了國家統計局,其他如淘寶、百度的數據是不可能開放的。是否可以購買,現在也還沒到要說清楚的階段。
不過,如果你能付費的話,現在有一個非常好的數據來源,中國電信開放了。可想而知他們的數據價值在哪裡,可想而知他們的數據能做什麼。
別的行業不知道 房產行業好的數據源就是各個城市房地局的三產公司或者當地「特殊渠道」的數據公司。他們有著這個城市的房地產成交供應存量的精準數據。還有一種叫做均價數據的存在於各個城市房地局的網上公示平台,如果要說誰家捕捉的掃描這類數據最全的話國內應該就是克而瑞和中指研究院了。他們可以給你100多個城市的城市列表虎你一陣,但是你很快就會發現裡面很多只是項目級資料庫或者均價資料庫。只能作為宏觀粗略的分析。
而你要精準的話又沒有數據渠道就只能去去採購銳利 佑威那種地方級的數據供應商的數據。
所以你做房產數據分析 當一個平台或者一個數據源告訴你他有20個以上城市的時候 你就呵呵吧。
推薦閱讀:
※你為什麼從金山離職?
※為什麼太陽能帆板展開是衛星發射的重要節點?
※「PM吸PM2.5」對什麼下聯?
※如何看待asgardia申請人數排名?
※如何評價「一代虎將張萬年打了一輩子仗還不如姚貝娜唱幾首歌」的言論?