數據分析和挖掘有哪些公開的數據來源?
除了自己收集數據,有沒有比較合適的公開數據源,用來做一些數據分析和挖掘實例。
- UCI是最經典的,不過也比較古老
- 數據堂最近異軍突起,非常值得稱讚
- 國外還有一些網站,比如http://mlcomp.org/,http://mldata.org/你可以看看
- 另外KDDCUP每年都會針對一個特定的問題進行比賽,數據集也是公開的
- 最近幾年,數據挖掘的比賽越來越多了,你可以去PASCAL上看看你感興趣的領域,自己搜索一下
- http://www.delicious.com/pskomoroch/dataset這個是delicious上面一個人搜集的數據集網站書籤,比較雜,或許你能找到你所要的(話說delicious改版之前這個裡面的內容比現在的多多了)
- 再有就是看具體的做的內容,然後看相關學者都用什麼數據集,除了LDC那種變態組織,其他很多數據都可以通過track論文中的信息或者是作者主頁上的信息下載到的
- 做數據挖掘和數據分析都是針對某一個領域或者問題去做,其實也看那個領域會不會有開放的心態去公開數據,前兩年在Hans Rosling老先生在TED上公開呼籲之後,很多機構,包括聯合國都公開了自己的數據
補充,在quora上面看到一個問題中的答案涉及這個問題,那個更加全面 http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public
關鍵詞:國內、常見、公開、易得、實用、權威(僅指國家發布的)
【國家相關部門統計信息】
主要包括央行、銀監會、證監會、國家統計局、政府網、互聯網路信息中心發布的數據統計信息。- 中國人民銀行 http://www.pbc.gov.cn/diaochatongjisi/116219/index.html
主要包括社會融資規模、金融統計數據、貨幣統計、金融機構信貸收支統計、金融市場統計、企業商品價格指數等等,數據權威且容易查找,實用性強。
- 中國銀行業監督管理委員會 http://www.pbc.gov.cn/jinrongshichangsi/147160/147171/index.html
主要包括銀行業的數據統計,包括資產負債規模、主要監管數據等。
- 國內各類型銀行業金融機構 http://www.cbrc.gov.cn/chinese/jrjg/index.html
包括政策性銀行、國有商業銀行、股份制銀行、城商行、農商行、農信社、信託、財務公司等等。這個信息及其好用,位於銀監會網站內,但入口嵌得較深,平時不好找到。看到這裡你還不點贊嗎T_T
- 中國證券監督管理委員會http://www.csrc.gov.cn/pub/newsite/sjtj/
主要包括證券市場、期貨市場相關數據,每天更新快報,並有周報、月報等定期更新。
- 中國國家統計局 http://www.stats.gov.cn/tjsj/
主要包括國家經濟宏觀數據,社會發展、民生相關重要數據及信息,非常全面,且定期發布統計出版刊物,實用性強。
- 國家數據http://data.stats.gov.cn/index.htm
數據源來自國家統計局,但排版更清晰簡潔,包括國計民生各個方面的月度數據、季度數據、年度數據、各地區數據、部門數據以及國際數據。強推。
- 數據_中國政府網http://www.gov.cn/shuju/
主要包括CPI、GDP、PPI、工業生產增長指數、固定資產投資、社會消費品零售總額、糧食產量等的指數統計,只列出了主要數據,數據來源於國家統計局,點擊會跳轉至統計局的國家數據網站。查找起來比較簡潔清晰,適合需要快速獲取這些基礎數據的人群。
- 中國經濟資料庫 http://www.ceicdata.com/zh-hans/countries/china
- 中國互聯網路信息中心 CNNIC http://www.cnnic.cn/
主要包括互聯網發展相關基礎數據,相對第三方機構的互聯網數據而言,數據更宏觀且權威。
- 中國國家圖書館-期刊資源庫http://www.nlc.gov.cn/dsb_zyyfw/qk/qkzyk/
作為一個碉堡的國家圖書館,免費註冊賬號後可鏈接至國內網大多數的資源庫(同一賬號鏈接過去無需再次註冊),包括知網、萬方等一系列國內網期刊資料庫。對畢業後享受不了大學圖書館的資料庫福利的我們來說簡直天大福音!!QAQ
【第三方機構統計數據】
主要包括199it、搜數網、統計網、數據堂、淘寶指數、百度指數、艾瑞諮詢、知網數據、萬方數據發布的數據統計信息或研究報告。(嚴格來說不全是第三方機構,部分機構為國家相關部門下屬事業單位,在此不做區分)- 199it 互聯網數據統計http://www.199it.com/
主要針對互聯網專題的數據統計,側重於網羅各種互聯網相關報告,數據權威性一般,但大部分報告質量很高,啟發性和可讀性非常強。
- 中國資訊行_搜數網http://www.soshoo.com/index.do
主要包括下述分類,可在國家統計局數據不太好找的情況在把這個網站作為替代工具。
- 中國統計網_數據分析http://www.itongji.cn/analysis/
側重於數據分析。
- 數據堂http://www.datatang.com/
- 淘寶指數 http://shu.taobao.com/
百度指數 http://index.baidu.com/
- 艾瑞諮詢iresearch-洞察互聯網的力量
定期發布互聯網相關數據及報告,主要側重於發布自家報告,在國內的互聯網諮詢服務方面報告相對出色。
- 知網_統計數據 http://www.cnki.net/
萬方數據 http://et.wanfangdata.com.cn/
這兩個無須介紹。賬號可通過上述介紹的,通過中國國家圖書館的註冊賬號進去,即可免費合法下載資源。- 大數據搜索導航 http://hao.199it.com/
作為導航,分類彙集了部分數據網站,主要側重於互聯網相關,也包括了上面所提到的一些數據源。
- 讀讀日報:FinTech金融科技 http://dudu.zhihu.com/circle/152763?utm_campaign=in_app_shareutm_medium=iOSutm_source=copy
這是我個人創建的日報,分享和探討與互聯網金融、互聯網+、戰略諮詢相關,主要來自於麥肯錫、BCG、羅蘭貝格、企鵝智庫等機構發布的文章,內容均經過我的篩選和研讀覺得適合收藏才會發布,歡迎關注。
以上。
轉載 具體出處忘記在哪兒了
《數據挖掘的數據集資源》大家做數據挖掘研究時,常常為找不到合適的數據而發愁。在KDNuggets上有Datasets欄目,提供一些數據集,網址為:http://www.kdnuggets.com/datasets/還有另外一個很好的資源網址為:http://kdd.ics.uci.edu/ ,裡面包含的數據資源如下(按應用領域劃分):Direct Marketing KDD CUP 1998 DataGIS Forest CoverTypeIndexing Corel Image Features Pseudo Periodic Synthetic Time SeriesIntrusion Detection KDD CUP 1999 DataProcess Control Synthetic Control Chart Time SeriesRecommendation Systems Entree Chicago Recommendation DataRobots Pioneer-1 Mobile Robot Data Robot Execution FailuresSign Language Recognition Australian Sign Language Data High-quality Australian Sign Language DataText Categorization 20 Newsgroups Data Reuters-21578 Text Categorization Collection NSF Research Awards Abstracts 199 0-2003World Wide Web Microsoft Anonymous Web Data MSNBC Anonymous Web Data Syskill Webert Web Data 轉:http://blogger.org.cn/blog/more.asp?name=DMmanid=240431、氣候監測數據集 http://cdiac.ornl.gov/ftp/ndp026b2、幾個實用的測試數據集下載的網站http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.ics.uci.edu/summary.task.type.htmlhttp://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/http://www.phys.uni.torun.pl/~duch/software.html在下面的網址可以找到reuters數據集http://www.research.att.com/~lewis/reuters21578.html以下網址上有各種數據集:http://kdd.ics.uci.edu/summary.data.type.html進行文本分類,還有一個數據集是可以用的,即rainbow的數據集http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html3、找了很多測試數據集,寫論文的同志們肯定需要的,至少能用來檢驗演算法的效果可能有一些不能訪問,但是總有能訪問的吧:UCI收集的機器學習數據集ftp://pami.sjtu.edu.cn/http://www.ics.uci.edu/~mlearn//MLRepository.htmstatlibhttp://liama.ia.ac.cn/SCILAB/scilabindexgb.htmhttp://lib.stat.cmu.edu/樣本資料庫http://kdd.ics.uci.edu/http://www.ics.uci.edu/~mlearn/MLRepository.html關於基金的數據挖掘的網站http://www.gotofund.com/index.asphttp://lans.ece.utexas.edu/~strehl/reuters數據集http://www.research.att.com/~lewis/reuters21578.html各種數據集:http://kdd.ics.uci.edu/summary.data.type.htmlhttp://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.htmlhttp://lib.stat.cmu.edu/datasets/http://dctc.sjtu.edu.cn/adaptive/datasets/http://fimi.cs.helsinki.fi/data/http://www.almaden.ibm.com/software/quest/Resources/index.shtmlhttp://miles.cnuce.cnr.it/~palmeri/datam/DCI/進行文本分類WEBhttp://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.htmlhttp://www.w3.org/TR/WD-logfile-960221.htmlhttp://www.w3.org/Daemon/User/Config/Logging.html#AccessLoghttp://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.htmlhttp://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/http://www.web-caching.com/traces-logs.htmlhttp://www-2.cs.cmu.edu/webkbhttp://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdfhttp://www.cs.cornell.edu/projects/kddcup/index.html時間序列數據的網址http://www.stat.wisc.edu/~reinsel/bjr-data/apriori演算法的測試數據http://www.almaden.ibm.com/cs/quest/syndata.html數據生成器的鏈接http://www.cse.cuhk.edu.hk/~kdd/data_collection.htmlhttp://www.almaden.ibm.com/cs/quest/syndata.html關聯:http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jarhttp://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynDataWEKA:http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar1。A jarfile containing 37 classification problems, originally obtained from the UCI repositoryhttp://prdownloads.sourceforge.net/weka/datasets-UCI.jar2。A jarfile containing 37 regression problems, obtained from various sourceshttp://prdownloads.sourceforge.net/weka/datasets-numeric.jar3。A jarfile containing 30 regression datasets collected by Luis Torgohttp://prdownloads.sourceforge.net/weka/regression-datasets.jar癌症基因:http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi金融數據:http://lisp.vse.cz/pkdd99/Challenge/chall.htm另一個人提供的
http://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.ics.uci.edu/summary.task.type.htmlhttp://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/http://www.phys.uni.torun.pl/~duch/software.html在下面的網址可以找到reuters數據集http://www.research.att.com/~lewis/reuters21578.html以下網址上有各種數據集:http://kdd.ics.uci.edu/summary.data.type.html進行文本分類,還有一個數據集是可以用的,即rainbow的數據集http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.htmlDownload the Financial Data (~17.5M zipped file, ~67M unzipped data)Download the Medical Data (~2M zipped file, ~6M unzipped data)http://lisp.vse.cz/pkdd99/Challenge/chall.htmkdnuggets 相關鏈接數據集(借花獻佛了):http://www.kdnuggets.com/datasets/index.html你也可以到http://blogger.org.cn/blog/more.asp?name=idmerid=24017察看kdnuggets 數據集資源的詳細介紹。數據挖掘相關比賽以及數據集2005 University of California data mining contest , predicting bad accounts and their churn date using real-world CRM data, deadline June 30, 2005.· ILP 2005 Challenge , on the prediction of functional classes of genes.· KDD Cup 2005 , on classifying internet user search queries, deadline July 8.· Data Mining Cup 2005 (Chemnitz, Germany) , for students; topic: How data mining can ascertain the risk of loss of payments and reduce this risk.· KDD Cup 2004 , focuses on data-mining for a several performance criteria using datasets from bioinformatics and quantum physics.· InfoVis 2004 Contest , The History of InfoVis.· DATA MINING CUP 2004 (Chemnitz, Germany) , for students.· InfoVis 2003 Contest: Visualization and Pair Wise Comparison of Trees , results announced Sep 5, 2003.· KDD Cup 2003 , focuses on problems motivated by network mining and the analysis of usage logs.· DATA MINING CUP 2003 (Chemnitz, Germany) . The task is to identify spam emails before they reach the user′s mailbox.· KDD Cup 2002 , focus on data mining in molecular biology.· Student Data Mining Cup (2002) , Chemnitz University and Prudential Systems.Quora上有人問過類似的問題:Where can I get large datasets open to the public?
問題鏈接:http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public該頁面的Answer Wiki列舉了數十個數據來源,現在搬運如下:Cross-disciplinary data repositories, data collections and data search engines:
- http://aws.amazon.com/datasets
- http://databib.org
- http://datacite.org
- http://figshare.com
- http://linkeddata.org
- http://reddit.com/r/datasets
- http://thedatahub.org alias http://ckan.net
Single datasets and data repositories
http://archive.ics.uci.edu/ml/http://crawdad.org/http://data.austintexas.govhttp://data.cityofchicago.orghttp://data.govloop.comhttp://data.gov.uk/http://data.medicare.govhttp://data.seattle.govhttp://data.sfgov.orghttp://data.sunlightlabs.comhttps://datamarket.azure.com/http://developer.yahoo.com/geo/g...http://econ.worldbank.org/datasetshttp://en.wikipedia.org/wiki/Wik...http://factfinder.census.gov/ser...http://ftp.ncbi.nih.gov/http://gettingpastgo.socrata.comhttp://googleresearch.blogspot.c...http://books.google.com/ngrams/http://medihal.archives-ouvertes.frhttp://public.resource.org/http://rechercheisidore.frhttp://snap.stanford.edu/data/in...http://timetric.com/public-data/https://wist.echo.nasa.gov/~wist...http://www2.jpl.nasa.gov/srtmhttp://www.archives.gov/research...http://www.bls.gov/http://www.crunchbase.com/http://www.dartmouthatlas.org/http://www.data.gov/http://www.datakc.orghttp://dbpedia.orghttp://www.delicious.com/jbaldwi...http://www.factual.com/http://research.stlouisfed.org/f... http://www.freebase.com/http://www.google.com/publicdata...http://www.guardian.co.uk/news/d...http://www.infochimps.comhttp://www.kaggle.com/http://build.kiva.org/http://www.nationalarchives.gov....http://www.nyc.gov/html/datamine...http://www.ordnancesurvey.co.uk/...http://www.philwhln.com/how-to-g...http://www.imdb.com/interfaceshttp://imat-relpred.yandex.ru/en...http://www.dados.gov.pt/pt/catal...http://knoema.comhttp://daten.berlin.de/http://www.qunb.comhttp://databib.org/http://datacite.org/Edithttp://kandianbao.com(看店寶),這個工具對於做淘寶數據分析的簡直是神器啊。
我是做淘寶的,數據挖掘方面沒有樓上這麼高大上了~~。不過本著求上進的精神,為了跟進行業變化,還是在數據挖掘分析方面探索了很多。在這裡也分享一個小例子。
具體的,針對自己做的「保溫產品」類目,我會每天跟蹤「保溫杯」、「保溫壺」兩個詞淘寶銷量排名的前20頁數據。
並且根據這些數據,統計了銷量前100的寶貝的單價、銷量、排名變化情況。
通過統計這些寶貝的變化,可以了解一個寶貝在較長時間的運營成果。
在大量數據的支撐下,還可以看出熱門款式的變化,以及哪種款式上升最快,從而為運營提供參考,為選款提供依據。
根據剛才講到的源數據,我做過一個表格來監控市場變化:
通過這些數據可以得出一些基礎的結論,比如說:
一、常規大牌的保溫杯一直保持在高位,甚至排名在上升,波動不大
二、較高價位的杯子(70-120)近1個半月銷量排名整體呈上升勢頭,可見市場對高價位的承受能力正在變高。
三、前100的高價杯大多為天貓寶貝,存在的兩個淘寶店鋪分別號稱AKAW、膳魔師分銷。
四、銷售AKAW品牌的店鋪的成功原因有下
1、以煮粥為特色,產品(宣傳)功能差異化
2、號稱日本第五大品牌,同時價格為86,性價比看起來很高
3、詳情頁製作水平較高,有視頻、有模拍。
五、2月份排名前100的寶貝,在12月份排名也都比較靠前。可見旺季來臨前就需要準備好,旺季來時,很難衝起銷量來。
通過這些基礎結論,可以進一步給運營一些有用的啟示,比如:
1、要想在市場中取得成功,必須要符合市場價位承受能力(熱門市場價位峰值在120)。
2、進入旺季之後,很難再衝起來寶貝了,必須要在旺季前就準備好(因為數據上前100的寶貝從一開始排名就很靠前)。
3、市場排名靠前的寶貝,只要運營得當,可以相對容易地在整個旺季排名靠前。
4、市場價位承受能力在逐漸變高,至少從一個銷售季的時間範圍來看(高價位寶貝排名普遍提升)。
5、淘寶店鋪取得較大成功,需要在認真打造產品的前提下,做出差異化(參照akaw例子)。
(有點跑題了)想必行業相關的朋友也想怎麼做這樣的監控表了吧(自high一下~)。那我就來揭曉答案。
具體來說,這種監控在操作上都有四個步驟:構思、源數據獲取、數據粗加工、有用數據呈現及分析
操作步驟:
1、 構思:
現根據自己想要的結論,做出想要表格的模版。而後為了用數據填充模版,再一步步做數據的採集、加工、統計。
2、 源數據獲取:
每天從看店寶(http://kandianbao.com)中下載「保溫杯」淘寶銷量排名前20頁的寶貝數據。按規律命名,放入excle表中。(下載的數據中沒有寶貝ID的信息,而我們需要用寶貝ID來辨別寶貝。此時我們可以用VBA來從寶貝名中提取鏈接,而後從鏈接中提取寶貝名)
數據源形式大致如下:
3、 數據粗加工:
在同一個excle中製作數據監控表。表的形式如下圖。由於源數據中沒有寶貝的排名數據,但寶貝均是按銷量順序排名的,此時我們需要用數組函數來提取排名。
4、 有用數據呈現及分析:
統計銷量排名趨勢,並對比價格、銷量變化趨勢來獲取有用信息。
得出有用的分析結果還需要對行業的足夠了解。帶著需要去做數據分析。
整個數據分析中用到的相對複雜的函數或代碼如下,謹供參考:
1、 使用vba從寶貝名中提取鏈接的代碼
Sub
ExtractHL()
Dim HL As Hyperlink
For Each HL In ActiveSheet.Hyperlinks
HL.Range.Offset(0, 1).Value =
HL.Address
Next
End Sub
2、 從鏈接中提取寶貝/店鋪ID的excle公式
=VALUE(MID(C2,FIND("=",C2)+1,20))
3、 從源數據中,根據寶貝ID和日期,提取寶貝排名的公式(使用數組)
={IF(COUNTIF(INDIRECT("""MONTH(G$1)IF(DAY(G$1)&>9,DAY(G$1),"0"DAY(G$1))"杯"!$C:$c"),$A2)=0,"無",MAX(--IF($A2=INDIRECT("""MONTH(G$1)IF(DAY(G$1)&>9,DAY(G$1),"0"DAY(G$1))"杯"!$C:$c"),ROW(INDIRECT("""MONTH(G$1)IF(DAY(G$1)&>9,DAY(G$1),"0"DAY(G$1))"杯"!$C:$c"))))-1)}
對於初學者,或打算淺嘗體會的朋友,推薦 edX的MIT公開課 「 The Analytics Edge "
15.071x Course Info
課程里有很多有趣的實際問題和.csv格式數據,以及用於分析的R代碼可供下載。 稍作分析可以快速看到一些結果和結論,最短時間體會何為Data Science. 此外,MIT的課程講解的無與倫比,幾乎每個Lecture都讓我獲益匪淺。這一篇分享、整理一些 分析和挖掘的來源,以及好用的工具。
動筆的原因是,我們幫企業分析各大電商下的評論、評論數、價格等 數據輿情信息,採集數據以後。發現 還有很多團隊和個人,因為技術限制居然還是 需要 手動 複製粘貼來展開。相信數據採集的操作最優化一定能給 大量企業 節省非常多的 人力成本。
這篇問題翻下來,注意到推薦的很多網站有的 已經更換,有的 已經停止服務,這篇在經過整理,驗證,搜集之後一併做個 結構性更強 的詳細介紹和更新。私以為工具還是要推薦最易用的,舉賢不避親,就先說我們自己的,其他的同篇幅介紹一下。
都說數據分析 有 三板斧: 細分、溯源 和 對比。統計上講,數據主要來自兩個渠道 : 一是數據的間接來源 ; 二是數據的直接來源。 這篇就先從 來源場景 說起。【數據應用的場景】
數據分析、挖掘的場景非常多。
造數,無敵超級變態強大的數據採集工具 一直以來比較關注適用以下三個使用形式:
1,數據(價格等)跟蹤
例如:京東、亞馬遜的 價格追蹤 和 鏈家等平台的房價趨勢追蹤。
2,輿情監控(關鍵詞搜索結果,對應頁面的內容監控)
例如:百度關鍵詞 結果 以及 微博、微信等的 信息監控。
3,競品調查,市場分析
例如:競品的產品信息訂閱等等。
企業用戶看這裡(大型定製需求請私信):
造數雲爬蟲使用介紹—在線播放—優酷網,視頻高清在線觀看視頻以前我想看新的電影表單,想拿個列表都要自己粘,現在一點擊就識別 別提多好用。 以後我們功能會逐漸完善,現在 大家想 爬取 大v們 的 粉絲列表,也可以用了哦。【數據分析的來源】
來源上 造 數 按照發行和用途大致把數據來源分成了三大類,若干細分:
一,政府 數據
政府公開數據有非常多的重要內容
1,公司、企業、組織團體
這方面的數據需求集中體現在:
(1) 以工商信息,審批為代表的 基本數據查詢。
(2) 以財報,業務資質文件等經營數據。
(3) 公司內的人與公司、公司與公司以及人與人的各種信息,數據。
數據來源:
國家企業信用信息公示系統
以上的數據查詢工具推薦:
企查查 - 企業信用信息查詢
發現人與企業關係的平台-天眼查
2,國家部門公開發布的政策與統計信息
(1)金融方面 政府公開信息重要來源
「一行三會」+統計局
人民銀行: 中國 人民 銀行
銀監會 : 中國銀行業監督管理委員會的政策頁面
保監會 : 中國保險監督管理委員會
證監會 : 中國證券監督管理委員會
統計局 : 國家統計局
每種不同來源的數據都有不一樣的價值密度,也有不一樣的使用方式。政策信息與 統計信息 積累觀察(2)氣象,路況 等實時信息
中國天氣網
心知天氣數據API
騰訊 天氣 api
路況信息api:高德開放平台 | API
二. 商業數據信息 1.指數型信息 網站流量參考:百度指數商品流量參考:阿里指數_採購趨勢分析2.列表型信息二手車信息:瓜子二手車 房價信息: 鏈家網3.綜合類信息 站長常用工具: 愛站網如圖,這裡可以看到很有意思的 對知乎的流量分析。按第一欄預估流量似乎與宣傳 有所 差別。(持續更新)
R語言有大量的樣本數據可以直接用來作為數據分析和挖掘案例,可以收藏著以後用!R:datasets&>install.packages("datasets") ##一般不需要安裝,多數版本R語言自帶這個包
向量
euro #歐元匯率,長度為11,每個元素都有命名landmasses #48個陸地的面積,每個都有命名precip #長度為70的命名向量rivers #北美141條河流長度state.abb #美國50個州的雙字母縮寫state.area #美國50個州的面積state.name #美國50個州的全稱因子
state.division #美國50個州的分類,9個類別state.region #美國50個州的地理分類矩陣、數組
euro.cross #11種貨幣的匯率矩陣freeny.x #每個季度影響收入四個因素的記錄state.x77 #美國50個州的八個指標USPersonalExpenditure #5個年份在5個消費方向的數據VADeaths #1940年弗吉尼亞州死亡率(每千人)volcano #某火山區的地理信息(10米×10米的網格)WorldPhones #8個區域在7個年份的電話總數iris3 #3種鳶尾花形態數據Titanic #泰坦尼克乘員統計UCBAdmissions #伯克利分校1973年院系、錄取和性別的頻數crimtab #3000個男性罪犯左手中指長度和身高關係HairEyeColor #592人頭髮顏色、眼睛顏色和性別的頻數occupationalStatus #英國男性父子職業聯繫類矩陣
eurodist #歐洲12個城市的距離矩陣,只有下三角部分Harman23.cor #305個女孩八個形態指標的相關係數矩陣Harman74.cor #145個兒童24個心理指標的相關係數矩陣數據框
airquality #紐約1973年5-9月每日空氣質量anscombe #四組x-y數據,雖有相似的統計量,但實際數據差別較大attenu #多個觀測站對加利福尼亞23次地震的觀測數據attitude #30個部門在七個方面的調查結果,調查結果是同一部門35個職員贊成的百分比beaver1 #一隻海狸每10分鐘的體溫數據,共114條數據beaver2 #另一隻海狸每10分鐘的體溫數據,共100條數據BOD #隨水質的提高,生化反應對氧的需求(mg/l)隨時間(天)的變化cars #1920年代汽車速度對剎車距離的影響chickwts #不同飲食種類對小雞生長速度的影響esoph #法國的一個食管癌病例對照研究faithful #一個間歇泉的爆發時間和持續時間Formaldehyde #兩種方法測定甲醛濃度時分光光度計的讀數Freeny #每季度收入和其他四因素的記錄dating from #配對的病例對照數據,用於條件logistic回歸InsectSprays #使用不同殺蟲劑時昆蟲數目iris #3種鳶尾花形態數據LifeCycleSavings #50個國家的存款率longley #強共線性的宏觀經濟數據morley #光速測量試驗數據mtcars #32輛汽車在11個指標上的數據OrchardSprays #使用拉丁方設計研究不同噴霧劑對蜜蜂的影響PlantGrowth #三種處理方式對植物產量的影響pressure #溫度和氣壓Puromycin #兩種細胞中輔因子濃度對酶促反應的影響quakes #1000次地震觀測數據(震級&>4)randu #在VMS1.5中使用FORTRAN中的RANDU三個一組生成隨機數字,共400組。 #該隨機數字有問題。在VMS2.0以上版本已修復。rock #48塊石頭的形態數據sleep #兩藥物的催眠效果stackloss #化工廠將氨轉為硝酸的數據swiss #瑞士生育率和社會經濟指標ToothGrowth #VC劑量和攝入方式對豚鼠牙齒的影響trees #樹木形態指標USArrests #美國50個州的四個犯罪率指標USJudgeRatings #43名律師的12個評價指標warpbreaks #織布機異常數據women #15名女性的身高和體重列表
state.center #美國50個州中心的經度和緯度類數據框
ChickWeight #飲食對雞生長的影響CO2 #耐寒植物CO2攝取的差異DNase #若干次試驗中,DNase濃度和光密度的關係Indometh #某藥物的藥物動力學數據Loblolly #火炬松的高度、年齡和種源Orange #桔子樹生長數據Theoph #茶鹼葯動學數據時間序列數據
airmiles #美國1937-1960年客運里程營收(實際售出機位乘以飛行哩數)AirPassengers #Box Jenkins航空公司1949-1960年每月國際航線乘客數austres #澳大利亞1971-1994每季度人口數(以千為單位)BJsales #有關銷售的一個時間序列BJsales.lead #前一指標的先行指標(leading indicator)co2 #1959-1997年每月大氣co2濃度(ppm)discoveries #1860-1959年每年巨大發現或發明的個數ldeaths #1974-1979年英國每月支氣管炎、肺氣腫和哮喘的死亡率fdeaths #前述死亡率的女性部分mdeaths #前述死亡率的男性部分freeny.y #每季度收入JohnsonJohnson #1960-1980年每季度Johnson Johnson股票的紅利LakeHuron #1875-1972年某一湖泊水位的記錄lh #黃體生成素水平,10分鐘測量一次lynx #1821-1934年加拿大猞猁數據nhtemp #1912-1971年每年平均溫度Nile #1871-1970尼羅河流量nottem #1920-1939每月大氣溫度presidents #1945-1974年每季度美國總統支持率UKDriverDeaths #1969-1984年每月英國司機死亡或嚴重傷害的數目sunspot.month #1749-1997每月太陽黑子數sunspot.year #1700-1988每年太陽黑子數sunspots #1749-1983每月太陽黑子數treering #歸一化的樹木年輪數據UKgas #1960-1986每月英國天然氣消耗USAccDeaths #1973-1978美國每月意外死亡人數uspop #1790–1970美國每十年一次的人口總數(百萬為單位)WWWusage #每分鐘網路連接數Seatbelts #多變數時間序列。和UKDriverDeaths時間段相同,反映更多因素。EuStockMarkets #多變數時間序列。歐洲股市四個主要指標的每個工作日記錄,共1860條記錄。以上!
簡單的免費數據源,可以在me.bdp.cn上面找找,在「添加數據源」——「公共數據」
補充一個social network跟social media相關data的網站:stanford的SNAP http://snap.stanford.edu/
看了一下,有些分享質量實在不高。分享一個我師兄總結的數據源吧,已經做了很好的歸類了。適合程序員、數據挖掘人員。GitHub - caesar0301/awesome-public-datasets: An awesome list of high-quality open datasets in public domains (on-going).
謝邀。
之前我回答過如何獲取和篩選公開的信息,而如何獲取數據分析和挖掘的公開渠道,這就屬於中階的攻略了。這篇文章會重新潤色更新之前的知乎答案。
在繼續下去之前,我們首先需要明確的是:什麼是半公開的信息?
所謂半公開,在我看來,無非兩種情況:
一是,這條信息被有意控制在小圈子裡傳播,外界難以獲得這類信息;
二是,這條信息可以無限制地傳播,但是因為種種原因,缺乏傳播到外界的渠道。
事實上,這兩種信息雖然並非完全公開,但是仍然有很多可以傳播的渠道,只不過,常常被我們忽略了。
第一類,舉個我自己最熟悉的例子:創業公司的商業計劃書。
商業計劃書是一種典型的半公開信息。一方面,創業者為了找投資等等,不可避免地需要將商業計劃書披露給其他人;而另一方面,創業者當然不希望自己的核心團隊、盈利模式、發展方向等等被不應該知道的人知曉,因此,自然有意控制在小範圍傳播。
而我們看一些項目的商業計劃書,其實不過是為了更好的了解某些行業而已。如何才能看到這些半公開的信息呢?其實現在在很多股權眾籌平台,都可以看到創業項目的一些信息。比如說:36氪股權投資
當然,如果不經過認證的話,很多東西,你是看不到的……
至於解決方案也很簡單,認證了投資人就可以了,證明一下自己的經濟實力總還是需要的。認證後的效果就是這樣的:
之後就是暢通無阻了……下圖為某創業項目的信息(項目名稱和數據名稱已經遮擋)。而在網頁里,只要點擊下邊的鏈接,就可以下載商業計劃書了……
除了36氪,類似的平台還有很多,比如:天使匯_讓靠譜的項目找到靠譜的錢
融資 | 獵雲投融資平台
天天投-專業高效的免費創業投融資服務平台!
牛投網-國內首個社群股權投融資平台
當然,想查看這些信息,基本上都不是一點門檻都沒有的,不過標準大同小異,只要認證通過了就可以,算是典型的半公開信息吧。
我告訴大家這個方式也絕不是讓大家去抄襲項目,只是一種了解行業的手段而已。我自己雖然並不是專業投資人,但是一年看BP上百個也是不在話下,從中也發現了很多機會。
對於這一類限制人群但是限制程度不高的半公開信息,最好的辦法,就是想辦法讓自己成為這個群體的一部分。
接下來說第二類:缺乏傳播渠道的半公開信息。舉個例子吧,如果你想知道一家上市公司的經營狀況,該如何入手?
研究財報?上網搜索?甚至是買各種書籍?抱歉,這些都不管用……這又是典型的「半公開」信息,沒有人去刻意阻攔信息的傳播,但是你根本就找不到渠道……
那該怎麼辦呢?不過是兩種方式。
第一種,就是發現能觀察到的細節。舉個例子,前幾天聽朋友說很多人都紛紛飛到西部某市買房,我馬上意識到這個城市的房價在未來會上揚。雖然我暫時沒有金錢和精力購置這個城市的房子,但是我第一時間買了該市某地產龍頭企業的股票,獲利頗豐。
再教大家一個方式,如果想了解一家公司的基本面,可以在知乎問一下:在XXXX工作是一番怎樣的體驗?如果整體回答比較正面,那這家公司的遠景相對而言還是不錯的。
第二種,就是深入調查。這種方式有點類似投資機構的「盡職調查」,可以深入發掘一些問題。比如去年,我為了了解一汽集團的發展,去了一趟長春的工廠…當然,我並不是專程去一汽考察的。不過,假設你準備與某家公司合作或者投資時,專程跑一趟,又算得了什麼呢?
我自己去的時候是冬天,整個廠區非常大,有幾十萬人,門衛自然不可能挨個認臉,所以我經過門崗時完全暢通無阻。下圖就是廠區里拍的照片……
由於在廠區內部,也就不發太多圖了。總之,基本上走遍了旗下幾個子公司。當然,車間是進不去的,但是看廠房的陳舊程度就知道固定資產的情況,看空地上的存貨就能推斷出倉庫的積壓程度,聽廠房傳出的聲音就能大概猜到生產線的飽和情況……
而通過和工人聊天,可以獲得更多的信息。
「喂,師傅啊,這麼冷的天,還幹活呢啊?」
「是啊,我們今天不放假……」
「現在咱們廠效益咋樣啊?」
「唉,能咋樣啊?貨賣不出去,一個月才XXXX錢……」
「才那麼點啊?前幾年不是挺好的嗎?」
「唉,這兩年因為XXXX,掙得少多了。隔壁X廠就好,他們工人一個月能開到XXXX元……」
就這樣,工人薪資情況連帶著工廠效益以及周邊幾個廠子的效益情況也搞清楚了。耗時幾個小時,走遍整個廠區,調研結束。順便說一句,那天也創造了我步行的記錄——71097步。
很累,但是很有收穫。畢竟,對於這種沒有渠道的半公開信息,唯一的方式,就是讓自己成為渠道。
如果你對體育有一定了解,對體育統計有一定興趣,那不妨使用體育統計的數據來進行實戰練習。這個領域有大量的公開數據存在(如果你臉皮夠厚的話,還能要到不少不公開但是也免費提供的數據 :D),而且有一定數據規模,本身問題也有趣,當然也不缺少難度。
當然,體育項目有很多,體育統計研究的範圍也很寬。這裡推薦兩個美式體育項目:
(1)籃球。中國人最熟悉的美式體育大概就是它了吧?而且它數據夠多。而且隨著最近幾個賽季直播技術的進步,籃球基礎數據的全面程度又有了進一步的提升。籃球還有個好處,其本身的邏輯不甚明了,數據噪音也比較大,不太懂機器學習(數據挖掘)的人很難分析籃球數據。也就是說,你如果有一定基礎,很容易刷出state-of-art。(2)棒球。這是一項邏輯非常清晰,數據又多又全,很適合數據分析新手入門的體育項目。當這個世界上還沒有體育統計這門科學的時候,就有一些人在研究棒球數據了。缺點就是state-of-art通常會比較高……不過如果新手練手用的話,我覺得棒球里的各種問題簡直再合適不過了。具體的數據網站的話,首推http://www.basketball-reference.comhttp://www.baseball-reference.com/這兩個網站的大部分數據都可以直接導出到csv格式中,也很方便。當然,你可能需要做一些抓取工作才能獲得這上面的一些數據。其實還有很多數據網站,尤其是棒球……要是看移動安卓APP數據的話,百度MOTA是一個不錯的選擇。http://mota.baidu.com百度MOTA是什麼百度MOTA是專業的移動數據分析平台,專註於移動應用及其設備和人群的數據監測、挖掘、分析和可視化展現。百度MOTA可以幫助用戶了解移動行業及各細分領域發展趨勢, 分析移動應用運營現狀,把握用戶特徵屬性和行為偏好,為產品優化和運營推廣效果提升、投資分析、移動市場分析等提供參考。百度MOTA依託於百度海量的用戶積累以及強大的技術能力,通過收集用戶授權數據並進行匿名化和模糊化處理,構建計算和分析模型,進行數據挖掘,進而估算出移動市場和應用數據。百度MOTA將不斷進行數據補充和產品優化,為用戶提供更加精準、全面、獨特的數據服務。
如果只是拿數據來跑一下演算法,UCI和Kaggle都挺好!上面的數據基本都是結構化的,變數個數不算特別多,變數選擇不是大問題。
如果是想做一次完整的數據挖掘,應該從商業理解、數據理解開始,根據具體的問題去思考,該問題可能需要哪些數據,這些數據怎麼獲取?(在校學生,互聯網上的數據還是蠻多的,編一個爬蟲,就可以拿下來了)拿到數據後,怎麼清洗,怎麼存到資料庫。存到資料庫後,應該把哪些欄位放入演算法中去做分析。演算法應該選哪一個?應該怎麼優化等等。得到結果後,怎麼去解釋,怎麼寫成一個數據分析報告(學生可以寫成期刊論文的形式)
歡迎各位大牛,給出不足之處!!萬分感謝``http://www.datatang.com/ 數據堂的數據非常豐富,包括各種行業數據,電信,零售,金融,銀行等等,特別適用於數據挖掘。
我只看了中國統計網,人大經濟論壇,CNNIC,數據熊貓,國家統計局,工信部,百度報告,百度指數,淘寶指數等一些東西,我也在摸索當中
金融行業主要兩個資料庫:wind和bloomberg。
有個網址可以看看商業數據分析 網址導航
推薦閱讀:
※數據埋點是什麼?設置埋點的意義是什麼?
※產品數據分析需要注意哪些問題?
※談談你覺得好的BI(商業智能)產品是怎樣的?
※MATLAB入門有什麼材料推薦?
※BP神經網路是否優於logistic回歸?