大數據網站有哪些?

有哪些好玩,好看,好用的大數據網站?


Tag Galaxy

據說這個網站是一個德國學生的課堂作業- -!網站能按照你輸入的tag標籤在Flickr上搜索到相應的照片。當你輸入關鍵詞後,網站會以九大行星的形式為你再提供八個相關關鍵詞,確定後,照片就會附在超炫的三維立體星球上,每個圖片都可以鏈接到原圖,絕對是一個很好玩的Flickr圖片搜索工具。。。

Gallery · mbostock/d3 Wiki · GitHub

Git是一個分散式的版本控制系統,最初由Linus Torvalds編寫,用作Linux內核代碼的管理。在推出後,Git在其它項目中也取得了很大成功,尤其是在Ruby社區中。目前,包括Rubinius、Merb和Bitcoin在內的很多知名項目都使用了Git。

Tweetping

數據可視化( Data Visualization )是把人類看不見的事物、現象等用人類能看見的方式把它表現出來。

近年來,數據可視化在各個領域越來越重要。下面是一些應用了數據可視化的網站。

1. The Internet map

網址: The Internet map

全世界各大網站的可視化 - 【 The Internet map 】。網站都用圓形表示,圓的大小表示網站的訪問量。

中國是黃色,美國是藍色,日本是紫色,歐洲是紅色。

2. Cybermap

網址: Kaspersky Cyberthreat real-time map

由防毒軟體提供,卡巴斯基製作的 Cybermap ,這個作品能實時展現現在世界上有多少起伺服器攻擊事件。

點進去之後,可以看到地球上縱橫交錯地飛舞著藍色、綠色、紅色線條,這些就是表示伺服器攻擊事件。

點擊右面的方形圖標,可以將地球儀展開成平面圖。

3. A WORLD OF TWEETS

網址: http://aworldoftweets.frogdesign.com/

世界上使用Twitter的規模分布。

4. Tweetping

網址: Tweetping

和上一個一樣,是世界上使用Twitter的規模分布,這一個更加美麗。

5. Submarine Cable Map 2014

網址: Submarine Cable Map 2014

這是一個關於正在沉沒的海底線從哪裡連接到哪裡的可視化地圖。但是這個地圖是靜態的,不能像上面幾個作品一樣有絢麗的動態效果。

6. earth wind map

網址: earth :: a global map of wind, weather, and ocean conditions

世界各地的風速、風向的可視化地圖。由美國國家氣象局的氣象數據製作。

7. Music Timeline

網址: https://music-timeline.appspot.com/#

音樂的歷史,各種類型的音樂在各個年代的流行度。

總結

近年來,大數據時代頻繁被媒體提到,但是數據本身是枯燥的、乏味的,如果不能進行可視化,你很難發現它的價值。上述網站很精彩地應用的數據可視化技術,希望能給大家提供參考。


華東江蘇大數據交易平台為大數據在行業垂直市場領域提供數據交易,預處理交易,演算法交易及大數據分析、平台開發,技術服務,數據定價,
數據金融,交易監督等綜合服務;並基於數據金融資產化方向提供撮合、買賣,典當,融資,抵押,貸款等多種合作模式,為各經濟主體(包括企業、機構、個人
等)盤活數據存量資源提供全面解決方案。
各類經濟主體均可登錄本平台,註冊成為會員,上傳數據信息,由平台通過大數據技術進行計算和匹配,實時尋找數據流轉變現的各類途徑渠道和解決方案。

我們力求為數據撮合、許可和買賣的雙方搭建透明、公平的平台,並提供數據流轉過程中的徵信、評估、金融、法律等數據產業生態綜合服務支持。

華東江蘇大數據交易平台


專註於大數據的有36大數據,永洪BI,Ethink大數據


以下是與數據相關的一些網站,個人覺得還不錯,供參考學習!!

1、數據分析精選(數據分析精選-數據分析師的網址大全)

數據分析精選:數據分析師的網址大全,聚合大數據分析、網站分析門戶網站、數據科學家博客、數據達人微博、數據分析軟體、Excel和PPT資源、經典數據分析圖書、行業數據的導航網站。

2、中國統計網(中國統計網(iTongji.CN)-國內大數據分析第一門戶)

中國統計網(中國統計網(iTongji.CN)-國內大數據分析第一門戶),國內最大的數據分析門戶網站。提供大數據行業新聞,統計百科知識、數據分析、商業智能(BI)、數據挖掘技術,Excel、SPSS、SAS、R語言、數據可視化等在線學習、交流平台。

3、數據熊貓(數據分析學習交流社區)

數據熊貓社區是一個討論大數據、數據分析、數據挖掘、統計分析軟體(Excel、SPSS、SAS、hadoop等)商業智能、數據化管理、數據可視化等技術的愛好者...

4、36大數據(36大數據 | 關注大數據和大數據應用)

36大數據是一個專註大數據、大數據技術與應用、大數據學習的科技門戶。講述大數據在電商、移動互聯網、醫療、APP及金融銀行的大數據應用案例。

5、統計之都(統計之都 (Capital of Statistics))

中國統計學門戶網站,免費統計學服務平台 | 做正直的統計學網站

6、Smartdata(News Analysis on Big Data, the Cloud, Business Intelligence Analytics)

......

等等,更多的去數據分析網址大全(數據分析精選-數據分析師的網址大全)找自己需要的!!!!


中國大數據產業觀察網(簡稱「數據觀」)是一個面向全國的大數據產經傳媒、科技財經類專業網站。

數據觀按照「媒體+智庫+產業組織」的模式探索產業化運營。通過打造具有影響力的媒體品牌,構建聚合產學研資源的核心樞紐;通過打造強大的智庫支撐體系,形成推進產業服務的核心價值;通過與產業組織廣泛深度合作,構建聯通政企、整合要素、強化參與度、提升影響力的橋樑,以市場為導向探索麵向大數據產業服務的實體運營模式。

目前,數據觀已經與中國信息協會大數據委員會、清華大數據產業聯合會、工信部電子標準化研究院、中國傳媒大學、北京理工大學、九次方大數據、海量數據等40餘家產、學、研機構建立合作關係;並分別與中關村大數據產業聯盟和清華大數據科學研究院簽署戰略合作協議;40餘位大數據相關領域專家學者入駐數據觀開設專欄。

對大數據相關的資訊感興趣的話,歡迎訪問中國大數據產業觀察網:http://www.cbdio.com/


看看TalkingData的移動觀象台吧,算是移動大數據的典型應用場景:

https://www.talkingdata.com/index/#/device/mob/zh_CN

可以從品牌、設備、操作系統、運營商、解析度等不同維度查看設備排名,實時更新:

利益相關聲明:我來自talkingdata。


高效穩定的大型網站系統架構分析(轉)

  千萬人同時訪問的網站,一般是有很多個資料庫同時工作,說明白一點就是資料庫集群和並發控制,這樣的網站實時性也是相對的。這些網站都有一些共同的特點:數據量大,在線人數多,並發請求多,pageview高,響應速度快。總結了一下各個大網站的架構,主要提高效率及穩定性的幾個地方包括:

    1、程序

    程序開發是一方面,系統架構設計(硬體+網路+軟體)是另一方面。

    軟體架構方面,做網站首先需要很多web伺服器存儲靜態資源,比如圖片、視頻、靜態頁等,千萬不要把靜態資源和應用伺服器放在一起。

    一個好的程序員寫出來的程序會非常簡潔、性能很好,一個初級程序員可能會犯很多低級錯誤,這也是影響網站性能的原因之一。

    網站要做到效率高,不光是程序員的事情,資料庫優化、程序優化這是必須的,在性能優化上要資料庫和程序齊頭並進!緩存也是兩方面同時入手。第一,資料庫緩存和資料庫優化,這個由dba完成(而且這個有非常大的潛力可挖,只是由於我們都是程序員而忽略了他而已)。第二,程序上的優化,這個非常的有講究,比如說重要一點就是要規範SQL語句,少用in 多用or,多用preparestatement,另外避免程序冗餘如查找數據少用雙重循環等。另外選用優秀的開源框架加以支持,我個人認為中後台的支持是最最重要的,可以選取spring+ibatis。因為ibatis直接操作SQL並有緩存機制。spring的好處就不用我多說了,IOC的機制可以避免new對象,這樣也節省開銷。據我分析,絕大部分的開銷就是在NEW的時候和連接資料庫時候產生的,請盡量避免。另外可以用一些內存測試工具來做一個demo說明hibernate和ibatis誰更快!前台你想用什麼就用什麼,struts,webwork都成,如果覺得自己挺牛X可以試試tapestry。

    用資料庫也未必不能解決訪問量巨大所帶來的問題,作成靜態文件硬碟的定址時間也未必少於資料庫的搜索時間,當然對資料的索引要下一翻工夫。我自己覺得門戶往往也就是當天、熱門的資料點擊率較高,將其做緩存最多也不過1~2G的數據量吧,舉個例子:

  拿網易新聞來é??ú?£ì???ò

    格式化一下,方便理解:http://域名/年/月日/新聞所屬分類/新聞ID.html

    可以把當天發布的、熱門的、流攬量大的作個緩寸,用hashtable(key:年-月-日-分類-ID,value:新聞對象),靜態將其放到內存(速度絕對快過硬碟定址靜態頁面)。

  通常是採用oracle存儲過程+2個weblogic,更新機制也幾乎一樣每簽發一條新聞,就會生成靜態頁面,然後發往前端的web伺服器,前端的web都是做負載均衡的。另外還有定時的程序,每5-15分鐘自動生成一次。在發布新聞的同時將數據緩存。當然緩存也不會越來越大,在個特定的時間段(如凌晨)剔除過期的數據。做一個大的網站遠沒有想像中那麼簡單,伺服器基本就要百十個的。

    這樣可以大大增加一台計算機的處理速度,如果一台機器處理不了,可以用httpserver集群來解決問題了。

    2、網路

    中國的網路分南北電信和網通,訪問的ip就要區分南北進入不同的網路。

    3、集群

    通常會使用CDN與GSBL與DNS負載均衡技術,每個地區一組前台伺服器群,例如:網易,百度使用了DNS負載均衡技術,每個頻道一組前台伺服器,一搜使用了DNS負載技術,所有頻道共用一組前台伺服器集群。

    網站使用基於Linux集群的負載均衡,失敗恢復,包括應用伺服器和資料庫伺服器,基於linux-ha的服務狀態檢測及高可用化。

    應用伺服器集群可以採用apache+tomcat集群和weblogic集群等;web伺服器集群可以用反向代理,也可以用NAT的方式,或者多域名解析都可以;Squid也可以,方法很多,可以根據情況選擇。

   4、資料庫

    因為是千萬人同時訪問的網站,所以一般是有很多個資料庫同時工作的,說明白一點就是資料庫集群和並發控制,數據分布到地理位置不同的數據中心,以免發生斷電事故。另外還有一點的是,那些網站的靜態化網頁並不是真的,而是通過動態網頁與靜態網頁網址交換做出現的假象,這可以用urlrewrite 這樣的開源網址映射器實現。這樣的網站實時性也是相對的,因為在資料庫複製數據的時候有一個過程,一般在技術上可以用到hibernate和 ecache,但是如果要使網站工作地更好,可以使用EJB和websphere,weblogic這樣大型的伺服器來支持,並且要用oracle這樣的大型資料庫。

    大型門戶網站不建議使用Mysql資料庫,除非你對Mysql數據的優化非常熟悉。Mysql資料庫伺服器的master-slave模式,利用資料庫伺服器在主從伺服器間進行同步,應用只把數據寫到主伺服器,而讀數據時則根據負載選擇一台從伺服器或者主伺服器來讀取,將數據按不同策略劃分到不同的伺服器(組)上,分散資料庫壓力。

    大型網站要用oracle,數據方面操作盡量多用存儲過程,絕對提升性能;同時要讓DBA對資料庫進行優化,優化後的資料庫與沒優化的有天壤之別;同時還可以擴展分散式資料庫,以後這方面的研究會越來越多;

    5、頁面

    從開始就考慮使用虛擬存儲/簇文件系統。它能讓你大量並行IO訪問,而且不需要任何重組就能夠增加所需要的磁碟。

    頁面數據調用更要認真設計,一些數據查詢可以不通過資料庫的方式,實時性要求不高的可以使用lucene來實現,即使有實時性的要求也可以用lucene,lucene+compass還是非常優秀的。

    新聞類的網站可以用靜態頁存儲,採用定時更新機制減輕伺服器負擔;首頁每個小模塊可以使用oscache緩存,這樣不用每次都拉數據。

    前端的基於靜態頁面緩存的web加速器,主要應用有squid等。squid 將大部分靜態資源(圖片,js,css等)緩存起來,直接返回給訪問者,減少應用伺服器的負載網站的靜態化網頁並不是真的,而是通過動態網頁與靜態網頁網址交換做出現的假象,這可以用urlrewrite這樣的開源網址映射器實現,後綴名為htm或者html並不能說明程序生成了靜態頁面,可能是通過 url重寫來實現的,為的只不過是在搜索引擎中提升自己網站的覆蓋面積罷了。

    生成靜態頁面的伺服器和www伺服器是兩組不同的伺服器,頁面生成後才會到www伺服器,一部分資料庫並不是關係資料庫,這樣更適合信息衍生,www、mail伺服器、路由器多,主要用負載平衡解決訪問瓶頸。

    靜態頁面的缺點:

    1) 增加了程序的複雜度

    2) 不利於管理資料

    3) 速度不是最快

    4) 傷硬碟

    6、緩存

    從一開始就應該使用緩存,高速緩存是一個更好的地方存儲臨時數據,比如Web站點上跟蹤一個特定用戶的會話產生的臨時文件,就不再需要記錄到資料庫里。

    不能用lucene實現的可以用緩存,分散式緩存可以用memcached,如果有錢的話用10來台機器做緩存,&> 10G的存儲量相信存什麼都夠了;如果沒錢的話可以在頁面緩存和數據緩存上下功夫,多用OSCACHE和EHCACHE,SWARMCACHE也可以,不過據說同步性不是很好;

    可以使用Memcache進行緩存,用大內存把這些不變的數據全都緩存起來,而當修改時就通知cache過期,memcache是LJ開發的一款分散式緩存產品,很多大型網站在應用,我們可以把Cache Server與AppServer裝在一起。因為Cache Server對CPU消耗不大,而有了Cache Server的支援,App Server對內存要求也不是太高,所以可以和平共處,更有效的利用資源。

 根據我現有的閱讀和談話,我所理解的今天Facebook的架構如下:

Web 前端是由 PHP 寫的。Facebook 的 HipHop [1] 會把PHP轉成 C++並用 g++編譯,這樣就可以為模板和Web邏賀業務層提供高的性能。

業務邏輯以Service的形式存在,其使用Thrift [2]。這些Service根據需求的不同由PHP,C++或Java實現(也可以用到了其它的一些語言……)

用Java寫的Services沒有用到任何一個企業級的應用伺服器,但用到了Facebook自己的定製的應用伺服器。看上去好像是重新發明輪子,但是這些Services只被暴露給Thrift使用(絕大所數是這樣),Tomcat太重量級了,即使是Jetty也可能太過了點,其附加值對Facebook所需要的沒有意義。

持久化由MySQL, Memcached [3], Facebook 的 Cassandra [4], Hadoop 的 HBase [5] 完成。Memcached 使用了MySQL的內存Cache。Facebook 工程師承認他們的Cassandra 使用正在減少,因為他們更喜歡HBase,因為它的更簡單的一致性模型,以到其MapReduce能力。

離線處理使用Hadoop 和 Hive。

日誌,點擊,feeds數據使用Scribe [6],把其聚合併存在 HDFS,其使用Scribe-HDFS [7],因而允許使用MapReduce進行擴展分析。

BigPipe [8] 是他們的定製技術,用來加速頁面顯示。

Varnish Cache [9]用作HTTP代理。他們用這個的原因是高速和有效率。 [10].

用來搞定用戶上傳的十億張照片的存儲,其由Haystack處理,Facebook自己開發了一個Ad-Hoc存儲方案,其主要做了一些低層優化和「僅追加」寫技術 [11].

Facebook Messages 使用了自己的架構,其明顯地構建在了一個動態集群的基礎架構上。業務邏輯和持久化被封裝在一個所謂的』Cell』。每個『Cell』都處理一部分用戶,新的『Cell』可以因為訪問熱度被添加[12]。持久化歸檔使用HBase [13]。

Facebook Messages 的搜索引擎由存儲在HBase中的一個倒置索引的構建。 [14]

Facebook 搜索引擎實現細節據我所知目前是未知狀態。

Typeahead 搜索使用了一個定製的存儲和檢索邏輯。 [15]

Chat 基於一個Epoll 伺服器,這個伺服器由Erlang 開發,由Thrift存取 [16]

  關於那些供給給上述組件的資源,下面是一些信息和數量,但是有一些是未知的:

Facebook估計有超過60,000 台伺服器[16]。他們最新的數據中心在俄勒岡州的Prineville,其基於完全自定設計的硬體[17] 那是最近才公開的 Open Compute 項目[18]。

300 TB 的數據存在 Memcached 中處理 [19]

他們的Hadoop 和 Hive 集群由3000 伺服器組成,每台伺服器有8個核,32GB的內存,12TB的硬碟,全部有2萬4千個CPU的核,96TB內存和36PB的硬碟。 [20]

每天有1000億的點擊量,500億張照片,100 billion hits per day, 50 billion photos, 3 萬億個對象被 Cache,每天130TB的日誌(2010年7月的數據) [21]

北京時間4月8日消息,據國外媒體報道,北京時間今天凌晨在其總部舉行發布會,公開了底層伺服器和數據中心的具體方案。

  Facebook此次公開了伺服器電源供應、伺服器機箱、伺服器主板、伺服器機櫃、後備電源機櫃規格。另外,它還公開了數據中心電力及機械系統規格的具體規格。通過公開這些情況,Facebook展示了它在為不同任務配置合適的計算工作量時,是如何儘可能降低能耗和成本的。

  Facebook的方案有一些創新之處,比如風扇更大但數量較少。這些風扇占每台伺服器能源消耗的2-4%,遠遠低於行業中10-20%的平均水平。以下是方案中的具體細節:

伺服器方面:

  1、伺服器使用1.2mm鍍鋅、防腐蝕鋼板,無前面板;

  2、部分部件採用卡和連接:主板利用多個安裝孔,卡入機箱;硬碟使用咬合導軌,安裝在驅動器托架上。一個單元只有一個接地螺絲。這使得Facebook可以在3分鐘內搭建整台伺服器;

  3、Facebook伺服器高1.5U,比一般伺服器高50%,空間更大,散熱也更快;

  4、具有區域網重啟功能,可以讓系統管理員發送特定網路指令,立即重啟伺服器;

  5、主板揚聲器被替換為LED指示燈,以節省電源,伺服器還提健康狀態指示燈;

  6、同時支持交流和直流電源,使得伺服器可以在停電時轉為直流後備電池供電;

  7、使用Xeon 5500系列和5600系列兩種處理器,搭載英特爾主板,內置英特爾5500 I/O Hub晶元,內存最大可擴展至144GB。AMD的粉絲可以選擇兩個Magny-Cours 12核心或8核心處理器,搭配AMD SR5650晶元組,內存最高可擴展至192GB。

數據中心方面:

  Facebook不僅公開了伺服器方案,同時它還公開了數據中心的設計方案,以便能幫助其他初創公司建立自己的基礎架構,並儘可能的減少功率消耗。

  Facebook將這些方案都運用到了位於俄勒岡州的普林維爾(Prineville)數據中心上。用了兩年的時間,從伺服器到電池組再到後備伺服器,Facebook致力於讓設備變得更加綠色、環保。比如,Facebook利用集成設計,可以有效的降低能耗。房間內的風扇和伺服器風扇成對連接在一起。動作感應LED照明也可用於內部照明。

  整個數據中心的能耗按PUE(Power Usage Effectiveness,電能使用效率)衡量是1.07,大大低於美國環保署規定的最優方法比值1.5。

  Facebook的設計方案可以讓設備在更為潮濕的環境中運行。普林維爾數據中心的設備運行環境為30攝氏度、65%的相對濕度。這樣可以使Facebook依賴蒸發冷卻來降溫,而不需使用空調。其他建設工程方面的創新還包括,普林維爾數據中心使用277伏特的配電系統,而一般數據中心使用的是208伏特的配電系統。Facebook的做法可以減少一個主變壓器,減少轉換時的能耗。在一般的數據中心中,電力轉換要損失22-25%的能量。在普林維爾只損失7%。

  當辦公室太冷的時候,Facebook還利用來自伺服器的熱量加熱空氣。夏天,數據中心會向進入室內的暖空氣噴水降溫。同時Facebook數據中心的機箱和伺服器設計也非常適合於集裝箱裝運,這樣可以減少運輸中的浪費。Facebook的方案儘可能挖掘這些伺服器的潛能,使得它不需要在進行基礎架構的建設。

  雖然並不是每家初創公司都要打造這種規模的數據中心,但Facebook公布的方案肯定會在數據中心運營商和提供商中引起話題爭論。


大數據中國|關注大數據數據產業_發揮數據力量_大數據資訊門戶 比較全面可以了解一下


說幾個我們總結的數據交易網站和api介面平台:

老牌的,百度apistore、數據堂、聚合

另幾個知名的,阿里雲、京東萬象、阿凡達、極速、發源地、數多多、通聯

兩個新興的,數糧、數據寶


天元數據網 天元數據 - 全國最大的數據資源與創新平台


你是說哪方面的啊??大數據學習的網站還是存在大數據這個行業的網站呢?


淘寶。


推薦閱讀:

需要做財務數據分析,有什麼好用的工具?
遊戲修改器的製作原理?
目前常用的市場數據分析軟體有哪些?
目前中國大陸收入最高的一億人的人均年收入是多少?
參加POINT.數據分析師特訓營(北京)是什麼體驗?

TAG:數據挖掘 | 數據 | 數據結構 | 大數據 |