這大概是史上最全的「大數據」學習資源了！

01-27

內容目錄

關係資料庫管理系統（RDBMS）
框架
分散式編程
分散式文件系統
文件數據模型
Key -Map 數據模型
鍵-值數據模型
圖形數據模型
NewSQL資料庫
列式資料庫
時間序列資料庫
類SQL處理
數據攝取
服務編程
調度
機器學習
基準測試
安全性
系統部署
應用程序
搜索引擎與框架
MySQL的分支和演化
PostgreSQL的分支和演化
Memcached的分支和演化
嵌入式資料庫
商業智能
數據可視化
物聯網和感測器
文章
論文
視頻

關係資料庫管理系統（RDBMS）

MySQL：世界最流行的開源資料庫；
PostgreSQL：世界最先進的開源資料庫；
Oracle 資料庫：對象-關係型資料庫管理系統。

框架

Apache Hadoop：分散式處理架構，結合了 MapReduce（並行處理）、YARN（作業調度）和HDFS（分散式文件系統）；
Tigon：高吞吐量實時流處理框架。

分散式編程

AddThis Hydra ：最初在AddThis上開發的分散式數據處理和存儲系統；
AMPLab SIMR：用在Hadoop MapReduce v1上運行Spark；
Apache Beam：為統一的模型以及一套用於定義和執行數據處理工作流的特定SDK語言；
Apache Crunch：一個簡單的Java API，用於執行在普通的MapReduce實現時比較單調的連接、數據聚合等任務；
Apache DataFu：由LinkedIn開發的針對Hadoop and 和Pig的用戶定義的函數集合；
Apache Flink：具有高性能的執行時間和自動程序優化；
Apache Gora：內存中的數據模型和持久性框架；
Apache Hama：BSP（整體同步並行）計算框架；
Apache MapReduce ：在集群上使用並行、分散式演算法處理大數據集的編程模型；
Apache Pig ：Hadoop中，用於處理數據分析程序的高級查詢語言；
Apache REEF ：用來簡化和統一低層大數據系統的保留性評估執行框架；
Apache S4 ：S4中流處理與實現的框架；
Apache Spark ：內存集群計算框架；
Apache Spark Streaming ：流處理框架，同時是Spark的一部分；
Apache Storm ：Twitter流處理框架，也可用於YARN；
Apache Samza ：基於Kafka和YARN的流處理框架；
Apache Tez ：基於YARN，用於執行任務中的複雜DAG（有向無環圖）；
Apache Twill ：基於YARN的抽象概念，用於減少開發分散式應用程序的複雜度；
Cascalog：數據處理和查詢庫；
Cheetah ：在MapReduce之上的高性能、自定義數據倉庫；
Concurrent Cascading ：在Hadoop上的數據管理/分析框架；
Damballa Parkour ：用於Clojure的MapReduce庫；
Datasalt Pangool ：可選擇的MapReduce範例；
DataTorrent StrAM ：為實時引擎，用於以儘可能暢通的方式、最小的開支和對性能最小的影響，實現分散式、非同步、實時的內存大數據計算；
Facebook Corona ：為Hadoop做優化處理，從而消除單點故障；
Facebook Peregrine ：MapReduce框架；
Facebook Scuba ：分散式內存數據存儲；
Google Dataflow ：創建數據管道，以幫助其分析框架；
Netflix PigPen ：為MapReduce，用於編譯成Apache Pig；
Nokia Disco ：由Nokia開發的MapReduc獲取、轉換和分析數據；
Google MapReduce ：MapReduce框架；
Google MillWheel ：容錯流處理框架；
JAQL ：用於處理結構化、半結構化和非結構化數據工作的聲明性編程語言；
Kite ：為一組庫、工具、實例和文檔集，用於使在Hadoop的生態系統上建立系統更加容易；
Metamarkets Druid ：用於大數據集的實時e框架；
Onyx ：分散式雲計算；
Pinterest Pinlater ：非同步任務執行系統；
Pydoop ：用於Hadoop的Python MapReduce和HDFS API；
Rackerlabs Blueflood ：多租戶分散式測度處理系統；
Stratosphere ：通用集群計算框架；
Streamdrill ：用於計算基於不同時間窗口的事件流的活動，並找到最活躍的一個；
Tuktu ：易於使用的用於分批處理和流計算的平台，通過Scala、 Akka和Play所建；
Twitter Scalding：基於Cascading，用於Map Reduce工作的Scala庫；
Twitter Summingbird ：在Twitter上使用Scalding和Storm串流MapReduce；
Twitter TSAR ：Twitter上的時間序列聚合器。

分散式文件系統

Apache HDFS：在多台機器上存儲大型文件的方式；
BeeGFS：以前是FhGFS，並行分散式文件系統；
Ceph Filesystem：設計的軟體存儲平台；
Disco DDFS：分散式文件系統；
Facebook Haystack：對象存儲系統；
Google Colossus：分散式文件系統(GFS2)；
Google GFS：分散式文件系統；
Google Megastore：可擴展的、高度可用的存儲；
GridGain：兼容GGFS、Hadoop內存的文件系統；
Lustre file system：高性能分散式文件系統；
Quantcast File System QFS：開源分散式文件系統；
Red Hat GlusterFS：向外擴展的附網存儲（Network-attached Storage）文件系統；
Seaweed-FS：簡單的、高度可擴展的分散式文件系統；
Alluxio：以可靠的存儲速率在跨集群框架上文件共享；
Tahoe-LAFS：分散式雲存儲系統；

文件數據模型

Actian Versant：商用的面向對象資料庫管理系統；
Crate Data：是一個開源的大規模可擴展的數據存儲，需要零管理模式；
Facebook Apollo：Facebook的Paxos演算法，類似於NoSQL資料庫；
jumboDB：基於Hadoop的面向文檔的數據存儲；
LinkedIn Espresso：可橫向擴展的面向文檔的NoSQL數據存儲；
MarkLogic：模式不可知的企業版NoSQL資料庫技術；
MongoDB：面向文檔的資料庫系統；
RavenDB：一個事務性的，開源文檔資料庫；
RethinkDB：支持連接查詢和群組依據等查詢的文檔型資料庫。

Key Map 數據模型

注意：業內存在一些術語混亂，有兩個不同的東西都叫做「列式資料庫」。這裡列出的有一些是圍繞「key-map」數據模型而建的分散式、持續型資料庫，其中所有的數據都有（可能綜合了）鍵，並與映射中的鍵-值對相關聯。在一些系統中，多個這樣的值映射可以與鍵相關聯，並且這些映射被稱為「列族」（具有映射值的鍵被稱為「列」）。

另一組也可稱為「列式資料庫」的技術因其存儲數據的方式而有別於前一組，它在磁碟上或在存儲器中——而不是以傳統方式，即所有既定鍵的鍵值都相鄰著、逐行存儲。這些系統也彼此相鄰來存儲所有列值，但是要得到給定列的所有值卻不需要以前那麼繁複的工作。

前一組在這裡被稱為「key map數據模型」，這兩者和Key-value 數據模型之間的界限是相當模糊的。後者對數據模型有更多的存儲格式，可在列式資料庫中列出。若想了解更多關於這兩種模型的區分，可閱讀Daniel Abadi的博客：Distinguishing two major types of Column Stores。

Apache Accumulo：內置在Hadoop上的分散式鍵/值存儲；
Apache Cassandra：由BigTable授權，面向列的分散式數據存儲；
Apache HBase：由BigTable授權，面向列的分散式數據存儲；
Facebook HydraBase：Facebook所開發的HBase的衍化品；
Google BigTable：面向列的分散式數據存儲；
Google Cloud Datastore：為完全管理型的無模式資料庫，用於存儲在BigTable上非關係型數據；
Hypertable：由BigTable授權，面向列的分散式數據存儲；
InfiniDB：通過MySQL的介面訪問，並使用大規模並行處理進行並行查詢；
Tephra：用於HBase處理；
Twitter Manhattan：Twitter的實時、多租戶分散式資料庫。

鍵-值數據模型

Aerospike：支持NoSQL的快閃記憶體優化，數據存儲在內存。開源，「』C』（不是Java或Erlang）中的伺服器代碼可精確地調整從而避免上下文切換和內存拷貝」。
Amazon DynamoDB：分散式鍵/值存儲，Dynamo論文的實現；
Edis：為替代Redis的協議兼容的伺服器；
ElephantDB：專門研究Hadoop中數據導出的分散式資料庫；
EventStore：分散式時間序列資料庫；
GridDB：適用於存儲在時間序列中的感測器數據；
LinkedIn Krati：簡單的持久性數據存儲，擁有低延遲和高吞吐量；
Linkedin Voldemort：分散式鍵/值存儲系統；
Oracle NoSQL Database：Oracle公司開發的分散式鍵值資料庫；
Redis：內存中的鍵值數據存儲；
Riak：分散式數據存儲；
Storehaus：Twitter開發的非同步鍵值存儲的庫；
Tarantool：一個高效的NoSQL資料庫和Lua應用伺服器；
TiKV：由Google Spanner和HBase授權，Rust提供技術支持的分散式鍵值資料庫；
TreodeDB：可複製、共享的鍵-值存儲，能提供多行原子寫入。

圖形數據模型

Apache Giraph：基於Hadoop的Pregel實現；
Apache Spark Bagel：可實現Pregel，為Spark的一部分；
ArangoDB：多層模型分散式資料庫；
DGraph：一個可擴展的、分散式、低時延、高吞吐量的圖形資料庫，旨在為Google生產水平規模和吞吐量提供足夠的低延遲，用於TB級的結構化數據的實時用戶查詢；
Facebook TAO：TAO是facebook廣泛用來存儲和服務於社交圖形的分散式數據存儲；
GCHQ Gaffer：GCHQ中的Gaffer是一個易於存儲大規模圖形的框架，其中節點和邊緣都有統計數據；
Google Cayley：開源圖形資料庫；
Google Pregel ：圖形處理框架；
GraphLab PowerGraph：核心C ++ GraphLab API和建立在GraphLab API之上的高性能機器學習和數據挖掘工具包的集合；
GraphX：Spark中的彈性分散式圖形系統；
Gremlin：圖形追蹤語言；
Infovore：以RDF為中心的Map / Reduce框架；
Intel GraphBuilder：在Hadoop上構建大規模圖形的工具；
MapGraph：用於在GPU上大規模並行圖形處理；
Neo4j：完全用Java寫入的圖形資料庫；
OrientDB：文檔和圖形資料庫；
Phoebus：大型圖形處理框架；
Titan：建於Cassandra的分散式圖形資料庫；
Twitter FlockDB：分散式圖形資料庫。

NewSQL資料庫

Actian Ingres：由商業支持，開源的SQL關係資料庫管理系統；
Amazon RedShift：基於PostgreSQL的數據倉庫服務；
BayesDB：面向統計數值的SQL資料庫；
CitusDB：通過分區和複製橫向擴展PostgreSQL；
Cockroach：可擴展、地址可複製、交易型的資料庫；
Datomic：旨在產生可擴展、靈活的智能應用的分散式資料庫；
FoundationDB：由F1授意的分散式資料庫；
Google F1：建立在Spanner上的分散式SQL資料庫；
Google Spanner：全球性的分散式半關係型資料庫；
H-Store：是一個實驗性主存並行資料庫管理系統，用於聯機事務處理（OLTP）應用的優化；
Haeinsa：基於Percolator，HBase的線性可擴展多行多表交易庫；
HandlerSocket：MySQL/MariaDB的NoSQL插件；
InfiniSQL：無限可擴展的RDBMS；
MemSQL：內存中的SQL資料庫，其中有優化的快閃記憶體列存儲；
NuoDB：SQL / ACID兼容的分散式資料庫；
Oracle TimesTen in-Memory Database：內存中具有持久性和可恢復性的關係型資料庫管理系統；
Pivotal GemFire XD：內存中低延時的分散式SQL數據存儲，可為內存列表數據提供SQL介面，在HDFS中較持久化；
SAP HANA：是在內存中面向列的關係型資料庫管理系統；
SenseiDB：分散式實時半結構化的資料庫；
Sky：用於行為數據的靈活、高性能分析的資料庫；
SymmetricDS：用於文件和資料庫同步的開源軟體；
Map-D：為GPU內存資料庫，也為大數據分析和可視化平台；
TiDB：TiDB是分散式SQL資料庫，基於谷歌F1的設計靈感；
VoltDB：自稱為最快的內存資料庫。

列式資料庫

注意：請在鍵-值數據模型閱讀相關注釋。

Columnar Storage：解釋什麼是列存儲以及何時會需要用到它；
Actian Vector：面向列的分析型資料庫；
C-Store：面向列的DBMS；
MonetDB：列存儲資料庫；
Parquet：Hadoop的列存儲格式；
Pivotal Greenplum：專門設計的、專用的分析數據倉庫，類似於傳統的基於行的工具，提供了一個列式工具；
Vertica：用來管理大規模、快速增長的大量數據，當用於數據倉庫時，能夠提供非常快的查詢性能；
Google BigQuery ：谷歌的雲產品，由其在Dremel的創始工作提供支持；
Amazon Redshift ：亞馬遜的雲產品，它也是基於柱狀數據存儲後端。

時間序列資料庫

Cube：使用MongoDB來存儲時間序列數據；
Axibase Time Series Database：在HBase之上的分散式時間序列資料庫，它包括內置的Rule Engine、數據預測和可視化；
Heroic：基於Cassandra和Elasticsearch的可擴展的時間序列資料庫；
InfluxDB：分散式時間序列資料庫；
Kairosdb：類似於OpenTSDB但會考慮到Cassandra；
OpenTSDB：在HBase上的分散式時間序列資料庫；
Prometheus：一種時間序列資料庫和服務監測系統；
Newts：一種基於Apache Cassandra的時間序列資料庫。

類SQL處理

Actian SQL for Hadoop：高性能互動式的SQL，可訪問所有的Hadoop數據；
Apache Drill：由Dremel授意的互動式分析框架；
Apache HCatalog：Hadoop的表格和存儲管理層；
Apache Hive：Hadoop的類SQL數據倉庫系統；
Apache Optiq：一種框架，可允許高效的查詢翻譯，其中包括異構性及聯合性數據的查詢；
Apache Phoenix：Apache Phoenix 是 HBase 的 SQL 驅動；
Cloudera Impala：由Dremel授意的互動式分析框架；
Concurrent Lingual：Cascading中的類SQL查詢語言；
Datasalt Splout SQL：用於大數據集的完整的SQL查詢工具；
Facebook PrestoDB：分散式SQL查詢工具；
Google BigQuery：互動式分析框架，Dremel的實現；
Pivotal HAWQ：Hadoop的類SQL的數據倉庫系統；
RainstorDB：用於存儲大規模PB級結構化和半結構化數據的資料庫；
Spark Catalyst：用於Spark和Shark的查詢優化框架；
SparkSQL：使用Spark操作結構化數據；
Splice Machine：一個全功能的Hadoop上的SQL RDBMS，並帶有ACID事務；
Stinger：用於Hive的互動式查詢；
Tajo：Hadoop的分散式數據倉庫系統；
Trafodion：為企業級的SQL-on-HBase針對大數據的事務或業務工作負載的解決方案。

數據攝取

Amazon Kinesis：大規模數據流的實時處理；
Apache Chukwa：數據採集系統；
Apache Flume：管理大量日誌數據的服務；
Apache Kafka：分散式發布-訂閱消息系統；
Apache Sqoop：在Hadoop和結構化的數據存儲區之間傳送數據的工具；
Cloudera Morphlines：幫助 Solr、HBase和HDFS完成ETL的框架；
Facebook Scribe：流日誌數據聚合器；
Fluentd：採集事件和日誌的工具；
Google Photon：實時連接多個數據流的分散式計算機系統，具有高可擴展性和低延遲性；
Heka：開源流處理軟體系統；
HIHO：用Hadoop連接不同數據源的框架；
Kestrel：分散式消息隊列系統；
LinkedIn Databus：對資料庫更改捕獲的事件流；
LinkedIn Kamikaze：壓縮已分類整型數組的程序包；
LinkedIn White Elephant：日誌聚合器和儀錶板；
Logstash：用於管理事件和日誌的工具；
Netflix Suro：像基於Chukwa 的Storm和Samza一樣的日誌聚合器；
Pinterest Secor：是實現Kafka日誌持久性的服務；
Linkedin Gobblin：LinkedIn的通用數據攝取框架；
Skizze：是一種數據存儲略圖，使用概率性數據結構來處理計數、略圖等相關的問題；
StreamSets Data Collector：連續大數據採集的基礎設施，可簡單地使用IDE。

服務編程

Akka Toolkit：JVM中分布性、容錯事件驅動應用程序的運行時間；
Apache Avro：數據序列化系統；
Apache Curator：Apache ZooKeeper的Java庫；
Apache Karaf：在任何OSGi框架之上運行的OSGi運行時間；
Apache Thrift：構建二進位協議的框架；
Apache Zookeeper：流程管理集中式服務；
Google Chubby：一種松耦合分散式系統鎖服務；
Linkedin Norbert：集群管理器；
OpenMPI：消息傳遞框架；
Serf：服務發現和協調的分散化解決方案；
Spotify Luigi：一種構建批處理作業的複雜管道的Python包，它能夠處理依賴性解析、工作流管理、可視化、故障處理、命令行一體化等等問題；
Spring XD：數據攝取、實時分析、批量處理和數據導出的分散式、可擴展系統；
Twitter Elephant Bird：LZO壓縮數據的工作庫；
Twitter Finagle：JVM的非同步網路堆棧。

調度

Apache Aurora：在Apache Mesos之上運行的服務調度程序；
Apache Falcon：數據管理框架；
Apache Oozie：工作流作業調度程序；
Chronos：分散式容錯調度；
Linkedin Azkaban：批處理工作流作業調度；
Schedoscope：Hadoop作業敏捷調度的Scala DSL；
Sparrow：調度平台；
Airflow：一個以編程方式編寫、調度和監控工作流的平台。

機器學習

Apache Mahout：Hadoop的機器學習庫；
brain：JavaScript中的神經網路；
Cloudera Oryx：實時大規模機器學習；
Concurrent Pattern：Cascading的機器學習庫；
convnetjs：Javascript中的機器學習，在瀏覽器中訓練卷積神經網路（或普通網路）；
Decider：Ruby中靈活、可擴展的機器學習；
ENCOG：支持多種先進演算法的機器學習框架，同時支持類的標準化和處理數據；
etcML：機器學習文本分類；
Etsy Conjecture：Scalding中可擴展的機器學習；
Google Sibyl：Google中的大規模機器學習系統；
GraphLab Create：Python的機器學習平台，包括ML工具包、數據工程和部署工具的廣泛集合；
H2O：Hadoop統計性的機器學習和數學運行時間；
MLbase：用於BDAS堆棧的分散式機器學習庫；
MLPNeuralNet：針對iOS和Mac OS X的快速多層感知神經網路庫；
MonkeyLearn：使文本挖掘更為容易，從文本中提取分類數據；
nupic：智能計算的Numenta平台，它是一個啟發大腦的機器智力平台，基於皮質學習演算法的精準的生物神經網路；
PredictionIO：建於Hadoop、Mahout和Cascading上的機器學習伺服器；
SAMOA：分散式流媒體機器學習框架；
scikit-learn：scikit-learn為Python中的機器學習；
Spark MLlib：Spark中一些常用的機器學習（ML）功能的實現；
Vowpal Wabbit：微軟和雅虎發起的學習系統；
WEKA：機器學習軟體套件；
BidMach：CPU和加速GPU的機器學習庫。

基準測試

Apache Hadoop Benchmarking：測試Hadoop性能的微基準；
Berkeley SWIM Benchmark：現實大數據工作負載基準測試；
Intel HiBench：Hadoop基準測試套件；
PUMA Benchmarking：MapReduce應用的基準測試套件；
Yahoo Gridmix3：雅虎工程師團隊的Hadoop集群基準測試。

安全性

Apache Knox Gateway：Hadoop集群安全訪問的單點；
Apache Sentry：存儲在Hadoop的數據安全模塊。

系統部署

Apache Ambari：Hadoop管理的運作框架；
Apache Bigtop：Hadoop生態系統的部署框架；
Apache Helix：集群管理框架；
Apache Mesos：集群管理器；
Apache Slider：一種YARN應用，用來部署YARN中現有的分散式應用程序；
Apache Whirr：運行雲服務的庫集；
Apache YARN：集群管理器；
Brooklyn：用於簡化應用程序部署和管理的庫；
Buildoop：基於Groovy語言，和Apache BigTop類似；
Cloudera HUE：和Hadoop進行交互的Web應用程序；
Facebook Prism：多數據中心複製系統；
Google Borg：作業調度和監控系統；
Google Omega：作業調度和監控系統；
Hortonworks HOYA：可在YARN上部署HBase集群的應用；
Marathon：用於長期運行服務的Mesos框架。

應用程序

Adobe spindle：使用Scala、Spark和Parquet處理的下一代web分析；
Apache Kiji：基於HBase，實時採集和分析數據的框架；
Apache Nutch：開源網路爬蟲；
Apache OODT：用於NASA科學檔案中數據的捕獲、處理和共享；
Apache Tika：內容分析工具包；
Argus：時間序列監測和報警平台；
Countly：基於Node.js和MongoDB，開源的手機和網路分析平台；
Domino：運行、規劃、共享和部署模型——沒有任何基礎設施；
Eclipse BIRT：基於Eclipse的報告系統；
Eventhub：開源的事件分析平台；
Hermes：建於Kafka上的非同步消息代理；
HIPI Library：在Hadoop』s MapReduce上執行圖像處理任務的API；
Hunk：Hadoop的Splunk分析；
Imhotep：大規模分析平台；
MADlib：RDBMS的用於數據分析的數據處理庫；
Kylin：來自eBay的開源分散式分析工具；
PivotalR：Pivotal HD / HAWQ和PostgreSQL中的R；
Qubole：為自動縮放Hadoop集群，內置的數據連接器；
Sense：用於數據科學和大數據分析的雲平台；
SnappyData：用於實時運營分析的分散式內存數據存儲，提供建立在Spark單一集成集群中的數據流分析、OLTP（聯機事務處理）和OLAP（聯機分析處理）；
Snowplow：企業級網路和事件分析，由Hadoop、Kinesis、Redshift 和Postgres提供技術支持；
SparkR：Spark的R前端；
Splunk：用於機器生成的數據的分析；
Sumo Logic：基於雲的分析儀，用於分析機器生成的數據；
Talend：用於YARN、Hadoop、HBASE、Hive、HCatalog和Pig的統一開源環境；
Warp：利用大數據（OS X app）的實例查詢工具。

搜索引擎與框架

Apache Lucene：搜索引擎庫；
Apache Solr：用於Apache Lucene的搜索平台；
ElasticSearch：基於Apache Lucene的搜索和分析引擎；
Enigma.io：為免費增值的健壯性web應用，用於探索、篩選、分析、搜索和導出來自網路的大規模數據集；
Facebook Unicorn：社交圖形搜索平台；
Google Caffeine：連續索引系統；
Google Percolator：連續索引系統；
TeraGoogle：大型搜索索引；
HBase Coprocessor：為Percolator的實現，HBase的一部分；
Lily HBase Indexer：快速、輕鬆地搜索存儲在HBase的任何內容；
LinkedIn Bobo：完全由Java編寫的分面搜索的實現，為Apache Lucene的延伸；
LinkedIn Cleo：為一個一個靈活的軟體庫，使得局部、無序、實時預輸入的搜索實現了快速發展；
LinkedIn Galene：LinkedIn搜索架構；
LinkedIn Zoie：是用Java編寫的實時搜索/索引系統；
Sphinx Search Server：全文搜索引擎

MySQL的分支和演化

Amazon RDS：亞馬遜雲的MySQL資料庫；
Drizzle：MySQL的6.0的演化；
Google Cloud SQL：谷歌雲的MySQL資料庫；
MariaDB：MySQL的增強版嵌入式替代品；
MySQL Cluster：使用NDB集群存儲引擎的MySQL實現；
Percona Server：MySQL的增強版嵌入式替代品；
ProxySQL：MySQL的高性能代理；
TokuDB：用於MySQL和 MariaDB的存儲引擎；
WebScaleSQL：運行MySQL時面臨類似挑戰的幾家公司，它們的工程師之間的合作。

PostgreSQL的分支和演化

Yahoo Everest – multi-peta-byte database / MPP derived by PostgreSQL.
HadoopDB：MapReduce和DBMS的混合體；
IBM Netezza：高性能數據倉庫設備；
Postgres-XL：基於PostgreSQL，可擴展的開源資料庫集群；
RecDB：完全建立在PostgreSQL內部的開源推薦引擎；
Stado：開源MPP資料庫系統，只針對數據倉庫和數據集市的應用程序；
Yahoo Everest：PostgreSQL可以推導多位元組P比特資料庫/MPP。

Memcached的分支和演化

Facebook McDipper：快閃記憶體的鍵/值緩存；
Facebook Memcached：Memcache的分支；
Twemproxy：Memcached和Redis的快速、輕型代理；
Twitter Fatcache：快閃記憶體的鍵/值緩存；
Twitter Twemcache：Memcache的分支。

嵌入式資料庫

Actian PSQL：Pervasive Software公司開發的ACID兼容的DBMS，在應用程序中嵌入了優化；
BerkeleyDB：為鍵/值數據提供一個高性能的嵌入式資料庫的一個軟體庫；
HanoiDB：Erlang LSM BTree存儲；
LevelDB：谷歌寫的一個快速鍵-值存儲庫，它提供了從字元串鍵到字元串值的有序映射；
LMDB：Symas開發的超快、超緊湊的鍵-值嵌入的式數據存儲；
RocksDB：基於性LevelDB，用於快速存儲的嵌入式持續性鍵-值存儲。

商業智能

BIME Analytics：商業智能雲平台；
Chartio：精益業務智能平台，用於可視化和探索數據；
datapine：基於雲的自助服務商業智能工具；
Jaspersoft：功能強大的商業智能套件；
Jedox Palo：定製的商業智能平台；
Microsoft：商業智能軟體和平台；
Microstrategy：商業智能、移動智能和網路應用軟體平台；
Pentaho：商業智能平台；
Qlik：商業智能和分析平台；
FineBI：大數據BI分析平台；
Saiku：開源的分析平台；
SpagoBI：開源商業智能平台；
Tableau：商業智能平台；
Zoomdata：大數據分析；
Jethrodata：互動式大數據分析。

數據可視化

Airpal：用於PrestoDB的網頁UI；
Arbor：利用網路工作者和jQuery的圖形可視化庫；
Banana：對存儲在Kibana中Solr. Port的日誌和時戳數據進行可視化；
Bokeh：一個功能強大的Python互動式可視化庫，它針對要展示的現代web瀏覽器，旨在為D3.js風格的新奇的圖形提供優雅簡潔的設計，同時在大規模數據或流數據集中，通過高性能交互性來表達這種能力；
C3：基於D3可重複使用的圖表庫；
CartoDB：開源或免費增值的虛擬主機，用於帶有強大的前端編輯功能和API的地理空間資料庫；
chartd：只帶Img標籤的反應靈敏、兼容Retina的圖表；
Chart.js：開源的HTML5圖表可視化效果；
Chartist.js：另一個開源HTML5圖表可視化效果；
Crossfilter：JavaScript庫，用於在瀏覽器中探索多元大數據集，用Dc.js和D3.js.效果很好；
Cubism：用於時間序列可視化的JavaScript庫；
Cytoscape：用於可視化複雜網路的JavaScript庫；
DC.js：維度圖表，和Crossfilter一起使用，通過D3.js呈現出來，它比較擅長連接圖表/附加的元數據，從而徘徊在D3的事件附近；
D3：操作文件的JavaScript庫；
D3.compose：從可重複使用的圖表和組件構成複雜的、數據驅動的可視化；
D3Plus：一組相當強大的可重用的圖表，還有D3.js的樣式；
Echarts：百度企業場景圖表；
Envisionjs：動態HTML5可視化；
FnordMetric：寫SQL查詢，返回SVG圖表，而不是表；
Freeboard：針對IOT和其他Web混搭的開源實時儀錶盤構建；
Gephi：屢獲殊榮的開源平台，可視化和操縱大型圖形和網路連接，有點像Photoshop，但是針對於圖表，適用於Windows和Mac OS X；
Google Charts：簡單的圖表API；
Grafana：石墨儀錶板前端、編輯器和圖形組合器；
Graphite：可擴展的實時圖表；
Highcharts：簡單而靈活的圖表API；
IPython：為互動式計算提供豐富的架構；
Kibana：可視化日誌和時間標記數據；
Matplotlib：Python繪圖；
Metricsgraphic.js：建立在D3之上的庫，針對時間序列數據進行最優化；
NVD3：d3.js的圖表組件；
Peity：漸進式SVG條形圖，折線和餅圖；
Plot.ly：易於使用的Web服務，它允許快速創建從熱圖到直方圖等複雜的圖表，使用圖表Plotly的在線電子表格上傳數據進行創建和設計；
Plotly.js：支持plotly的開源JavaScript圖形庫；
Recline：簡單但功能強大的庫，純粹利用JavaScript和HTML構建數據應用；
Redash：查詢和可視化數據的開源平台；
Shiny：針對R的Web應用程序框架；
Sigma.js：JavaScript庫，專門用於圖形繪製；
Vega：一個可視化語法；
Zeppelin：一個筆記本式的協作數據分析；
Zing Charts：用於大數據的JavaScript圖表庫。

物聯網和感測器

TempoIQ：基於雲的感測器分析；
2lemetry：物聯網平台；
Pubnub：數據流網路；
ThingWorx：ThingWorx 是讓企業快速創建和運行互聯應用程序平台；
IFTTT：IFTTT 是一個被稱為「網路自動化神器」的創新型互聯網服務，它的全稱是 If this then that，意思是「如果這樣，那麼就那樣」；
Evrythng：Evrythng則是一款真正意義上的大眾物聯網平台，使得身邊的很多產品變得智能化。

文章推薦

NoSQL Comparison（NoSQL 比較）- Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Couchbase vs Neo4j vs Hypertable vs ElasticSearch vs Accumulo vs VoltDB vs Scalaris comparison；
Big Data Benchmark（大數據基準）- Redshift, Hive, Shark, Impala and Stiger/Tez的基準；
The big data successor of the spreadsheet（電子表格的大數據繼承者） – 電子表格的繼承者應該是大數據。

論文

2015 – 2016

2015 – Facebook – One Trillion Edges: Graph Processing at Facebook-Scale.（一兆邊：Facebook規模的圖像處理）

2013 – 2014

2014 – Stanford - Mining of Massive Datasets.（海量數據集挖掘）
2013 – AMPLab – Presto: Distributed Machine Learning and Graph Processing with Sparse Matrices. （Presto：稀疏矩陣的分散式機器學習和圖像處理）
2013 – AMPLab – MLbase: A Distributed Machine-learning System. （MLbase：分散式機器學習系統）
2013 – AMPLab - Shark: SQL and Rich Analytics at Scale. （Shark: 大規模的SQL 和豐富的分析）
2013 - AMPLab - GraphX: A Resilient Distributed Graph System on Spark. （GraphX:基於Spark的彈性分散式圖計算系統）
2013 - Google – HyperLogLog in Practice: Algorithmic Engineering of a State of The Art Cardinality Estimation Algorithm. （HyperLogLog實踐:一個藝術形態的基數估算演算法）
2013 – Microsoft - Scalable Progressive Analytics on Big Data in the Cloud.（雲端大數據的可擴展性漸進分析）
2013 - Metamarkets - Druid: A Real-time Analytical Data Store. （Druid：實時分析數據存儲）
2013 – Google – Online, Asynchronous Schema Change in F1.（F1中在線、非同步模式的轉變）
2013 - Google - F1: A Distributed SQL Database That Scales. （F1: 分散式SQL資料庫）
2013 – Google – MillWheel: Fault-Tolerant Stream Processing at Internet Scale.（MillWheel: 互聯網規模下的容錯流處理）
2013 – Facebook - Scuba: Diving into Data at Facebook. （Scuba: 深入Facebook的數據世界）
2013 – Facebook – Unicorn: A System for Searching the Social Graph. （Unicorn: 一種搜索社交圖的系統）
2013 -Facebook - Scaling Memcache at Facebook. （Facebook 對 Memcache 伸縮性的增強）

2011 – 2012

2012 – Twitter – The Unified Logging Infrastructure for Data Analytics at Twitter. （Twitter數據分析的統一日誌基礎結構）
2012 – AMPLab –Blink and It』s Done: Interactive Queries on Very Large Data. （Blink及其完成：超大規模數據的互動式查詢）
2012 – AMPLab –Fast and Interactive Analytics over Hadoop Data with Spark. （Spark上 Hadoop數據的快速互動式分析）
2012 – AMPLab –Shark: Fast Data Analysis Using Coarse-grained Distributed Memory. （Shark：使用粗粒度的分散式內存快速數據分析）
2012 – Microsoft –Paxos Replicated State Machines as the Basis of a High-Performance Data Store. （Paxos的複製狀態機——高性能數據存儲的基礎）
2012 – Microsoft –Paxos Made Parallel. （Paxos演算法實現並行）
2012 – AMPLab – BlinkDB：BlinkDB: Queries with Bounded Errors and Bounded Response Times on Very Large Data.（超大規模數據中有限誤差與有界響應時間的查詢）
2012 – Google –Processing a trillion cells per mouse click.（每次點擊處理一兆個單元格）
2012 – Google –Spanner: Google』s Globally-Distributed Database.（Spanner：谷歌的全球分散式資料庫）
2011 – AMPLab –Scarlett: Coping with Skewed Popularity Content in MapReduce Clusters.（Scarlett：應對MapReduce集群中的偏向性內容）
2011 – AMPLab –Mesos: A Platform for Fine-Grained Resource Sharing in the Data Center.（Mesos：數據中心中細粒度資源共享的平台）
2011 – Google –Megastore: Providing Scalable, Highly Available Storage for Interactive Services.（Megastore：為互動式服務提供可擴展，高度可用的存儲）

2001 – 2010

2010 – Facebook - Finding a needle in Haystack: Facebook』s photo storage.（探究Haystack中的細微之處： Facebook圖片存儲）
2010 – AMPLab - Spark: Cluster Computing with Working Sets.（Spark:工作組上的集群計算）
2010 – Google – Storage Architecture and Challenges.（存儲架構與挑戰）
2010 – Google - Pregel: A System for Large-Scale Graph Processing.（Pregel: 一種大型圖形處理系統）
2010 – Google - Large-scale Incremental Processing Using Distributed Transactions and Noti?cations base of Percolator and Caffeine.（使用基於Percolator 和 Caffeine平台分散式事務和通知的大規模增量處理）
2010 – Google – Dremel: Interactive Analysis of Web-Scale Datasets.（Dremel: Web規模數據集的交互分析）
2010 – Yahoo - S4: Distributed Stream Computing Platform.（S4:分散式流計算平台）
2009 – HadoopDB：An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads.（混合MapReduce和DBMS技術用於分析工作負載的的架構）
2008 – AMPLab – Chukwa: A large-scale monitoring system.（Chukwa: 大型監控系統）
2007 – Amazon - Dynamo: Amazon』s Highly Available Key-value Store.（Dynamo: 亞馬遜的高可用的關鍵價值存儲）
2006 – Google – The Chubby lock service for loosely-coupled distributed systems.（面向鬆散耦合的分散式系統的鎖服務）
2006 – Google – Bigtable: A Distributed Storage System for Structured Data.（Bigtable: 結構化數據的分散式存儲系統）
2004 – Google - MapReduce: Simplied Data Processing on Large Clusters.（MapReduce: 大型集群上簡化數據處理）
2003 -Google- The Google File System.（谷歌文件系統）

數據可視化

數據可視化之美
Noah Iliinsky的數據可視化設計
Hans Rosling』s 200 Countries, 200 Years, 4 Minutes
冰桶挑戰的數據可視化

文章源自：史上最全的「大數據」學習資源-博客-雲棲社區-阿里雲

往期文章推薦：

一文讀懂大數據平台--寫給大數據開發初學者的話!

穩定和性能如何兼顧？58大數據平台的技術演進與實踐