2017年資料庫(大數據)領域有哪些進展?

大數據的數據管理系統方面(強行改成2017年 :))


Shasta, Google今年新出的論文所描述的,一個低延遲,大數據量的報告系統。

Shasta: Interactive Reporting at Scale

https://research.google.com/pubs/pub45394.html

+自定義了一種view語言,使用者無需關心性能,系統會自動做各種優化。

+支持用戶自定義的函數UDF, UAF(c++,java,go)

+支持多種數據源,泛用性強。

這是個很強大的中間件,即使是前端開發者都能用他實現複雜的業務邏輯,並且保證低延遲。

現在是ads部門的核心組件之一,而且會有進一步的改進和升級。


我覺得值得一提的開源系統,以及雲服務的進展

==========================

Spark 2.0

性能方面還是延續了 Project Tungsten的路線,這次的新改進值得一提的包括

  • 用stage code generation加速SQL的常用Operator, 這一套技術的根源來自Thomas Newmann的經典Query Compilation paper

  • 用vectorization改進Parquet scan

  • 用Native Implementation把所有的Window Function重寫了一遍,改進了Window Function的執行速度

功能方面

  • 做到了SQL2003的完全支持
  • R UDF (User Defined Function)
  • Persistent ML: 用Data Frame來存儲ML Pipeline

Postgres 9.6

總的來說對並行執行的支持總算在路上了

  • scans, joins and aggregates 的並行執行 (終於!)
  • 避免vacuum freeze 是無謂的讀操作 (vacuum freeze一直是老問題,但是我們一直在改進)
  • Synchronous replication 允許多個 standby servers
  • Full-text search 支持短語 (多個臨近詞)
  • postgres_fdw 支持 joins, sorts, UPDATEs, and DELETEs

AWS

Aurora 開始同時支持 MySQL compatible instance 和 Postgres compatible instance。

這是整個雲計算界的大件事, 尤其是對中小企業而言,不管你之前用的是MySQL還是Postgres, 現轉到AWS都可以無縫過渡了。 AWS在可以預見的未來應該還是會繼續攻城略地。


單就資料庫而言,2016年的亮點不算太多,比如Oracle的12c,似乎是2013年發布的。對於阿里巴巴/螞蟻金服完全自主研發的分散式(無共享)關係資料庫OceanBase,則在2014年替換了支付寶的交易系統中的Oracle,2015年替換了支付系統中的Oracle的基礎上,2016年替換了賬務系統中的Oracle。金融系統中的賬務資料庫被稱為金融資料庫皇冠上的明珠,2016年對於OceanBase,是一個大的進展。


根據統計,2016 年去哪兒平台一共為旅客提供了 41 億次的機票搜索。其中僅無線端就達到 33 億人次,平均每天幫助近千萬人次用手機搜索機票價格。

由此可以看到,一年當中 2016 年春節前後下單預定機票的人數最多,訂票量達到全年的訂票峰值。全年中一月訂票人數最多,佔全年訂票量的 9.96%。由於 2017 年春節提前至 1 月 28 日,火車票的預售期也縮短為 30 天,春運機票的訂票高峰與火車票訂票高峰幾乎重疊。

另外 9 月也是蠢蠢欲動的時節,下單量佔到全年的 8.79%,相關專家分析,這與十一的小長假有關,而 2016 年的十一與重陽敬老節又離得很近,許多家庭扶老攜幼一起在十一出門轉轉。年度出行大數據:更愛玩花費也更多的竟是 00 後!


企鵝的大資料庫,還有最近推送的企鵝關於2017年的互聯網白皮書


杭州政府的「城市大腦」~


城市規劃發展,商業應用(快遞物流等),只要有人數足夠多就有大數據……


不是因為有了互聯網,才有了互聯網思維,也不是只有互聯網公司才有互聯網思維。真正的互聯網思維是對傳統企業價值鏈的重新審視,體現在戰略、業務和組織


推薦閱讀:

軟體行業有哪些方向值得花一生的時間去鑽研?
如何評價OceanBase近期強大的宣傳攻勢?
勞動經濟學領域有哪些比較好用的資料庫?
知乎上有哪些比較活躍的資料庫領域大牛?
如何擺脫現有關係資料庫的思想來設計 NoSQL 資料庫?

TAG:資料庫 | 計算機 | 大數據 |