2017年資料庫(大數據)領域有哪些進展?
01-14
大數據的數據管理系統方面(強行改成2017年 :))
Shasta, Google今年新出的論文所描述的,一個低延遲,大數據量的報告系統。
Shasta: Interactive Reporting at Scale
https://research.google.com/pubs/pub45394.html
+自定義了一種view語言,使用者無需關心性能,系統會自動做各種優化。
+支持用戶自定義的函數UDF, UAF(c++,java,go)+支持多種數據源,泛用性強。這是個很強大的中間件,即使是前端開發者都能用他實現複雜的業務邏輯,並且保證低延遲。
現在是ads部門的核心組件之一,而且會有進一步的改進和升級。我覺得值得一提的開源系統,以及雲服務的進展
==========================Spark 2.0性能方面還是延續了 Project Tungsten的路線,這次的新改進值得一提的包括
- 用stage code generation加速SQL的常用Operator, 這一套技術的根源來自Thomas Newmann的經典Query Compilation paper
- 用vectorization改進Parquet scan
- 用Native Implementation把所有的Window Function重寫了一遍,改進了Window Function的執行速度
功能方面
- 做到了SQL2003的完全支持
- R UDF (User Defined Function)
- Persistent ML: 用Data Frame來存儲ML Pipeline
Postgres 9.6
總的來說對並行執行的支持總算在路上了- scans, joins and aggregates 的並行執行 (終於!)
- 避免vacuum freeze 是無謂的讀操作 (vacuum freeze一直是老問題,但是我們一直在改進)
- Synchronous replication 允許多個 standby servers
- Full-text search 支持短語 (多個臨近詞)
- postgres_fdw 支持 joins, sorts, UPDATEs, and DELETEs
AWS
Aurora 開始同時支持 MySQL compatible instance 和 Postgres compatible instance。這是整個雲計算界的大件事, 尤其是對中小企業而言,不管你之前用的是MySQL還是Postgres, 現轉到AWS都可以無縫過渡了。 AWS在可以預見的未來應該還是會繼續攻城略地。單就資料庫而言,2016年的亮點不算太多,比如Oracle的12c,似乎是2013年發布的。對於阿里巴巴/螞蟻金服完全自主研發的分散式(無共享)關係資料庫OceanBase,則在2014年替換了支付寶的交易系統中的Oracle,2015年替換了支付系統中的Oracle的基礎上,2016年替換了賬務系統中的Oracle。金融系統中的賬務資料庫被稱為金融資料庫皇冠上的明珠,2016年對於OceanBase,是一個大的進展。
根據統計,2016 年去哪兒平台一共為旅客提供了 41 億次的機票搜索。其中僅無線端就達到 33 億人次,平均每天幫助近千萬人次用手機搜索機票價格。由此可以看到,一年當中 2016 年春節前後下單預定機票的人數最多,訂票量達到全年的訂票峰值。全年中一月訂票人數最多,佔全年訂票量的 9.96%。由於 2017 年春節提前至 1 月 28 日,火車票的預售期也縮短為 30 天,春運機票的訂票高峰與火車票訂票高峰幾乎重疊。另外 9 月也是蠢蠢欲動的時節,下單量佔到全年的 8.79%,相關專家分析,這與十一的小長假有關,而 2016 年的十一與重陽敬老節又離得很近,許多家庭扶老攜幼一起在十一出門轉轉。年度出行大數據:更愛玩花費也更多的竟是 00 後!
企鵝的大資料庫,還有最近推送的企鵝關於2017年的互聯網白皮書
杭州政府的「城市大腦」~
城市規劃發展,商業應用(快遞物流等),只要有人數足夠多就有大數據……
不是因為有了互聯網,才有了互聯網思維,也不是只有互聯網公司才有互聯網思維。真正的互聯網思維是對傳統企業價值鏈的重新審視,體現在戰略、業務和組織
推薦閱讀:
※軟體行業有哪些方向值得花一生的時間去鑽研?
※如何評價OceanBase近期強大的宣傳攻勢?
※勞動經濟學領域有哪些比較好用的資料庫?
※知乎上有哪些比較活躍的資料庫領域大牛?
※如何擺脫現有關係資料庫的思想來設計 NoSQL 資料庫?