標籤:

知乎上有哪些比較活躍的資料庫領域大牛?

已經關注了一些人,主要是OceanBase團隊和PingCAP的,有沒有其他企業或學術界(名校資料庫、系統等方向的PhD)做的比較好的?


湊個熱鬧。我本人,寫過一些資料庫底層的東西,Query Optimization為主。混知乎時間很短。具體背景么,做過微軟的大數據平台Cosmos,現在在數據可視化公司Tableau做。SIGMOD/VLDB之類的資料庫頂級會議論文10來篇,做過SIGMOD/VLDB/ICDE的程序委員會成員和一些雜誌的審稿人員。人在國外。

作為國內開發的系統,看你怎麼樣定義了。OceanBase團隊做得挺好,但是有很多局限性,以業務場景帶動技術實現,註定不是那麼通用的一個系統。PingCap幾個大牛挺有見地的,私聊過。

早年做資料庫系統的國內研究做得好的首推人民大學。當然研究做得好不代表資料庫系統開發得好。人大的書還是很好的。資料庫系統浙江大學好像96年就開始做了,航天部門的一個研究項目陸陸續續的最後也不知道怎麼樣。後來是陳鋼教授,做了網易雲存儲也同時在做資料庫系統開發。哈工大李建中老師給黑龍江省財政廳還是什麼做過一個自己的系統。其他的我就不太清楚了。研究方面北大清華上海的復旦還有現在的東華大學,華師大都有牛人。當然有些牛人是掛了名兼職的。

SQL Server有很多牛人,在微軟的,國人有一些,但是我沒見過有誰混知乎的。只不過現在都分崩離析去了各個地方了。阿里也有去的。

Hana上海這邊有人做,領頭的是個IBM Almaden研究院來的台灣人。早年聊過,近況就不是很清楚了。但是整體上感覺國內做的東西還是非常的前端,人員水平積累有限。

IBM的資料庫研發團隊裡面有不少人現在去華為做MPP了。華為自己做了個資料庫,和Postgress兼容。挖了不少人過去。


其實商業資料庫,有原Sybase ase/iq的,現在和hana一起,不過還是人數不多,比較小眾,主要在上海和西安site

Sqlserver,Oracle和db2的不是很了解,貌似基本在美國

大體上來看,國內有南大通用,神通,阿里系有自研資料庫,其他基本都是MySQL 和postgresql,整體氛圍還都是在開源領域添磚加瓦

————————————————————————————————————————

更新一下,國內的SAP HANA主要聚焦於前端Parser,端到端測試開發,以及HANA上的一些feature開發,replication開發,測試,大數據方案集成,HANA Express版本開發測試等。

原Sybase的現在聚焦於前端Parser為主,Optimizer、Executor都有,以及ASE內部索引開發優化,powerdesigner上開發,ASE/IQ bundle(最終未成為產品),以及IQ上的一些feature開發等。

原IBM DB2相關開發貌似在北京有一些周邊性的,Oracle主要是EBS,大數據一類開發測試。

商業資料庫和國內這些開源的資料庫走的根本不是一個路線,基本上活在平行的宇宙裡面。我每天看著網上各位吵來吵去,不知道各位專家是不是真的追過近十幾年二十年的資料庫論文?資料庫不只有高並發可做,所有人跟著阿里之類的吵來吵去到底有沒有什麼意思,資料庫索引原理,數據壓縮,高可用,安全,等等是不是都涉及過,現在國內一些公司做的東西真心不一定代表資料庫的發展方向,只不過是所有國內人能參考為數不多的例子而已,CAP理論只有還有個BASE理論呢,實現的多好真心還不一定成為事實標準,不信你看看Sigmod/VLDB/ICDE上的論文,有多少成天討論CAP的呢?


好貼,我來頂一下

內核擴展

找對業務G點, 體驗酸爽 - PostgreSQL內核擴展指南

聊一聊雙十一背後的技術 - 物流, 動態路徑規劃

弱水三千,只取一瓢,當圖像搜索遇見PostgreSQL(Haar wavelet)

用PostgreSQL支持含有更新,刪除,插入的實時流式計算-博客-雲棲社區-阿里雲

PostgreSQL 內核擴展之 - 管理十億級3D掃描數據(基於Lidar產生的point cloud數據)

PostgreSQL內核擴展之 - ElasticSearch同步插件

為了部落 - 如何通過PostgreSQL基因配對,產生優良下一代

如何加快PostgreSQL結巴分詞載入速度-博客-雲棲社區-阿里雲

PostgreSQL 如何高效解決 按任意欄位分詞檢索的問題 - case 1

使用阿里雲PostgreSQL zhparser時不可不知的幾個參數

如何用PostgreSQL解決一個人工智慧語義去重的小問題-博客-雲棲社區-阿里雲

mongoDB BI 分析利器 - PostgreSQL FDW (MongoDB Connector for BI)

關鍵時刻HINT出彩 - PG優化器的參數優化、執行計劃固化CASE

PostgreSQL Oracle兼容性之 - 鎖定執行計劃(Outline system)

Bottled Water: Real-time integration of PostgreSQL and Kafka - Confluent

PostgreSQL 內存表-博客-雲棲社區-阿里雲

場景與優化

PostgreSQL 如何瀟洒的處理每天上百TB的數據增量

PostgreSQL 秒殺場景優化

德歌:PostgreSQL獨孤九式搞定物聯網-博客-雲棲社區-阿里雲

PostgreSQL 用CPU "硬解碼" 提升1倍 數值運算能力 助力金融大數據量計算

PostgreSQL 百億數據 秒級響應 正則及模糊查詢

PostgreSQL 1000億數據量 正則匹配 速度與激情

PostgreSQL 百億地理位置數據 近鄰查詢性能

PostgreSQL 如何實現upsert與新舊數據自動分離

PostgreSQL 金融行業高可用和容災解決方案

大數據實踐

Greenplum 數據分布黃金法則 - 論分布列與分區的選擇

Greenplum行存與列存的選擇以及轉換方法-博客-雲棲社區-阿里雲

阿里雲ApsaraDB RDS用戶 - OLAP最佳實踐

Greenplum 資源隔離的原理與源碼分析

PostgreSQL 多維分析 CASE

一致性哈希在分散式資料庫中的應用探索-博客-雲棲社區-阿里雲

PostgreSQL 9.5新特性 width_bucket求位置插值,可展示柱狀圖

PostgreSQL 9.5 新特性 高斯(正態)分布和指數分布 數據生成器

一個簡單演算法可以幫助物聯網,金融 用戶 節約98%的數據存儲成本 (PostgreSQL,Greenplum幫你做到)

開源資料庫PostgreSQL攻克並行計算難題-博客-雲棲社區-阿里雲

PostgreSQL 標籤系統 bit 位運算 查詢性能

PostgreSQL 9.6 並行計算 優化器演算法淺析

PostgreSQL 並行計算 在 xfs, ext4 下的表現

PostgreSQL 計算 任意類型 欄位之間的線性相關性

PostgreSQL hll (HyperLogLog) extension for "State of The Art Cardinality Estimation Algorithm" - 1

PostgreSQL hll (HyperLogLog) extension for "State of The Art Cardinality Estimation Algorithm" - 2

PostgreSQL hll (HyperLogLog) extension for "State of The Art Cardinality Estimation Algorithm" - 3

The Streaming SQL Database

旋轉門數據壓縮演算法在PostgreSQL中的實現 - 流式壓縮在物聯網、監控、感測器等場景的應用

PostgreSQL 三角函數的用法舉例 - 已知3點求夾角(旋轉門續)

PostgreSQL 文本數據分析實踐之 - 相似度分析

最佳實踐

固若金湯 - PostgreSQL pgcrypto加密插件

PostgreSQL 物聯網黑科技 - 瘦身500倍的索引(範圍索引)

PostgreSQL 物聯網黑科技 - 閱後即焚

如何用PostgreSQL解決一個人工智慧語義去重的小問題-博客-雲棲社區-阿里雲

PostgreSQL 老濕機圖解平安科技遇到的垃圾回收"坑"

PostgreSQL雕蟲小技,分組TOP性能提升44倍-博客-雲棲社區-阿里雲

PostgreSQL 9.6 黑科技 bloom 演算法索引,一個索引支撐任意列組合查詢

PostgreSQL 9.6 攻克金融級多副本可靠性問題

distinct xx和count(distinct xx)的變態遞歸優化方法

PostgreSQL 百億級數據範圍查詢, 分組排序窗口取值 極致優化 case

中文模糊查詢性能優化 by PostgreSQL trgm

PostgreSQL Oracle兼容性之 - connect by

論雲資料庫編程能力的重要性-博客-雲棲社區-阿里雲

使用sysbench測試阿里雲RDS PostgreSQL性能

PostgreSQL merge json的正確姿勢

PostgreSQL 在路上的特性 - 遠離觸發器, 擁抱內置分區

PostgreSQL 如何輕鬆搞定行駛、運動軌跡合併和切分

在PostgreSQL中如何生成kmean演算法的測試數據-博客-雲棲社區-阿里雲

在PostgreSQL中如何生成線性相關的測試數據-博客-雲棲社區-阿里雲

ALICloudDB for PostgreSQL 試用報告 - 1 教你做RDS性能測試

ALICloudDB for PostgreSQL 試用報告 - 2 教你RDS PG的水平分庫

ALICloudDB for PostgreSQL 試用報告 - 3 水平分庫 vs 單機 性能

ALICloudDB for PostgreSQL 試用報告 - 4 水平分庫 之 節點擴展

ALICloudDB for PostgreSQL 試用報告 - 5 長短連接測試

ALICloudDB for PostgreSQL 試用報告 - 6 任意時間點恢復

PostgreSQL 最佳實踐 - 水平分庫(基於plproxy)

PostgreSQL 最佳實踐 - 冷備份與還原介紹

PostgreSQL 最佳實踐 - 在線增量備份與任意時間點恢復

PostgreSQL 最佳實踐 - 邏輯增量複製(MySQL &<-&> PgSQL &<-&> PgSQL)

PostgreSQL 最佳實踐 - 塊級別增量備份(pg_rman baseon LSN)源碼淺析與使用

PostgreSQL 最佳實踐 - pg_rman 以standby為源的備份淺析

PostgreSQL 最佳實踐 - pg_rman 資料庫恢復示例 與 軟體限制解說

內核探索

PostgreSQL plan cache 源碼淺析 - 如何確保不會計劃傾斜

為什麼用 PostgreSQL 綁定變數 沒有 Oracle pin S 等待問題

PostgreSQL 同步流複製原理和代碼淺析

深入淺出PostgreSQL B-Tree索引結構

PostgreSQL 可靠性和一致性 代碼分析

PostgreSQL 統計信息混淆之處(scan,read,fetch,hit)源碼解讀

《PostgreSQL HOT技術》

src/backend/access/heap/README.HOT

git.postgresql.org Git - postgresql.git/blob - src/backend/access/heap/README.HOT

《PostgreSQL B-Tree GIN GIST SP-GIST BRIN HASH索引內部結構》

https://www.pgcon.org/2016/schedule/attachments/434_Index-internals-PGCon2016.pdf

更多內容

雲棲PostgreSQL圈子

PostgreSQL-圈子-雲棲社區-阿里雲

雲棲Greenplum圈子

Greenplum-圈子-雲棲社區-阿里雲

ApsaraDB 資料庫內核組月報(涵蓋MySQL PostgreSQL Greenplum mongoDB 等資料庫引擎)

http://mysql.taobao.org/monthly/

GIT,一大波文章襲來 :

digoal/blog

《金融風控、公安刑偵、社會關係、人脈分析等需求分析與資料庫實現 - PostgreSQL圖資料庫場景應用》

《實時數據交換平台 - BottledWater-pg with confluent》

《聊一聊雙十一背後的技術 - 不一樣的秒殺技術, 裸秒》

《聊一聊雙十一背後的技術 - 分詞和搜索》

《聊一聊雙十一背後的技術 - 物流、動態路徑規劃》

《PostgreSQL 與 12306 搶火車票的思考》

......


阿里雲資料庫團隊比較熟,隨手梳理了以下

丁奇:MySQL社區核心成員。專註於數據存儲系統、MySQL 源碼研究和改進、MySQL 性能優化和功能改進。

子嘉:Redis中國用戶會發起人,Redis技術大學校長

葉翔:MongoDB江浙地區用戶會主席
在此之前也是淘寶Tair分散式KV系統的技術負責人,負責過阿里雲Memcache,Redis服務等,在阿里集團工作8年,一直在做NoSQL相關的技術。

德歌:阿里雲 PostgreSQL技術負責人,PostgreSQL中國技術大學校長、GreenPlum源碼深度研究者

彭立勛:參與了ACMUG(MySQL中國用戶組)的發起和組建,擔任副主席和杭州地區的組織者。MariaDB基金會唯一的中國成員

蕭少聰:PostgreSQL 中國社區主席


TerarkDB, 不同於其它的資料庫,TerarkDB 專註於資料庫存儲引擎,更確切地說,是專註於引擎的引擎。TerarkDB 的核心技術是「可檢索壓縮」,在高度壓縮(壓縮率與 bzip2 相當)的前提下,可以直接在壓縮的數據上執行搜索,相同硬體下隨機讀性能比傳統技術高兩個數量級。


我們是haisql團隊,初創小團隊,沒有拿過外部投資,去年9月成立,不到一年,我們自研高性能KV資料庫haisql_memcache,查詢性能比memcache 快70%,單線程比redis快30%,去掉tcp/ip網路層和memcpy 的開銷,性能已經有數量級的提升。KV資料庫查詢性能上我們超越了這個時代的大牛,主要技術依賴:高性能c++底層庫,裡面有很多超越時代的設計,例如:無鎖無等待wait free queue隊列,包括每秒調度能力1500萬tps 的std::function 跨線程調度(比boost::asio::io_service快5倍以上),每秒3億tps跨線程數據傳送能力(比boost庫lock free spsc queue 性能快50%以上,我們支持任意對象,boost只支持plod對象,boost庫只支持最大8位元組對象,我們支持任意大小),我們擁有世界上最快的wait free queue,支持模板編程,支持任意對象。擁有比std::unordered_map快70%的基於環形隊列的新型hash_map/ set庫,秒殺c++標準庫。擁有比std::shared_ptr快一倍以上,內存佔用更少,完全線程安全,指令集全兼容的全新共享智能指針庫。擁有一個超過一萬行代碼的自研的高性能c++基礎庫,裡面功能很多,比如各種高性能鎖的設計,超越std庫的設計,功能很多(例如共享鎖支持facebook folly庫中共享鎖的各種功能,讀鎖升寫鎖,寫鎖降讀鎖之類,性能更好,與facebook的設計有很多區別,是我們自研的),更有像常用的二進位轉十進位的新庫,性能比c++ std庫提高了一到十倍。我們重做了很多C++庫或者操作系統中過時的或者明顯過慢的代碼,所以我們能夠比競爭對手memcache和redis查詢性能高很多。

我們與其它團隊最大的不同在於我們是唯一從底層做起,甚至不惜重寫一些std庫的團隊,一點一點重寫整個c++底層庫中比較過時的部分,一點一點寫出KV資料庫,一點一點默默做優化,我們的目標是代碼庫要實現最佳設計路徑,要實現沒有優化的餘地。我們的底層庫已經實現了若干超越時代的新型class,我們正在一點一點寫sql資料庫。。。。。下載測試http://www.haisql.com


國內做得好的主要是阿里系的,阿里還有一個資料庫AliSQL,高校感覺環境不允許


不知道東方國信的 行雲在國內是什麼段位?


怎麼大家沒人提鵝廠做TD SQL 的?


定理1:知乎上活躍的都不是大牛


推薦閱讀:

如何擺脫現有關係資料庫的思想來設計 NoSQL 資料庫?
BigTable 有什麼值得稱道(牛)的地方?
樂觀鎖為什麼適用於衝突少的場景,以及應用在內存資料庫中?
Google Spanner 是一個什麼樣東西?對未來會產生什麼樣的影響?
有沒有公司在用access建資料庫?

TAG:資料庫 |