關係型資料庫的原理
難道關係型資料庫已經太古老太無趣,除了大學教材、研究文獻和書籍以外,沒人願意講了嗎?
作為一個開發人員,我不喜歡用我不明白的東西。而且,資料庫已經使用了40年之久,一定有理由的。多年以來,我花了成百上千個小時來真正領會這些我每天都在用的、古怪的黑盒子。關係型資料庫非常有趣,因為它們是基於實用而且可復用的概念。如果你對了解一個資料庫感興趣,但是從未有時間或意願來刻苦鑽研這個內容廣泛的課題,你應該喜歡這篇文章。
雖然本文標題很明確,但我的目的並不是講如何使用資料庫。因此,你應該已經掌握怎麼寫一個簡單的 join query(聯接查詢)和CRUD操作(創建讀取更新刪除),否則你可能無法理解本文。這是唯一需要你了解的,其他的由我來講解。
我會從一些計算機科學方面的知識談起,比如時間複雜度。我知道有些人討厭這個概念,但是沒有它你就不能理解資料庫內部的巧妙之處。由於這是個很大的話題,我將集中探討我認為必要的內容:資料庫處理SQL查詢的方式。我僅僅介紹資料庫背後的基本概念,以便在讀完本文後你會對底層到底發生了什麼有個很好的了解。
【譯者註:關於時間複雜度。計算機科學中,演算法的時間複雜度是一個函數,它定量描述了該演算法的運行時間。如果不了解這個概念建議先看看維基或百度百科,對於理解文章下面的內容很有幫助】
由於本文是個長篇技術文章,涉及到很多演算法和數據結構知識,你盡可以慢慢讀。有些概念比較難懂,你可以跳過,不影響理解整體內容。
這篇文章大約分為3個部分:
- 底層和上層資料庫組件概況
- 查詢優化過程概況
- 事務和緩衝池管理概況
很久很久以前(在一個遙遠而又遙遠的星系……),開發者必須確切地知道他們的代碼需要多少次運算。他們把演算法和數據結構牢記於心,因為他們的計算機運行緩慢,無法承受對CPU和內存的浪費。
在這一部分,我將提醒大家一些這類的概念,因為它們對理解資料庫至關重要。我還會介紹資料庫索引的概念。
O(1) vs O(n^2)
現今很多開發者不關心時間複雜度……他們是對的。
但是當你應對大量的數據(我說的可不只是成千上萬哈)或者你要爭取毫秒級操作,那麼理解這個概念就很關鍵了。而且你猜怎麼著,資料庫要同時處理這兩種情景!我不會佔用你太長時間,只要你能明白這一點就夠了。這個概念在下文會幫助我們理解什麼是基於成本的優化。
時間複雜度用來檢驗某個演算法處理一定量的數據要花多長時間。為了描述這個複雜度,計算機科學家使用數學上的『簡明解釋演算法中的大O符號』。這個表示法用一個函數來描述演算法處理給定的數據需要多少次運算。
比如,當我說『這個演算法是適用 O(某函數())』,我的意思是對於某些數據,這個演算法需要 某函數(數據量) 次運算來完成。
重要的不是數據量,而是當數據量增加時運算如何增加。時間複雜度不會給出確切的運算次數,但是給出的是一種理念。
圖中可以看到不同類型的複雜度的演變過程,我用了對數尺來建這個圖。具體點兒說,數據量以很快的速度從1條增長到10億條。我們可得到如下結論:
- 綠:O(1)或者叫常數階複雜度,保持為常數(要不人家就不會叫常數階複雜度了)。
- 紅:O(log(n))對數階複雜度,即使在十億級數據量時也很低。
- 粉:最糟糕的複雜度是 O(n^2),平方階複雜度,運算數快速膨脹。
- 黑和藍:另外兩種複雜度(的運算數也是)快速增長。
數據量低時,O(1) 和 O(n^2)的區別可以忽略不計。比如,你有個演算法要處理2000條元素。
- O(1) 演算法會消耗 1 次運算
- O(log(n)) 演算法會消耗 7 次運算
- O(n) 演算法會消耗 2000 次運算
- O(n*log(n)) 演算法會消耗 14,000 次運算
- O(n^2) 演算法會消耗 4,000,000 次運算
O(1) 和 O(n^2) 的區別似乎很大(4百萬),但你最多損失 2 毫秒,只是一眨眼的功夫。確實,當今處理器每秒可處理上億次的運算。這就是為什麼性能和優化在很多IT項目中不是問題。
我說過,面臨海量數據的時候,了解這個概念依然很重要。如果這一次演算法需要處理 1,000,000 條元素(這對資料庫來說也不算大)。
- O(1) 演算法會消耗 1 次運算
- O(log(n)) 演算法會消耗 14 次運算
- O(n) 演算法會消耗 1,000,000 次運算
- O(n*log(n)) 演算法會消耗 14,000,000 次運算
- O(n^2) 演算法會消耗 1,000,000,000,000 次運算
我沒有具體算過,但我要說,用O(n^2) 演算法的話你有時間喝杯咖啡(甚至再續一杯!)。如果在數據量後面加個0,那你就可以去睡大覺了。
為了讓你能明白
- 搜索一個好的哈希表會得到 O(1) 複雜度
- 搜索一個均衡的樹會得到 O(log(n)) 複雜度
-
- 搜索一個陣列會得到 O(n) 複雜度
-
- 最好的排序演算法具有 O(n*log(n)) 複雜度
-
- 糟糕的排序演算法具有 O(n^2) 複雜度
註:在接下來的部分,我們將會研究這些演算法和數據結構。
有多種類型的時間複雜度
- 一般情況場景
- 最佳情況場景
- 最差情況場景
時間複雜度經常處於最差情況場景。
這裡我只探討時間複雜度,但複雜度還包括:
- 演算法的內存消耗
- 演算法的磁碟 I/O 消耗
當然還有比 n^2 更糟糕的複雜度,比如:
- n^4:差勁!我將要提到的一些演算法具備這種複雜度。
- 3^n:更差勁!本文中間部分研究的一些演算法中有一個具備這種複雜度(而且在很多資料庫中還真的使用了)。
- 階乘 n:你永遠得不到結果,即便在少量數據的情況下。
- n^n:如果你發展到這種複雜度了,那你應該問問自己IT是不是你的菜。
註:我並沒有給出『大O表示法』的真正定義,只是利用這個概念。可以看看維基百科上的這篇文章。
當你要對一個集合排序時你怎麼做?什麼?調用 sort() 函數……好吧,算你對了……但是對於資料庫,你需要理解這個 sort() 函數的工作原理。
優秀的排序演算法有好幾個,我側重於最重要的一種:合併排序。你現在可能還不了解數據排序有什麼用,但看完查詢優化部分後你就會知道了。再者,合併排序有助於我們以後理解資料庫常見的聯接操作,即合併聯接 。
與很多有用的演算法類似,合併排序基於這樣一個技巧:將 2 個大小為 N/2 的已排序序列合併為一個 N 元素已排序序列僅需要 N 次操作。這個方法叫做合併。
我們用個簡單的例子來看看這是什麼意思:
通過此圖你可以看到,在 2 個 4元素序列里你只需要迭代一次,就能構建最終的8元素已排序序列,因為兩個4元素序列已經排好序了:
- 1) 在兩個序列中,比較當前元素(當前=頭一次出現的第一個)
- 2) 然後取出最小的元素放進8元素序列中
- 3) 找到(兩個)序列的下一個元素,(比較後)取出最小的
- 重複1、2、3步驟,直到其中一個序列中的最後一個元素
- 然後取出另一個序列剩餘的元素放入8元素序列中。
這個方法之所以有效,是因為兩個4元素序列都已經排好序,你不需要再『回到』序列中查找比較。
【譯者註:合併排序詳細原理,其中一個動圖(原圖較長,我做了刪減)清晰的演示了上述合併排序的過程,而原文的敘述似乎沒有這麼清晰,不動戳大。】
既然我們明白了這個技巧,下面就是我的合併排序偽代碼。
arraymergeSortarraylengthreturn//recursive callsleft_array right_arraysplit_into_2_equally_sized_arrays
arraynew_left_arraymergeSortleft_arrayarraynew_right_arraymergeSortright_array//merging the 2 small ordered arrays into a big onearrayresultmergenew_left_arraynew_right_arrayreturnresult合併排序是把問題拆分為小問題,通過解決小問題來解決最初的問題(註:這種演算法叫分治法,即『分而治之、各個擊破』)。如果你不懂,不用擔心,我第一次接觸時也不懂。如果能幫助你理解的話,我認為這個演算法是個兩步演算法:
- 拆分階段,將序列分為更小的序列
- 排序階段,把小的序列合在一起(使用合併演算法)來構成更大的序列
在拆分階段過程中,使用3個步驟將序列分為一元序列。步驟數量的值是 log(N) (因為 N=8, log(N)=3)。【譯者註:底數為2,下文有說明】
我怎麼知道這個的?
我是天才!一句話:數學。道理是每一步都把原序列的長度除以2,步驟數就是你能把原序列長度除以2的次數。這正好是對數的定義(在底數為2時)。
在排序階段,你從一元序列開始。在每一個步驟中,你應用多次合併操作,成本一共是 N=8 次運算。
- 第一步,4 次合併,每次成本是 2 次運算。
- 第二步,2 次合併,每次成本是 4 次運算。
- 第三步,1 次合併,成本是 8 次運算。
因為有 log(N) 個步驟,整體成本是 N*log(N) 次運算。
【譯者註:這個完整的動圖演示了拆分和排序的全過程,不動戳大。】
合併排序的強大之處
為什麼這個演算法如此強大?
- 你可以更改演算法,以便於節省內存空間,方法是不創建新的序列而是直接修改輸入序列。
註:這種演算法叫『原地演算法』(in-place algorithm)
- 你可以更改演算法,以便於同時使用磁碟空間和少量內存而避免巨量磁碟 I/O。方法是只向內存中載入當前處理的部分。在僅僅100MB的內存緩衝區內排序一個幾個GB的表時,這是個很重要的技巧。
註:這種演算法叫『外部排序』(external sorting)。
- 你可以更改演算法,以便於在 多處理器/多線程/多伺服器 上運行。
比如,分散式合併排序是Hadoop(那個著名的大數據框架)的關鍵組件之一。
- 這個演算法可以點石成金(事實如此!)
這個排序演算法在大多數(如果不是全部的話)資料庫中使用,但是它並不是唯一演算法。如果你想多了解一些,你可以看看 這篇論文,探討的是資料庫中常用排序演算法的優勢和劣勢。
陣列,樹和哈希表
既然我們已經了解了時間複雜度和排序背後的理念,我必須要向你介紹3種數據結構了。這個很重要,因為它們是現代資料庫的支柱。我還會介紹資料庫索引的概念。
二維陣列是最簡單的數據結構。一個表可以看作是個陣列,比如:
這個二維陣列是帶有行與列的表:
- 每個行代表一個主體
- 列用來描述主體的特徵
- 每個列保存某一種類型對數據(整數、字元串、日期……)
雖然用這個方法保存和視覺化數據很棒,但是當你要查找特定的值它就很糟糕了。 舉個例子,如果你要找到所有在 UK 工作的人,你必須查看每一行以判斷該行是否屬於 UK 。這會造成 N 次運算的成本(N 等於行數),還不賴嘛,但是有沒有更快的方法呢?這時候樹就可以登場了(或開始起作用了)。
樹和資料庫索引
二叉查找樹是帶有特殊屬性的二叉樹,每個節點的關鍵字必須:
- 比保存在左子樹的任何鍵值都要大
- 比保存在右子樹的任何鍵值都要小
【譯者註:binary search tree,二叉查找樹/二叉搜索樹,或稱 Binary Sort Tree 二叉排序樹。見百度百科 】
這個樹有 N=15 個元素。比方說我要找208:
- 我從鍵值為 136 的根開始,因為 136<208,我去找節點136的右子樹。
- 398>208,所以我去找節點398的左子樹
- 250>208,所以我去找節點250的左子樹
- 200<208,所以我去找節點200的右子樹。但是 200 沒有右子樹,值不存在(因為如果存在,它會在 200 的右子樹)
現在比方說我要找40
- 我從鍵值為136的根開始,因為 136>40,所以我去找節點136的左子樹。
- 80>40,所以我去找節點 80 的左子樹
- 40=40,節點存在。我抽取出節點內部行的ID(圖中沒有畫)再去表中查找對應的 ROW ID。
- 知道 ROW ID我就知道了數據在表中對精確位置,就可以立即獲取數據。
最後,兩次查詢的成本就是樹內部的層數。如果你仔細閱讀了合併排序的部分,你就應該明白一共有 log(N)層。所以這個查詢的成本是 log(N),不錯啊!
回到我們的問題
上文說的很抽象,我們回來看看我們的問題。這次不用傻傻的數字了,想像一下前表中代表某人的國家的字元串。假設你有個樹包含表中的列『country』:
- 如果你想知道誰在 UK 工作
- 你在樹中查找代表 UK 的節點
- 在『UK 節點』你會找到 UK 員工那些行的位置
這次搜索只需 log(N) 次運算,而如果你直接使用陣列則需要 N 次運算。你剛剛想像的就是一個資料庫索引。
B+樹索引
查找一個特定值這個樹挺好用,但是當你需要查找兩個值之間的多個元素時,就會有大麻煩了。你的成本將是 O(N),因為你必須查找樹的每一個節點,以判斷它是否處於那 2 個值之間(例如,對樹使用中序遍歷)。而且這個操作不是磁碟I/O有利的,因為你必須讀取整個樹。我們需要找到高效的範圍查詢方法。為了解決這個問題,現代資料庫使用了一種修訂版的樹,叫做B+樹。在一個B+樹里:
- 只有最底層的節點(葉子節點)才保存信息(相關表的行位置)
- 其它節點只是在搜索中用來指引到正確節點的。
【譯者註:參考 B+樹 , 二叉樹遍歷維基百科】
你可以看到,節點更多了(多了兩倍)。確實,你有了額外的節點,它們就是幫助你找到正確節點的『決策節點』(正確節點保存著相關表中行的位置)。但是搜索複雜度還是在 O(log(N))(只多了一層)。一個重要的不同點是,最底層的節點是跟後續節點相連接的。
用這個 B+樹,假設你要找40到100間的值:
- 你只需要找 40(若40不存在則找40之後最貼近的值),就像你在上一個樹中所做的那樣。
- 然後用那些連接來收集40的後續節點,直到找到100。
比方說你找到了 M 個後續節點,樹總共有 N 個節點。對指定節點的搜索成本是 log(N),跟上一個樹相同。但是當你找到這個節點,你得通過後續節點的連接得到 M 個後續節點,這需要 M 次運算。那麼這次搜索只消耗了 M+log(N) 次運算,區別於上一個樹所用的 N 次運算。此外,你不需要讀取整個樹(僅需要讀 M+log(N) 個節點),這意味著更少的磁碟訪問。如果 M 很小(比如 200 行)並且 N 很大(1,000,000),那結果就是天壤之別了。
然而還有新的問題(又來了!)。如果你在資料庫中增加或刪除一行(從而在相關的 B+樹索引里):
- 你必須在B+樹中的節點之間保持順序,否則節點會變得一團糟,你無法從中找到想要的節點。
- 你必須儘可能降低B+樹的層數,否則 O(log(N)) 複雜度會變成 O(N)。
換句話說,B+樹需要自我整理和自我平衡。謝天謝地,我們有智能刪除和插入。但是這樣也帶來了成本:在B+樹中,插入和刪除操作是 O(log(N)) 複雜度。所以有些人聽到過使用太多索引不是個好主意這類說法。沒錯,你減慢了快速插入/更新/刪除表中的一個行的操作,因為資料庫需要以代價高昂的每索引 O(log(N)) 運算來更新表的索引。再者,增加索引意味著給事務管理器帶來更多的工作負荷(在本文結尾我們會探討這個管理器)。
想了解更多細節,你可以看看 Wikipedia 上這篇關於B+樹的文章。如果你想要資料庫中實現B+樹的例子,看看MySQL核心開發人員寫的這篇文章 和 這篇文章。兩篇文章都致力於探討 innoDB(MySQL引擎)如何處理索引。
我們最後一個重要的數據結構是哈希表。當你想快速查找值時,哈希表是非常有用的。而且,理解哈希表會幫助我們接下來理解一個資料庫常見的聯接操作,叫做『哈希聯接』。這個數據結構也被資料庫用來保存一些內部的東西(比如鎖表或者緩衝池,我們在下文會研究這兩個概念)。
哈希表這種數據結構可以用關鍵字來快速找到一個元素。為了構建一個哈希表,你需要定義:
- 元素的關鍵字
- 關鍵字的哈希函數。關鍵字計算出來的哈希值給出了元素的位置(叫做哈希桶)。
-
- 關鍵字比較函數。一旦你找到正確的哈希桶,你必須用比較函數在桶內找到你要的元素。
一個簡單的例子
我們來看一個形象化的例子:
這個哈希表有10個哈希桶。因為我懶,我只給出5個桶,但是我知道你很聰明,所以我讓你想像其它的5個桶。我用的哈希函數是關鍵字對10取模,也就是我只保留元素關鍵字的最後一位,用來查找它的哈希桶:
- 如果元素最後一位是 0,則進入哈希桶0,
- 如果元素最後一位是 1,則進入哈希桶1,
- 如果元素最後一位是 2,則進入哈希桶2,
- …我用的比較函數只是判斷兩個整數是否相等。
【譯者註:取模運算】
比方說你要找元素 78:
- 哈希表計算 78 的哈希碼,等於 8。
- 查找哈希桶 8,找到的第一個元素是 78。
- 返回元素 78。
- 查詢僅耗費了 2 次運算(1次計算哈希值,另一次在哈希桶中查找元素)。
現在,比方說你要找元素 59:
- 哈希表計算 59 的哈希碼,等於9。
- 查找哈希桶 9,第一個找到的元素是 99。因為 99 不等於 59, 那麼 99 不是正確的元素。
- 用同樣的邏輯,查找第二個元素(9),第三個(79),……,最後一個(29)。
- 元素不存在。
- 搜索耗費了 7 次運算。
一個好的哈希函數
你可以看到,根據你查找的值,成本並不相同。
如果我把哈希函數改為關鍵字對 1,000,000 取模(就是說取後6位數字),第二次搜索只消耗一次運算,因為哈希桶 00059 裡面沒有元素。真正的挑戰是找到好的哈希函數,讓哈希桶里包含非常少的元素。
在我的例子里,找到一個好的哈希函數很容易,但這是個簡單的例子。當關鍵字是下列形式時,好的哈希函數就更難找了:
- 1 個字元串(比如一個人的姓)
- 2 個字元串(比如一個人的姓和名)
- 2 個字元串和一個日期(比如一個人的姓、名和出生年月日)
如果有了好的哈希函數,在哈希表裡搜索的時間複雜度是 O(1)。
陣列 vs 哈希表為什麼不用陣列呢?
嗯,你問得好。
- 一個哈希表可以只裝載一半到內存,剩下的哈希桶可以留在硬碟上。
- 用陣列的話,你需要一個連續內存空間。如果你載入一個大表,很難分配足夠的連續內存空間。
- 用哈希表的話,你可以選擇你要的關鍵字(比如,一個人的國家和姓氏)。
想要更詳細的信息,你可以閱讀我在Java HashMap 上的文章,是關於高效哈希表實現的。你不需要了解Java就能理解文章里的概念。
我們已經了解了資料庫內部的基本組件,現在我們需要回來看看資料庫的全貌了。
資料庫是一個易於訪問和修改的信息集合。不過簡單的一堆文件也能達到這個效果。事實上,像SQLite這樣最簡單的資料庫也只是一堆文件而已,但SQLite是精心設計的一堆文件,因為它允許你:
- 使用事務來確保數據的安全和一致性
- 快速處理百萬條以上的數據
資料庫一般可以用如下圖形來理解:
撰寫這部分之前,我讀過很多書/論文,它們都以自己的方式描述資料庫。所以,我不會特別關注如何組織資料庫或者如何命名各種進程,因為我選擇了自己的方式來描述這些概念以適應本文。區別就是不同的組件,總體思路為:資料庫是由多種互相交互的組件構成的。
- 進程管理器(process manager):很多資料庫具備一個需要妥善管理的進程/線程池。再者,為了實現納秒級操作,一些現代資料庫使用自己的線程而不是操作系統線程。
- 網路管理器(network manager):網路I/O是個大問題,尤其是對於分散式資料庫。所以一些資料庫具備自己的網路管理器。
- 文件系統管理器(File system manager):磁碟I/O是資料庫的首要瓶頸。具備一個文件系統管理器來完美地處理OS文件系統甚至取代OS文件系統,是非常重要的。
- 內存管理器(memory manager):為了避免磁碟I/O帶來的性能損失,需要大量的內存。但是如果你要處理大容量內存你需要高效的內存管理器,尤其是你有很多查詢同時使用內存的時候。
- 安全管理器(Security Manager):用於對用戶的驗證和授權。
- 客戶端管理器(Client manager):用於管理客戶端連接。
- 備份管理器(Backup manager):用於保存和恢複數據。
- 復原管理器(Recovery manager):用於崩潰後重啟資料庫到一個一致狀態。
- 監控管理器(Monitor manager):用於記錄資料庫活動信息和提供監控資料庫的工具。
- Administration管理器(Administration manager):用於保存元數據(比如表的名稱和結構),提供管理資料庫、模式、表空間的工具。【譯者註:好吧,我真的不知道Administration manager該翻譯成什麼,有知道的麻煩告知,不勝感激……】
查詢管理器:
- 查詢解析器(Query parser):用於檢查查詢是否合法
- 查詢重寫器(Query rewriter):用於預優化查詢
- 查詢優化器(Query optimizer):用於優化查詢
- 查詢執行器(Query executor):用於編譯和執行查詢
數據管理器:
- 事務管理器(Transaction manager):用於處理事務
- 緩存管理器(Cache manager):數據被使用之前置於內存,或者數據寫入磁碟之前置於內存
- 數據訪問管理器(Data access manager):訪問磁碟中的數據
在本文剩餘部分,我會集中探討資料庫如何通過如下進程管理SQL查詢的:
- 客戶端管理器
- 查詢管理器
- 數據管理器(含復原管理器)
客戶端管理器
客戶端管理器是處理客戶端通信的。客戶端可以是一個(網站)伺服器或者一個最終用戶或最終應用。客戶端管理器通過一系列知名的API(JDBC, ODBC, OLE-DB …)提供不同的方式來訪問資料庫。
客戶端管理器也提供專有的資料庫訪問API。
當你連接到資料庫時:
- 管理器首先檢查你的驗證信息(用戶名和密碼),然後檢查你是否有訪問資料庫的授權。這些許可權由DBA分配。
- 然後,管理器檢查是否有空閑進程(或線程)來處理你對查詢。
- 管理器還會檢查資料庫是否負載很重。
- 管理器可能會等待一會兒來獲取需要的資源。如果等待時間達到超時時間,它會關閉連接並給出一個可讀的錯誤信息。
- 然後管理器會把你的查詢送給查詢管理器來處理。
- 因為查詢處理進程不是『不全則無』的,一旦它從查詢管理器得到數據,它會把部分結果保存到一個緩衝區並且開始給你發送。
- 如果遇到問題,管理器關閉連接,向你發送可讀的解釋信息,然後釋放資源。
查詢管理器
這部分是資料庫的威力所在,在這部分里,一個寫得糟糕的查詢可以轉換成一個快速執行的代碼,代碼執行的結果被送到客戶端管理器。這個多步驟操作過程如下:
- 查詢首先被解析並判斷是否合法
- 然後被重寫,去除了無用的操作並且加入預優化部分
- 接著被優化以便提升性能,並被轉換為可執行代碼和數據訪問計劃。
- 然後計劃被編譯
- 最後,被執行
這裡我不會過多探討最後兩步,因為它們不太重要。
看完這部分後,如果你需要更深入的知識,我建議你閱讀:
- 關於成本優化的初步研究論文(1979):關係型資料庫系統存取路徑選擇。這個篇文章只有12頁,而且具備計算機一般水平就能理解。
- 非常好、非常深入的 DB2 9.X 如何優化查詢的介紹
- 非常好的PostgreSQL如何優化查詢的介紹。這是一篇最通俗易懂的文檔,因為它講的是『我們來看看在這種情況下,PostgreSQL給出了什麼樣的查詢計劃』,而不是『我們來看看PostgreSQL用的什麼演算法』。
- 官方SQLite優化文檔。『易於』閱讀,因為SQLite用的是簡單規則。再者,這是唯一真正解釋SQLite如何工作的官方文檔。
- 非常好的SQL Server 2005 如何優化查詢的介紹
- Oracle 12c 優化白皮書
- 2篇查詢優化的教程,第一篇第二篇。教程來自《資料庫系統概念》的作者,很好的讀物,集中討論磁碟I/O,但是要求具有很好的計算機科學水平。
- 另一個原理教程,這篇教程我覺得更易懂,不過它僅關注聯接運算符(join operators)和磁碟I/O。
查詢解析器
每一條SQL語句都要送到解析器來檢查語法,如果你的查詢有錯,解析器將拒絕該查詢。比如,如果你寫成」SLECT …」 而不是 「SELECT …」,那就沒有下文了。
但這還不算完,解析器還會檢查關鍵字是否使用正確的順序,比如 WHERE 寫在 SELECT 之前會被拒絕。
然後,解析器要分析查詢中的表和欄位,使用資料庫元數據來檢查:
- 表是否存在
- 表的欄位是否存在
- 對某類型欄位的 運算 是否 可能(比如,你不能將整數和字元串進行比較,你不能對一個整數使用 substring() 函數)
接著,解析器檢查在查詢中你是否有許可權來讀取(或寫入)表。再強調一次:這些許可權由DBA分配。
在解析過程中,SQL 查詢被轉換為內部表示(通常是一個樹)。
如果一切正常,內部表示被送到查詢重寫器。
查詢重寫器
在這一步,我們已經有了查詢的內部表示,重寫器的目標是:
- 預優化查詢
- 避免不必要的運算
- 幫助優化器找到合理的最佳解決方案
重寫器按照一系列已知的規則對查詢執行檢測。如果查詢匹配一種模式的規則,查詢就會按照這條規則來重寫。下面是(可選)規則的非詳盡的列表:
- 視圖合併:如果你在查詢中使用視圖,視圖就會轉換為它的 SQL 代碼。
- 子查詢扁平化:子查詢是很難優化的,因此重寫器會嘗試移除子查詢
MySQL
SELECTPERSON.*PERSONWHEREPERSON.person_key(SELECTMAILS.person_keyMAILSWHEREMAILS.mailchristophe%);會轉換為:
MySQLSELECTPERSON.*PERSON,MAILSWHEREPERSON.person_key=MAILS.person_keyMAILS.mailchristophe%;- 去除不必要的運算符:比如,如果你用了 DISTINCT,而其實你有 UNIQUE 約束(這本身就防止了數據出現重複),那麼 DISTINCT 關鍵字就被去掉了。
- 排除冗餘的聯接:如果相同的 JOIN 條件出現兩次,比如隱藏在視圖中的 JOIN 條件,或者由於傳遞性產生的無用 JOIN,都會被消除。
- 常數計算賦值:如果你的查詢需要計算,那麼在重寫過程中計算會執行一次。比如 WHERE AGE > 10+2 會轉換為 WHERE AGE > 12 , TODATE(「日期字元串」) 會轉換為 datetime 格式的日期值。
- (高級)分區裁剪(Partition Pruning):如果你用了分區表,重寫器能夠找到需要使用的分區。
- (高級)物化視圖重寫(Materialized view rewrite):如果你有個物化視圖匹配查詢謂詞的一個子集,重寫器將檢查視圖是否最新並修改查詢,令查詢使用物化視圖而不是原始表。
- (高級)自定義規則:如果你有自定義規則來修改查詢(就像 Oracle policy),重寫器就會執行這些規則。
- (高級)OLAP轉換:分析/加窗 函數,星形聯接,ROLLUP 函數……都會發生轉換(但我不確定這是由重寫器還是優化器來完成,因為兩個進程聯繫很緊,必須看是什麼資料庫)。
【譯者註: 物化視圖 。謂詞,predicate,條件表達式的求值返回真或假的過程】
重寫後的查詢接著送到優化器,這時候好玩的就開始了。
研究資料庫如何優化查詢之前我們需要談談統計,因為沒有統計的資料庫是愚蠢的。除非你明確指示,資料庫是不會分析自己的數據的。沒有分析會導致資料庫做出(非常)糟糕的假設。
但是,資料庫需要什麼類型的信息呢?
我必須(簡要地)談談資料庫和操作系統如何保存數據。兩者使用的最小單位叫做頁或塊(默認 4 或 8 KB)。這就是說如果你僅需要 1KB,也會佔用一個頁。要是頁的大小為 8KB,你就浪費了 7KB。
回來繼續講統計! 當你要求資料庫收集統計信息,資料庫會計算下列值:
- 表中行和頁的數量
- 表中每個列中的:唯一值數據長度(最小,最大,平均)數據範圍(最小,最大,平均)
- 表的索引信息
這些統計信息會幫助優化器估計查詢所需的磁碟 I/O、CPU、和內存使用
對每個列的統計非常重要。
比如,如果一個表 PERSON 需要聯接 2 個列: LAST_NAME, FIRST_NAME。根據統計信息,資料庫知道FIRST_NAME只有 1,000 個不同的值,LAST_NAME 有 1,000,000 個不同的值。因此,資料庫就會按照 LAST_NAME, FIRST_NAME 聯接。因為 LAST_NAME 不大可能重複,多數情況下比較 LAST_NAME 的頭 2 、 3 個字元就夠了,這將大大減少比較的次數。不過,這些只是基本的統計。你可以讓資料庫做一種高級統計,叫直方圖。直方圖是列值分布情況的統計信息。例如:
- 出現最頻繁的值
- 分位數 【譯者註:http://baike.baidu.com/view/1323572.htm】
這些額外的統計會幫助資料庫找到更佳的查詢計劃,尤其是對於等式謂詞(例如: WHERE AGE = 18 )或範圍謂詞(例如: WHERE AGE > 10 and AGE < 40),因為資料庫可以更好的了解這些謂詞相關的數字類型數據行(註:這個概念的技術名稱叫選擇率)。
統計信息保存在資料庫元數據內,例如(非分區)表的統計信息位置:
- Oracle: USER / ALL / DBA_TABLES 和 USER / ALL / DBA_TAB_COLUMNS
- DB2: SYSCAT.TABLES 和 SYSCAT.COLUMNS
統計信息必須及時更新。如果一個表有 1,000,000 行而資料庫認為它只有 500 行,沒有比這更糟糕的了。統計唯一的不利之處是需要時間來計算,這就是為什麼資料庫大多默認情況下不會自動計算統計信息。數據達到百萬級時統計會變得困難,這時候,你可以選擇僅做基本統計或者在一個資料庫樣本上執行統計。
舉個例子,我參與的一個項目需要處理每表上億條數據的庫,我選擇只統計10%,結果造成了巨大的時間消耗。本例證明這是個糟糕的決定,因為有時候 Oracle 10G 從特定表的特定列中選出的 10% 跟全部 100% 有很大不同(對於擁有一億行數據的表,這種情況極少發生)。這次錯誤的統計導致了一個本應 30 秒完成的查詢最後執行了 8 個小時,查找這個現象根源的過程簡直是個噩夢。這個例子顯示了統計的重要性。
註:當然了,每個資料庫還有其特定的更高級的統計。如果你想了解更多信息,讀讀資料庫的文檔。話雖然這麼說,我已經儘力理解統計是如何使用的了,而且我找到的最好的官方文檔來自PostgreSQL。
查詢優化器
所有的現代資料庫都在用基於成本的優化(即CBO)來優化查詢。道理是針對每個運算設置一個成本,通過應用成本最低廉的一系列運算,來找到最佳的降低查詢成本的方法。
為了理解成本優化器的原理,我覺得最好用個例子來『感受』一下這個任務背後的複雜性。這裡我將給出聯接 2 個表的 3 個方法,我們很快就能看到即便一個簡單的聯接查詢對於優化器來說都是個噩夢。之後,我們會了解真正的優化器是怎麼做的。
對於這些聯接操作,我會專註於它們的時間複雜度,但是,資料庫優化器計算的是它們的 CPU 成本、磁碟 I/O 成本、和內存需求。時間複雜度和 CPU 成本的區別是,時間成本是個近似值(給我這樣的懶傢伙準備的)。而 CPU 成本,我這裡包括了所有的運算,比如:加法、條件判斷、乘法、迭代……還有呢:
- 每一個高級代碼運算都要特定數量的低級 CPU 運算。
- 對於 Intel Core i7、Intel Pentium 4、AMD Opteron…等,(就 CPU 周期而言)CPU 的運算成本是不同的,也就是說它取決於 CPU 的架構。
使用時間複雜度就容易多了(至少對我來說),用它我也能了解到 CBO 的概念。由於磁碟 I/O 是個重要的概念,我偶爾也會提到它。請牢記,大多數時候瓶頸在於磁碟 I/O 而不是 CPU 使用。
在研究 B+樹的時候我們談到了索引,要記住一點,索引都是已經排了序的。
僅供參考:還有其他類型的索引,比如點陣圖索引,在 CPU、磁碟I/O、和內存方面與B+樹索引的成本並不相同。
另外,很多現代資料庫為了改善執行計劃的成本,可以僅為當前查詢動態地生成臨時索引。
在應用聯接運算符(join operators)之前,你首先需要獲得數據。以下就是獲得數據的方法。
註:由於所有存取路徑的真正問題是磁碟 I/O,我不會過多探討時間複雜度。
【譯者註:四種類型的Oracle索引掃描介紹 】
如果你讀過執行計劃,一定看到過『全掃描』(或只是『掃描』)一詞。簡單的說全掃描就是資料庫完整的讀一個表或索引。就磁碟 I/O 而言,很明顯全表掃描的成本比索引全掃描要高昂。
其他類型的掃描有索引範圍掃描,比如當你使用謂詞 」 WHERE AGE > 20 AND AGE < 40 」 的時候它就會發生。
當然,你需要在 AGE 欄位上有索引才能用到索引範圍掃描。
在第一部分我們已經知道,範圍查詢的時間成本大約是 log(N)+M,這裡 N 是索引的數據量,M 是範圍內估測的行數。多虧有了統計我們才能知道 N 和 M 的值(註: M 是謂詞 「 AGE > 20 AND AGE < 40 」 的選擇率)。另外範圍掃描時,你不需要讀取整個索引,因此在磁碟 I/O 方面沒有全掃描那麼昂貴。
如果你只需要從索引中取一個值你可以用唯一掃描。
根據 ROW ID 存取多數情況下,如果資料庫使用索引,它就必須查找與索引相關的行,這樣就會用到根據 ROW ID 存取的方式。
例如,假如你運行:
MySQL SELECTLASTNAME,FIRSTNAMEPERSONWHEREAGE=28如果 person 表的 age 列有索引,優化器會使用索引找到所有年齡為 28 的人,然後它會去表中讀取相關的行,這是因為索引中只有 age 的信息而你要的是姓和名。
但是,假如你換個做法:
MySQLSELECTTYPE_PERSON.CATEGORYPERSON,TYPE_PERSONWHEREPERSON.AGE=TYPE_PERSON.AGEPERSON 表的索引會用來聯接 TYPE_PERSON 表,但是 PERSON 表不會根據行ID 存取,因為你並沒有要求這個表內的信息。
雖然這個方法在少量存取時表現很好,這個運算的真正問題其實是磁碟 I/O。假如需要大量的根據行ID存取,資料庫也許會選擇全掃描。我沒有列舉所有的存取路徑,如果你感興趣可以讀一讀 Oracle文檔。其它資料庫里也許叫法不同但背後的概念是一樣的。
聯接運算符
那麼,我們知道如何獲取數據了,那現在就把它們聯接起來!
我要展現的是3個個常用聯接運算符:合併聯接(Merge join),哈希聯接(Hash Join)和嵌套循環聯接(Nested Loop Join)。但是在此之前,我需要引入新辭彙了:內關係和外關係( inner relation and outer relation) 【譯者註: 「內關係和外關係」 這個說法來源不明,跟查詢的「內聯接(INNER JOIN) 、外聯接(OUTER JOIN) 」 不是一個概念 。只查到百度百科詞條:關係資料庫 里提到「每個表格(有時被稱為一個關係)……」 。 其他參考鏈接 「Merge Join」 「Hash Join」 「Nested Loop Join」 】。 一個可以是:
- 上一個運算的中間結果(比如上一個聯接運算的結果)
當你聯接兩個關係時,聯接演算法對兩個關係的處理是不同的。在本文剩餘部分,我將假定:
- 外關係是左側數據集
- 內關係是右側數據集
比如, A JOIN B 是 A 和 B 的聯接,這裡 A 是外關係,B 是內關係。
多數情況下, A JOIN B 的成本跟 B JOIN A 的成本是不同的。
在這一部分,我還將假定外關係有 N 個元素,內關係有 M 個元素。要記住,真實的優化器通過統計知道 N 和 M 的值。
註:N 和 M 是關係的基數。【譯者註: 基數 】
嵌套循環聯接嵌套循環聯接是最簡單的。
道理如下:
- 針對外關係的每一行
- 查看內關係里的所有行來尋找匹配的行
下面是偽代碼:
nested_loop_joinarrayouterarrayinnerouterinnermatch_join_conditionwrite_result_in_output由於這是個雙迭代,時間複雜度是 O(N*M)。
在磁碟 I/O 方面, 針對 N 行外關係的每一行,內部循環需要從內關係讀取 M 行。這個演算法需要從磁碟讀取 N+ N*M 行。但是,如果內關係足夠小,你可以把它讀入內存,那麼就只剩下 M + N 次讀取。這樣修改之後,內關係必須是最小的,因為它有更大機會裝入內存。
在CPU成本方面沒有什麼區別,但是在磁碟 I/O 方面,最好最好的,是每個關係只讀取一次。
當然,內關係可以由索引代替,對磁碟 I/O 更有利。
由於這個演算法非常簡單,下面這個版本在內關係太大無法裝入內存時,對磁碟 I/O 更加有利。道理如下:
- 為了避免逐行讀取兩個關係,
- 你可以成簇讀取,把(兩個關係里讀到的)兩簇數據行保存在內存里,
- 比較兩簇數據,保留匹配的,
- 然後從磁碟載入新的數據簇來繼續比較
- 直到載入了所有數據。
可能的演算法如下:
// improved version to reduce the disk I/O.nested_loop_join_v2outerinnerbunch outer// ba is now in memorybunch inner// bb is now in memorymatch_join_conditionwrite_result_in_output使用這個版本,時間複雜度沒有變化,但是磁碟訪問降低了:
- 用前一個版本,演算法需要 N + N*M 次訪問(每次訪問讀取一行)。
- 用新版本,磁碟訪問變為 外關係的數據簇數量 + 外關係的數據簇數量 * 內關係的數據簇數量。
- 增加數據簇的尺寸,可以降低磁碟訪問。
哈希聯接更複雜,不過在很多場合比嵌套循環聯接成本低。
哈希聯接的道理是:
- 1) 讀取內關係的所有元素
- 2) 在內存里建一個哈希表
- 3) 逐條讀取外關係的所有元素
- 4) (用哈希表的哈希函數)計算每個元素的哈希值,來查找內關係里相關的哈希桶內
- 5) 是否與外關係的元素匹配。
在時間複雜度方面我需要做些假設來簡化問題:
- 內關係被劃分成 X 個哈希桶
- 哈希函數幾乎均勻地分布每個關係內數據的哈希值,就是說哈希桶大小一致。
- 外關係的元素與哈希桶內的所有元素的匹配,成本是哈希桶內元素的數量。
時間複雜度是 (M/X) * (N/X) + 創建哈希表的成本(M) + 哈希函數的成本 * N 。
如果哈希函數創建了足夠小規模的哈希桶,那麼複雜度就是 O(M+N)。還有個哈希聯接的版本,對內存有利但是對磁碟 I/O 不夠有利。 這回是這樣的:
- 1) 計算內關係和外關係雙方的哈希表
- 2) 保存哈希表到磁碟
- 3) 然後逐個哈希桶比較(其中一個讀入內存,另一個逐行讀取)。
合併聯接是唯一產生排序的聯接演算法。
註:這個簡化的合併聯接不區分內表或外表;兩個表扮演同樣的角色。但是真實的實現方式是不同的,比如當處理重複值時。
1.(可選)排序聯接運算:兩個輸入源都按照聯接關鍵字排序。
2.合併聯接運算:排序後的輸入源合併到一起。
我們已經談到過合併排序,在這裡合併排序是個很好的演算法(但是並非最好的,如果內存足夠用的話,還是哈希聯接更好)。
然而有時數據集已經排序了,比如:
- 如果表內部就是有序的,比如聯接條件里一個索引組織表 【譯者註: index-organized table 】
- 如果關係是聯接條件里的一個索引
- 如果聯接應用在一個查詢中已經排序的中間結果
這部分與我們研究過的合併排序中的合併運算非常相似。不過這一次呢,我們不是從兩個關係里挑選所有元素,而是只挑選相同的元素。道理如下:
- 1) 在兩個關係中,比較當前元素(當前=頭一次出現的第一個)
- 2) 如果相同,就把兩個元素都放入結果,再比較兩個關係里的下一個元素
- 3) 如果不同,就去帶有最小元素的關係里找下一個元素(因為下一個元素可能會匹配)
- 4) 重複 1、2、3步驟直到其中一個關係的最後一個元素。
因為兩個關係都是已排序的,你不需要『回頭去找』,所以這個方法是有效的。
該演算法是個簡化版,因為它沒有處理兩個序列中相同數據出現多次的情況(即多重匹配)。真實版本『僅僅』針對本例就更加複雜,所以我才選擇簡化版。
如果兩個關係都已經排序,時間複雜度是 O(N+M)
如果兩個關係需要排序,時間複雜度是對兩個關係排序的成本:O(N*Log(N) + M*Log(M))
對於計算機極客,我給出下面這個可能的演算法來處理多重匹配(註:對於這個演算法我不保證100%正確):
mergeJoinrelationrelationrelation outputintegera_keyintegerb_keywhilea_keyb_keya_keyb_keya_keya_keyb_keyb_key//Join predicate satisfiedwrite_result_in_outputa_keyb_key//We need to be careful when we increase the pointersa_keyb_keyb_keyb_keya_keya_keyb_keya_keyb_keya_keyb_keya_keywhile哪個演算法最好?如果有最好的,就沒必要弄那麼多種類型了。這個問題很難,因為很多因素都要考慮,比如:
- 空閑內存:沒有足夠的內存的話就跟強大的哈希聯接拜拜吧(至少是完全內存中哈希聯接)。
- 兩個數據集的大小。比如,如果一個大表聯接一個很小的表,那麼嵌套循環聯接就比哈希聯接快,因為後者有創建哈希的高昂成本;如果兩個表都非常大,那麼嵌套循環聯接CPU成本就很高昂。
- 是否有索引:有兩個 B+樹索引的話,聰明的選擇似乎是合併聯接。
- 結果是否需要排序:即使你用到的是未排序的數據集,你也可能想用成本較高的合併聯接(帶排序的),因為最終得到排序的結果後,你可以把它和另一個合併聯接串起來(或者也許因為查詢用 ORDER BY/GROUP BY/DISTINCT 等操作符隱式或顯式地要求一個排序結果)。
- 關係是否已經排序:這時候合併聯接是最好的候選項。
- 聯接的類型:是等值聯接(比如 tableA.col1 = tableB.col2 )? 還是內聯接?外聯接?笛卡爾乘積?或者自聯接?有些聯接在特定環境下是無法工作的。
- 數據的分布:如果聯接條件的數據是傾斜的(比如根據姓氏來聯接人,但是很多人同姓),用哈希聯接將是個災難,原因是哈希函數將產生分布極不均勻的哈希桶。
- 如果你希望聯接操作使用多線程或多進程。
想要更詳細的信息,可以閱讀DB2, ORACLE 或 SQL Server)的文檔。
簡化的例子
我們已經研究了 3 種類型的聯接操作。
現在,比如說我們要聯接 5 個表,來獲得一個人的全部信息。一個人可以有:
- 多個手機號(MOBILES)
- 多個郵箱(MAILS)
- 多個地址(ADRESSES)
- 多個銀行賬號(BANK_ACCOUNTS)
換句話說,我們需要用下面的查詢快速得到答案:
MySQLSELECT*PERSON,MOBILES,MAILS,ADRESSES,BANK_ACCOUNTSWHEREPERSON.PERSON_ID=MOBILES.PERSON_IDPERSON.PERSON_ID=MAILS.PERSON_IDPERSON.PERSON_ID=ADRESSES.PERSON_IDPERSON.PERSON_ID=BANK_ACCOUNTS.PERSON_ID作為一個查詢優化器,我必須找到處理數據最好的方法。但有 2 個問題:
- 每個聯接使用那種類型?我有 3 種可選(哈希、合併、嵌套),同時可能用到 0, 1 或 2 個索引(不必說還有多種類型的索引)。
- 按什麼順序執行聯接?比如,下圖顯示了針對 4 個表僅僅 3 次聯接,可能採用的執行計劃:
那麼下面就是我可能採取的方法:
- 1) 採取粗暴的方式用資料庫統計,計算每種可能的執行計劃的成本,保留最佳方案。但是,會有很多可能性。對於一個給定順序的聯接操作,每個聯接有三種可能性:哈希、合併、嵌套,那麼總共就有 3^4 種可能性。確定聯接的順序是個二叉樹的排列問題,會有 (2*4)!/(4+1)! 種可能的順序。對本例這個相當簡化了的問題,我最後會得到 3^4*(2*4)!/(4+1)! 種可能。拋開專業術語,那相當於 27,216 種可能性。如果給合併聯接加上使用 0,1 或 2 個 B+樹索引,可能性就變成了 210,000種。我是不是告訴過你這個查詢其實非常簡單嗎?
- 2) 我大叫一聲辭了這份工作很有誘惑力,但是這樣一來,你不會的到查詢結果,而我需要錢來付賬單。
- 3) 我只嘗試幾種執行計劃,挑一個成本最低的。由於不是超人,我不能算出所有計劃的成本。相反,我可以武斷地從全部可能的計劃中選擇一個子集,計算它們的成本,把最佳的計劃給你。
- 4) 我用聰明的規則來降低可能性的數量有兩種規則:我可以用『邏輯』規則,它能去除無用的可能性,但是無法過濾大量的可能性。比如: 『嵌套聯接的內關係必須是最小的數據集』。我接受現實,不去找最佳方案,用更激進的規則來大大降低可能性的數量。比如:『如果一個關係很小,使用嵌套循環聯接,絕不使用合併或哈希聯接。』
在這個簡單的例子中,我最後得到很多可能性。但現實世界的查詢還會有其他關係運算符,像 OUTER JOIN, CROSS JOIN, GROUP BY, ORDER BY, PROJECTION, UNION, INTERSECT, DISTINCT … 這意味著更多的可能性。
那麼,資料庫是如何處理的呢?
動態編程,貪婪演算法和啟發式演算法
關係型資料庫會嘗試我剛剛提到的多種方法,優化器真正的工作是在有限時間裡找到一個好的解決方案。
多數時候,優化器找到的不是最佳的方案,而是一個『不錯』的
對於小規模的查詢,採取粗暴的方式是有可能的。但是為了讓中等規模的查詢也能採取粗暴的方式,我們有辦法避免不必要的計算,這就是動態編程。
這幾個字背後的理念是,很多執行計劃是非常相似的。看看下圖這幾種計劃:
它們都有相同的子樹(A JOIN B),所以,不必在每個計劃中計算這個子樹的成本,計算一次,保存結果,當再遇到這個子樹時重用。用更正規的說法,我們面對的是個重疊問題。為了避免對部分結果的重複計算,我們使用記憶法。
對於計算機極客,下面是我在先前給你的教程里找到的一個演算法。我不提供解釋,所以僅在你已經了解動態編程或者精通演算法的情況下閱讀(我提醒過你哦):
procedure findbestplanbestplaninfinitereturnbestplan// else bestplan[S] has not been computed earlier, compute it nowcontains relationbestplanbestplanbased accessing/* Using selections on S and indices on S */empty subset findbestplanfindbestplanalgorithm joining results bestplanbestplanbestplan『execute execute results using』returnbestplan針對大規模查詢,你也可以用動態編程方法,但是要附加額外的規則(或者稱為啟發式演算法)來減少可能性。
- 如果我們僅分析一個特定類型的計劃(例如左深樹 left-deep tree,參考),我們得到 n*2^n 而不是 3^n。
- 如果我們加上邏輯規則來避免一些模式的計劃(像『如果一個表有針對指定謂詞的索引,就不要對錶嘗試合併聯接,要對索引』),就會在不給最佳方案造成過多傷害的前提下,減少可能性的數量。【譯者註:原文應該是有兩處筆誤: as=has, to=too】
- 如果我們在流程里增加規則(像『聯接運算先於其他所有的關係運算』),也能減少大量的可能性。
但是,優化器面對一個非常大的查詢,或者為了儘快找到答案(然而查詢速度就快不起來了),會應用另一種演算法,叫貪婪演算法。
原理是按照一個規則(或啟發)以漸進的方式制定查詢計劃。在這個規則下,貪婪演算法逐步尋找最佳演算法,先處理一條JOIN,接著每一步按照同樣規則加一條新的JOIN。
我們來看個簡單的例子。比如一個針對5張表(A,B,C,D,E)4次JOIN 的查詢,為了簡化我們把嵌套JOIN作為可能的聯接方式,按照『使用最低成本的聯接』規則。
- 直接從 5 個表裡選一個開始(比如 A)
- 計算每一個與 A 的聯接(A 作為內關係或外關係)
- 發現 「A JOIN B」 成本最低
- 計算每一個與 「A JOIN B」 的結果聯接的成本(「A JOIN B」 作為內關係或外關係)
- 發現 「(A JOIN B) JOIN C」 成本最低
- 計算每一個與 「(A JOIN B) JOIN C」 的結果聯接的成本 ……
- 最後確定執行計劃 「( ( (A JOIN B) JOIN C) JOIN D ) JOIN E )」
因為我們是武斷地從表 A 開始,我們可以把同樣的演算法用在 B,然後 C,然後 D, 然後 E。最後保留成本最低的執行計劃。
順便說一句,這個演算法有個名字,叫『最近鄰居演算法』。
拋開細節不談,只需一個良好的模型和一個 N*log(N) 複雜度的排序,問題就輕鬆解決了。這個演算法的複雜度是 O(N*log(N)) ,對比一下完全動態編程的 O(3^N)。如果你有個20個聯接的大型查詢,這意味著 26 vs 3,486,784,401 ,天壤之別!
這個演算法的問題是,我們做的假設是:找到 2 個表的最佳聯接方法,保留這個聯接結果,再聯接下一個表,就能得到最低的成本。但是:
- 即使在 A, B, C 之間,A JOIN B 可得最低成本
- (A JOIN C) JOIN B 也許比 (A JOIN B) JOIN C 更好。
為了改善這一狀況,你可以多次使用基於不同規則的貪婪演算法,並保留最佳的執行計劃。
[ 如果你已經受夠了演算法話題,就直接跳到下一部分。這部分對文章餘下的內容不重要。] 【譯者註:我也很想把這段跳過去 -_- 】
很多計算機科學研究者熱衷於尋找最佳的執行計劃,他們經常為特定問題或模式探尋更好的解決方案,比如:
- 如果查詢是星型聯接(一種多聯接查詢),某些資料庫使用一種特定的演算法。
- 如果查詢是並行的,某些資料庫使用一種特定的演算法。 ……
其他演算法也在研究之中,就是為了替換在大型查詢中的動態編程演算法。貪婪演算法屬於一個叫做啟發式演算法的大家族,它根據一條規則(或啟發),保存上一步找到的方法,『附加』到當前步驟來進一步搜尋解決方法。有些演算法根據特定規則,一步步的應用規則但不總是保留上一步找到的最佳方法。它們統稱啟發式演算法。
比如,基因演算法就是一種:
- 一個方法代表一種可能的完整查詢計劃
- 每一步保留了 P 個方法(即計劃),而不是一個。
- 0) P 個計劃隨機創建
- 1) 成本最低的計劃才會保留
- 2) 這些最佳計劃混合在一起產生 P 個新的計劃
- 3) 一些新的計劃被隨機改寫
- 4) 1,2,3步重複 T 次
- 5) 然後在最後一次循環,從 P 個計劃里得到最佳計劃。
循環次數越多,計劃就越好。
這是魔術?不,這是自然法則:適者生存!
PostgreSQL 實現了基因演算法,但我並沒有發現它是不是默認使用這種演算法的。
資料庫中還使用了其它啟發式演算法,像『模擬退火演算法(Simulated Annealing)』、『互動式改良演算法(Iterative Improvement)』、『雙階段優化演算法(Two-Phase Optimization)』…..不過,我不知道這些演算法當前是否在企業級資料庫應用了,還是僅僅用在研究型資料庫。
如果想進一步了解,這篇研究文章介紹兩個更多可能的演算法《資料庫查詢優化中聯接排序問題的演算法綜述》,你可以去閱讀一下。
真實的優化器
[ 這段不重要,可以跳過 ]
然而,所有上述羅里羅嗦的都非常理論化,我是個開發者而不是研究者,我喜歡具體的例子。
我們來看看 SQLite 優化器 是怎麼工作的。這是個輕量化資料庫,它使用一種簡單優化器,基於帶有附加規則的貪婪演算法,來限制可能性的數量。
- SQLite 在有 CROSS JOIN 操作符時從不給表重新排序
- 使用嵌套聯接
- 外聯接始終按順序評估
- 3.8.0之前的版本使用『最近鄰居』貪婪演算法來搜尋最佳查詢計劃等等……我們見過這個演算法!真是巧哈!
- 從3.8.0版本(發佈於2015年)開始,SQLite使用『N最近鄰居』貪婪演算法來搜尋最佳查詢計劃
我們再看看另一個優化器是怎麼工作的。IBM DB2 跟所有企業級資料庫都類似,我討論它是因為在切換到大數據之前,它是我最後真正使用的資料庫。
看過官方文檔後,我們了解到 DB2 優化器可以讓你使用 7 種級別的優化:
- 對聯接使用貪婪演算法
- 0 – 最小優化,使用索引掃描和嵌套循環聯接,避免一些查詢重寫
- 1 – 低級優化
- 2 – 完全優化
- 對聯接使用動態編程演算法
- 3 – 中等優化和粗略的近似法
- 5 – 完全優化,使用帶有啟發式的所有技術
- 7 – 完全優化,類似級別5,但不用啟發式
- 9 – 最大優化,完全不顧開銷,考慮所有可能的聯接順序,包括笛卡爾乘積
可以看到 DB2 使用貪婪演算法和動態編程演算法。當然,他們不會把自己的啟發演算法分享出來的,因為查詢優化器是資料庫的看家本領。
DB2 的默認級別是 5,優化器使用下列特性: 【譯者註:以下出現的一些概念我沒有做考證,因為[ 這段不重要,可以跳過 ]】
- 使用所有可用的統計,包括線段樹(frequent-value)和分位數統計(quantile statistics)。
- 使用所有查詢重寫規則(含物化查詢表路由,materialized query table routing),除了在極少情況下適用的計算密集型規則。
- 使用動態編程模擬聯接
- 有限使用組合內關係(composite inner relation)
- 對於涉及查找表的星型模式,有限使用笛卡爾乘積
- 考慮寬泛的訪問方式,含列表預取(list prefetch,註:我們將討論什麼是列表預取),index ANDing(註:一種對索引的特殊操作),和物化查詢表路由。
默認的,DB2 對聯接排列使用受啟發式限制的動態編程演算法。
其它情況 (GROUP BY, DISTINCT…) 由簡單規則處理。
查詢計劃緩存
由於創建查詢計劃是耗時的,大多資料庫把計劃保存在查詢計劃緩存,來避免重複計算。這個話題比較大,因為資料庫需要知道什麼時候更新過時的計劃。辦法是設置一個上限,如果一個表的統計變化超過了上限,關於該表的查詢計劃就從緩存中清除。
查詢執行器
在這個階段,我們有了一個優化的執行計劃,再編譯為可執行代碼。然後,如果有足夠資源(內存,CPU),查詢執行器就會執行它。計劃中的操作符 (JOIN, SORT BY …) 可以順序或並行執行,這取決於執行器。為了獲得和寫入數據,查詢執行器與數據管理器交互,本文下一部分來討論數據管理器。
數據管理器
在這一步,查詢管理器執行了查詢,需要從表和索引獲取數據,於是向數據管理器提出請求。但是有 2 個問題:
- 關係型資料庫使用事務模型,所以,當其他人在同一時刻使用或修改數據時,你無法得到這部分數據。
- 數據提取是資料庫中速度最慢的操作,所以數據管理器需要足夠聰明地獲得數據並保存在內存緩衝區內。
在這一部分,我沒看看關係型資料庫是如何處理這兩個問題的。我不會講數據管理器是怎麼獲得數據的,因為這不是最重要的(而且本文已經夠長的了!)。
緩存管理器
我已經說過,資料庫的主要瓶頸是磁碟 I/O。為了提高性能,現代資料庫使用緩存管理器。
查詢執行器不會直接從文件系統拿數據,而是向緩存管理器要。緩存管理器有一個內存緩存區,叫做緩衝池,從內存讀取數據顯著地提升資料庫性能。對此很難給出一個數量級,因為這取決於你需要的是哪種操作:
- 順序訪問(比如:全掃描) vs 隨機訪問(比如:按照row id訪問)
以及資料庫使用的磁碟類型:
- 7.2k/10k/15k rpm的硬碟
- RAID 1/5/…
要我說,內存比磁碟要快100到10萬倍。
然而,這導致了另一個問題(資料庫總是這樣…),緩存管理器需要在查詢執行器使用數據之前得到數據,否則查詢管理器不得不等待數據從緩慢的磁碟中讀出來。
這個問題叫預讀。查詢執行器知道它將需要什麼數據,因為它了解整個查詢流,而且通過統計也了解磁碟上的數據。道理是這樣的:
- 當查詢執行器處理它的第一批數據時
- 會告訴緩存管理器預先裝載第二批數據
- 當開始處理第二批數據時
- 告訴緩存管理器預先裝載第三批數據,並且告訴緩存管理器第一批可以從緩存里清掉了。
緩存管理器在緩衝池裡保存所有的這些數據。為了確定一條數據是否有用,緩存管理器給緩存的數據添加了額外的信息(叫閂鎖)。
有時查詢執行器不知道它需要什麼數據,有的資料庫也不提供這個功能。相反,它們使用一種推測預讀法(比如:如果查詢執行器想要數據1、3、5,它不久後很可能會要 7、9、11),或者順序預讀法(這時候緩存管理器只是讀取一批數據後簡單地從磁碟載入下一批連續數據)。
為了監控預讀的工作狀況,現代資料庫引入了一個度量叫緩衝/緩存命中率,用來顯示請求的數據在緩存中找到而不是從磁碟讀取的頻率。
註:糟糕的緩存命中率不總是意味著緩存工作狀態不佳。更多信息請閱讀Oracle文檔。
緩衝只是容量有限的內存空間,因此,為了載入新的數據,它需要移除一些數據。載入和清除緩存需要一些磁碟和網路I/O的成本。如果你有個經常執行的查詢,那麼每次都把查詢結果載入然後清除,效率就太低了。現代資料庫用緩衝區置換策略來解決這個問題。
緩衝區置換策略
多數現代資料庫(至少 SQL Server, MySQL, Oracle 和 DB2)使用 LRU 演算法。
LRU代表最近最少使用(Least Recently Used)演算法,背後的原理是:在緩存里保留的數據是最近使用的,所以更有可能再次使用。
為了更好的理解,我假設緩衝區里的數據沒有被閂鎖鎖住(就是說是可以被移除的)。在這個簡單的例子里,緩衝區可以保存 3 個元素:
- 1:緩存管理器(簡稱CM)使用數據1,把它放入空的緩衝區
- 2:CM使用數據4,把它放入半載的緩衝區
- 3:CM使用數據3,把它放入半載的緩衝區
- 4:CM使用數據9,緩衝區滿了,所以數據1被清除,因為它是最後一個最近使用的,數據9加入到緩衝區
- 5:CM使用數據4,數據4已經在緩衝區了,所以它再次成為第一個最近使用的。
- 6:CM使用數據1,緩衝區滿了,所以數據9被清除,因為它是最後一個最近使用的,數據1加入到緩衝區
這個演算法效果很好,但是有些限制。如果對一個大表執行全表掃描怎麼辦?換句話說,當表/索引的大小超出緩衝區會發生什麼?使用這個演算法會清除之前緩存內所有的數據,而且全掃描的數據很可能只使用一次。
為了防止這個現象,有些資料庫增加了特殊的規則,比如Oracle文檔中的描述:
『對非常大的表來說,資料庫通常使用直接路徑來讀取,即直接載入區塊[……],來避免填滿緩衝區。對於中等大小的表,資料庫可以使用直接讀取或緩存讀取。如果選擇緩存讀取,資料庫把區塊置於LRU的尾部,防止清空當前緩衝區。』
還有一些可能,比如使用高級版本的LRU,叫做 LRU-K。例如,SQL Server 使用 LRU-2。
這個演算法的原理是把更多的歷史記錄考慮進來。簡單LRU(也就是 LRU-1),只考慮最後一次使用的數據。LRU-K呢:
- 考慮數據最後第K次使用的情況
- 數據使用的次數加進了權重
- 一批新數據載入進入緩存,舊的但是經常使用的數據不會被清除(因為權重更高)
- 但是這個演算法不會保留緩存中不再使用的數據
- 所以數據如果不再使用,權重值隨著時間推移而降低
計算權重是需要成本的,所以SQL Server只是使用 K=2,這個值性能不錯而且額外開銷可以接受。
關於LRU-K更深入的知識,可以閱讀早期的研究論文(1993):資料庫磁碟緩衝的LRU-K頁面置換演算法
當然還有其他管理緩存的演算法,比如:
- 2Q(類LRU-K演算法)
- CLOCK(類LRU-K演算法)
- MRU(最新使用的演算法,用LRU同樣的邏輯但不同的規則)
- LRFU(Least Recently and Frequently Used,最近最少使用最近最不常用)
我只探討了讀緩存 —— 在使用之前預先載入數據。用來保存數據、成批刷入磁碟,而不是逐條寫入數據從而造成很多單次磁碟訪問。
要記住,緩衝區保存的是頁(最小的數據單位)而不是行(邏輯上/人類習慣的觀察數據的方式)。緩衝池內的頁如果被修改了但還沒有寫入磁碟,就是臟頁。有很多演算法來決定寫入臟頁的最佳時機,但這個問題與事務的概念高度關聯,下面我們就談談事務。
事務管理器
最後但同樣重要的,是事務管理器,我們將看到這個進程是如何保證每個查詢在自己的事務內執行的。但開始之前,我們需要理解ACID事務的概念。
「I』m on acid」
一個ACID事務是一個工作單元,它要保證4個屬性:
- 原子性(Atomicity): 事務『要麼全部完成,要麼全部取消』,即使它持續運行10個小時。如果事務崩潰,狀態回到事務之前(事務回滾)。
- 隔離性(Isolation): 如果2個事務 A 和 B 同時運行,事務 A 和 B 最終的結果是相同的,不管 A 是結束於 B 之前/之後/運行期間。
- 持久性(Durability): 一旦事務提交(也就是成功執行),不管發生什麼(崩潰或者出錯),數據要保存在資料庫中。
- 一致性(Consistency): 只有合法的數據(依照關係約束和函數約束)能寫入資料庫,一致性與原子性和隔離性有關。
在同一個事務內,你可以運行多個SQL查詢來讀取、創建、更新和刪除數據。當兩個事務使用相同的數據,麻煩就來了。經典的例子是從賬戶A到賬戶B的匯款。假設有2個事務:
- 事務1(T1)從賬戶A取出100美元給賬戶B
- 事務2(T2)從賬戶A取出50美元給賬戶B
我們回來看看ACID屬性:
- 原子性確保不管 T1 期間發生什麼(伺服器崩潰、網路中斷…),你不能出現賬戶A 取走了100美元但沒有給賬戶B 的現象(這就是數據不一致狀態)。
- 隔離性確保如果 T1 和 T2 同時發生,最終A將減少150美元,B將得到150美元,而不是其他結果,比如因為 T2 部分抹除了 T1 的行為,A減少150美元而B只得到50美元(這也是不一致狀態)。
- 持久性確保如果 T1 剛剛提交,資料庫就發生崩潰,T1 不會消失得無影無蹤。
- 一致性確保錢不會在系統內生成或滅失。
[以下部分不重要,可以跳過]
現代資料庫不會使用純粹的隔離作為默認模式,因為它會帶來巨大的性能消耗。SQL一般定義4個隔離級別:
- 串列化(Serializable,SQLite默認模式):最高級別的隔離。兩個同時發生的事務100%隔離,每個事務有自己的『世界』。
- 可重複讀(Repeatable read,MySQL默認模式):每個事務有自己的『世界』,除了一種情況。如果一個事務成功執行並且添加了新數據,這些數據對其他正在執行的事務是可見的。但是如果事務成功修改了一條數據,修改結果對正在運行的事務不可見。所以,事務之間只是在新數據方面突破了隔離,對已存在的數據仍舊隔離。舉個例子,如果事務A運行」SELECT count(1) from TABLE_X」 ,然後事務B在 TABLE_X 加入一條新數據並提交,當事務A再運行一次 count(1)結果不會是一樣的。這叫幻讀(phantom read)。
- 讀取已提交(Read committed,Oracle、PostgreSQL、SQL Server默認模式):可重複讀+新的隔離突破。如果事務A讀取了數據D,然後數據D被事務B修改(或刪除)並提交,事務A再次讀取數據D時數據的變化(或刪除)是可見的。這叫不可重複讀(non-repeatable read)。
- 讀取未提交(Read uncommitted):最低級別的隔離,是讀取已提交+新的隔離突破。如果事務A讀取了數據D,然後數據D被事務B修改(但並未提交,事務B仍在運行中),事務A再次讀取數據D時,數據修改是可見的。如果事務B回滾,那麼事務A第二次讀取的數據D是無意義的,因為那是事務B所做的從未發生的修改(已經回滾了嘛)。這叫臟讀(dirty read)。
多數資料庫添加了自定義的隔離級別(比如 PostgreSQL、Oracle、SQL Server的快照隔離),而且並沒有實現SQL規範里的所有級別(尤其是讀取未提交級別)。
默認的隔離級別可以由用戶/開發者在建立連接時覆蓋(只需要增加很簡單的一行代碼)。
確保隔離性、一致性和原子性的真正問題是對相同數據的寫操作(增、更、刪):
- 如果所有事務只是讀取數據,它們可以同時工作,不會更改另一個事務的行為。
- 如果(至少)有一個事務在修改其他事務讀取的數據,資料庫需要找個辦法對其它事務隱藏這種修改。而且,它還需要確保這個修改操作不會被另一個看不到這些數據修改的事務擦除。
這個問題叫並發控制。
最簡單的解決辦法是依次執行每個事務(即順序執行),但這樣就完全沒有伸縮性了,在一個多處理器/多核伺服器上只有一個核心在工作,效率很低。
理想的辦法是,每次一個事務創建或取消時:
- 監控所有事務的所有操作
- 檢查是否2個(或更多)事務的部分操作因為讀取/修改相同的數據而存在衝突
- 重新編排衝突事務中的操作來減少衝突的部分
- 按照一定的順序執行衝突的部分(同時非衝突事務仍然在並發運行)
- 考慮事務有可能被取消
用更正規的說法,這是對衝突的調度問題。更具體點兒說,這是個非常困難而且CPU開銷很大的優化問題。企業級資料庫無法承擔等待幾個小時,來尋找每個新事務活動最好的調度,因此就使用不那麼理想的方式以避免更多的時間浪費在解決衝突上。
為了解決這個問題,多數資料庫使用鎖和/或數據版本控制。這是個很大的話題,我會集中探討鎖,和一點點數據版本控制。
- 如果一個事務需要一條數據
- 它就把數據鎖住
- 如果另一個事務也需要這條數據
- 它就必須要等第一個事務釋放這條數據這個鎖叫排他鎖。
但是對一個僅僅讀取數據的事務使用排他鎖非常昂貴,因為這會迫使其它只需要讀取相同數據的事務等待。因此就有了另一種鎖,共享鎖。
共享鎖是這樣的:
- 如果一個事務只需要讀取數據A
- 它會給數據A加上『共享鎖』並讀取
- 如果第二個事務也需要僅僅讀取數據A
- 它會給數據A加上『共享鎖』並讀取
- 如果第三個事務需要修改數據A
- 它會給數據A加上『排他鎖』,但是必須等待另外兩個事務釋放它們的共享鎖。
同樣的,如果一塊數據被加上排他鎖,一個只需要讀取該數據的事務必須等待排他鎖釋放才能給該數據加上共享鎖。
鎖管理器是添加和釋放鎖的進程,在內部用一個哈希表保存鎖信息(關鍵字是被鎖的數據),並且了解每一塊數據是:
- 被哪個事務加的鎖
- 哪個事務在等待數據解鎖
但是使用鎖會導致一種情況,2個事務永遠在等待一塊數據:
在本圖中:
- 事務A 給 數據1 加上排他鎖並且等待獲取數據2
- 事務B 給 數據2 加上排他鎖並且等待獲取數據1
這叫死鎖。
在死鎖發生時,鎖管理器要選擇取消(回滾)一個事務,以便消除死鎖。這可是個艱難的決定:
- 殺死數據修改量最少的事務(這樣能減少回滾的成本)?
- 殺死持續時間最短的事務,因為其它事務的用戶等的時間更長?
- 殺死能用更少時間結束的事務(避免可能的資源饑荒)?
- 一旦發生回滾,有多少事務會受到回滾的影響?
在作出選擇之前,鎖管理器需要檢查是否有死鎖存在。
哈希表可以看作是個圖表(見上文圖),圖中出現循環就說明有死鎖。由於檢查循環是昂貴的(所有鎖組成的圖表是很龐大的),經常會通過簡單的途徑解決:使用超時設定。如果一個鎖在超時時間內沒有加上,那事務就進入死鎖狀態。
鎖管理器也可以在加鎖之前檢查該鎖會不會變成死鎖,但是想要完美的做到這一點還是很昂貴的。因此這些預檢經常設置一些基本規則。
實現純粹的隔離最簡單的方法是:事務開始時獲取鎖,結束時釋放鎖。就是說,事務開始前必須等待確保自己能加上所有的鎖,當事務結束時釋放自己持有的鎖。這是行得通的,但是為了等待所有的鎖,大量的時間被浪費了。
更快的方法是兩段鎖協議(Two-Phase Locking Protocol,由 DB2 和 SQL Server使用),在這裡,事務分為兩個階段:
- 成長階段:事務可以獲得鎖,但不能釋放鎖。
- 收縮階段:事務可以釋放鎖(對於已經處理完而且不會再次處理的數據),但不能獲得新鎖。
這兩條簡單規則背後的原理是:
- 釋放不再使用的鎖,來降低其它事務的等待時間
- 防止發生這類情況:事務最初獲得的數據,在事務開始後被修改,當事務重新讀取該數據時發生不一致。
這個規則可以很好地工作,但有個例外:如果修改了一條數據、釋放了關聯的鎖後,事務被取消(回滾),而另一個事務讀到了修改後的值,但最後這個值卻被回滾。為了避免這個問題,所有獨佔鎖必須在事務結束時釋放。
當然了,真實的資料庫使用更複雜的系統,涉及到更多類型的鎖(比如意向鎖,intention locks)和更多的粒度(行級鎖、頁級鎖、分區鎖、表鎖、表空間鎖),但是道理是相同的。
我只探討純粹基於鎖的方法,數據版本控制是解決這個問題的另一個方法。
版本控制是這樣的:
- 每個事務可以在相同時刻修改相同的數據
- 每個事務有自己的數據拷貝(或者叫版本)
- 如果2個事務修改相同的數據,只接受一個修改,另一個將被拒絕,相關的事務回滾(或重新運行)
這將提高性能,因為:
- 讀事務不會阻塞寫事務
- 寫事務不會阻塞讀
- 沒有『臃腫緩慢』的鎖管理器帶來的額外開銷
除了兩個事務寫相同數據的時候,數據版本控制各個方面都比鎖表現得更好。只不過,你很快就會發現磁碟空間消耗巨大。
數據版本控制和鎖機制是兩種不同的見解:樂觀鎖和悲觀鎖。兩者各有利弊,完全取決於使用場景(讀多還是寫多)。關於數據版本控制,我推薦這篇非常優秀的文章,講的是PostgreSQL如何實現多版本並發控制的。
一些資料庫,比如DB2(直到版本 9.7)和 SQL Server(不含快照隔離)僅使用鎖機制。其他的像PostgreSQL, MySQL 和 Oracle 使用鎖和滑鼠版本控制混合機制。我不知道是否有僅用版本控制的資料庫(如果你知道請告訴我)。
[2015-08-20更新]一名讀者告訴我:
Firebird 和 Interbase 用不帶鎖的版本控制。
版本控制對索引的影響挺有趣的:有時唯一索引會出現重複,索引的條目會多於錶行數,等等。
如果你讀過不同級別的隔離那部分內容,你會知道,提高隔離級別就會增加鎖的數量和事務等待加鎖的時間。這就是為什麼多數資料庫默認不會使用最高級別的隔離(即串列化)。
當然,你總是可以自己去主流資料庫(像MySQL, PostgreSQL 或 Oracle)的文檔里查一下。
日誌管理器
我們已經知道,為了提升性能,資料庫把數據保存在內存緩衝區內。但如果當事務提交時伺服器崩潰,崩潰時還在內存里的數據會丟失,這破壞了事務的持久性。
你可以把所有數據都寫在磁碟上,但是如果伺服器崩潰,最終數據可能只有部分寫入磁碟,這破壞了事務的原子性。
事務作出的任何修改必須是或者撤銷,或者完成。
有 2 個辦法解決這個問題:
- 影子副本/頁(Shadow copies/pages):每個事務創建自己的資料庫副本(或部分資料庫的副本),並基於這個副本來工作。一旦出錯,這個副本就被移除;一旦成功,資料庫立即使用文件系統的一個把戲,把副本替換到數據中,然後刪掉『舊』數據。
- 事務日誌(Transaction log):事務日誌是一個存儲空間,在每次寫盤之前,資料庫在事務日誌中寫入一些信息,這樣當事務崩潰或回滾,資料庫知道如何移除或完成尚未完成的事務。
WAL(預寫式日誌)
影子副本/頁在運行較多事務的大型資料庫時製造了大量磁碟開銷,所以現代資料庫使用事務日誌。事務日誌必須保存在穩定的存儲上,我不會深挖存儲技術,但至少RAID磁碟是必須的,以防磁碟故障。
多數資料庫(至少是Oracle, SQL Server, DB2, PostgreSQL, MySQL 和 SQLite) 使用預寫日誌協議(Write-Ahead Logging protocol ,WAL)來處理事務日誌。WAL協議有 3 個規則:
- 1) 每個對資料庫的修改都產生一條日誌記錄,在數據寫入磁碟之前日誌記錄必須寫入事務日誌。
- 2) 日誌記錄必須按順序寫入;記錄 A 發生在記錄 B 之前,則 A 必須寫在 B 之前。
- 3) 當一個事務提交時,在事務成功之前,提交順序必須寫入到事務日誌。
這個工作由日誌管理器完成。簡單的理解就是,日誌管理器處於緩存管理器(cache manager)和數據訪問管理器(data access manager,負責把數據寫入磁碟)之間,每個 update / delete / create / commit / rollback 操作在寫入磁碟之前先寫入事務日誌。簡單,對吧?
回答錯誤! 我們研究了這麼多內容,現在你應該知道與資料庫相關的每一件事都帶著『資料庫效應』的詛咒。好吧,我們說正經的,問題在於,如何找到寫日誌的同時保持良好的性能的方法。如果事務日誌寫得太慢,整體都會慢下來。
ARIES
1992年,IBM 研究人員『發明』了WAL的增強版,叫 ARIES。ARIES 或多或少地在現代資料庫中使用,邏輯未必相同,但AIRES背後的概念無處不在。我給發明加了引號是因為,按照MIT這門課的說法,IBM 的研究人員『僅僅是寫了事務恢復的最佳實踐方法』。AIRES 論文發表的時候我才 5 歲,我不關心那些酸溜溜的科研人員老掉牙的閑言碎語。事實上,我提及這個典故,是在開始探討最後一個技術點前讓你輕鬆一下。我閱讀過這篇 ARIES 論文 的大量篇幅,發現它很有趣。在這一部分我只是簡要的談一下 ARIES,不過我強烈建議,如果你想了解真正的知識,就去讀那篇論文。
ARIES 代表『資料庫恢復原型演算法』(Algorithms for Recovery and Isolation Exploiting Semantics)。
這個技術要達到一個雙重目標:
- 1) 寫日誌的同時保持良好性能
- 2) 快速和可靠的數據恢復
有多個原因讓資料庫不得不回滾事務:
- 因為用戶取消
- 因為伺服器或網路故障
- 因為事務破壞了資料庫完整性(比如一個列有唯一性約束而事務添加了重複值)
有時候(比如網路出現故障),資料庫可以恢復事務。
這怎麼可能呢?為了回答這個問題,我們需要了解日誌里保存的信息。
事務的每一個操作(增/刪/改)產生一條日誌,由如下內容組成:
- LSN:一個唯一的日誌序列號(Log Sequence Number)。LSN是按時間順序分配的 * ,這意味著如果操作 A 先於操作 B,log A 的 LSN 要比 log B 的 LSN 小。
- TransID:產生操作的事務ID。
- PageID:被修改的數據在磁碟上的位置。磁碟數據的最小單位是頁,所以數據的位置就是它所處頁的位置。
- PrevLSN:同一個事務產生的上一條日誌記錄的鏈接。
- UNDO:取消本次操作的方法。比如,如果操作是一次更新,UNDO將或者保存元素更新前的值/狀態(物理UNDO),或者回到原來狀態的反向操作(邏輯UNDO) **。
- REDO:重複本次操作的方法。 同樣的,有 2 種方法:或者保存操作後的元素值/狀態,或者保存操作本身以便重複。
- …:(供您參考,一個 ARIES 日誌還有 2 個欄位:UndoNxtLSN 和 Type)。
進一步說,磁碟上每個頁(保存數據的,不是保存日誌的)都記錄著最後一個修改該數據操作的LSN。
*LSN的分配其實更複雜,因為它關係到日誌存儲的方式。但道理是相同的。
** ARIES 只使用邏輯UNDO,因為處理物理UNDO太過混亂了。
註:據我所知,只有 PostgreSQL 沒有使用UNDO,而是用一個垃圾回收服務來刪除舊版本的數據。這個跟 PostgreSQL 對數據版本控制的實現有關。
為了更好的說明這一點,這有一個簡單的日誌記錄演示圖,是由查詢 「UPDATE FROM PERSON SET AGE = 18;」 產生的,我們假設這個查詢是事務18執行的。【譯者註: SQL 語句原文如此,應該是作者筆誤 】
每條日誌都有一個唯一的LSN,鏈接在一起的日誌屬於同一個事務。日誌按照時間順序鏈接(鏈接列表的最後一條日誌是最後一個操作產生的)。
日誌緩衝區為了防止寫日誌成為主要的瓶頸,資料庫使用了日誌緩衝區。
當查詢執行器要求做一次修改:
- 1) 緩存管理器將修改存入自己的緩衝區;
- 2) 日誌管理器將相關的日誌存入自己的緩衝區;
- 3) 到了這一步,查詢執行器認為操作完成了(因此可以請求做另一次修改);
- 4) 接著(不久以後)日誌管理器把日誌寫入事務日誌,什麼時候寫日誌由某演算法來決定。
- 5) 接著(不久以後)緩存管理器把修改寫入磁碟,什麼時候寫盤由某演算法來決定。
當事務提交,意味著事務每一個操作的 1 2 3 4 5 步驟都完成了。寫事務日誌是很快的,因為它只是『在事務日誌某處增加一條日誌』;而數據寫盤就更複雜了,因為要用『能夠快速讀取的方式寫入數據』。
STEAL 和 FORCE 策略出於性能方面的原因,第 5 步有可能在提交之後完成,因為一旦發生崩潰,還有可能用REDO日誌恢復事務。這叫做 NO-FORCE策略。
資料庫可以選擇FORCE策略(比如第 5 步在提交之前必須完成)來降低恢復時的負載。
另一個問題是,要選擇數據是一步步的寫入(STEAL策略),還是緩衝管理器需要等待提交命令來一次性全部寫入(NO-STEAL策略)。選擇STEAL還是NO-STEAL取決於你想要什麼:快速寫入但是從 UNDO 日誌恢復緩慢,還是快速恢復。
總結一下這些策略對恢復的影響:
- STEAL/NO-FORCE 需要 UNDO 和 REDO: 性能高,但是日誌和恢復過程更複雜 (比如 ARIES)。多數資料庫選擇這個策略。 註:這是我從多個學術論文和教程里看到的,但並沒有看到官方文檔里顯式說明這一點。
- STEAL/ FORCE 只需要 UNDO.
- NO-STEAL/NO-FORCE 只需要 REDO.
- NO-STEAL/FORCE 什麼也不需要: 性能最差,而且需要巨大的內存。
Ok,有了不錯的日誌,我們來用用它們!
假設新來的實習生讓資料庫崩潰了(首要規矩:永遠是實習生的錯。),你重啟了資料庫,恢復過程開始了。
ARIES從崩潰中恢復有三個階段:
- 1) 分析階段:恢復進程讀取全部事務日誌,來重建崩潰過程中所發生事情的時間線,決定哪個事務要回滾(所有未提交的事務都要回滾)、崩潰時哪些數據需要寫盤。
- 2) Redo階段:這一關從分析中選中的一條日誌記錄開始,使用 REDO 來將資料庫恢復到崩潰之前的狀態。
在REDO階段,REDO日誌按照時間順序處理(使用LSN)。
對每一條日誌,恢復進程需要讀取包含數據的磁碟頁LSN。
如果LSN(磁碟頁)>= LSN(日誌記錄),說明數據已經在崩潰前寫到磁碟(但是值已經被日誌之後、崩潰之前的某個操作覆蓋),所以不需要做什麼。
如果LSN(磁碟頁)< LSN(日誌記錄),那麼磁碟上的頁將被更新。
即使將被回滾的事務,REDO也是要做的,因為這樣簡化了恢復過程(但是我相信現代資料庫不會這麼做的)。
- 3) Undo階段:這一階段回滾所有崩潰時未完成的事務。回滾從每個事務的最後一條日誌開始,並且按照時間倒序處理UNDO日誌(使用日誌記錄的PrevLSN)。
恢復過程中,事務日誌必須留意恢復過程的操作,以便寫入磁碟的數據與事務日誌相一致。一個解決辦法是移除被取消的事務產生的日誌記錄,但是這個太困難了。相反,ARIES在事務日誌中記錄補償日誌,來邏輯上刪除被取消的事務的日誌記錄。
當事務被『手工』取消,或者被鎖管理器取消(為了消除死鎖),或僅僅因為網路故障而取消,那麼分析階段就不需要了。對於哪些需要 REDO 哪些需要 UNDO 的信息在 2 個內存表中:
- 事務表(保存當前所有事務的狀態)
- 臟頁表(保存哪些數據需要寫入磁碟)
當新的事務產生時,這兩個表由緩存管理器和事務管理器更新。因為是在內存中,當資料庫崩潰時它們也被破壞掉了。
分析階段的任務就是在崩潰之後,用事務日誌中的信息重建上述的兩個表。為了加快分析階段,ARIES提出了一個概念:檢查點(check point),就是不時地把事務表和臟頁表的內容,還有此時最後一條LSN寫入磁碟。那麼在分析階段當中,只需要分析這個LSN之後的日誌即可。
寫這篇文章之前,我知道這個題目有多大,也知道寫這樣一篇深入的文章會相當耗時。最後證明我過於樂觀了,實際上花了兩倍於預期的時間,但是我學到了很多。
如果你想很好地了解資料庫,我推薦這篇研究論文:《資料庫系統架構》,對資料庫有很好的介紹(共110頁),而且非計算機專業人士也能讀懂。這篇論文出色的幫助我制定了本文的寫作計劃,它沒有像本文那樣專註於數據結構和演算法,更多的講了架構方面的概念。
如果你仔細閱讀了本文,你現在應該了解一個資料庫是多麼的強大了。鑒於文章很長,讓我來提醒你我們都學到了什麼:
- B+樹索引概述
- 資料庫的全局概述
- 基於成本的優化概述,特別專註了聯接運算
- 緩衝池管理概述
- 事務管理概述
但是,資料庫包含了更多的聰明巧技。比如,我並沒有談到下面這些棘手的問題:
- 如何管理資料庫集群和全局事務
- 如何在資料庫運行的時候產生快照
- 如何高效地存儲(和壓縮)數據
- 如何管理內存
所以,當你不得不在問題多多的 NoSQL資料庫和堅如磐石的關係型資料庫之間抉擇的時候,要三思而行。不要誤會,某些 NoSQL資料庫是很棒的,但是它們畢竟還年輕,只是解決了少量應用關注的一些特定問題。
最後說一句,如果有人問你資料庫的原理是什麼,你不用逃之夭夭,現在你可以回答:
或者,就讓他/她來看本文吧。
拿高薪,還能擴大業界知名度!優秀的開發工程師看過來 ->《高薪招募講師》打賞支持我翻譯更多好文章,謝謝!
20 贊 127 收藏
推薦閱讀:
※資料庫ER圖基礎概念整理
※SequoiaDB擴容介紹與最佳實踐
※關係型資料庫 RDBMS 的舊與新 -- 談談 NewSQL
※如何理解並正確使用MySql索引
※七周成為數據分析師:SQL,從熟練到掌握
TAG:資料庫 |