學習數據挖掘 1 : 線段樹

08-25

學習數據挖掘 1 : 線段樹

來自專欄學習數據挖掘6 人贊了文章

問題引入：售票系統問題

假設在一個火車線路上有五個車站，它們分別在A、B、C、D、E五座城市(因此區間數 $N=4$ )。售票部門出售所能的車票，即起始站和終點站是任意的。由於城市之間距離較長，售票部分希望每位乘客都有座位，設總座位數是 $M$ 。在處理新的訂單請求時，機智的程序員怎麼最快地判斷是否還有餘座呢？

開一個 $N$ 維的數組，分別存儲A-B, B-C, C-D, D-E段的乘客數，每當新訂單出現時，就更新相應的區間，只要 $N$ 個數都小於乘客數 $M$ (等價地， $N$ 個數中最大數小於乘客數 $M$ ), 就安排乘客上這趟車，否則告訴乘客余票不足。

每新添加一個訂單，需要重新找 $N$ 個數中的最大數，因此計算複雜度是 $O(N)$ 。這是最好的演算法嗎？

仍然從售票系統例子出發。一開始售票數為0時，線段樹長這樣（圖1）：

基本特點容易看出：這是一個二叉樹，在每個節點處，一個區間被分成了左、右兩個區間。在每個節點和葉子處，都有一個伴隨數字，這個數字代表這個區間的乘車人數(這麼說不嚴謹，具體怎麼更新，請大家耐著性子再往後看2333)。

首先打北邊來了個小饒同學，他的乘車區間是B-C, B-C就是葉節點，線段樹更新為（圖2）：

然後打南邊來了個小鳴同學，他的乘車區間是B-D, 注意B-D=B-C+C-D, 而B-C和C-D是葉節點，線段樹更新為（圖3）：

一直到現在都十分正常，和拍腦袋給出的演算法一樣。

這時急匆匆來了個小迪同學，他的乘車區間是A-D, A-D=A-C+C-D, C-D是葉節點這個沒問題，但A-C是一個中間節點，現在有兩種看法：

最後來了個小承同學，他買了張全程票，即A-E, 注意到A-E恰好就是根，於是不必往下拆了，更新A-E即可，如圖5所示。按照拍腦袋給出的演算法，等價的結果應該如圖5 所示。

是騾子是馬，拉出來溜溜了。我們需要知道區間的最多人數，從葉節點出發，我們可以算出所有區間人數的最大值（因為有 $max(a,b,c,d)=max(max(a,b),max(c,d))$ ）。如下圖所示：

兩種辦法求出的最大值都是4，可以說明線段樹和拍腦袋方法的等價性。好了，線段樹學習結束了。exm？？？那線段樹優勢在哪呢？

更新(添加新訂單)

查詢(計算所有區間的最多乘客數)

所以線段樹的優勢，主要還是體現在在線(online)的問題上。

博客：這裡有嚴格定義和相應的實現代碼

【數據結構系列】線段樹(Segment Tree)?

www.cnblogs.com

維基：這裡是一般的線段樹定義

Segment tree - Wikipedia?

en.wikipedia.org
推薦閱讀：