矽谷之路30:Twitter實時搜索引擎升職記

01-25

Twitter有非常強大的搜索引擎，它從最初的一個功能塊演變成為了可以支持很多核心業務的平台。今天我們就來一步步講解twitter是如何實現如此強大的搜索引擎的。

最開始的時候twitter並沒有開發自己的搜索引擎，而使用資料庫自帶的搜索。當一個新的tweets發表後，會通過Ingester存到MySQL資料庫中，在MySQL資料庫里，twitter基於時間做了index，分成了多個Timeslice table，當一個table寫滿了就寫下一個table。如果用戶發起了一個搜索請求，就通過搜索前端訪問MySQL資料庫進行查找。由於tweets的數量過於龐大，用這種架構搜索所有tweets並不現實，所以每次搜索只支持三天所有的數據的查找。

使用MySQL搜索能支持的查找方式非常單一，並且很難擴展。用戶往往並不滿足於只對單一的關鍵詞進行搜索，還會對多個關鍵詞排列組合進行搜索，需要filter過濾，甚至範圍搜索。如下圖所示，如果用戶需要搜索在用戶位置周圍的，圖片格式的Apple iPhone，就需要將這個請求進行層層改寫，最終表示為機器可以理解的語言在資料庫中進行查找。

面對更複雜的需求，twitter團隊使用Lucene這個開源庫開發了Earlybird這個新一代索引伺服器。Earlybird實時地為tweet建立倒排索引，這樣搜索就變得更方便快捷。當用戶需要搜索時，搜索前端直接和Earlybird通信，MySQL只負責數據的存儲。

因為數據太多，twitter「僱傭」了很多Earlybird，每個Earlybird負責資料庫里的一塊數據。這樣進行一次搜索時，搜索前端會詢問所有的Earlybird，並且可能很多Earlybird都查到了結果，這樣給搜索前端帶來了很大的壓力。所以twitter又招聘了一個部門經理來管理這些Earlybird，將它們的結果匯總給用戶，這個部門經理就是blender。

隨著服務的升級，一個新的需求是要搜索隱藏的，或者分組可見的推文，這時就不能用同一種Earlybird進行搜索了，就需要一種新的分化出的protected Earlybird部門來協助服務。

另一個升級是實現全文搜索，就是搜索的數據不僅僅局限於三天。可是這個數據量太龐大了，tweet有幾千億條，全部遍歷顯然是不可能實現。Twitter用了一個非常巧妙的方法就是採用某些演算法只保存2%質量最高、最可能被檢索的tweets在內存中，並且保存了16%的tweets在SSD硬碟中，這樣就可以基本滿足對歷史數據的搜索了。我們可以看到現在blender手下已經有四個部門了，blender已經全面升級為總監了。

隨著服務的進化，Earlybird已經平台化，可以滿足多客戶的需求；blender也已經技術化，成為一個框架，可以用不同的方式開發運營。

本文整理作者：Mengying Tian, 查看完整視頻: BitTiger

更多精彩內容，請掃描下面二維碼，關注微信公眾賬號「論碼農的自我修養」