搜索引擎是如何工作的？

06-22

一、搜索引擎的分類

獲得網站網頁資料，能夠建立資料庫並提供查詢的系統，我們都可以把它叫做搜索引擎。按照工作原理的不同，可以把它們分為兩個基本類別：全文搜索引擎(Full Text Search Engine)和分類目錄(Directory)。

全文搜索引擎的資料庫是依靠一個叫「網路機器人(Spider)」或叫「網路蜘蛛(crawlers)」的軟體，通過網路上的各種鏈接自動獲取大量網頁信息內容，並按以定的規則分析整理形成的。Google、百度都是比較典型的全文搜索引擎系統。

分類目錄則是通過人工的方式收集整理網站資料形成資料庫的，比如雅虎中國以及國內的搜狐、新浪、網易分類目錄。另外，在網上的一些導航站點，也可以歸屬為原始的分類目錄，比如「銀行之家」。

全文搜索引擎和分類目錄在使用上各有長短。全文搜索引擎因為依靠軟體進行，所以資料庫的容量非常龐大，但是，它的查詢結果往往不夠準確;分類目錄依靠人工收集和整理網站，能夠提供更為準確的查詢結果，但收集的內容卻非常有限。為了取長補短，現在的很多搜索引擎，都同時提供這兩類查詢，一般對全文搜索引擎的查詢稱為搜索「所有網站」或「全部網站」，在網上，對這兩類搜索引擎進行整合，還產生了其它的搜索服務，在這裡，我們權且也把它們稱作搜索引擎，主要有這兩類：

⒈元搜索引擎(META Search Engine)。這類搜索引擎一般都沒有自己網路機器人及資料庫，它們的搜索結果是通過調用、控制和優化其它多個獨立搜索引擎的搜索結果並以統一的格式在同一界面集中顯示。元搜索引擎雖沒有「網路機器人」或「網路蜘蛛」，也無獨立的索引資料庫，但在檢索請求提交、檢索介面代理和檢索結果顯示等方面，均有自己研發的特色元搜索技術。比如「metaFisher元搜索引擎」，它就調用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的數據。

⒉集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通過網路技術，在一個網頁上鏈接很多個獨立搜索引擎，查詢時，點選或指定搜索引擎，一次輸入，多個搜索引擎同時查詢，搜索結果由各搜索引擎分別以不同頁面顯示，比如「網際瑞士軍刀」。

二、搜索引擎的工作原理

全文搜索引擎的「網路機器人」或「網路蜘蛛」是一種網路上的軟體，它遍歷Web空間，能夠掃描一定IP地址範圍內的網站，並沿著網路上的鏈接從一個網頁到另一個網頁，從一個網站到另一個網站採集網頁資料。它為保證採集的資料最新，還會回訪已抓取過的網頁。網路機器人或網路蜘蛛採集的網頁，還要有其它程序進行分析，根據一定的相關度演算法進行大量的計算建立網頁索引，才能添加到索引資料庫中。我們平時看到的全文搜索引擎，實際上只是一個搜索引擎系統的檢索界面，當你輸入關鍵詞進行查詢時，搜索引擎會從龐大的資料庫中找到符合該關鍵詞的所有相關網頁的索引，並按一定的排名規則呈現給我們。不同的搜索引擎，網頁索引資料庫不同，排名規則也不盡相同，所以，當我們以同一關鍵詞用不同的搜索引擎查詢時，搜索結果也就不盡相同。