搜索引擎原理

搜索引擎原理(收藏) 在浩如煙海的Internet上,特別是其上的Web(World Wide Web萬維網)上,不會搜索,就不會上網。網蟲朋友們,你了解搜索引擎嗎?它們是怎麼工作的?你都使用哪些搜索引擎?今天我就和大家聊聊搜索引擎的話題。 一、搜索引擎的分類

  獲得網站網頁資料,能夠建立資料庫並提供查詢的系統,我們都可以把它叫做搜索引擎。按照工作原理的不同,可以把它們分為兩個基本類別:全文搜索引擎(FullText Search Engine)和分類目錄Directory)。

  全文搜索引擎的資料庫是依靠一個叫「網路機器人(Spider)」或叫「網路蜘蛛(crawlers)」的軟體,通過網路上的各種鏈接自動獲取大量網頁信息內容,並按以定的規則分析整理形成的。Google、百度都是比較典型的全文搜索引擎系統。

  分類目錄則是通過人工的方式收集整理網站資料形成資料庫的,比如雅虎中國以及國內的搜狐、新浪、網易分類目錄。另外,在網上的一些導航站點,也可以歸屬為原始的分類目錄,比如「網址之家」(http://www.hao123.com/)。

  全文搜索引擎和分類目錄在使用上各有長短。全文搜索引擎因為依靠軟體進行,所以資料庫的容量非常龐大,但是,它的查詢結果往往不夠準確;分類目錄依靠人工收集和整理網站,能夠提供更為準確的查詢結果,但收集的內容卻非常有限。為了取長補短,現在的很多搜索引擎,都同時提供這兩類查詢,一般對全文搜索引擎的查詢稱為搜索「所有網站」或「全部網站」,比如Google的全文搜索(http://www.google.com/intl/zh-CN/);把對分類目錄的查詢稱為搜索「分類目錄」或搜索「分類網站」,比如新浪搜索(http://dir.sina.com.cn/)和雅虎中國搜索(http://cn.search.yahoo.com/dirsrch/)。

  在網上,對這兩類搜索引擎進行整合,還產生了其它的搜索服務,在這裡,我們權且也把它們稱作搜索引擎,主要有這兩類:

  ⒈元搜索引擎(META Search Engine)。  這類搜索引擎一般都沒有自己網路機器人及資料庫,它們的搜索結果是通過調用、控制和優化其它多個獨立搜索引擎的搜索結果並以統一的格式在同一界面集中顯示。元搜索引擎雖沒有「網路機器人」或「網路蜘蛛」,也無獨立的索引資料庫,但在檢索請求提交、檢索介面代理和檢索結果顯示等方面,均有自己研發的特色元搜索技術。比如「metaFisher元搜索引擎」(http://www.hsfz.net/fish/),它就調用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的數據。

  ⒉集成搜索引擎(All-in-One Search Page)。  集成搜索引擎是通過網路技術,在一個網頁上鏈接很多個獨立搜索引擎,查詢時,點選或指定搜索引擎,一次輸入,多個搜索引擎同時查詢,搜索結果由各搜索引擎分別以不同頁面顯示,比如「網際瑞士軍刀」(http://free.okey.net/%7Efree/search1.htm)。

二、搜索引擎的工作原理

  全文搜索引擎的「網路機器人」或「網路蜘蛛」是一種網路上的軟體,它遍歷Web空間,能夠掃描一定IP地址範圍內的網站,並沿著網路上的鏈接從一個網頁到另一個網頁,從一個網站到另一個網站採集網頁資料。它為保證採集的資料最新,還會回訪已抓取過的網頁。網路機器人或網路蜘蛛採集的網頁,還要有其它程序進行分析,根據一定的相關度演算法進行大量的計算建立網頁索引,才能添加到索引資料庫中。我們平時看到的全文搜索引擎,實際上只是一個搜索引擎系統的檢索界面,當你輸入關鍵詞進行查詢時,搜索引擎會從龐大的資料庫中找到符合該關鍵詞的所有相關網頁的索引,並按一定的排名規則呈現給我們。不同的搜索引擎,網頁索引資料庫不同,排名規則也不盡相同,所以,當我們以同一關鍵詞用不同的搜索引擎查詢時,搜索結果也就不盡相同。

  和全文搜索引擎一樣,分類目錄的整個工作過程也同樣分為收集信息、分析信息和查詢信息三部分,只不過分類目錄的收集、分析信息兩部分主要依靠人工完成。分類目錄一般都有專門的編輯人員,負責收集網站的信息。隨著收錄站點的增多,現在一般都是由站點管理者遞交自己的網站信息給分類目錄,然後由分類目錄的編輯人員審核遞交的網站,以決定是否收錄該站點。如果該站點審核通過,分類目錄的編輯人員還需要分析該站點的內容,並將該站點放在相應的類別和目錄中。所有這些收錄的站點同樣被存放在一個「索引資料庫」中。用戶在查詢信息時,可以選擇按照關鍵詞搜索,也可按分類目錄逐層查找。如以關鍵詞搜索,返回的結果跟全文搜索引擎一樣,也是根據信息關聯程度排列網站。需要注意的是,分類目錄的關鍵詞查詢只能在網站的名稱、網址、簡介等內容中進行,它的查詢結果也只是被收錄網站首頁的URL地址,而不是具體的頁面。分類目錄就像一個電話號碼薄一樣,按照各個網站的性質,把其網址分門別類排在一起,大類下面套著小類,一直到各個網站的詳細地址,一般還會提供各個網站的內容簡介,用戶不使用關鍵詞也可進行查詢,只要找到相關目錄,就完全可以找到相關的網站(注意:是相關的網站,而不是這個網站上某個網頁的內容,某一目錄中網站的排名一般是按照標題字母的先後順序或者收錄的時間順序決定的)。

三、搜索引擎的發展趨勢。

  一個好的搜索引擎,不僅資料庫容量要大,更新頻率、檢索速度要快,支持對多語言的搜索,而且隨著資料庫容量的不斷膨脹,還要能從龐大的資料庫中精確地找到正確的資料。

  ⒈提高搜索引擎對用戶檢索提問的理解。  為了提高搜索引擎對用戶檢索提問的理解,就必須有一個好的檢索提問語言。為了克服關鍵詞檢索和目錄查詢的缺點,現在已經出現了自然語言智能答詢。用戶可以輸入簡單的疑問句,比如「如何能殺死計算機中的病毒」,搜索引擎在對提問進行結構和內容的分析之後,或直接給出提問的答案,或引導用戶從幾個可選擇的問題中進行再選擇。自然語言的優勢在於,一是使網路交流更加人性化,二是使查詢變得更加方便、直接、有效。就以上面的例子來講,如果用關鍵詞查詢,多半人會用「病毒」這個詞來檢索,結果中必然會包括各類病毒的介紹,病毒是怎樣產生的等等許多無用信息,而用「如何能殺死計算機中的病毒」檢索,搜索引擎會將怎樣殺死病毒的信息提供給用戶,提高了檢索效率。

  ⒉垂直主題搜索引擎有著極大的發展空間。  網上的信息浩如煙海,網路資源以驚人的速度增長,一個搜索引擎很難收集全所有主題的網路信息,即使信息主題收集得比較全面,由於主題範圍太寬,很難將各主題都做得精確而又專業,使得檢索結果垃圾太多。這樣以來,垂直主題的搜索引擎以其高度的目標化和專業化在各類搜索引擎中佔據了一席之地。目前,一些主要的搜索引擎,都提供了新聞、Mp3、圖片、Flash等的搜索,加強了檢索的針對性。

  ⒊元搜索引擎,能夠提供全面且較為準確的查詢結果。  現在的許多搜索引擎,其收集信息的範圍、索引方法、排名規則等都各不相同,每個搜索引擎平均只能涉及到整個Web資源的30-50%,這樣導致同一個搜索請求在不同搜索引擎中獲得的查詢結果的重複率不足34%,而每一個搜索引擎的查准率不到45%。元搜索引擎(META SearchEngine)是將用戶提交的檢索請求發送到多個獨立的搜索引擎上去搜索,並將檢索結果集中統一處理,以統一的格式提供給用戶,因此有搜索引擎之上的搜索引擎之稱。它的主要精力放在提高搜索速度、智能化處理搜索結果、個性化搜索功能的設置和用戶檢索界面的友好性上,查全率和查准率都比較高。

四、主要的搜索引擎介紹

  這裡介紹的是在國內外影響比較大的主要的一些搜索引擎和分類目錄站點,由於現在的站點一般都同時提供全文搜索和分類目錄兩種服務,所以我們按照其自有的技術進行分類和介紹。

  ㈠主要的全文搜索引擎

  ⒈Google(http://www.google.com/)。Google成立於1997年,幾年間迅速發展成為世界範圍內規模最大的搜索引擎。Google資料庫現存有42.8億個Web文件,每天處理的搜索請求已達2億次,而且這一數字還在不斷增長。Google借用Dmoz(http://dmoz.org/)的分類目錄提供「網頁目錄」查詢(http://www.google.com/dirhp?hl=zh-CN&tab=wd&ie=UTF-8&oe=UTF-8&q=),但默認網站排列順序並非按照字母順序,而是根據網站PageRank的分值高低排列。

  ⒉百度(http://www.baidu.com/)。百度是國內最早的商業化(早期為其它門戶網站提供搜索服務,現在的競價排名更是日進斗金)全文搜索引擎,擁有自己的網路機器人和索引資料庫,專註於中文的搜索引擎市場,除有網頁搜索外,百度還有新聞、MP3、圖片等搜索,並在2003年底推出「貼吧」、按地域搜索等功能。

  ⒊中國搜索(http://www.huicong.com/)。中國搜索的前身是慧聰搜索,原慧聰搜索在聯合中國網等30多家知名網站的基礎上,2002年9月25日,正式組建了中國搜索聯盟,經過一年多的發展,聯盟成員就已達630多家,成為中國互聯網一支重要的力量。由於發展迅速,慧聰集團借上市之機,將慧聰搜索更名為中國搜索,全力發展其在搜索引擎方面的業務,以打造中文搜索領域的全新品牌。

  ㈡主要分類目錄

  ⒈雅虎中國分類目錄(http://cn.yahoo.com/)。雅虎中國的分類目錄是最早的分類目錄,現有14個主類目,包括「商業與經濟」、「藝術與人文」等,可以逐層進入進行檢索,也可以利用關鍵詞對「分類網站」進行搜索(http://m6.search.cnb.yahoo.com/dirsrch/)。此外,雅虎中國也可以對「所有網站」進行關鍵詞搜索(http://cn.search.yahoo.com/websrch/),早期,他的搜索結果使用Google的數據,2004年2月正式推出自己的全文搜索引擎,並結束了與Google的合作。

  ⒉新浪分類目錄(http://dir.sina.com.cn/)。新浪的分類目錄目前共有18個大類目,用戶可按目錄逐級向下瀏覽,直到找到所需網站。就好像用戶到圖書館找書一樣,按照類別大小,層層查找,最終找到需要的網站或內容。通過和其它全文搜索引擎的合作,現在,也可以使用關鍵詞對新浪的「分類網站」或「全部網站」進行搜索。

  ⒊搜狐分類目錄(http://dir.sohu.com/)。搜狐分類目錄把網站作為收錄對象,具體的方法就是將每個網站首頁的URL地址提供給搜索用戶,並且將網站的題名和整個網站的內容簡單描述一下,但是並不揭示網站中每個網頁的信息內容。除此之外,也可以使用關鍵詞對搜狐的「分類目錄」或所有網站進行搜索。

  ⒋網易分類目錄(http://search.163.com/)。網易的分類目錄採用「開放式目錄」管理方式,在功能齊全的分散式編輯和管理系統的支持下,現有5000多位各界專業人士參與可瀏覽分類目錄的編輯工作,極大地適應了互聯網信息爆炸式增長的趨勢。在加強與其它搜索引擎合作的基礎上,新版搜索引擎支持使用關鍵詞對所有網站進行檢索。

Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=484099

菊花茶發表於 2005年09月18日 21:34:00
推薦閱讀:

寫會MySQL索引
英國本地搜索引擎
20180222《古文字譜系疏證》字頭索引數位化完成
20180405《侯馬盟書文字編》字頭索引數位化完成
作為一名貼圖黨,你是如何在上G的圖庫中快速找到合適的圖的?

TAG:搜索 | 搜索引擎 | 原理 | 索引 |