-重要的網路檢索方法
重要的網路檢索方法 |
2004年 12月16日 |
邢志宇 利用浩瀚無序的互聯網信息,需要藉助一定的工具和方法,搜索引擎肩負使命,應運而生。國內一般把搜索引擎分為"分類搜索引擎"和"關鍵詞搜索引擎",國外則分別稱其為"Directory"和"Search engine"。Directory是指一種主題分類目錄,由人工對網站進行標引和組織(hand-picked web sites organized into categories),提供分類檢索;Search engine是基於"蜘蛛"程序的搜索引擎(Spider-Based Search Engine),由程序自動索引網頁建立資料庫,提供關鍵詞搜索。搜索引擎是工具性實體,分類搜索和關鍵詞搜索是搜索引擎的功能特徵和網路信息的檢索方法。 分類搜索是最早出現的一種網路信息檢索方法,主題分類目錄的創製已有相當成熟的理論、技術和豐富的成功經驗。Yahoo!被認為是分類搜索的鼻祖,Directory的代表,引領著分類搜索的潮流。搜狐(搜狗)開中文分類搜索先河,其"50,000主題分類,500,000優選網站"無愧中文主題分類目錄的典範,堪稱中文分類搜索的旗艦。 1、何謂分類搜索 分類搜索是基於人工標引的檢索方法。它以科學、實用的分類目錄為工具,以規範化的自然語言為類名,在對網路信息歸納、概括的基礎上,以網站為單元,提供經過專家評價和人工整序的網路信息。 分類搜索是突出族性特徵的檢索方法。由於分類目錄已按照學科或主題對網路信息進行了標引,所有網站在分類體系中同聚異分,各有所屬,"縱向成枝,橫向成網",只需"按圖索驥",同一類屬或相關主題的信息即可"循類以求",適用於查詢具有同一特徵的多個目標和主題範圍廣、概念寬泛的問題。 分類搜索是關鍵詞搜索不可替代的檢索方法。關鍵詞搜索以簡單、快捷著稱,但龐大的結果列表、大量重複和無用的信息是其永遠的傷痛。而分類搜索恰恰獨具優勢,經過人工編輯的檢索結果既以精當、準確著稱,又以系統、有效見長。 分類搜索是循序漸進的檢索方法。與關鍵詞搜索即刻按照相關性遞減順序返回大量結果不同,分類搜索要首先確定所需信息在目錄中的類系歸屬和相關路徑,從大類入手,逐級瀏覽,漸進查詢,在相應類目下按字順展開網站列表,然後再根據網站名稱和簡介,對結果列表進行選擇。 分類搜索是門戶網站不可缺少的檢索方法。互聯網上搜索的概念最早來自於門戶網站,資深網民對互聯網的認識最初幾乎全部來自於當年yahoo!提供的分類搜索服務。有關數據顯示,我國將近70%以上網民是通過門戶網站認識和開始使用搜索引擎的。門戶網站是使用搜索引擎的主要平台,搜索引擎也為門戶網站帶來了巨大的經濟利益和訪問流量。 2、分類搜索的原理 分類搜索的基礎和前提是構建一個反映網站相關信息及其URL鏈接的目錄指南(Directory),在這個目錄中,經過審核與標引的網站按學科或主題分門別類、有序排列。分類搜索就是在分類目錄中,根據所需信息的學科屬性或主題內容,逐級檢索,循類以求。由於分類目錄是以資料庫形式存在的,也可以說,分類搜索就是對分類資料庫的檢索。 分類搜索建立在網路分類的基礎上,了解分類搜索的原理,不能不首先了解網路分類體系。分類標準、類目劃分、類目設置、類目序列等,對分類體系的構建至關重要,決定著分類目錄的性質和功能,影響著分類搜索的效率和效果。系統性和實用性是對網路信息分類的基本要求,以學科性質為標準可以保證分類的系統性,以事物主題為標準體現了分類體系的實用性。國內的分類搜索引擎如搜狗(搜狐)等,以學科分類為主,主題分類為輔,體現了系統性和實用性的完美結合。網路分類體系的類目劃分,多強調易用性原則,為了直觀揭示和儘可能地減少檢索中的點擊次數,不惜犧牲系統性,允許在類目的同一划分過程中採用多個不同的劃分標準。類目的設置以方便使用和檢索習慣為依據,為了引起網民的興趣和關注,常常突破體系分類的規則,把熱門主題或點擊率高的類目置於較高級位或顯著位置。類目序列以檢索頻次為主要參考指標,首先列舉檢索頻次較高的類目,突出重要或時尚主題,迎合網民的檢索習慣與檢索偏好。網路信息分類有著強烈的時代特色和功利目的,它雖然注重系統性對穩定分類體系的重要作用,但更關注檢索熱點及其趨勢變化;它雖然重視信息揭示和檢索中的邏輯關聯與認識意義,但更強調檢索的簡捷與方便。 由於網路分類體系的特點,一些類系或類列已完全打破了體系分類的學科系統性,常規的瀏覽檢索很難快速有效地找到目標網站,此時可以利用目錄的資料庫優勢,用關鍵詞直接進入某一類目,然後再在該類下瀏覽搜索。 3、怎樣進行分類搜索 進行分類搜索,首先要了解所使用的分類體系的特點及其類目設置,如Yahoo!是主題索引式指南(subject-based guide to web sites and web content),把全球網站按主題劃分為14個大類,網站收錄質量較高,學術性較強,編輯嚴謹,久負盛譽,尤其"China "類下的中文和國內網站極具參考價值。搜狗(搜狐)是典型的主題分類目錄,按學科或主題設置16個一級類目,50,000個主題分類,對中文網站收錄最為全面,但二級以下同位類和網站列表沒有固定的排列順序(如按拼音或筆畫),瀏覽查找多有不便。Yahoo!和搜狗(搜狐)都具有地區與主題(學科)分面組配檢索功能,都設置有大量的交替類目,可對網站進行多角度、多途徑檢索。 分類搜索還需注意,由於網路分類沒有統一的分類標準,同名類目或相似類目,在不同的分類體系中的類目含義不盡相同,因此性質相同或相近的網站在不同的分類體系中可能分屬不同的大類,或同一大類的不同級位。如與"太極拳"相關的網站,在搜狗(搜狐)中歸入"體育健身"大類之中(體育健身>武術/搏擊>太極拳),而雅虎中國則列於"休閑與生活"大類之下(休閑與生活 > 體育運動 > 武術 > 太極拳);"搜索引擎"在搜狗(搜狐)和雅虎中國中的大類歸屬相同("電腦網路"與"電腦與網際網路"),但級位不同,分屬三級(電腦網路>搜索引擎/分類目錄 >搜索引擎 )和四級類目(電腦與網際網路 > 網際網路 > 搜尋與檢索 > 搜索引擎),又如"心臟內科"在搜狗(搜狐)列有專類,而相關網站在雅虎中國中卻分散在"健康與醫藥 > 疾病與癥狀 > 心臟病"和"健康與醫藥 > 醫學 > 內科"兩個類目下。凡此種種,非專門的研究人員不可能對各種分類體系了如指掌,一般用戶只能根據需要和愛好,選擇一種分類搜索引擎,經常使用,以熟生巧。 此外,進行分類搜索還要了解不同分類目錄的網站收錄特點,如雅虎中國以收錄繁體中文網站見長,搜狗(搜狐)以本土化著稱,分別為查找BIG5碼網站和簡體中文網站的首選。 對分類搜索的作用意義、網路分類、分類體系、搜索原理有了基本了解之後,我們以搜狗(搜狐)為例,來體驗一下分類搜索的功能及其區別於關鍵詞搜索的特點。 (1)進入檢索頁面(http://fenlei.sogou.com/或http://dir.sohu.com/),瀏覽分類目錄,根據查詢內容確定大類歸屬及可能的查找路徑。分析檢索需求要考慮和兼顧內容性質和形式特徵兩個方面,如檢索文學報刊網站,一般首先考慮從內容即"文學"大類入手,再按載體形式區分,路徑為:"文學>報刊/雜誌@",從形式即"新聞媒體"入手,再按內容查找,路徑為:"新聞媒體>各類新聞媒體>文學 ",也可以得到同樣的結果。@為交替類目符號,其作用是指引並鏈接到使用類目。初次使用分類搜索,或對分類搜索不太熟練時,要把握和堅持以內容性質確定大類,以形式特徵探索路徑,注意使用交替類目的原則,在實踐中熟悉分類體系,逐步掌握檢索要領和技巧。 (2)具有某些共同特徵的網站,由於種種原因可能被分散在多個類目之中,要查全相關網站,除了從內容性質和形式特徵尋求儘可能全面的檢索路徑外,利用關鍵詞搜索不失為有效而便利的方法。如生產紅木傢具企業的網站分散在"工商經濟--工業--輕工業/手工業--傢具製造工業"、"工商經濟--工業--輕工業/手工業--木材加工工業"、"公司企業--傢具--仿古傢具"、"國家與地區--**(省)--城市/地區/縣--**(城市)--公司/企業--傢具"等三個類系的四個類目之中,其中有的路徑即使是有經驗的搜索者也難以預料的,這時利用關鍵詞搜索結果中網站簡介下的路徑提示,就可以輕而易舉掌握相關網站的分布情況。 (3)當無難以定查詢內容的大類歸屬,或某類的下位類和網站過多不便瀏覽時,可利用"在所有目錄下"或在"此目錄下"的分類資料庫關鍵詞搜索功能,快速找到網站的類屬和路徑。雅虎中國的分類資料庫關鍵詞搜索功能一向為人稱道,搜狗(搜狐)已取消了搜狐原有的分類資料庫關鍵詞搜索功能,雖然其互動式搜索引擎的"搜索提示"和一些搜索結果下的分類搜索路徑指示,從新的角度增強了分類搜索的功能,但缺乏分類資料庫的關鍵詞搜索仍不免使人感到不便和遺憾。 (4)分類搜索和關鍵詞搜索可以方便地相互切換,在關鍵詞搜索的結果中,點擊分類路徑指示的最後一個類名,就可進入分類搜索的網站列表,如以"寵物醫院"為關鍵詞檢索,在分類路徑指示"公司企業>娛樂>寵物>寵物醫院"、"娛樂休閑>寵物>寵物護理"中,點擊"寵物醫院"或"寵物護理"可得到分類搜索結果;反之,在任何一級分類搜索頁面,只要在搜索框中輸入關鍵詞,即可進入關鍵詞搜索。搜狗(搜狐)獨創的分類搜索和關鍵詞搜索的自由切換技術,使分類搜索與關鍵詞搜索的聯繫更為密切,對兩種搜索方式的功能互補有著積極的意義。 (5)無論是分類搜索和關鍵詞搜索,都需要對檢索需求進行概念歸納和提煉,用規範化的自然語言準確表達檢索需求。二者的區別在於,分類搜索是以準確的需求表述,尋找相應的類目(類名),一次檢索只能以一個類目為路徑,以縮小外延的方法逐級瀏覽,逐類檢索,如查找提供"股票分析軟體"的網站,只能從"工商經濟>金融/投資>股票>分析軟體",或"電腦網路>軟體>行業軟體>股票/證券分析軟體@"循序檢索,不可能一下進入到"分析軟體"或"股票/證券分析軟體@"類目;而關鍵詞搜索是用表達檢索需求的詞語即關鍵詞與網頁資料庫進行匹配,可以用一個或多個關鍵詞隨意擴檢或縮檢,如"股票+分析軟體"、"股票分析軟體"、"股票+股市+分析軟體"等,只要檢索式長度不超過規定位元組,都有可能返回結果。搜狗(搜狐)的關鍵詞搜索具有網站分類資料庫的同步檢索功能,只要關鍵詞準確得當,可同時獲得人工編輯的網站信息和自動索引的網頁信息。 (6)搜狗雖是獨立域名的搜索引擎,但與搜狐仍屬於同源同宗,且不論搜狐的關鍵詞搜索是否採用搜狗的"第三代互動式"搜索技術,搜狗的分類目錄來源於搜狐是無可爭議的,然而搜狗類目設置、排列次序、網站收錄數量等與搜狐不盡相同,似乎難於給予合理的解釋,如果有分工的趨向,各自應有所側重和鮮明的特色。目前僅就分類搜索而言,搜狗和搜狐在功能和效果上尚無明顯的差別,都能夠給用戶帶來愉悅享受和令人滿意的結果 分類搜索是網路信息檢索的常用方法,一些檢索需求非分類搜索不能達到最佳效果,但由於缺乏統一的分類標準,類名缺乏規範,各種分類體系差異較大等原因,致使分類搜索不易掌握,分類搜索的使用率遠不及關鍵詞搜索。搜狗(搜狐)作為著名的分類搜索引擎服務提供商,長期致力於分類搜索的研究和普及推廣,"分類搜索首選搜狗(搜狐)",已為眾多網民所認同。尤其值得關注的是,搜狗"第三代互動式"搜索技術打破了傳統意義上的分類搜索與關鍵詞搜索的嚴格界限,增強和拓展分類搜索的功能,使分類搜索與關鍵詞搜索有機結合,為我國網民帶來全新的網路搜索體驗。 |
推薦閱讀:
※網路印記標中尋
※索達吉堪布第109次網路開示《中觀四百論》2| 大中觀的境界
※浙江破特大網路販賣槍支案 槍彈可武裝一個團
※? 玄門正宗,道家八字命理預測網路公益班招生啟告!
※網路搜集帥男単圖【貳】