通用搜索策略

網路信息檢索策略及技巧——通用搜索策略
 修改時間:2006-7-30 22:31:00

林小露/北京師範大學管理學院 北京 100875

當您要查找某個領域內學術資源的時候,您首先想到的是什麼?期刊閱覽室,光碟資料庫,還是搜索引擎?當您想看最新的美國大片的時候,您是去電影院,音像店,還是在線影院?不要認為我是在做市場調查,或許您的答案跟我一樣:上網搜索。在這個知識快速更新的時代,我們已經學會了使用各種工具去幫助我們學習,簡化我們的生活。而搜索引擎,便是人們查找信息時不約而同的選擇。也許您常用搜狗,熟悉百度,甚至對Google也一點兒都不陌生。那麼,您是否曾經有過面對大量的搜索結果卻束手無策的尷尬?是否曾經也為在信息泛濫的互聯網上找不到您想要的資源而沮喪?這就是本文所要解決的問題:學會如何搜索。

1搜索之前的準備

好的開始是成功的一半,要進行一次完美的檢索,我們需要做些搜索前的準備工作。儘管現有的Internet檢索工具已顯示出其強大的功能,但所謂巧婦難為無米之炊,它們不可能檢索到網上沒有的內容,同時,有些內容雖然存在網上,卻因為各種原因,而成為漏網之魚。所以在使用搜索引擎之前,應該先花幾秒鐘想一下:我要找的東西網上可能有嗎?如果有,可能在哪裡,是什麼樣子?網頁上會含有哪些關鍵詞?就萬維網目前的狀況而言,還沒有誰能夠檢索整個萬維網的所有文檔,如果有某個網路檢索工具宣稱自己做到了這一點,那一定是誇大其詞。有些東西是根本不需要上網搜索的,比如要找某個公司的電話,打個114的速度大概比搜索引擎快得多。又有些問題,可能很難用合適的關鍵詞描述,或者不能直接用Internet檢索工具找到,不妨嘗試找個精通這個問題的朋友,或者尋找這方面的熱門論壇來問,這也是一種檢索方法。有時,我們能選擇的最好方法是放棄網路,跑一趟附近的圖書館。圖書館裡有網上找不到的「成噸」的信息,這些信息比起來自Internet的信息資源更加權威可信,而且圖書館員一般是受過訓練的專家,他們通常會很樂意幫你找東西。當你在網上無處可去的時候,試一下真正的「人工智慧搜索引擎」吧,你會發現他們真的非常優秀!

2了解可用的檢索工具

目前通用的網路檢索工具大致可分為四種類型:搜索引擎、元搜索引擎、網路資源目錄和「看不見的網頁」,它們各有特點,若能充分利用其功能,能收到意想不到的效果。

2.1搜索引擎和元搜索引擎特點:使用關鍵詞檢索,將關鍵詞與網頁中出現的詞精確匹配,可對網頁進行全文檢索;資料庫由蜘蛛程序自動搜集的內容構成,人工干預很少,沒有主題目錄和分級瀏覽;檢索的範圍寬廣,從某個狹小的專門領域的網路資源到90%以上的Web文檔都能被搜索引擎檢索到;元搜索引擎快速而簡單地將檢索提問提交給多個不同的搜索引擎,然後將返回結果以統一的格式展現(注意:通常元搜索引擎僅從普通搜索引擎的檢索結果中返回大約10%的結果)。實例:搜索引擎如Google、 Alltheweb等,元搜索引擎如Metacrawler、Ixquick等。

2.2網路資源目錄特點:人工挑選的網站集合(有時編輯者是某一領域的專家),對網站內容有介紹和評估,並努力保持更新,但對於較大規模的主題目錄來說要保持高頻率的更新不太可能;一般以等級式的主題目錄組織內容;對每一個收錄的網站,通常有人工註解(但yahoo沒有);支持瀏覽方式,適合主題比較寬泛的檢索;沒有全文檢索,檢索的僅僅是目錄和註解,檢索時不能像搜索引擎那麼專指,因為在網頁中出現的詞未必能夠用作提問關鍵詞。實例:學術性較強的主題目錄如Librarians『 Index to the Internet、Infomine,大眾化的主題目錄如Yahoo!、About.com等,Internet上存在成千上萬的主題目錄,涵蓋了任何一個我們可能想到的主題。

2.3看不見的網頁(專門資料庫)特點:不能被普通搜索引擎搜到;包含許多動態信息;通過某個網頁中的檢索框來檢索某個特定資料庫的內容,可以是任何主題。通過主題目錄或者通用搜索引擎都可以找到可供檢索的某領域的特定資料庫,然後可進入這些資料庫中利用其站內檢索工具進行進一步的查詢。也可以通過一些看不見的網頁或免費資料庫資源站點進入這些資料庫,如The Invisible Web Directory(http://www.invisible-web.net)。

3分析信息需求並選擇合適的檢索工具

在檢索之前先考慮清楚自己要找的是什麼,並且以一系列問題的形式把它用紙筆記下來,對於Internet信息檢索的新手來說這絕對是個好習慣。我的檢索是以找到某個問題的精確答案為目標,還是希望通過檢索擴展自己在某個領域的知識?我檢索的是否是一個非常特殊的主題,還是檢索時會返回大量無關信息的寬泛主題?檢索詞是否存在同義、近義詞?思考這些問題將有助於準確定位自己的檢索起點,不至於在後面的檢索中迷失目標。當積累了足夠的經驗之後,就可以跳過這一步直接進行檢索了。對自己的需求有一定的認識之後,便可以選擇工具幫助自己找答案了。每一種檢索工具都有自己的特點,它們在搜索範圍、功能和質量方面大相徑庭,沒有絕對的高下之分。但就某一次特定的檢索而言,選擇不同的檢索工具,檢索結果的差別卻很大,錯誤的選擇不僅可能顆粒無收,還會浪費掉大量的時間。如果為每一次檢索都選擇合適的檢索工具,那麼每次得到滿意結果的概率將會大大增加。根據自己對檢索主題的已知部分和需要檢索部分的了解,可以從幾種不同類型的網路檢索工具開始。最常見的選擇是使用搜索引擎還是網路資源目錄。一般的規則是,如果您在找什麼特殊的內容或文件,那麼使用全文搜索引擎如Google和百度,如果想從總體上或比較全面的了解一個主題,那麼使用網路資源目錄如yahoo。對於特殊類型的信息考慮使用特殊的搜索工具,比如找人或找地點,那麼使用專業的尋人引擎或地圖和位置搜索網站。事實上,幾乎每種主題都有特殊的搜索工具,有興趣的讀者可以參考中文搜索引擎指南網(http://www.sowang.com)上各類搜索引擎的相關介紹。

4學會使用關鍵詞

目前搜索引擎對自然語言句子的處理仍然不盡如人意,要想得到比較多的相關結果,關鍵詞仍然是根本。因此,當我們決定選取某個搜索引擎作為檢索起點的時候,我們將面臨如何確定關鍵詞的問題。初學者容易犯的錯誤之一就是檢索提問中缺少足夠多的關鍵詞。根據統計,大多數用戶平均每次檢索使用的關鍵詞為1.5個。對於我們準確地找到Internet信息資源的目標而言,這個數字是不夠的。因此,當你的檢索結果不理想的時候首先應該考慮的就是關鍵詞數量是否充分。舉個例子,如果一個陌生人對我們說:「北京」,我們可能會覺得莫名其妙,因為我們不知道他想說的是有關「北京」哪方面的事情,是天氣,人口,還是北京某個區的情況。同樣,如果在搜索引擎中輸入一個關鍵詞「北京」,搜索引擎也不知道你要找什麼,那就可能返回很多莫名其妙的結果。因此讀者應養成使用多個關鍵詞搜索的習慣,當然,大多數情況下使用兩個關鍵詞搜索已經足夠了,關鍵詞與關鍵詞之間以空格隔開。當然,要從信息需求的描述中提取出合適的關鍵詞,有時會令人感到很迷茫。如果需求比較複雜,難以用幾個關鍵字描述清楚時,不妨也試一試輸入一個句子,或許能柳暗花明呢。

5嘗試布爾檢索

要想得到好的結果,就必須對布爾檢索有基本的了解。布爾檢索通過使用邏輯操作符和規定的句法來連接關鍵詞,從而構成功能強大的檢索提問,提高檢索的精確度。常見的布爾邏輯操作符及其作用如下:

5.1ANDAND操作符連接的兩個關鍵詞都必須出現在檢索結果中。某些檢索工具規定用符號「+」代替AND。AND操作符可以縮小檢索的範圍,得到更加精確的檢索結果。如輸入「軟體 AND 下載」,所有和軟體下載有關的網頁都將出現在檢索結果中。

5.2OR 用OR操作符連接的兩個關鍵詞必須有一個出現在檢索結果中。OR操作符可以擴大檢索範圍,得到更廣泛的檢索結果。如輸入「歐洲 OR 英國」,所得到的檢索結果中至少出現「歐洲」或「英國」,或二者都出現。

5.3NOT緊跟在NOT操作符後面的關鍵詞不能出現在檢索結果中。某些檢索工具規定用NOT或者符號「-」代替NOT。NOT操作符的作用是為了去除無關的搜索結果,提高搜索結果相關性。例如想了解佛教中的天龍八部是指哪八部,如果直接在搜索引擎中輸入「天龍八部」,將得到無數有關金庸小說《天龍八部》的檢索結果,如果我們修改一下輸入的關鍵詞,變成「天龍八部 NOT 金庸」,則能大大減少這部小說給我們帶來的干擾。不過需要注意的是,不同的搜索引擎有關布爾邏輯操作符的使用略有不同,在具體應用的過程中,應該先閱讀一下相關的搜索引擎幫助系統。

6使用雙引號

如果查找的是一個片語或多個漢字,最好的辦法就是將它們用英文的雙引號括起來,這樣得到的結果最少、最精確。基本上所有的檢索工具都支持這種用雙引號表示片語的方式。比如檢索樂隊組合「動力火車」,Google等搜索引擎會很聰明地將它劃分為「動力」和「火車」兩個詞進行檢索,這樣檢索結果中肯定有關於火車動力學、熱力學的文檔,而如果使用雙引號,在搜索引擎中輸入「」動力火車」」,那檢索工具就會把這4個漢字當作一個整體進行檢索,自然就避開了不希望的結果。當使用雙引號的時候,某些細微的地方必須引起注意。例如在用雙引號把片語括起來後,詞與詞之間的分隔符變得和關鍵詞本身一樣重要了。通常英文中的片語,詞與詞之間只有一個空格,如果不小心多鍵入了一個空格,檢索就會失敗。

7思考檢索結果

一次成功的檢索由兩個部分組成:一個設計優秀的檢索提問和一個準確可信的檢索結果。在點擊任何一條檢索結果之前,快速地分析一下檢索結果的標題、網址、摘要,會有助於讀者選出更準確的結果,從而節省大量的時間。當然,到底哪一個檢索結果對於檢索策略的調整更有參考價值,還是取決於自己的信息需求,評估網路內容的質量和權威性也是檢索的重要步驟。一次成功的檢索也經常是由好幾次檢索組成的,如果對自己檢索的內容不熟,即使是檢索專家,也不能保證第一次檢索就能找到想要的內容。檢索專家會先用簡單的關鍵詞測試,他們不會忙著仔細查看各條檢索結果,而是先從檢索結果頁面里尋找更多的信息,再設計一個更好的關鍵詞重新檢索,這樣重複多次以後,就能設計出很棒的檢索關鍵詞,也就能檢索到滿意的檢索結果了。

8避免常見錯誤

讀者一定遇到過這樣的情況:有時你做的所有檢索嘗試都不能得到有用的檢索結果。當你的大量努力都被證明是白費勁,感覺自己已經撞進了一條死胡同,似乎沒有希望找到預料中的信息了。這個時候,請不要放棄,認真回顧檢查你的搜索過程,也許只是因為一個小差錯。一個看上去毫無希望的搜索,很有可能在你檢討完自己的搜索策略後獲得成功。搜索專家們總結了初學者搜索時容易犯的5個低級錯誤和解決方法,在此推薦給讀者作為參考。

● 錯別字互聯網用戶對所找主題不熟悉、同音字、網路通假字泛濫等各種原因導致的錯誤關鍵詞很多,但用戶很難自己發現自己輸了錯別字,只會怪搜索引擎找不到信息。所以每當你覺得某種內容網上應該有不少、卻搜索不到結果時,你應該先查一下是否有錯別字。一些搜索引擎如Google等也會對用戶輸入的錯別字進行提示,讀者在進行檢索時可以參照提示重新輸入關鍵詞。

● 關鍵詞太常見如果你輸入的關鍵詞曝光率很高,以至於出現在成百萬網頁中,那麼這樣的關鍵詞事實上不能被用來幫你找到什麼有用的內容。比如,搜索「計算機」, 有無數網站提供跟「計算機」相關的信息。所以當搜索結果太多太亂的時候,應該嘗試使用更多的關鍵詞或者減號來搜索,不使用過於通用的辭彙來搜索,設計一個類似「計算機 發展趨勢」這樣特殊的搜索關鍵詞,會給你真正有用的結果。當然,如果你想找的是一串汽車網站或一串MP3網站,那麼用「汽車」、「MP3」搜索就是正確的。

● 多義詞要小心使用多義詞,比如搜索「Java」,你要找的信息究竟是太平洋上的一個島、一種著名的咖啡、還是一種計算機語言?搜索引擎是不能理解辨別多義詞的。最好的解決辦法是,在搜索之前先問自己這個問題,然後用短語、用多個關鍵詞或者用其他的詞語來代替多義詞作為搜索關鍵詞。比如用「爪哇 印尼」、「爪哇 咖啡」、「Java 語言」分別搜索可以滿足不同的需求。

● 不合理的關鍵詞搜索失敗的另一個常見原因是類似這樣的搜索:「現代愛情故事歌詞」、「上海到成都列車時刻表」。網友錯把搜索引擎當成是聽話的服務員了,其實搜索引擎是很機械的,當你用關鍵詞搜索的時候,它只會把含有這個關鍵詞的網頁找出來,根本不管網頁上的內容是什麼。而問題在於,沒有一個網頁上會含有「現代愛情故事歌詞」和「上海到成都列車時刻表」這樣的關鍵詞,所以搜索引擎也找不到這樣的網頁。但是真正含有你想找的內容的網頁,應該含有的關鍵詞是「現代愛情故事」、「歌詞」,「上海」、「成都」、「列車」、「時刻表」,所以應該這樣搜索:「現代愛情故事 歌詞」、「上海 成都 列車 時刻表」。什麼意思呢?不要用自己心中想的大白話去搜索,當搜索結果太少甚至沒有的時候,應該考慮輸入更簡單的關鍵詞來搜索,猜測所需要的網頁中可能含有的關鍵詞,然後用那些關鍵詞搜索。

● 在錯誤的地方搜索有這樣一個發人深省的案例:2001年7月23日這一天,正逢高考發榜,各大搜索引擎竟有超過100萬次以上的搜索跟高考查分有關。考生們不知道,搜索引擎從抓取網頁、解析、索引到提供檢索是有一個周期的,各搜索引擎的信息滯後周期從一周到一月不等,所以找最新內容應該去看新聞,用搜索引擎是找不到最新內容,只能找到一個星期或一個月以前的內容。另外,搜索引擎對動態內容,如:論壇、資料庫內容,以及帶frame結構的網頁檢索能力較弱,所以這類信息也不適合用搜索引擎搜索,而是應該去相關的網站尋找。

結語網路信息檢索具有非常強的實踐性,遠非一兩天的功夫就能掌握,需要在平時的搜索過程中不斷運用一些搜索技巧,總結一下成功或失敗的原因,只有這樣,才能切實提高自己的搜索技能,在網路世界中遊刃有餘。網路檢索工具是機械的,聰明的是人本身。因此,在檢索過程中,轉動你的腦子,充分利用各種工具,那麼,不管是什麼樣的難題,在經過一番努力之後總能迎刃而解。最後,請記住這句話:知識有兩種,你自己知道某種知識本身,或者你知道哪裡能找到這種知識。這就是信息檢索的意義。

推薦閱讀:

朱溫在四面環敵的包夾中,都採用了什麼策略對付周邊強敵,一步步強大起來?
量化策略系列教程:10ADX、DMI指標策略
女人離婚是要講策略的
凌峰時刻:德拉基午後將發表講話(3月14日)
IP簇:超級IP引爆法則和產品策略

TAG:策略 | 搜索 | 通用 |