網路搜索與信息收集路路通

現代人的生活已經越來越離不開互聯網路了。上網從聊天室里的胡侃亂吹、大小論壇里的灌水拍磚到垃圾伊妹兒的滿天飛舞、即時通訊工具軟體的紅紅火火再到各種電子媒體的相繼問世、網路學校的日新月異,網路正在對我們的生活產生不可小視的影響。各種網路泡沫消失殆盡之後,帶給人們更多理性的思考,帶來了網路上的一片欣欣向榮的新景觀。我們正在迎接一個全新的網路新世界。  感覺到了嗎?我們的語言中已經由於網路而增加了許多新鮮的血液,我們的通訊交流由於網路而變得更加方便快捷,我們的知識的更新速度也由於網路而加快了不知有幾十倍……可以豪不誇張的說,已經有越來越多的人對網路有著很強的依賴性,如果沒有網路,他們將不知道該怎樣去生活!  網路是一個工具。也可以說網路像「海洋」,它是「知識的海洋」,是現代人獲取知識的另一個重要而便捷的途徑。但這些知識固然是客觀存在的,只有正確的掌握了打開這座知識寶藏的金鑰匙的人才能充分的享受寶藏帶給我們的快樂。換句話說,如果去主動地用有效的方法獲取這些知識,對中學生來說,應該比網路本身的內容更加重要。本專題將結合作者本人多年的網路生活經歷,與同學們一起探討一下這方面的技巧和方法。  一、掌握必要的「搜索」技巧是獲取信息的重要手段  初入網路的朋友,大多像一隻無頭的蒼蠅,在網路這個無邊無際的虛擬空間中亂撞。這種漫無目的的「看網」,可能會因為遇到某個心動的網站而興奮不已,也可能會為緊緊張張地忙活了半天而一無所獲感到沮喪萬分。不過,這卻是初學者必須經過的一道坎。如果你能掌握正確的搜索技巧,帶著一定的問題和疑問去上網,訪問網路後的結果肯定會與眾不同。  1. 認識搜索引擎  什麼是搜索引擎?它是如何工作的?還是讓我們先從搜索引擎的歷史說起吧。1990年以前,沒有任何人能搜索互聯網。所有搜索引擎的祖先,是1990年由Montreal的McGill University學生Alan Emtage、Peter Deutsch、Bill Wheelan發明的Archie。後來,程序員們開發出了一個名叫「spider」(蜘蛛)的「Robot」(機器人)程序,它能自動以人類無法達到的速度不斷重複地在網路上檢索信息。這種行為很像一隻蜘蛛在INTERNET這張巨大的信息網上爬來爬去,因此,spider程序便由此而來。世界上第一個Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用於追蹤互聯網發展規模。剛開始它只用來統計互聯網上的伺服器數量,後來F和發展為也能夠捕獲網址(URL)。  隨著互聯網的迅速發展,使得檢索所有新出現的網頁變得越來越困難,因此,在Wanderer基礎上,一些編程者將傳統的Spider程序工作原理作了些改進。其設想是,既然所有網頁都可能有連向其他網站的鏈接,那麼從一個網站開始,跟蹤所有網頁上的所有鏈接,就有可能檢索整個互聯網。  概括的說:搜索引擎就是WWW網路環境中的一套信息檢索系統。它通常有兩種不同的工作方式:一種是分類目錄型的檢索,把網際網路中的資源收集起來,由其提供的資源的類型不同而分成不同的目錄,再一層層地進行分類,人們要找自己想要的信息可按他們的分類一層層進入,就能最後到達目的地,找到自己想要的信息;另一種是基於關鍵詞(Keyword)的檢索,這種方式用戶可以用邏輯組合方式輸入各種關鍵詞,搜索引擎計算機根據這些關鍵詞尋找用戶所需資源的地址,然後根據一定的規則反饋給用戶包含此關鍵字詞信息的所有網址和指向這些網址的鏈接。  搜索引擎其實也就是一個網站,只不過該網站專門為你提供信息「檢索」服務,它使用特有的程序把INTERNET上的所有信息歸類以幫助人們在浩如煙海的信息海洋中搜尋到自己所需要的信息。隨著網際網路信息按幾何級數增長,這些搜索引擎利用其內部的一個spider程序,自動搜索網站每一頁的開始,並把每一頁上代表超級鏈接的所有辭彙放入一個資料庫,供用戶來查詢。  一個搜索引擎大致由三部分組成。第一部分是搜索器,也就是上面提到的Spider程序。它定期的自動爬到各個網站上,把網頁抓下來,並順著上面的鏈接,象蜘蛛一樣爬開去,持續不斷的抓取網頁。第二部分是索引器,它把蜘蛛程序抓來網頁進行分析,按照關鍵詞句進行索引,並存入伺服器的資料庫中。第三部分是面向用戶的檢索器,它接收用戶提交的查詢字串,在索引資料庫中查詢,並將結果反饋給用戶。  因此,準確的說,當我們利用搜索引擎搜索信息時,並不是真正在網上進行搜索,而是在檢索那個由蜘蛛程序自動建立起來的龐大的資料庫。由於各大搜索引擎的資料庫的自動更新周期是不同的,從幾天到幾周甚至一個月都有可能,因此,選擇合適的搜索引擎顯得尤為重要。同時,有時也可能遇到用搜索引擎搜索到的網頁無法打開的情況,了解了它的工作原理,這一點也就不會大驚小怪了。  2. 選擇合適的搜索引擎  儘管網上有大量的搜索引擎可供選擇,但時下搜索效率等各方面都比較讓人滿意的並不多。相比之下,源自辛棄疾的《青玉案》中的著名詩句「眾里尋她千百度」的中文搜索引擎「百度」以及簡體中文的google應該是大家的首選。其中百度(www.baidu.com)主要提供基於「關鍵詞」的檢索方式,而且在這方面做得非常有特色。而google則不僅可以支持基於「關鍵詞」的搜索網頁搜索方式,同時也是分類目錄式的搜索的典範。  3. 搜索引擎的使用技巧  千萬不要以為有了搜索引擎就能搜到一切,如何正確的運用搜索引擎也是一門學問。目前,著名的搜索引擎百度正在網上進行「百度搜索大富翁」的遊戲(http://game.baidu.com/index.php),你只要每天花上幾分鐘時間,利用搜索引擎回答5道題目,既可以學習到許多有用的搜索技巧,還有機會贏取掌上電腦、數碼相機、手機等巨額獎品,何樂而不為?下面談談本人在使用百度搜索引擎方面的一些方法和技巧。  我們使用搜索引擎,大多數情況下都是使用一些關鍵詞去搜索引擎中進行搜索的。因此,搜索的技巧之一就是關鍵詞的合理選取。什麼叫「關鍵詞」?其實就是你輸入在搜索引擎的搜索框中的文字,也就是你命令搜索引擎要尋找的東西。千萬不要以為關鍵詞就是三兩個字才叫「詞」,有時用一句話或一個短語作為關鍵詞往往可以收到奇效。因為相同的辭彙可以用在許多不同的場合,僅僅使用一個或幾個單詞搜索到的結果肯定會是一片汪洋,這樣的搜索結果沒有任何作用。除了關鍵詞的長度,合理的選擇關鍵詞也是非常重要的。對於同樣的搜索需求,兩種不同的關鍵詞搜索策略可能得到相差懸殊的結果。比如:有這樣的一個問題:內蒙古錫林郭勒盟蘇尼特右旗,1985年出土的距今1.2億年的「_________恐龍」是目前中國發現的最大的恐龍化石骨架。裝架後體長22.4米,背高7米,抬頭高12米。如果要求通過網上搜索後找到答案,你準備用什麼樣的關鍵詞呢?是「內蒙古」,還是「恐龍化石」,抑或是將這兩個關鍵詞同時使用?無論你採用以上哪種方案去搜索,得到的結果都會有成千上萬!但如果能夠緊緊抓住「中國發現的最大的恐龍化石骨架」這句短語,以它為關鍵詞來進行搜索的話,在百度和雅虎的搜索引擎上都只得到9個結果!找到這個問題的答案當然易如反掌了。  其次,對於已經搜索到的網頁,如果無法打開,八成是該網頁已經被站長從網上刪除了。而更讓人難以接受的是,通過搜索引擎的對該頁簡要介紹,發現該頁上正是自己苦苦找尋的結果,是不是就真的沒有辦法了呢?當然不是。如果你選擇百度搜索引擎進行搜索,可以看出,在每個搜索結果後,都有「網頁快照」和「網頁預覽」兩個超級連接。在這種情況下,直接打開該網頁可能打不開,但點擊「網頁快照」卻可以看到該網頁的快照內容。因為網頁快照保存了該網站以前的信息,網頁快照不僅下載速度極快,而且搜索項均用不同顏色標明,另外還有標題信息說明其存檔時間日期,並提醒用戶這只是存檔資料。 網頁快照不僅可以讓你看到一些根本就不存在了的網頁上的內容,對仍然可以打開的網頁,使用網頁快照也有許多好處。因為,快照頁面的首部都有一個與關鍵詞相關的頁內鏈接,直接指向該頁中你所關心的重要內容。同時,網頁內的所有關鍵詞都被用不同的顏色進行了區分,是不是比直接打開網頁後自己用眼睛在該頁上查找要方便得多,尤其是內容多的網頁,有時你會感覺這些關鍵詞是在與你玩「捉迷藏」的遊戲。  另外,使用多關鍵詞、使用減法搜索——包含A但不包含B關鍵字、並行搜索——包含A或者包含B,和在結果中查詢等高級搜索技巧,也是提高搜索水平的有效途徑。具體用法大家可以到http://www.baidu.com/search/jiqiao.html去查閱「百度搜索幫助」。這裡要特別指出的是:百度的確是一個非常優秀的搜索引擎。當你選取的關鍵字找不到你所要的結果時,很可能是關鍵字選取不當。怎麼辦?需要重新選取關鍵字,大多數情況下,百度都已經明白了你的意思,看!在該頁的下方,百度已經為你另外選取了幾組關鍵詞,用它們來作關鍵詞搜索試試?這就是相關搜索。  大多數情況下,使用以上技巧就可以完成日常獲取知識的需要,但在某些特殊的場合,比如:想知道我們的「阿紫」編輯在「中學生電腦」的網站內的知名度,這時,就只需要在一個網站(www.yesnew.com)內進行搜索。部分網站提供了這種功能,但絕大多數網站都沒有這種站內搜索的功能。怎麼辦?還是用「百度」就可以搞定。百度支持在網站內進行搜索,這時,只需要在它的搜索輸入框內按「關鍵詞 site:網址或域名」的格式輸入關鍵字,再點擊「開始搜索」按鈕即可。例如:用「阿紫 site:www.yesnew.com」為關鍵字可以獲得「阿紫」這個名字在該網站出現的頻率;用「intel site:com.cn」可以在所有域名以「com.cn」結尾的網站內搜索和「intel」相關的資料。需要注意的是:「site:」後不能有「http://」前綴或「/」後綴,網站頻道只局限於「頻道名.域名」方式,不能是「域名/頻道名」方式。   4. 順藤摸瓜式搜索方法與技巧  前面已經講過,由於搜索引擎的工作原理,一般都不可能利用搜索引擎搜索到最新最近的信息。而且,畢竟它是一個按一定演算法編寫的spider程序到網上搜索到結果,難免會遺失網上大量的信息。而各個搜索引擎所建立的資料庫也是不大一樣的。也就是說,用一個搜索引擎沒有搜索到自己所要的信息的話,可以換一個搜索引擎再試試。除此之外,我本人在長期的搜索過程中,還總結出一套「順藤摸瓜」式的搜索技巧。不敢獨享,現介紹出來,與大家共享。  一流的網站對於網頁名稱的設計也應該是一流的。雖然這些東西看似與用戶無關。大家都知道,「洪恩在線」是一個以開展計算機普及教育的著名網站,它的「電腦樂園」小版塊(http://www.hongen.com/pc/index.htm)是專門為各位初學電腦的同學們開辦的。裡面放置了專家們精心編寫的各種軟體的使用教程和操作技巧。如果你掌握了常見的一些英文單詞或縮寫(os:操作系統;oa:辦公自動化;tools:工具;program:編程;newer:初學者;homepage:網頁製作等),就可以根據其下某一欄目的網址(比如:辦公軟體的相關教程:http://www.hongen.com/pc/oa/index.htm),推斷出其他各類欄目可能的網址(將該地址中的「os」更換成相應的單詞即可)。再比如,有些網站中明明有某個網頁,卻沒有在它的主頁或其他頁面中放置鏈接到該頁面的超級鏈接,或者將該鏈接放在比較隱蔽的位置,想找到並打開這些網頁是比較困難的。但如果我們善於分析和發現它的網頁名稱的命名特點和規律,就可以順藤摸瓜,由點到面,在網上找到更多對自己有用的信息。這些規律一般也無外乎用英文單詞、漢語拼音或縮寫、數字結尾、網頁更新當天的日期、刊物的期數加版(面)數這幾種形式。比如:天極網(www.yesky.com)中每個基層網頁的地址中幾乎都包含一個表示日期的數字串,比如:http://www.yesky.com/SoftChannel/72357786532446208/20030430/1666528.shtml,這個地址的倒數第二個數字串是什麼?呵呵,當然是表示該頁是2003年04月30日上傳的了。又如:http://media.ccidnet.com/media/cce/515/03301.htm是賽迪網中的一個網頁,分析一下它的地址的組成也很有意思。「media.ccidnet.com/media」表示「賽迪媒體」,cce則是「中國電腦教育報」的簡稱,515表示這篇文章出自「中國電腦教育報」總第515期,如果你將這篇文章與報紙相對照,就會發現連最後的03301.htm也有它的具體內涵:033表示第33版,01當然表示該版上的第一篇文章了,呵呵。了解了網站中網頁名稱的構成特點,就可以在第一時間看到該報的電子版。不信,你在每周日的晚上(教育報每周一出刊)直接在地址內輸入:http://media.ccidnet.com/media/cce/XXX/daodu.htm(其中XXX表示下周報紙總期數編號)試試?反正我是用這種方法不花錢而且比花錢訂報更早地看到了「報紙」的最新的內容。呵呵。  二、工欲善其事,必先利其器——IE的搜索插件及瀏覽器的選擇  1. 安裝幾個IE插件協助搜索  IE雖然與著名的3721中文網址合作,在工具欄里提供了「搜索」按鈕,但畢竟一個搜索引擎是難以滿足大家的搜索需要的。下面介紹如何給IE安裝幾個其他的搜索引擎工具箱。  ①百度搜霸  上網到http://bar.baidu.com/baidubar/custom/IESearch_sitesowangdg.exe下載「百度搜霸」(225K)。下載完成後立即安裝,當提示「百度搜霸」已經正確安裝之後,重新啟動IE。在工具欄的空白位置點擊滑鼠右鍵,只要勾選「BaiduBar」,就可以立即在地址欄下彈出一個百度搜霸的工具欄。以後,只要打開IE,想用百度搜索引擎進行搜索時,只要是直接將要搜索的關鍵字填入這個文本輸入框內,再點擊其後的「搜索」按鈕就可以立即顯示出包含有此關鍵字的網頁來。當然,如果你想利用搜索引擎找歌聽,你可以輸入歌曲或者歌手的名稱,甚至是一句歌詞,再點擊「MP3」或「歌詞」即可完成歌曲或歌詞的查找過程。同樣的關鍵字,如果你點擊的是「flash」的話,將會彈出與這首歌有關的flash MTV或者flash動畫作品來供你下載。是不是很方便?另外,「站內」當然是「站內搜索」的意思了。同時,還就注意到,我們所輸入的關鍵詞同時還會出現在該工具條的最右邊,它有什麼作用呢?原來,當屏幕上顯示出搜索結果頁面之後,單擊這裡可以在本頁內的所有關鍵字上進行順序移動,便於我們快速的從網頁中找到所需的內容。「高亮度顯示」的按鈕如果被按下,則當前頁面上的所有關鍵字都被高亮度顯示出來,使人一目了然。  ②IE Plus Pro  這是一個IE的插件,可以到http://bar.baidu.com/ad/download.php?clientName=sitesowang下載IEPlus Pro的最新版本。安裝完成後,啟動IE。如果沒有發現IEPlus Pro的工具條,可以在IE的工具欄的空白處點擊滑鼠右鍵,給「IEPlus Pro」打上勾即可。圖05就是它的工具條。注意,點擊IEPlus Pro的圖標,才會出現這個下拉菜單。從這個下拉菜單中可以看出,它內置了近十種不同作用的搜索引擎。可以方便地搜索網頁、新聞、驅動程序、歌曲等。  2. 瀏覽器的選擇  儘管IE有許許多多的用戶,但我個人認為,IE在許多方便做得並不好。像上面談到的搜索方面,它需要我們再安裝第三方的工具來增強。其次,一個網頁需要打開一個IE新的窗口也讓人非常惱火,佔用了我的機器在許多寶貴的資源。其實,瀏覽器市場可以選擇的有很多,我這裡推薦使用「我要上網去」這個瀏覽器。它的最新版本是1.2版,無需安裝,直接將它解壓到某一文件夾即可。即使重新安裝了系統,也無需重新安裝它。它有以下幾大優秀的地方:  ①同一窗口內採用標籤的形式打開多個網頁,大大節約了系統資源的佔用率。  ②內置了國內、國際、軟體、新聞、歌曲、驅動等10個分類近50個搜索引擎,功能可以和其他專門的搜索軟體媲美。只要輸入你要搜索的關鍵詞,單擊相應的分類,再單擊多個搜索引擎,可以輕鬆用同一關鍵字在多個搜索引擎中進行搜索而無需重新輸入這些關鍵字,直到找到你的信息為止。對於系統沒有添加進來的搜索引擎,還允許用戶自己添加「個人」的搜索引擎。下面以添加「百度搜索引擎」為例進行一下說明。   按下工具欄上的「搜索」按鈕在窗口的左邊顯示「搜索」面板,點擊「添加」,彈出「添加搜索」對話框。在「地址」欄內輸入百度地址www.baidu.com並按回車鍵,然後在網頁中輸入單詞「KEY」,單擊「百度搜索」按鈕,對話框自動進入「下一步」。更改「網站標題」為「百度網頁搜索」,可以看出,中部與搜索有直接關係的幾個選項已經由程序自動填寫,單擊「完成」即可在「搜索」面板下多出一個名叫「百度網頁搜索」的搜索引擎鏈接。同樣,還可以建立一個「百度MP3歌曲搜索引擎」鏈接,一個「百度歌詞搜索引擎」,一個「百度flash文件搜索引擎」。只是在重複上面的步驟時,在對話框中,單擊相應的搜索選項後再點擊「百度搜索」即可。  ③可對搜索到的信息進行簡單的採集  51357自帶一個小巧的網頁下載器HTML Downloader,在瀏覽網頁時,遇到精彩的網頁鏈接,可以直接用滑鼠將這個鏈接拖動到窗口右下角的「網頁下載器」里,隨即會彈出一個HTML Downloader的窗口,同時快速進行網頁的下載。以後需要查看該網頁時,可再次打開這個窗口,既可直接在此打開察看,也可選中部分或全部網頁,點擊「輸出」,可以自己選中的形式保存在指定的位置。另外,51357還有一個微型的「填表收集面板」。將這個浮動的窗口放在屏幕的一個合適的位置,瀏覽網頁的時候,可能經常會需要「摘錄」部分段落或精彩內容,沒關係,想「摘」就「摘」吧。只要用滑鼠選中這些目標,同樣用滑鼠拖動這些段落至「收集面板」中即可。等有時間再慢慢輸入整理吧。另存輸出的方法是:單擊圖09中滑鼠所指的「Export」按鈕,選擇一個保存的位置和文件名即可。  ④過濾不良信息,屏蔽彈出式網頁  在「工具」菜單下,勾選「禁止彈出式廣告」和「啟用黑名單」,當你在瀏覽某些具有彈出式廣告的網站時,這些網頁自動被過濾。同時,某些惡意網頁入侵一次之後,我們可以將它添加到「黑名單」中,這樣,下次它就不會再來侵擾我們

(出處:www.a5d.com收集整理)


推薦閱讀:

《三命通會》真寶賦 尚易君收集
「魔獸世界」中一共有多少個菜譜?
為啥我喜歡收集這些鳥話
各種狗和貓身價匯總!(好不容易收集的,太值得看了)
網上收集----時尚大氣的毛衣

TAG:搜索 | 信息 | 收集 | 信息收集 | 網路搜索 | 網路 |