查找「看不見的網頁」的途徑與工具

查找"看不見的網頁"的途徑與工具

邢志宇

"看不見的網頁"(The Invisible Web)是指搜索引擎商出於自身考慮不願索引的某些網路內容,或是因為技術原因普通搜索引擎(popular search engines)無法索引的網路內容。這些普通搜索引擎的"蜘蛛"不容易接近的"深層網路"(deep Web)的數量,要比搜索引擎索引的網頁(visible Web)多出500多倍。如何搜索Invisible Web 已經引起國內外學者和網路搜索愛好者的關注。就搜索技術而言,搜索網站和搜索引擎商正在尋求構建能夠揭示Invisible Web的目錄指南,或改進搜索技術,增加搜索功能等多種對策;就具體搜索而言,用戶應注意調整搜索策略,熟悉相關目錄和專用搜索引擎,掌握相應的搜索技巧。一般來說,搜索Invisible Web可以從目錄指南(directories)、具有檢索功能的網站(searchable sites)、免費資料庫(free Web databases),以及專用搜索引擎(specialized search engines)和優秀普通搜索引擎等四種途徑入手,選擇使用相應的檢索工具。

一、目錄指南

1、Librarians『 Index to the Internet( http://lii.org/),一個可以信賴的經過圖書館員篩選和維護的包括14,000多個網站的主題目錄,在查詢框輸入一個寬泛的主題詞加上"and databases"就可以進入相關的"Invisible Web"資源,如輸入檢索詞"biology and databases"(生物和資料庫),就可找到普通搜索引擎無法索引的有關生物方面的資料庫資源。

2、FindLaw ( http://www.findlaw.com/),世界著名的法律網站,在法律條目下鏈接許多免費資料庫,是查找法律Invisible Web的常用工具。

3、InfoMine ( http://infomine.ucr.edu),圖書館員編製的包括120,000 多個學術網站的分類目錄。

4、About.com ( http://www.about.com/) ,內容廣泛,查詢主題數以萬計,包括眾多"Invisible Web"資源,並有精選新聞和評論,輸入"Invisible Web"可以找到很多隱藏網頁鏈接,如:"Invisible Web: The Cloaked Internet"("看不見的網頁":被掩蓋的網路資源)、" Visible versus Invisible Web"(從可見網頁到"看不見的網頁")等等, 可作為搜索"Invisible Web"的指南。

5、Academicinfo( http://www.academicinfo.net/),學術資源主題指南,提供一個適合大學生利用的學術網路資源檢索入口。它以"Subject Gateway"區分知識領域,利用知識樹的方式細分主題,主題下彙集該門學科的包括資料庫等的各種相關網路資源,而不僅僅是網站的鏈接。該目錄以圖書館和學術單位的電子資源為主,主題的分類和內容指引清晰易尋,使用方便。

二、搜索"Invisible Web"的網站

1、Direct Search ( http://www.freepint.com/gary/direct.htm),最具權威的用於檢索"看不見的網頁"的網站,擁有數量龐大的Invisible Web資源鏈接。

2、The Invisible Web Directory ( http://www.invisible-web.net/),《看不見的網頁》(The Invisible Web: Uncovering Information Sources Search Engines Can『t See )作者Chris Sherman和 Gary Price創辦的專門用於指導檢索Invisible Web資源的網站,網站的宗旨是"尋找搜索引擎無法找到的隱藏的網路資源"(Finding Hidden Internet Resources Search Engines Can『t See)。

3、Profusion ( http://www.profusion.com),Intelliseek公司旗下的一個智能型並行元搜索引擎,其搜索對象分為包括WEB(萬維網)、News(新聞)、Jobs(職業信息)、MP3、Downloads(下載文件)、Legal(法津)、Discussions(討論組)等21個資源大類。可搜索以網頁搜索為主的其它搜索引擎無法搜索到的資料庫、百科全書等資源類型的信息。

4、CompletePlanet ( http://www.completeplanet.com/),BrightPlanet公司經營的網站,包括70,000多個可以檢索的資料庫及專用搜索引擎,用於從資料庫查找不能夠被普通搜索引擎索引的文件。

三、Invisible Web 資料庫

1、AnimalSearch ( http://animalsearch.net/),一個適合家庭使用的有關動物的網站資料庫。

2、Educator『s Reference Desk ( http://www.eduref.org/),在過去的十年中,該網站始終鏈接著AskERIC網站上的2000多個教學計劃, 3000多種在線教育信息鏈接和200多件諮詢檔案。該網站提供"ERIC教育研究資料庫"--世界最大的教育資源資料庫和美國教育部的GEM(Gateway to Educational Materials)的檢索入口。

3、NatureServe Explorer( http://www.natureserve.org/explorer),網上百科全書,提供美國和加拿大60,000多種植物、動物、生態系統的權威資料。

4、Nuclear Explosions Database ( http://www.ga.gov.au/oracle/nukexp_query.html),澳大利亞地球科學資料庫,提供1945年以來世界範圍內核爆炸的地點、時間、規模等數據,點擊"databases"下的"Online Tools"可以看到在線製圖工具和資料庫列表。

5、PubMed ( http://www.ncbi.nlm.nih.gov/entrez/query.fcgi),提供對MEDLINE(美國國家醫學圖書館的文獻資料庫)1400多萬全文和相關資源的檢索,還可以瀏覽美國國家醫學圖書館(NLM)所屬的國家生物技術信息中心(NCBI)的數字化生命科學期刊文獻館(PubMed Central (PMC))中160多種專業期刊全文和《書架》(Bookshelf)資料庫中不斷增長的生物醫學工程圖書的全文,它還提供目前世界上最大的生物分子資料庫NCBI的Entrez資料庫檢索系統,以此為入口可以檢索更多的生命科學方面的資料庫。

6、LookSmart『s FindArticles ( http://www.findarticles.com/),LookSmart管理的一個免費全文資料庫,可提供900多種出版物的5500萬篇文章的全文免費檢索和列印。從LookSmart主頁(http://search.looksmart.com/)上列的"Articles"按鈕,也可進入該資料庫。

7、Directory of Open Access Journals ( http://www.doaj.org/),2003年5月由瑞典隆德大學圖書館推出的開放式目錄檢索系統,免費提供1300多種期刊的篇目檢索和300多種自然科學、人文科學及社會科學期刊的全文檢索。

四、搜索引擎

1、Incywincy( http://www.incywincy.com/),以Net Research Server (NRS)技術為核心的Invisible Web搜索引擎,其目錄是由DMOZ(http://dmoz.org/)提供的 Open Directory Project,其"蜘蛛"程序並不是探尋所有的網站,而僅僅是抓取ODP中的Invisible Web網頁。

2、google scholar( http://scholar.google.com),Google學術搜索實際上是Google索引的一個子集,涉及醫藥、物理、經濟以及計算機科學等多個領域,可以搜到一些與輸入關鍵詞相關的學術性刊物文章,研究機構論文、書籍、摘要及技術報告等等,搜索結果中可以列出文章的不同版本以及被其他文章所引用的次數。它可以對pubmed(美國國立生物技術信息中心(NCBI)開發的用於檢索MEDLINE、PreMED-LINE資料庫的網上檢索系統)等獨立的專業資料庫進行檢索。

3、Singingfish ( http://www.singingfish.com),一個優秀的聲/視頻搜索引擎,它只索Windows Media、Real、 QuickTime、mp3等多媒體文檔,其搜索結果可以免費使用。

4、Google News ( http://news.google.com/) 頗受好評的Google新聞搜索,擁有4500多個新聞源,每15分鐘自動更新,其"Top Stories"下拉菜單,可供瀏覽不同國家的"最新新聞"。註:Yahoo!News、Topix.net、Daypop等也有類似功能。

5、Scirus ( http://www.scirus.com/) ,一個覆蓋16700多萬網頁的著名的科學搜索引擎,它的高級搜索功能尤其令人稱道,可以從科學學科(如:Agricultural and Biological Sciences、Astronomy...)、信息源(如:NASA、US Patent Office...)、文件格式(如:PDF、HTML...)、信息類型(如:Abstracts、Articles、Books...)等途徑檢索1920年至今的期刊和網路科學文獻,查找具體數據、報告、文章和相關研究網頁極為方便。

在搜索多種非HTML文檔(non-HTML files)方面功能強大或獨具特色的普通搜索引擎,如Google (http://www.google.com/) 、Yahoo! (http://www.yahoo.com/)、Gigablast (http://www.gigablast.com/)等,也是搜索Invisible Web不可忽視的工具

- 作者: 邢志宇 2004年12月16日, 星期四 10:07 加入博採


推薦閱讀:

授人以資源 不如授人以資源網站
QC七種工具以及IE七大手法PPT305頁
[轉載]工具袋(簡易教程)
0321 - 用「好」工具 &「用好」工具

TAG:工具 | 網頁 | 查找 |