搜索模式的「發現」之旅
本月打電話免費 5周年慶典,主機6.2折 趨勢送噹噹500元代金卷買軟體 送HP伺服器 |
用戶常常很難用具體而明確的關鍵詞來描述自己想找的東西,而搜索出來的結果大部分與這個關鍵詞並沒有太大關係。採用「模式識別」搜索方法,可找出在內容上最接近的數據提供給用戶,避免傳統了「關鍵詞檢索」造成的漏檢情況。
目前,世界範圍的WWW正以每9個月增加一倍的速度飛速發展,並還將以指數速度繼續增加。而另一方面,雖然檢索到相關結果的速度正以兆兆位元組甚至十倍於此的速度增加,但在從Web或數據倉庫中找到您所需要的內容卻並非進展迅速。2004年5月Nielsen Norman Group發布了其2004年Web可用性調查結果,其中強調了搜索已成為Web應用成功道路上的巨大障礙之一。
搜索方式亟待突破
據調查,訪問搜索引擎已成為88%的Web會話中的第一步,同時用戶平均在每次會話中會訪問3.2個站點(訪問搜索引擎除外)。就搜索成功性而言,所有用戶(包括偶爾使用或經驗豐富的用戶)對搜索結果滿意的次數百分比僅為42%。儘管僅對經驗豐富的用戶來說,這一數字可以達到50%,但這仍然意味著失敗。
最糟糕的搜索經歷常發生在使用企業網站點搜索,而不是使用巨型搜索引擎的時候。大約有60%的被調查用戶僅在搜索開始時鍵入一個單詞,另外的20%用戶鍵入了兩個單詞。只有1%的被調查用戶使用了高級搜索功能,而使用引號或其他查詢語法對搜索進一步優化的用戶僅有3%。
此外,調查還表明,搜索結果頁面中的第一條鏈接得到了51%的點擊率,第二條獲得了16%。從搜索引擎公司的資料庫也得出了同樣的結果,由此產生了關於搜索的一條定律:不要奢望用戶使用比搜索引擎所提供基本工具技巧更多的手段來獲取信息。搜索引擎不得不採取措施使自己變得更為聰明,同時能更準確全面的為大多數用戶帶來令人滿意的搜索結果。
Forrester Research的統計表明,非結構化「內容」量正在以每年200%的速度增長。分析師估計,一般員工大約花費35%的時間尋找工作所需的非結構化信息。低下的內容處理效率和不斷膨脹的內容量,導致很多時候造成大量的資源浪費:一是信息堆積的本身是一種資源的浪費,信息是一種財富,無論是歷史積累起來的大量資料,還是每日最新的新聞稿件,都是每一個機構最有價值的資源,簡單的堆積是遠遠不能體現這些資源的真正價值;二是不能有效地使用信息,大量已有系統存儲設備、各種應用系統的資源的浪費;三是對人員資源的浪費,無論是現在對信息的預處理,還是各種應用系統的維護,人員投入都是必不可少的,這也是最昂貴的資源之一。
目前常見的一些對信息應用的技術,還主要圍繞在一些傳統的檢索方式上,如關鍵詞檢索、邏輯語言、布爾語言檢索、人工標引、人工做連接、人工分類、人工填寫愛好表格等,對信息的使用依賴大量的人工預處理,方法也非常單一。
從以上簡單的事實對比,可以發現一個隱含的迫切需求:用戶需要有一個工具,能同結構化信息一樣,有效地管理非結構化信息。Autonomy正是為給這個軟肋補鈣而生,Autonomy既是一種搜索新理論的代名詞,又是一個公司的名稱,同時還是一個產品的名字。Autonomy雖然在公眾中的知名度不太大,但在商業應用領域中卻名聲煊赫,並在政府、國防、新聞、金融、電信、教育等領域擁有大量中堅客戶。從Autonomy目前的蔓延態勢看,它很可能成為幾大傳統搜索門派的終結者。
圖 Blinkx門戶網站
幫助用戶發現信息
目前,人類研究的信息搜索技術有四個方向:關鍵字搜索、模式識別、語義分析、神經網路。除了關鍵詞搜索比較成熟外,其它三項技術還處於待開發狀態。模式識別的代表者就是Autonomy,語義分析和神經網路兩個技術方向目前尚無壓倒性的代表者,這兩個技術方向的研究難度相對較大,估計一時半會不會有突破性研究成果。所以,模式識別就成了目前比較先進的信息搜索技術。
傳統搜索基本上採用「關鍵詞」搜索方式,也就是「非0即1」的方式,它基於嚴格定義和分類的布爾表達式,即「與、或、非」表達式。這樣搜索的最大弊病就是,如果關鍵詞不確定,或者有錯誤疏漏,用戶往往得不到自己想要的搜索結果。
在實際應用中,用戶常常很難用具體而明確的關鍵詞來描述自己想找的東西,甚至在有些時候,搜索出來的結果大部分與這個關鍵詞並沒有太大關係,只是結果文章中出現過這個詞而已。例如,一個用戶希望了解污染對企鵝造成的影響,使用關鍵詞搜索法,鍵入「企鵝」,搜索結果可能帶來一些有用的信息,但同時也有大量不相關的文章,如「企鵝出版公司」、「企鵝牌服裝」、「企鵝冰箱」等。
採用「模式識別」搜索方法,可通過判別相關識別度的高低來對數據進行檢索,即它會對用戶鍵入的檢索內容進行語意上的分析,然後對海量信息進行概念匹配,找出在內容上最接近的數據提供給用戶,所以可以避免傳統「關鍵詞檢索」造成的漏檢情況的發生。比如,一篇文章里如果有「大海」這個詞,這篇文章有可能和企鵝有關,但是「大海」這個詞用在很多不同的地方,有可能文章講的是別的內容。但是如果一篇文章里有「大海」、「南極」、「黑色」、「白色」、「不會飛」、「羽毛」、「下蛋」、「石油」、「泄漏」等這些詞,這篇文章是在談論污染和企鵝的概率就會很高。雖然整篇文章里沒有「企鵝」這個詞,但是很多相關度較低的詞出現在一起就會帶來很高的相關度,並且缺少某個描述詞對其產生的結果影響微乎其微。
如果說傳統的「關鍵字」搜索方法為「search」(搜索)的話,Autonomy採用的「模式識別」方法則應該稱為「discover」(發現),因為它可以讓用戶找到一些事前他們不知道的信息。Autonomy產品中提供的「聚類」功能正是「從搜索到發現」的最佳表現。如果一個用戶需要知道「本月最熱門的IT新聞事件有哪些」,使用Autonomy的「聚類」功能就可以得到近乎完美的答案。
在企業內部,Autonomy是追求建立符合企業內部數據管理需求的平台,可將放在不同位置的不同類型的數據進行有效梳理。「搜索」不是Autonomy的最終目的,抽取最需要的信息進行「信息集成」,搭建知識管理平台才是Autonomy的應用方向。
業內人士認為,政府機構和一些需要對信息進行監控的機構是該系統在中國的潛在市場。Autonomy曾經在美國本土安全局、美國國防部、美國航天局、英國警察署和美國陸軍有過成功應用。因為對於網路上出現的大量的有害信息,Autonomy可以做到事前發現,從而幫助政府機構採取及時地反應。
隨著互聯網的多元化,大量網上違法信息都不以關鍵詞形式出現。例如,政府有關部門要打擊網上非法買賣違禁藥物,使用「搖頭丸」、「興奮劑」等關鍵詞搜索出來的內容多數是關於藥物危害、打擊犯罪等方面的正面文章,而出現「興奮」、「購買」、「單價」等關鍵詞的文章,則與非法買賣違禁藥物的相關度最高。通過這種非關鍵詞搜索的「模式識別」搜索,政府監控部門可以有效打擊日益猖獗的網上犯罪。
智能搜索的「樣板工程」
2004年7月,美國Blinkx公司推出了一種新型搜索工具Blinkx,而Blinkx的核心技術則來自Autonomy。該工具可以提供類似「模糊搜索」或「語義搜索」的功能。也就是說,系統經過「學習」積累了一定「經驗」後,可以滿足用戶類似「最便宜的筆記本電腦是什麼」這樣的搜索需求。Blinkx不僅可以搜索文本內容,還可以搜索電影、電視等多媒體內容;不僅可以搜索互聯網內容,還可以搜索本機和區域網上的內容;Blinkx同時還可以搜索不同的文本格式內容,如Text、Word、Excel、PPT、PDF,以及各種資料庫中的數據格式。有媒體把這種搜索方式稱為「占卜式」搜索,也有人將其稱為「智能搜索」。
圖2企業桌面搜索工具IDOL結構圖
Blinkx公司同時發布了提供這種新型搜索功能的兩個服務工具,一個是門戶網站www.blinkx.com(如圖1),一個是在該網站上可以下載的客戶端軟體,該軟體大小約7MB。儘管這兩個工具目前僅支持英德兩種語言,而且都只是測試版,但它提供的震撼性功能已經開始讓傳統搜索巨頭們為之矚目。
與傳統搜索網站不同的是,在Blinkx的搜索框中鍵入用戶指令,出現的結果可能被系統自動分為10類,可能其中9類與用戶的查詢期望距離較大,用戶就可以將接近的那個結果作為查詢條件,進行第二次查詢,完成「進階式」查詢,通過這種方式逐步接近目標,最後達到用戶期望查詢的結果。
而且,用戶完全可以拿一篇文章來作為「查詢關鍵詞」,Blinkx通過對這篇文章進行分析,會給出與這篇文章內容最接近的網路鏈接或本機文檔。這無疑給需要處理大量數據的個人和企業提供了巨大便利。
據悉,Blinkx將進入中國市場,其中文測試版已經「竣工」。據英國Autonomy公司在國內的代理商卓越動力軟體(北京)有限公司稱,目前已經在國內某數據中心建立了一個試驗平台,大約有30多台伺服器正在運行著Blinkx的後台系統。
Autonomy公司是Blinkx公司的股東之一,加上Blinkx的核心技術來自Autonomy這種密切的關係,Blinkx被認為是Autonomy的「樣板工程」。
桌面搜索成為競爭焦點
企業網路的搜索比較複雜,雖然它的資料量相對非常少。通常,企業信息是以各種不同的格式,如電子表格、PDF、HTM網頁或多媒體文件,存儲在各個不同的地方。同時,企業客戶要有可靠的存儲系統,還有協作工具、安全工具等。所以企業搜索需要具備更聰明的功能,能從各種不同的信息來源做信息的收集和關聯。
企業非結構化信息搜索的商機,引得眾多IT巨頭紛紛加入搜索戰團,處理非結構化信息的桌面搜索模式成為競爭焦點。微軟、IBM、Autonomy、Yahoo、AOL等和Google正在開展直接的競爭。
2004年10月14日,Google公司推出新桌面搜索工具預覽版—Google Desktop,在提供計算機硬碟信息搜索的競賽中,向主要競爭對手發起了第一波攻擊。Google Desktop目標直指微軟公司以及AskJeeves和AOL等其它公司已發布或預期發布的桌面產品。Google Desktop使用戶可以搜索Microsoft Outlook和Outlook Express中的電子郵件、AOL Instant Messenger中的聊天內容,以及微軟IE中查看的網頁。它還幫助用戶搜索純文本、Microsoft Word、Excel和PowerPoint文件及其它內容。Google的目標是讓它表現得像是計算機中的照相存儲器。
Google推出了Google Scholar和Google Suggest搜索工具測試版,Google Scholar主要致力於學術和科技資料的搜索。Google Suggest功能更為奇特,當用戶鍵入幾個關鍵詞後,它就能猜出您搜索的內容。
據Google公司內部消息透露,公司正在加緊研製桌面搜索工具的企業版,這將給企業IT管理者更大的搜索信息控制權。企業版搜索工具的顯著特點是:具有口令保護功能,支持單系統上多程序搜索。目前,業內尚不知其實際效用。Google桌面搜索功能將整合在Google搜索工具中。
微軟這位軟體巨人,也緊隨Google和其它公司創新的步伐,並於2004年12月10日公布了WinFS,又在幾天後宣布推出桌面搜索工具測試版本,並稱在今年正式的搜索版本將與用戶見面。
IBM公司的研究人員描述了公司「未來搜索」的概念,並演示了即將生產和銷售的幾種不同產品。日前,IBM推出了OmniFind,這也是公司解決搜索問題新戰略的第一步。據IBM稱,這種稱之為「非結構性信息管理架構」或是UIMA的模式,將引領第三代信息搜索的潮流。新的搜索工具將使進一步搜索成為可能,這種「發現系統」將能辨別存儲信息中潛在的意義,不論這種信息是什麼結構(資料庫、電子郵件、錄像、圖片或是視頻信息),不論它是什麼語言,都能一網打盡,這種搜索包括業內多年以來都在苦苦探索的「自然語言處理」、外語計算機翻譯以及其它棘手的技術。
IBM公司負責這項研究工作的人士指出,使用Google搜索方式,用戶可找到世界各地不同語言的網頁資料,但其速度較慢,而且結果令人迷惑。而IBM採用的是稱之為Piquant的語義搜索形式,能對沒有出現的知識進行智能搜索。比如,當搜索出一篇關於加拿大總理的文章時,它會自動提示一個問題「誰是加拿大總理」?甚至還會出現一些文章中未出現的東西。
最近,Autonomy透露了其新搜索工具的詳細情況,Autonomy公司推出的企業桌面搜索工具IDOL(如圖2),具有先進的身份認證和SSL加密技術,它允許用戶搜索在電腦桌面、企業網路、網站以及地區數據源上存放的文檔、電郵、網站以及多媒體信息。
Google的搜索與廣告合作夥伴—AOL於2004年10月14日證實它正在測試一種新搜索引擎。這種搜索引擎與Google產品類似,都可以搜索Word和Excel等Microsoft Office文件、照片、音樂,以及來自AOL Instant Messenger的聊天日誌和以前看過的IE網頁。
不久前,雅虎公司宣布使用X1系統作為其桌面搜索工具的基礎。AskJeeves、EarthLink以及小型搜索公司dTSearch、Copernic、Accoona也都加入了搜索大戰。Copernic也推出了Copernic桌面搜索1.2版本(Copernic Desktop Search Version 1.2),而ISYS搜索軟體公司也宣布將於明年早些時候升級其先前的搜索工具。
鏈接
Autonomy的技術特點
Autonomy軟體設計的原則是無需用戶改變已有的使用習慣,也不用改變已有的系統架構、應用程序和存儲結構,甚至不需要改變已有的用戶界面。Autonomy在保留了傳統搜索方法的基礎上,還發展了新的方法,它支持所有的傳統式的檢索和設置方式,包括關鍵詞、邏輯語言、布爾語句等,同時提供給用戶更多更簡潔的定義方法,還可以採用自然語言的設置方法或通過反饋的文章代替人工設置,而不需要採用有諸多限制的標準詞或關鍵詞。Autonomy通過自身軟體架構的靈活性來適應已有系統架構,並可以嵌入到已有的應用系統中去,在熟悉的界面之下提供新的功能。Autonomy通過對文章的概念匹配和關聯,擺脫了很多關鍵詞檢索的弊病和局限性,所達到的信息內容價值的釋放是關鍵詞搜索引擎望塵莫及的。
Autonomy中含有一個動態推理引擎(Dynamic Reasoning Engine,DRE),它是一個擴展性很強的、多線程的核心引擎。信息的概念分析、內容提取、概念模式識別、相關度計算等關鍵工作都由動態推理引擎來完成。動態推理引擎是一個跨平台的引擎,可以在多種硬體和操作系統環境下優化運行,支持從PC使用的Windows NT操作系統到多處理器小型機運行的Unix等系統環境。它可以與各種不同信息源相連,如互聯網、資料庫、內部網和本機資料庫、文件系統等。當用戶發出搜索指令後,它可以通過概念分析、模式識別、相關度計算等方法,從不同的數據源中找到與用戶要求最匹配的信息。
Autonomy的技術特點和優勢主要有以下幾點:
自動內容綜合和精鍊 Autonomy讓系統了解自己現有信息資產的狀況,不論信息源、格式或媒介如何,都可以進行統一的操作。Autonomy能操作的信息包括非結構化的數據,如HTML頁面、字處理文檔、電子表格、電子郵件及半結構化數據(XML),以及結構化數據,如RDBMS表格和Lotus Notes。而且,Autonomy還可以綜合併且理解豐富的多媒體內容,例如音頻、視頻和圖像的概念。綜合是從不同的信息資料庫里收集、抽取和導入內容、元數據及安全數據以供Autonomy的企業桌面搜索工具(IDOL)分析的過程。
個性化操作 基於個人的檔案(profile),Autonomy可以提供廣泛的強大的個性化操作,為用戶提供條件,讓他們登記自己的興趣,了解與他們個人興趣喜好相關的信息。Autonomy的自動個性化解決方案,可以實現對目標產品或內容的高度個性化。企業應用的集成提高了生產力,個性化解決方案可以讓用戶有能力更為突出與眾不同的核心競爭力,並且更快地做出正確的決策。
信息自動分類 Autonomy獨有的自動信息聚類,避免了相關人員的手工分類的麻煩,將相關網站信息進行全自動分類,實時、客觀地反映出每一個科學門類的信息變化。這與其它的模板式的自動分類機制有著本質的區別。Autonomy的架構可以識別信息間的主要關係,從而實現內容間的交叉索引對照。最為關鍵的是,Autonomy的這一切工作是在絕對無需人工干預的情況下進行的,這對於企業的應用來講是至關重要,全自動化的工作保證了時間、效率、結果的穩定與科學。
主動匹配 企業的信息需求可能涉及的範圍很廣,從網站上最酷的新聞到剛剛播放的電視畫面,「主動匹配」可以自動幫用戶做這項工作,這樣用戶可以更快地做出正確的決策,消除重複勞動,並且可以在用戶日常工作中充分利用整個企業提供的信息系統為各個相關部門和人員提供有價值的信息。主動匹配可以將典型的文檔或以數字為中心的用戶界面轉變成以任務為導向的智能界面
推薦閱讀:
※早安心語131014:愛得起,就會發現,愛本身就是得到
※科學家發現Y染色體不但決定性別和生育還讓男性得以存活
※峨嵋山一行,猛然發現業障可以通過某些感應看出來的
※探秘婆羅洲巨型洞穴網:發現6萬年細菌(圖)
※最新發現:男人最鍾愛女人腰臀黃金比(組圖)