搜索=關鍵詞 回車?是時候掌握這些檢索訣竅了 | 無訟學院

我們常說,「搜索引擎能回答的問題就別要輕易問別人」,是一種必備的檢索意識。但這樣一種最公開、最普及,看似人人都能用、都會用的工具,想用得妙、用得好卻絕非易事。

互聯網時代的搜索引擎,是我們了解世界的第三隻眼睛,檢索能力的高低決定了獲取資訊深度和廣度的天壤之別。那麼如何在法律檢索之中用好綜合搜索引擎?今天的天同訴訟圈(tiantongsusong)文章力求幫助大家少一些錯誤認識,並掌握一些基本方法。


文/天同律師事務所 李謙

一、擯棄搜索引擎萬能論

正確利用搜索引擎,要知其能知其所不能,即充分了解搜索引擎的局限,並通過科學的使用方法避免搜索引擎設計局限帶來檢索結的果不精確。

在這裡,我們需要澄清的第一個問題就是:使用搜索引擎搜索並不等同於對整個互聯網的搜索。即使最大的搜索引擎,通過網路爬蟲搜集並建立索引的數據總量,也只能佔到互聯網上網頁總量的30%,且不同搜索引擎之間的網頁數據重疊率一般在70%以下。所以,在使用搜索引擎時,搜索的不是網路,而是已經建好的資料庫。譬如,以「無因管理」作為關鍵詞搜索,百度反饋的結果共計280萬餘條,搜狗反饋的結果共計3萬餘條,Bing反饋的結果共計674萬餘條,360反饋的結果共計177萬,各個資料庫就此問題收錄的數據基量差別由此可見一斑。

第二,搜索引擎無法解決所有的檢索問題。有些商業資料庫、封閉論壇、專業網站的內容無法被搜索引擎的網路爬蟲搜集,在根本沒有被收錄的情況下,檢索技能再高超也不可能找的到。尤其對於專業壁壘特別高的行業,譬如法律、財會領域,專業資料庫的數據並未對搜索引擎放開,絕大多數情況下必須付費檢索。這也是為何搜狗搜索引擎收錄的數據量無法與其他同類搜索產品抗衡,但僅憑獨佔性擁有「微信」和「知乎」兩個平台的檢索入口,就可以在搜索引擎市場佔有不可撼動地位的原因所在。

第三,搜索引擎的能力和偏好不同、抓取的網頁各不相同、排序演算法也各不相同。在不同的搜索引擎中嘗試輸入「北京武漢」,會發現各個搜索引擎優先反饋的內容均為火車車次、航班班次及相應價格,結果差異不大。這是因為搜索引擎一直在通過智能聯想試圖理解用戶輸入內容的意圖,針對一些符合絕大多數用戶思維習慣的日常生活事項,各個搜索引擎的收錄數據和演算法並無明顯差異,挑選任一工具均可。但對於法律檢索而言,檢索的事項多數情況下非日常生活事項,具有一定的專業性,這時候,懂得利用不同搜索引擎交叉檢索核驗,是避免資料庫本身設計缺陷導致檢索結果不精確的重要環節。

二、學習搜索引擎邏輯運算符

目前絕大部分資料庫和搜索引擎均支持的邏輯運算符號為布爾邏輯運算符(Boolean Logic),由三個重要的邏輯符號組成:1.與→and;2.或→or,3.非→not,and not,-(減法)。

在百度、搜狗、Bing和360搜索中,如關鍵詞之間以空格隔開,默認的邏輯運算符即為and。所以,輸入(合作辦學and協議and效力)與輸入(合作辦學協議效力)的檢索結果應該是一致的。

但如果使用多個不同的邏輯符號連接檢索詞,就像加減乘除的優先運算順序不同一樣,布爾邏輯符的優先運算順序也有差異,其優先順序排序為:not→and→or。此種情況下,為保證資料庫按照用戶需求準確檢索,就需要利用布爾邏輯符構造檢索表達式。

譬如通過綜合搜索引擎查找除買賣合同之外的其他合同效力問題,可以組配(合同and效力)-買賣合同,或者(合同and效力)not買賣合同來嘗試查詢。

三、了解基本的檢索命令表達式

搜索引擎在搜集相關信息的時候,抓取的信息維度很多面:來源、標題、配圖、關聯信息等等,這就意味著我們可以利用它搜集的不同信息維度進行不同需求的檢索,譬如專門檢索標題、檢索更新日期等。學會基本的檢索命令,可以有效解決綜合搜索引擎反饋結果關聯性不高的痛點,囿於文章篇幅,本文僅介紹幾種最常用的檢索命令:

1.雙引號「」-完全匹配檢索

現在多數資料庫具有智能聯想功能,為避免錯誤的智能聯想和解構導致檢索結果「答非所問」,就需要啟用雙引號「」精確檢索命令。即將檢索關鍵詞放在雙引號中,進行完全匹配搜索,這等於告訴搜索引擎,結果返回的頁面必須與雙引號中的內容完全一致,這麼做的好處有三:

一是避免不必要的自動聯想。譬如輸入lifugui,資料庫可能以為用戶要查找的是人名「李富貴」,進而智能地反饋以李富貴為關鍵詞的檢索結果。

二是避免隨意變換字母順序,產生新的排列組合。譬如想檢索World IntellectualProperty Organization,如果不加引號,默認是and的關係,字母順序是可以調換的,World Property Intellectual Organization就可能作為檢索結果被反饋回來。

三是避免被任意添加關鍵詞。譬如輸入Emma Watsons,如果不加引號,搜索引擎可能反饋的結果中就包含了Emma bought tissues in Watsons這樣的句子。

需要提醒的事,在搜索地名、人名、機構名稱和其他專有名稱的時候,盡量使用雙引號精確檢索,避免進行二次繁複的結果篩查。

2.intitle:-標題中檢索

「intitle:(注意此處為英文半形冒號,如無特殊提醒,下文中出現的冒號均為應為)"指的是返回的結果是標題中包含指定關鍵詞的網頁。

譬如你想檢索「預期違約」相關文章,如果直接以「預期違約」作為關鍵詞進行檢索,很可能找到一篇談及不相干話題的長達幾萬字的論文,而其中僅出現了一次「預期違約」。如果用「intitle:預期違約」作為關鍵詞檢索,得到的結果是標題中含有「預期違約」四個字的網頁,相關性和精確度將大大提高。

3.filetype:-文件格式檢索

現在很多紙質版本的材料均被電子化,如何找到某一特定類型的電子版本材料是重要的檢索技能。「filetype:」即為限定文件格式檢索。

譬如「合同法filetype:ppt」即檢索文件類型為ppt,包含關鍵詞合同法的相關內容。

很多人會問,直接以「關鍵詞.ppt」的形式檢索與用「filetype:」命令檢索有何不同?如有此疑問,不妨以「鄉關何處.pdf」與「鄉關何處filetype:pdf」分別檢索,前者搜索引擎反饋的內容包括但不限於pdf格式的文件,epub格式txt格式也會出現在結果之中,後者搜索引擎反饋的結果有且只有pdf格式。

4.site:-特定網頁、網站內檢索

我個人認為,僅憑「site:」這一招,就能將檢索效率成倍提升。

作為最常用且最好用的檢索命令,site可用來檢索某個域名下的所有文件。譬如在百度中檢索「證券法修訂site:gov.cn」,即檢索所有被百度收錄的、出現在中國政府官網上的、有關證券法修訂的內容,再譬如,檢索「傲骨賢妻site:blog」,即檢索所有出現在博客中的有關傲骨賢妻的內容。

但site的有用之處遠不止這些,它還有兩個獨門秘笈:

第一,以綜合搜索引擎的特定域名搜索代替某一特定網站的站內搜索。相信大家都有想在站內查詢卻不得的體驗,一些網站根本不提供站內搜索功能,或有的網站有站內搜索框,但輸入內容沒有任何反應,更有甚者,會直接鏈接到其他綜合搜索引擎。為避免這種尷尬的情況發生,你可以使用site命令完成站內檢索,譬如「環境法site:npc.gov.cn」即為在全國人大網站搜索有關環境法的所有內容。

第二,搜索有些封閉的註冊網站的內容。有些網站的內容是需註冊才可以瀏覽的,但用戶往往沒有註冊資格或認為註冊手續過於繁瑣。這時候,site命令可以幫助用戶在不註冊的情況下檢索網站內容。譬如,新浪微博不登錄沒有辦法用它自帶的檢索功能。如果不想註冊又想檢索,不妨使用「天同律師事務所site:weibo.com」這樣的命令去檢索天同律師事務在新浪微博中的相關內容。

5.inurl:-特定類型網頁檢索

url(united resource locator)統一詞源定位符是重要的網頁類型識別標誌。任何網站的url都不是隨意設置的,url與網頁的內容有密切關聯,所以可以利用這種相關性來縮小範圍,準確找到所需信息。

譬如「inurl:news」即在所有的新聞報告頁面中進行搜索,譬如「inurl:中華人民共和國最高人民法院」即在最高人民法院官網進行搜索。

上述高級檢索命令遠不是全部,僅為常用的幾個,如讀者有興趣,不妨自行進行深入挖掘和研究。

四、建立搜索引擎使用的層次

根據搜索引擎使用能力和使用需求的高低,結合上述基本方法,所有引擎日常使用情景可大致分為以下幾個階段:

第一階段:會使用關鍵詞

第二階段:會使用關鍵片語配

第三階段:會使用關鍵詞 邏輯連接符

第四階段:會使用關鍵詞 邏輯連接符 檢索命令

誠然,第一階段和第二階段的初級使用方法,一般用戶都可以熟練掌握,我們需要練習並提高的是第三階段和第四階段的使用技能。

譬如你可以組合(「國際貨物買賣合同「and」效力」)-無效filetype:doc之類的關鍵詞去檢索,搭建的層次越多,邏輯越合理,得到精準結果的可能性就越大。學會混搭檢索命令、邏輯符號和檢索關鍵詞,檢索真的像探險一樣,充滿了無限的可能性。

看到這裡,可能很多讀者會覺得,學這些好麻煩,直接用單一輸入框多簡單。這樣的思維是錯誤的,恰恰相反,懂得越複雜的指令,你利用綜合搜索引擎做檢索的自由度反而越大。所以,上述技巧值得反覆推敲和練習,同樣的工具,如果你將它的使用效率成倍的提升,將會從檢索這件看似枯燥的工作中得到意想不到的成就感。

(溫馨提示:很多搜索引擎提供了高級檢索功能,利用高級檢索功能進行限制檢索,得到結果的準確性和關聯度遠比利用單一檢索框要高。)


推薦閱讀:

請問這種塗鴉風格的熊貓原圖是什麼?
搜索
藝度搜索 | 2016春拍索引-唐卡
搜索結果
【搜索Case分享】五分鐘,教你優化知乎搜索

TAG:檢索 | 搜索 | 關鍵詞 | 學院 |