李彥宏的搜索專利和 Larry Page 的專利到底是不是一回事？

01-09

Li Yanhong 的專利：http://goo.gl/x9Tj6
Lawrence Page 的專利：http://goo.gl/Q94Z2

這兩份專利其實是百度和google的兩家立家之本, 看起來由很多相似的地方, 但實際差別挺大

相同點

對於搜索引擎(信息檢索)中, 都強調了反向鏈接作為一個核心的rank參數來源

這一點在97/98年的時候, 就和今天談論個性化社會化搜索一樣, 在當時infoseek的時代相當於是個全新思路

不同點

1) robin li的專利後來我們稱其為"鏈接分析"技術, 是基於anchor text計算文本和query相關性的方法.

When a query is entered, the search engine finds all document vectors for documents having the query terms in their anchor text. A query vector is also calculated, and the dot product of the query vector and each document link vector is calculated.

專利裡面的說法是, 文檔(doc)的term向量和query的term向量點乘出來的, 實際就是每個term加權求和, 來決定搜索引擎rank. 是個比較完整的搜索引擎rank技術專利

2) lary page的專利其實就是名聲大噪的Pagerank演算法應用於搜索引擎

a constant representing the probability that a browser through the database will randomly jump to the document

專利裡面的說得"隨機瀏覽一個文檔的概率"就是指PageRank. 詳細的內容可以直接看論文The PageRank Citation Ranking: Bringing Order to the Web, 比專利詳細. 專利本身沒有詳細介紹這種概率如何影響最終rank.

兩個專利從演算法層面來看, 是完全不同的兩種計算模型. 可以說是面向相同數據的不同思路.

keso曾經有過一篇文章討論過這個問題，還引起了比較深度的討論：

http://blog.donews.com/keso/archive/2006/05/08/860109.aspx。

總的來說，這兩個專利有相似的地方，就是都是利用了超文本，不過具體的內容並不一樣。

為了方便，以下內容來自malefactor的討論發言：

大致比較了一下兩個方法,其實ROBIN LI的方法和PAGERANK是完全不同的演算法,ROBIN LI的方法是所謂的"虛擬文檔"的方法,就是把所有指向某個頁面的鏈接"錨文字"來代替網頁的內容,並以此計算和查詢的相似性,說實話,在當時來說,這個也是比較有新意的演算法,但是和PAGERANK思路是完全不同的,PAGERANK並非計算查詢和頁面的相似性的,而是計算頁面重要性的演算法;

看PAGERANK的思路,兩者是完全不同的.

首先,PAGERANK是跟查詢完全沒有關係的,它並不是用來計算查詢和頁面的相關度的,假設一個搜索引擎完全採用PAGERANK來評分的話,不論用戶的查詢是什麼,搜索結果排名是完全一樣的,而ROBIN LI的虛擬文檔方法是根據指向一個網頁的鏈接文字是否包含查詢辭彙來計算查詢和頁面的相似性的,所以首先兩者要解決的問題就不一樣,出發點是不同的.

另外,ROBIN Li的方法並不能向PAGERANK那樣體現"如果指向一個頁面的鏈接數目越多,那麼頁面權值越大",假設一個用戶搜索"JAVA",假設一個頁面A有100個鏈接指向A,如果只有3個鏈接的錨文字包含JAVA,那麼其它97個鏈接的貢獻是0,而PAGERANK是不考慮這種情況的,所有100個鏈接都對頁面A有貢獻;

第三,PAGERANK的核心思想是根據頁面鏈接關係通過疊代計算來將頁面本身重要性得分進行傳播,而ROBIN Lii的方法完全是不能體現這個思路的,只是錨文字是否包含查詢對於頁面是否相關有作用.

虛擬文檔現在已經是一個比較常用的技術了(當然PAGERANK在研究領域應用更廣泛),它和PAGERANK無論是出發點,基本思路,計算方法都是有本質區別的.

malefactor —— 2006-05-08 @15:28

百度 PriceRank vs. 谷歌 PageRank

robin li的專利只是一個巧妙的搜索匹配演算法。但更容易被攻擊，因為沒有一個對文檔或者文檔所在網站有個合理的RANK定義。

Lary Page 的專利是通過定義互聯網中每個文檔的權重，Bringing Order to the web.比如說即使是同樣的符合搜索關鍵字的內容，ibm網上的權重比一般不知名網站的權重高，所以搜索結果自然靠前。不過目前這個思想在現在的互聯網已經有很大的局限性，你會發現原創內容的網站結果排名在一些轉載的網站之後。相對而言，現在互聯網更強調人的作用。社交網站譬如facebook或者微博里可以通過更為靠譜的基於people的rank來進行排序。打個比方，李開復的rank比你要高，他的內容相對就要比一般人靠前。