爆料館:搜狗搜索的100億網頁數據從哪來
打開SOGOU首頁,「3.0」,「100億」兩組數字尤為顯眼,看來SOGOU在拿抓取100億頁面來做文章,吸引眾人眼光。但其所稱的100億數字,令眼鏡蛇質疑,抓取的100億頁面質量怎麼樣,如果將一堆垃圾網站的頁面抓來,不如不統計。
根據搜索研究3年的經驗,眼鏡蛇試用以前研究搜索的方法前去搜索了某些關鍵字,得到的結果令人驚訝。首先拿「搜索 %D0%A1%CB%B5」當做關鍵字去搜索,得到了「1,463,786」個結果,根據前幾十頁顯示,SOGOU抓取的幾乎是互聯網某些網站搜索結果的頁面。比如第一名,抓的是百度相關搜索的文章。SOGOU本身是做搜索的,又去抓其他站的站內搜索,這樣做是為了什麼呢?原因之一,就是為了增加收錄量,因為一個網站,站內搜索關鍵字可以去換,比如眼鏡蛇在百度搜索音樂,SOGOU抓一次,眼鏡蛇在百度搜索影視,SOGOU再抓一次,這樣的話,搜索的次數越多,SOGOU抓的可能性越大,這種方法是SOGOU號稱抓取百億網頁的其中之一。這種作法不會影響SOGOU的搜索質量,又同時給SOGOU增加了數據量,SOGOU在這點很聰明。
針對做弊網站,SOGOU也是照抓不誤,百度針對做弊網站的作法是封殺,然而SOGOU幾乎不封的,只是降權,這一點又為SOGOU在數據量上做了貢獻。像GOOGLE上的做弊網站也很多,多數雖然不封殺,但不會拿抓取網頁數作為搜索宣傳的手段。
眼鏡蛇又想到了個方法測試SOGOU抓取百億頁面的方法,就是利用幾乎每篇文章中幾乎出現的「com」,「的」等前去搜索,結果也令人失望,「com」詞在SOGOU搜索中只找到「1,428,761,785」個結果。百度搜索「com」的結果個數為「100,000,000」,GOOGLE搜索「com」的結果個數為「628,000,000」,YAHOO中文搜索「com」的結果個數為「1,570,000,000」。在這個特別關鍵字上,百度,GOOGLE,YAHOO已經將此關鍵字的搜索結果個數處理了,SOGOU的數據應該是未處理的,其結果只有14億多。很明顯的看出,SOGOU網頁抓取數據之多,但供檢索的數量遠沒有100億那麼龐大。
眼鏡蛇利用SOGOU的「比比看」試著搜索了一些熱門關鍵字,發現SOGOU的技術的確大有進步,好些詞的結果滿意度已經超過了baidu與GOOGLE。網頁搜索質量上去了,但也不能撒謊稱自己擁有百億搜索結果,用戶關心的是搜索質量,不是搜索數量。搜索行業,2007又是殘酷競爭的一年,SOGOU要想一統天下,下面就要看怎麼從百度,GOOGLE中搶用戶了。(
推薦閱讀:
※『究竟要賺多少錢才能快樂?』今日數據行業日報(2017.6.8)
※權威發布丨2017年旅遊市場及綜合貢獻數據報告
※長文 數據 表情包——小李子今年到底能不能拿奧斯卡?
※場景、內容、用戶需求!「未來酒店」如何搭建「大數據之路」
※北京 7 家三級醫院加入皮膚影像人工智慧協作組;《獨立報》數據顯示警務人臉識別準確率僅 2%:AI 掘金晚報