搜索引擎與作弊網站較量技術 作弊聯盟前赴後繼

搜索引擎背後隱含著很大的經濟利益,更容易被搜索到是提高點擊率的一個重要途徑,也是互聯網「注意力經濟」的一個重要指標,搜索引擎與作弊網站之間的矛盾,不光是技術上的攻防遊戲,實際上是一個嚴肅的產業問題。

  「芙蓉姐姐」成作弊工具

  打開Google,選關鍵詞「芙蓉姐姐」點擊,再任選一個「芙蓉姐姐」出現較多的一篇點擊,接著出現兩種可能:第一,只數秒鐘,頁面便突然彈跳到「亞洲在線最大的寬頻影院」等等網頁。第二,出現無數的「芙蓉姐姐」,再任意選擇一個「芙蓉姐姐」點擊,出現與第一種可能一樣的頁面——其內容與「芙蓉姐姐」絲毫無關,撲入眼裡的是女人半裸的身體或半裸的乳房。

  這便是一次完整的「作弊網站」體驗。

  幾乎沒有一次例外,當網路上有某一個詞成為熱點時,它必將成為作弊網站(亦被搜索引擎稱為「垃圾網站」)最為熱門的「作弊工具」。這一次輪到「芙蓉姐姐」。

  在互聯網搜索引擎領域,作弊網頁已達到泛濫成災的地步。

  這是據芙蓉姐姐走紅的7月12日的統計。以「芙蓉姐姐」為關鍵詞,通過Google進行查詢,約有1,030,000個相關網頁。查看前40篇的網頁,約有15條比較符合「芙蓉姐姐」的內容,佔37.5%,有25條不符合「芙蓉姐姐」的內容,佔62.5%。

  除了最近兩天剛排到第一位的門戶網站新浪外,第二位是Mblogger,第三的是dyo.zj.com,均名不見經傳。以排在前10位的來分析,除新浪外,幾乎全是在BSP(Blog Service Provider託管服務提供商)上申請的BLOG網站(中文稱「博客網站」),而在搜索結果的摘要內容上,這些網頁類似於專題的形式,滿目都是「芙蓉姐姐」,任意點開其中一個,大多彈出的是性感電影手機註冊下載或鈴聲下載等頁面。

  在百度里,以「芙蓉姐姐」為關鍵詞,找到相關網頁約1,340,000篇,在前40篇中,排在前面的主要是網易、TOM、新浪女性、QQ等門戶網站的專題,而在Google中,這些內容均被作弊的blog擠出前40篇之外。

  據一位不願透露名字的反spam(垃圾網站)專家王某介紹,百度這種搜索結果,並非百度偏好門戶專題新聞類內容,根本原因在於,百度已將上文提到的Google前40篇內大部分的作弊網頁自動刪除掉了,結果比較符合「芙蓉姐姐」的網頁內容自然在搜索中排得靠前了。

  以「芙蓉姐姐」為關鍵詞對照百度和Google兩個主要搜索引擎的搜索結果,可以感受到百度搜索的用戶體驗要比Google好,因為在Google中查找意味著需要在一堆「垃圾」中尋找有效的網頁。

  作弊聯盟

  有意思的是,百度屏蔽這些垃圾網站時,遭到了這些網站在技術層面上的攻擊。

  「百度一下」關鍵詞「反百度聯盟」會發現,在百度網站上有無數條有關「反百度聯盟」的信息。自6月1日「反百度聯盟」網站上線以來,目前已有2000多人次簽名。

  該網站上線之初,氣勢較大,但最近幾乎沒有了動靜。

  「反百度聯盟」發起人為一個網名為「踏雪無痕」的網友,據稱,其「美人魚」個人文學網站於去年底被刪除。該聯盟在宣言中表示,該聯盟是為了反對百度公司對廣大站長和網友不公正而成立的同盟組織,本同盟成立的目的是「為了收集百度公司對待站長和網友不公正的證據,促進監督百度公司走向公正」。但是,該聯盟成立一個半月以來,至今沒有發現該聯盟握有多少百度「對待站長和網友不公正的證據」。

  而百度對待「反百度聯盟」的態度是「兼容」,直接通過「百 度一下」,即可獲得該聯盟的所有信息。但據稱,百度對此聯盟相當重視,從該網站一出現,便組織專業人員對聯盟成員及聯盟成立原因進行調查,最終得出結論,從已明示網站站名的該聯盟成員來看,被百度屏蔽的網站無一例外都曾違反了百度的搜索引擎反垃圾網頁規則。

  業內專業人士認為,成立反百度聯盟是一件不正常的事情,這就像成立「假冒偽劣俱樂部」或「垃圾郵件聯盟」一樣,是不為一個社會所容的。

  目前,搜索引擎領域的垃圾網站,已到了泛濫成災的地步。其發展趨勢完全等同於當年垃圾郵件,已像蝗災一樣,不僅危害搜索引擎,也直接危害互聯網。

  據百度PM總監俞軍介紹,與作弊網站的鬥爭,將是互聯網上一個長久的過程,目前雙方的博弈與全球反病毒在技術與形式方面已沒有什麼區別。

  俞軍認為,從某種角度來說,幾乎是垃圾網站在推動著搜索引擎的進步。

  在搜索引擎發展初期,搜索引擎的專業人員一直在思考,如何讓搜索者以最快速度搜索到最有價值、最為相關的結果,因而發明了meta tag——這是一種「超文本標誌語言」,在互聯網體系中的作用是表明該網頁或網站的屬性。

  起初,meta tag是很好用的。那時候,誠實的web站點管理員(webmaster)們如實地填寫網站摘要,如實地列出跟他的網站最相關的關鍵字,搜索引擎們抓取、索引、檢索這些誠實的meta tag,並作為搜索結果排序的重要依據。為了有效提高搜索結果,有專門的網路人員研究SEO(搜索引擎優化),專門為網站提高搜索結果而進行優化。

  然而,人們越來越發現,搜索結果的排序,是一個巨大的利益空間——如果誰的網站或網面能夠排在搜索結果的前列,誰就有可能獲得最大的「廣而告之」效益而產生巨大利益。因而,許多「覺醒」過來的網站為了追逐這一利益空間而開始追求頁面瀏覽量(pageview)——打開一個頁面,卻可包含數個頁面元素,從而獲得眾多的點擊數(Hits)——點擊數則是「注意力經濟」的一個重要指標。

  而到了這個地步,一度推動技術進步的「搜索引擎優化」(SEO)已異化成「搜索引擎作弊工具」(英文簡稱「SEO SPAM」)。

  從Google的「芙蓉姐姐」的搜索結果便可看到這一典型的作弊:在meta tag中塞進成堆的關鍵字,或塞進跟自己的網站內容無關,但是非常流行的關鍵字——但當你打開它時,它又迅速地跳轉入作弊網站設定的網頁頁面中。

  反spam與spam間的較量

  搜索引擎第一輪反擊是,在排序時更多地依賴網頁正文而不是meta tag。但spam們以進為退,在正文中大量使用與網頁背景相同顏色的關鍵字,在圖片注釋文字中塞進關鍵字,在網頁代碼加入「看不見的注釋」。搜索引擎又開始第二輪反擊,它們找到了有效的方法來過濾這些看不見的文字。

  搜索引擎的spider(蜘蛛)在訪問任何網站時都會自報身份,並且查閱網站的訪問規定,按照各網站的規矩來辦事。於是,SEO隨之製作兩個網站,一個專供網友訪問,一個專供搜索引擎訪問,「各取所需」,這種方法叫做cloaking(外套)。

  在國外,其實早在上世紀SEO SPAM便已成大熱門。據1998年的一次調查,在主要的搜索引擎上搜索當時的熱門辭彙「Monica Lewinsky」(莫妮卡-萊溫斯基),各搜索引擎首頁居然有40%的搜索結果是垃圾網站。

  搜索引擎只能去尋找新的相關性排序依據,或作弊者不能控制的排序依據,即到網站以外去尋找排序的依據。於是,出現了超鏈分析,出現了Pagerank。超鏈分析的原理即是看網頁間的同類鏈接點作為重要依據,此後,又根據各網站的權重等來綜合分析等。這樣,gov(政府網站)和edu(教育網站)通常被賦予較高的排名,來自gov和edu的超鏈也有更高的價值。

  但spam們又據此做大量的網站,準備大量的鏈接,哪個客戶出錢,所有的網頁都給它一個鏈接。這種SEO方法被稱為linkfarm。而反spam的做法就是憑發現的linkfarm而認定此即為作弊網站。

  據某論壇上某個站長透露,目前,在中國已經形成了一個巨大SEO SPAM市場,據反spam專家王某的估計,中國以此為生的人數大約在數十萬,其網站更是高達數百萬計。在互聯網上,有眾多SEO網站,它們打著各種旗號來「指導」人們作弊,並在上面談心得體會。

  這些SEO SPAM們「賴以生存」的方式主要是以下兩種:1.利用搜索引擎引來網站流量帶動的廣告收入;2.販賣通過對搜索引擎作弊獲得的較高的關鍵詞排名。網站流量以獨立IP計算,根據站長的透露,自己每日5000個獨立IP的訪問量,僅加入了電影寬頻等3家的廣告聯盟,月入已達1300元左右。而一個被百度收錄2萬左右網頁的做流量的網站,每日IP很快就能漲到4萬元。

  前赴後繼的spam

  SEO SPAM的破壞性是相當巨大的,它不僅直接破壞了每日數億計的用戶搜索體驗——這是搜索引擎網站賴以生存的關鍵所在,同時也破壞了搜索引擎獲得收益的主要來源——競價排名以及相關廣告。

  據有關統計資料,在所有網頁中,摒除無效網頁,作弊網頁佔到整個網頁的10%;在某些熱門關鍵詞的搜索中,其前50篇網頁,垃圾網站的網頁所佔比例甚至可以高達80%以上。

  在中國,Google一直以謙謙君子的形象示人,但它也有發怒的時候。

  2005年3月26日凌晨4點,忍無可忍的Google突然發力,將廣大批spam站點清除。Google的頁面恢復了以前的乾淨。

  但事隔不到4個月,垃圾網站的網頁又如潮水般湧來。據來自Google的內部消息,Google也一直在致力於反spam,但建立一個完整的反垃圾網站系統是一個漫長的過程,在中國,反垃圾網站的人才更是奇貨可居。在採訪百度時,百度即不願披露反垃圾網站專家的姓名,「因為這是百度最為寶貴的人才之一」。

  據王某透露,其實在搜索引擎與垃圾網站的長期鬥爭中,搜索引擎總是處於守勢。這不僅因為搜索引擎公司真正考慮搜索結果相關性和排序的只有幾個人,而互聯網上整天琢磨怎麼對付搜索引擎的有幾十萬網站管理員,更重要的是,製造一個或幾十個甚至幾百個作弊網頁,只要將一個目標網頁稍作改動即可實現,並可以不斷進行類似複製,而搜索引擎甄別、刪除卻需要相當的時間,這種「以一當百」,以一個網站對付數以萬計作弊網站的工作,對搜索引擎而言,是一個巨大的人力資源投入與成本投入。

  目前,垃圾網站的新攻擊方向是博客網站。在國內的各大博客,目前均已苦不堪言,spam如蝗蟲般湧來,流量太大會導致網站通道堵塞而無法訪問。

  這一鬥爭過程,已完全類同於互聯網的病毒與反病毒,所不同的是,製造病毒的成本有時會更高些——需要很高的技術門檻,而製造垃圾網站的門檻卻相當低,且製作方便。

  因此,作為搜索引擎,對待垃圾網站的態度是高度地一致:永久刪除。

  但在搜索中,永遠會有垃圾網站的存在,因為它每時每刻都在誕生。由於垃圾網站的成本與收入間的巨大差異,SEO SPAM們還會勇往直前,前赴後繼。而到目前為止,政府以及相關部門還沒有對這種互聯網上的「假冒偽劣」制定相應的法律制度來制約。但相信這一天一定會到來。

推薦閱讀:

如何看待中國留學生在海外考試作弊的事件?
如何評價王昱珩公開捍衛賈立平作弊的這件事?
《天才槍手》:作弊是一種成長,不作弊是另一種成長
如何評價這種買贊刷評論卻因為確實文章高質量上編輯推薦的行為?

TAG:網站 | 技術 | 搜索 | 搜索引擎 | 作弊 | 索引 | 聯盟 |