爬蟲VS反爬蟲的蝴蝶效應
The Butterfly Effect
美國氣象學家愛德華·羅倫茲(Edward N.Lorenz)1963年在一篇提交紐約科學院的論文中分析了一個叫做蝴蝶效應的理論:「一個氣象學家提及,如果這個理論被證明正確,一隻海鷗扇動翅膀足以永遠改變天氣變化。」在以後的演講和論文中他用了更加有詩意的蝴蝶。對於這個效應最常見的闡述是:「一隻南美洲亞馬遜河流域熱帶雨林中的蝴蝶,偶爾扇動幾下翅膀,可以在兩周以後引起美國德克薩斯州的一場龍捲風。」
「蝴蝶效應」主要是關於混沌學的一個比喻,也是蝴蝶效應的真實反應。不起眼的一個小動作卻能引起一連串的巨大反應——由於誤差會以指數形式增長,在這種情況下,一個微小的誤差隨著不斷推移造成了巨大的後果。
在互聯網的世界中,蝴蝶效應的呈現則更為明顯,身為互聯網使用者,你的每一次點擊,每一個打開,每一個保存與分享都不僅僅只是點擊、打開、保存、分享,它們都將彙集成為數據,成為你互聯網暢遊的路徑。
而對於企業來說,由上述數據推導出你的用戶畫像(根據你的社會屬性、生活習慣和消費行為等信息而抽象出的一個標籤化的用戶模型)早已不是難事。
不過你也無需擔憂,對於大多數企業而言,一兩個行為標本作用不大,企業所需要的是一個甚至多個受眾群體的大數據行為模型。
以下僅針對互聯網業務風控層面闡述
最初,爬蟲是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本,幫助搜索引擎作為一個輔助人們檢索信息的工具。不過,正如同光明與黑暗同時誕生、出生與死亡同存於這個世界,爬蟲的出現,也帶來惡意爬蟲的降生。
爬蟲是所有攻擊鏈中的重要構成,無論是採集競爭對手網站的數據,嘗試破解用戶口令還是自動下單,其實都離不開爬蟲。
與傳統金融類風控不同,豈安更加關心整個風險事件前端的問題,從最開始用戶進入網站的行為進行分析。例如用戶在頁面的停留時間,是否多次修改輸入的內容等,這些行為讓風險判斷的準確性有了巨大的提升。
舉個栗子
- 惡意爬取網站→ 註冊用戶掃描
雖然現在大部分平台的註冊頁面上會有圖片驗證碼,在一定程度上可以防範爬蟲自動化程序遍歷手機號查詢已註冊的用戶。
但在不同的終端上,還是可以通過簡單的請求判斷出用戶是否已經註冊。
- 爬取註冊用戶→ 進行業務欺詐
這個數據可以拿來做什麼?
一方面,我們已知某個手機號碼是某網站的註冊用戶,這個信息可以用作欺詐,比如模仿官方的服務號向用戶發送欺詐簡訊騙取驗證碼簡訊,進行資金盜取。
另外,可以將這些數據向競爭對手出售,協助對方進行精準營銷爭奪用戶。
- 業務欺詐→ 簡訊轟炸操作
國內每天都在發生大量的業務欺詐等案件,比如模仿官方的服務號向用戶發送欺詐簡訊騙取驗證碼簡訊,進行資金盜取。
在欺詐手法中,還經常使用簡訊轟炸,比如在盜卡盜刷時,為了增加自己的作案時間,用大量的驗證簡訊掩蓋掉真正的銀行卡消費簡訊,讓受害者無法快速的發現並凍結自己的銀行卡。
為了達到這種目的,攻擊者會使用多家網站的簡訊介面對受害者發送簡訊,進而產生簡訊轟炸問題。
- 簡訊轟炸→ 賬戶盜用
個人賬戶被盜後:垃圾註冊→ 產生羊毛黨→ 刷單 ……
職業團隊產生:爬取評論→ 差評師→ 惡意競爭攻 ……
其它模式→……
我們可以看到,最基礎的爬蟲所帶來的,猶如那隻南美洲亞馬遜河流域熱帶雨林中的蝴蝶,拍一拍翅膀,或許只是抖抖陽光雨露,瀟洒飛去,或許帶來的就是一連串由它而起,又似乎與它無關的後續風暴。
那麼要禁用爬蟲嗎?
顯然不可能,如果沒有爬蟲的存在,你將不再有可能被搜索引擎抓到,在重度依賴搜索引擎的現代用戶世界中,你也就成為了『存在而不可見的』透明人。
我相信這是所有企業都不願意看到的。
尾聲
所以,互聯網世界正如真實世界一樣,有好人和壞人,數據和爬蟲技術本身沒有好壞之分,關鍵點在於使用它們的那些人。
根據網站內容的安全性及敏感性,區別對待爬蟲是比較理想的措施。豈安所做的事情,就是要把好人和壞人區分開來。當然,豈安所能做的也不止這一點,聊完『蝴蝶』的問題,下次我們可以再說點別的。
推薦閱讀:
※互聯網金融將會如何蠶食傳統銀行的市場?
※互聯網金融如何落地?
※如何評價 2016 年 2 月 1 日 e 租寶被查封,高管被調查?
※基於用戶行為對金融業務的研究