如何用機器學習做廣告反作弊?

群友共同疑問:如何篩查虛假流量? 如何預防作弊?


首先應用場景是什麼,廣告反作弊的種類很多,簡單說幾個應用場景:

  1. 按平台分:PC、移動,不同的平台玩法不一樣;
  2. 按照防作弊的時間段分:請求階段,實時扣費階段,離線計算階段;
  3. ……

說上邊的目的是:這個問題很難回答,因為反作弊這個範疇本來就很大,但是必須要明確的一點是反作弊跟機器學習沒有必然的聯繫,反作弊的核心在於如何更快速、節省資源、高效的將作弊流量排除,而不是非得用機器學習來做。

-----------------分割線,很早之前寫的一篇水文,參考如下,同時建議重新編輯問題,或許能帶來更多回復--------------------------------

移動時代,在流量快速變現的利益驅動下,流量造假越發猖獗,流量造假形式和技術手段也越發高級。無論什麼形式的作弊,最後損失最大的永遠都是為流量買單的「廣告主」。移動營銷時代,流量作弊的方式有哪些?同時該如何杜絕和應對虛假流量,減小損失?

傳統 PC 時代,IP、Cookie、User-Agent 很容易刷,那麼到了移動端,是不是設備信息就很難刷了呢?比如IMEI、IDFA。事實卻並非如此,不僅移動的設備信息容易且批量地刷,而且被識別出來的難度更高,更像真的一樣。

前段時間某監測公司說,貴司必須要實施SDK監測,一律按照MMA教條做事,鄙人心中淡淡一笑…

下面簡單介紹前幾年秒針發布的一個《互聯網廣告反作弊技術白皮書》,期間所謂的揭秘了6種互聯網廣告作弊行為,如下:

1.廣告CTR異常:

主要指虛擬點擊或惡意點擊,即Click/PV過高比例,或者起伏很大。

2.廣告訪問IP分布異常:

通過Log日誌發現某幾個IP產生大量的點擊或者曝光數。

3.URL,訪問者指紋信息(瀏覽器,操作系統等)異常:

例如大量的點擊或者曝光數,都來自於同一版本的瀏覽器或操作系統,或者佔比過高;或者點擊或曝光的訪問者信息中帶有Robot/Spider等標識信息。

4.廣告點擊沒有對應的曝光請求:

如果廣告同時監測了曝光和點擊,廣告的點擊IP/MZID前都應該出現對應廣告的曝光,且絕大多數都應該出現在同時段的曝光日誌中。

5.廣告來源異常:

點擊或者曝光的Referer可以標記點擊或曝光的來源頁面,如果大量來源集中在某一頁面,且不是廣告所在的Web頁面,可能存在媒體在其他流量大的地方(如BBS)設置隱藏頁面來充當曝光和點擊。

6.廣告訪問時間分布異常/規律

某些IP/MZID每分鐘定時出現在點擊/曝光日誌中,或者連續點擊/曝光的發生時間的間隔過於規律。

以上的確是一種解決反作弊的手段,但是我想說的是在幾年後的今天,這隻能解決一些「非暴力」刷流量的手段,當然也只能限於PC端的小問題了。當然作為前錶廠員工,對公司獻出如此寶貴的白皮書深感「榮幸」。

移動流量作弊形式的主要形式:

刷廣告數據:

刷廣告曝光和廣告的點擊。如今的Android手機,不比當年的Windows XP 時代好。在用戶毫不知情的情況下,預裝或者下載了亂七八糟的應用的情況比比皆是,被各種流氓軟體留些後門已是常態,順理成章地為黑色產業鏈做貢獻。移動廣告的銷售更加的程序化,按 CPM 與 CPC 的銷售是主流。在這樣的大環境下,按 CPM 與 CPC 購買的流量質量風險如何?可想而知。

來個小段子休息下,前幾年某知名視頻公司離職員工來到我司後,我們線下聊天,他告訴我說,在Android機下,你如果按照了某視頻軟體,那麼你的手機就是個肉雞,想幹什麼都行,我聽完後,不禁菊花一緊。為何如此欺凌我等屌絲,Android機招你還是惹你了?從那我就發誓,努力賺錢,買蘋果,最後蘋果沒買成,倒是吃了不少蘋果…

所以,不要怪Android流量廣告主不喜歡,主要是耍流氓比比皆是,Android已是赤裸相見,廣告主喜歡iOS的朦朧美也是有情可原的。

刷下載,激活與留存數據:

除了積分牆這種APP 廣告主自發的刷下載行為之外,不少廣告主還是花了大價錢在不同的廣告平台、應用市場上做轉化效果推廣的。

既然 KPI 是下載量、激活量,那當然有非常多的辦法去沖KPI。即使要求高的留存,也難不倒這幫「專業」刷客。

現在刷客團隊非常「規範透明」,據某「知名專業刷客團隊帶頭大哥」透漏:PV 10000個0.3元(其中隨機攜帶點擊,真TM專業),實現App下載成本在0.2~0.8元,設備激活大概0.3~1元,設備激活+留存,一般需要1~1.5元。一塊五你買不了吃虧,一塊五你買不了上當,童叟無欺。

這讓我想起,前幾天有運營同學反饋說某知名旅遊App在我們平台上投放時,之前50多一個激活,現在100多,而在其他平台上投放時,激活成本一直非常穩定。WTF,這必須怪我們,我們平台太實在,沒有為其進行刷量,改天我就告訴運營同學,其他平台激活成本多少錢,我們就著比他便宜1毛錢搞,便宜多了還不行。

那麼虛假流量是如何刷出來的呢?

原理較為簡單,就是不斷變更設備信息,實現模擬行為,批量造成想要的流量。

設備偽裝,主要通過篡改設備ID號或者使用模擬器等進行,並偽造虛假的網路環境。現在已經可以實現移動設備 ID (MAC、IMEI、IDFA、Android ID)不重複、IP 地址離散、機型變換、時間分散。主要是集中於 Android 系統上,iOS 系統偽裝成本高很多。

當我近期調研了很多作弊手段後,由於現在反作弊在每個公司都是一個黑盒子(當然是個行業透明的黑盒子,只不過沒家加密演算法不太一樣而已),感覺作弊已經到了一個無法無天的境地。在某次和領導開會時,我開玩笑的提了一句「反作弊根本沒法反」。現在的作弊手段真的是環環相扣,已經成為一個生態鏈,成為一個生態市場。

當然,針對以上手段,現在也有監測公司提到,用硬體指紋標識,也就是多個ID作為唯一標識,而且這個標識更改頻率非常高,這樣還是只針對普通級別的刷流量行為而設防。像那種留有後門的App,這種行為是不行的。

還有一種聯盟反作弊手段,利用廣告點擊率上限和廣告主轉化數據進行作弊,站在反作弊的角度來看,這種是飲鴆止渴,解決不了真正作弊行為。(我可沒說我自己正在做。。。)

還有一種就是利用機器學習,根據一段時間的表現,對設備id進行健康度標識,這種成本太高,還有就是對於那種隨機生成設備id的行為也無法標識。

反作弊任重而道遠。

最後,我們一定要上升到哲學層次裝一把,要不有損我們一貫裝B的風格。

反作弊不是為了反而反,我們一定有我們的商業目標,在這個博弈的社會,說白了,大家都是混碗飯吃,所謂打工的何必難為打工的。我們要做的就是完成商業目標。舉個例子,如果我們要做移動聯盟,那麼對於這種刷激活、留存的流量,我們是否要防,當然是No!歡迎還來不及呢。

如果我們是廣告主,是不是也一定要防這種刷量和留存,就看你怎麼刷,如果你能在App排行榜上也給我刷上去,那麼省了廣告主的事了。

(就像前段時間某新聞App和某監測公司掐架一樣,為了一個DAU吵個不停,哎,世道啊。)

如果廣告主最終流量上去了,甭管真的假的,就可以變現了,然後再坑別的廣告主的錢,大家你坑我我坑你,最後錢才能流通,說大了這是「為國家解決就業問題」,還不快謝謝作弊的主(哈哈)。

所以某種程度上,我們要做到反我們該反的作弊流量,留我們該留的流量。世界這下就變得和諧多了。

發佈於公眾號:計算廣告那些事兒


推薦閱讀:

廣告點擊預估用深度學習怎麼搞?
什麼是計算廣告學?
做實時計費時如何降低廣告超預算?
為什麼LR可以用來做CTR預估?
如何評價CTR預估效果?

TAG:機器學習 | 計算廣告學 | 廣告反作弊 |