如何用機器學習做廣告反作弊？

01-22

群友共同疑問：如何篩查虛假流量？如何預防作弊？

首先應用場景是什麼，廣告反作弊的種類很多，簡單說幾個應用場景：

按平台分：PC、移動，不同的平台玩法不一樣；
按照防作弊的時間段分：請求階段，實時扣費階段，離線計算階段；
……

說上邊的目的是：這個問題很難回答，因為反作弊這個範疇本來就很大，但是必須要明確的一點是反作弊跟機器學習沒有必然的聯繫，反作弊的核心在於如何更快速、節省資源、高效的將作弊流量排除，而不是非得用機器學習來做。

-----------------分割線，很早之前寫的一篇水文，參考如下，同時建議重新編輯問題，或許能帶來更多回復--------------------------------

移動時代，在流量快速變現的利益驅動下，流量造假越發猖獗，流量造假形式和技術手段也越發高級。無論什麼形式的作弊，最後損失最大的永遠都是為流量買單的「廣告主」。移動營銷時代，流量作弊的方式有哪些？同時該如何杜絕和應對虛假流量，減小損失？

傳統 PC 時代，IP、Cookie、User-Agent 很容易刷，那麼到了移動端，是不是設備信息就很難刷了呢？比如IMEI、IDFA。事實卻並非如此，不僅移動的設備信息容易且批量地刷，而且被識別出來的難度更高，更像真的一樣。

前段時間某監測公司說，貴司必須要實施SDK監測，一律按照MMA教條做事，鄙人心中淡淡一笑…

下面簡單介紹前幾年秒針發布的一個《互聯網廣告反作弊技術白皮書》，期間所謂的揭秘了6種互聯網廣告作弊行為，如下：

1.廣告CTR異常：

主要指虛擬點擊或惡意點擊，即Click/PV過高比例，或者起伏很大。

2.廣告訪問IP分布異常：

通過Log日誌發現某幾個IP產生大量的點擊或者曝光數。

3.URL，訪問者指紋信息(瀏覽器，操作系統等)異常：

例如大量的點擊或者曝光數，都來自於同一版本的瀏覽器或操作系統，或者佔比過高;或者點擊或曝光的訪問者信息中帶有Robot/Spider等標識信息。

4.廣告點擊沒有對應的曝光請求：

如果廣告同時監測了曝光和點擊，廣告的點擊IP/MZID前都應該出現對應廣告的曝光，且絕大多數都應該出現在同時段的曝光日誌中。

5.廣告來源異常：

點擊或者曝光的Referer可以標記點擊或曝光的來源頁面，如果大量來源集中在某一頁面，且不是廣告所在的Web頁面，可能存在媒體在其他流量大的地方(如BBS)設置隱藏頁面來充當曝光和點擊。

6.廣告訪問時間分布異常/規律

某些IP/MZID每分鐘定時出現在點擊/曝光日誌中，或者連續點擊/曝光的發生時間的間隔過於規律。

以上的確是一種解決反作弊的手段，但是我想說的是在幾年後的今天，這隻能解決一些「非暴力」刷流量的手段，當然也只能限於PC端的小問題了。當然作為前錶廠員工，對公司獻出如此寶貴的白皮書深感「榮幸」。

移動流量作弊形式的主要形式：

刷廣告數據：

刷廣告曝光和廣告的點擊。如今的Android手機，不比當年的Windows XP 時代好。在用戶毫不知情的情況下，預裝或者下載了亂七八糟的應用的情況比比皆是，被各種流氓軟體留些後門已是常態，順理成章地為黑色產業鏈做貢獻。移動廣告的銷售更加的程序化，按 CPM 與 CPC 的銷售是主流。在這樣的大環境下，按 CPM 與 CPC 購買的流量質量風險如何？可想而知。

來個小段子休息下，前幾年某知名視頻公司離職員工來到我司後，我們線下聊天，他告訴我說，在Android機下，你如果按照了某視頻軟體，那麼你的手機就是個肉雞，想幹什麼都行，我聽完後，不禁菊花一緊。為何如此欺凌我等屌絲，Android機招你還是惹你了？從那我就發誓，努力賺錢，買蘋果，最後蘋果沒買成，倒是吃了不少蘋果…

所以，不要怪Android流量廣告主不喜歡，主要是耍流氓比比皆是，Android已是赤裸相見，廣告主喜歡iOS的朦朧美也是有情可原的。

刷下載，激活與留存數據：

除了積分牆這種APP 廣告主自發的刷下載行為之外，不少廣告主還是花了大價錢在不同的廣告平台、應用市場上做轉化效果推廣的。

既然 KPI 是下載量、激活量，那當然有非常多的辦法去沖KPI。即使要求高的留存，也難不倒這幫「專業」刷客。

現在刷客團隊非常「規範透明」，據某「知名專業刷客團隊帶頭大哥」透漏：PV 10000個0.3元（其中隨機攜帶點擊，真TM專業），實現App下載成本在0.2~0.8元，設備激活大概0.3~1元，設備激活+留存，一般需要1~1.5元。一塊五你買不了吃虧，一塊五你買不了上當，童叟無欺。

這讓我想起，前幾天有運營同學反饋說某知名旅遊App在我們平台上投放時，之前50多一個激活，現在100多，而在其他平台上投放時，激活成本一直非常穩定。WTF，這必須怪我們，我們平台太實在，沒有為其進行刷量，改天我就告訴運營同學，其他平台激活成本多少錢，我們就著比他便宜1毛錢搞，便宜多了還不行。

那麼虛假流量是如何刷出來的呢？

原理較為簡單，就是不斷變更設備信息，實現模擬行為，批量造成想要的流量。

設備偽裝，主要通過篡改設備ID號或者使用模擬器等進行，並偽造虛假的網路環境。現在已經可以實現移動設備 ID （MAC、IMEI、IDFA、Android ID）不重複、IP 地址離散、機型變換、時間分散。主要是集中於 Android 系統上，iOS 系統偽裝成本高很多。

當我近期調研了很多作弊手段後，由於現在反作弊在每個公司都是一個黑盒子（當然是個行業透明的黑盒子，只不過沒家加密演算法不太一樣而已），感覺作弊已經到了一個無法無天的境地。在某次和領導開會時，我開玩笑的提了一句「反作弊根本沒法反」。現在的作弊手段真的是環環相扣，已經成為一個生態鏈，成為一個生態市場。

當然，針對以上手段，現在也有監測公司提到，用硬體指紋標識，也就是多個ID作為唯一標識，而且這個標識更改頻率非常高，這樣還是只針對普通級別的刷流量行為而設防。像那種留有後門的App，這種行為是不行的。

還有一種聯盟反作弊手段，利用廣告點擊率上限和廣告主轉化數據進行作弊，站在反作弊的角度來看，這種是飲鴆止渴，解決不了真正作弊行為。（我可沒說我自己正在做。。。）

還有一種就是利用機器學習，根據一段時間的表現，對設備id進行健康度標識，這種成本太高，還有就是對於那種隨機生成設備id的行為也無法標識。

反作弊任重而道遠。

最後，我們一定要上升到哲學層次裝一把，要不有損我們一貫裝B的風格。

反作弊不是為了反而反，我們一定有我們的商業目標，在這個博弈的社會，說白了，大家都是混碗飯吃，所謂打工的何必難為打工的。我們要做的就是完成商業目標。舉個例子，如果我們要做移動聯盟，那麼對於這種刷激活、留存的流量，我們是否要防，當然是No！歡迎還來不及呢。

如果我們是廣告主，是不是也一定要防這種刷量和留存，就看你怎麼刷，如果你能在App排行榜上也給我刷上去，那麼省了廣告主的事了。

（就像前段時間某新聞App和某監測公司掐架一樣，為了一個DAU吵個不停，哎，世道啊。）

如果廣告主最終流量上去了，甭管真的假的，就可以變現了，然後再坑別的廣告主的錢，大家你坑我我坑你，最後錢才能流通，說大了這是「為國家解決就業問題」，還不快謝謝作弊的主（哈哈）。

所以某種程度上，我們要做到反我們該反的作弊流量，留我們該留的流量。世界這下就變得和諧多了。

發佈於公眾號：計算廣告那些事兒