【Y視角】如何理解精準營銷中的機器學習技術?

一個問題

你覺得厄瓜多產的蘋果能吃嗎?

也許你一看到這個問題的時候有點摸不著頭腦,但倘若暫不去究根問底,而只是集中回答題干本身的話,相信很多人都會不假思索地反應出「能吃」這個答案。

好了,那我們的問題就是,你是如何判斷出厄瓜多的蘋果能吃的呢?在你短暫的思考過程中,你經過了怎樣的邏輯推斷呢?事實上,有這樣兩個思考過程是必經之路:

1、判斷蘋果一般都能吃;

2、確認厄瓜多的蘋果也屬於蘋果的一種。

由於以上這兩個條件的支撐,很多人都會產生「厄瓜多產的蘋果能吃」這樣的結論,這很正常。不僅如此,當我們的大腦在每一次做出判斷或決策時,基本都會經歷相似的兩個過程。即便大多數情況下,這些所謂的思考原理或方法過於簡單、直接以至於你無法意識得到,但不可否認,今天我們所依賴的邏輯判斷能力、以及現代人工智慧實現的理論基礎都無不遵循著人類這兩個最簡單的思維方式:歸納和演繹。

……

所以由這樣一個概念開始,今天的文章將會以我的視角向大家分享一下當今精準營銷中所用到的技術原理,旨在向對精準營銷及機器學習技術有興趣,但無法作深入研究的同學們提供最「易懂」的介紹。

計算機如何做出判斷?

試想,怎麼讓計算機和人一樣,能判斷出「厄瓜多的蘋果能吃」呢?實際上,和人一樣,讓機器能能對這個命題進行自動歸納和演繹就行了。

先說「歸納」,請想像下,為什麼你會得出「蘋果一般都能吃」這個結論,是因為有一個專家對你們每個人說過這樣一句話嗎?顯然不是,而且事實上的確有蘋果是不能吃的,例如海蘋果。

所謂的歸納即是從可獲得的信息中嘗試提煉出具有普適性的一般規律而已,也就是我們常說的「從特殊到一般」。當我們從小見過足夠多不同種類的蘋果並發現其中大都能食用之後,大腦很容易自動歸納出這樣的結論:「所有蘋果都能吃」。這就是「從特殊到一般」。但如果有一個小孩只見過兩種蘋果:紅富士和海蘋果,一個能吃一個不能吃。那請猜想一下,當你再問他「厄瓜多蘋果能吃嗎」這個問題時,聽到是否一定會是正確答案呢?

故這裡必須注意的是,我們最終歸納出的命題一定是正確的嗎?顯然不是,甚至即便你只少吃了這世界上的一種蘋果,你都無法確保該命題的真偽。但有一點是肯定的,命題的準確率一定是隨著數據集的擴大和豐富——你吃過的蘋果變多、對蘋果了解的深入——越來越準確的。例如海蘋果其實是生長在水中的一種生物,而傳統生長在樹上的蘋果一般都能食用。當你了解了這一點後,那你所歸納出的結論便會從「蘋果一般都能吃」轉變成「長在樹上的蘋果一般都能吃」,這就是通過數據的豐富使你能夠進行自我學習、自我優化。如此一來,再判斷某個新品種的蘋果能否食用也就不太會再出問題了。

說到這裡,要理解計算機怎麼做到歸納也就不難了。其實和人類一樣,只要不停地給它看一些已知是否能食用的蘋果(訓練集),並告訴它這些蘋果生長環境是哪(特徵),當然還有它能不能吃就可以了(標籤)。計算機根據這些信息可以進行自我學習、優化與總結,並最終訓練出可供使用的模型 —— 即歸納出結論「長在樹上的蘋果一般都能吃」。

有了這個模型,當我們再想判斷新品種蘋果能否食用時,只需將新蘋果的特徵「長在樹上」輸進系統(並不是所有特徵或結論都很容易被表述及概念化,很多時候仍需要將新數據的特徵再次輸入模型系統以確定標籤),模型會自動判斷這類蘋果是否能吃,這也就是從「一般到特殊」的過程,即演繹。

事實上,讓計算機為解決某個問題進行歸納及演繹,這就是我們所說機器學習所要解決的問題。

嚴謹地解釋機器學習,那便是指:專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。這是一門學科,也是一個領域,是當今人工智慧實現所基於的核心技術。很粗線條地說,現代的人工智慧實際上就是機器學習的具體運用。

精準營銷的本質

接下來讓我們再談談精準營銷的技術實現吧。

所謂精準營銷(我個人更喜歡稱為程序化購買,雖然含義不盡相同),就是通過互聯網技術,在每一次廣告投放前,判斷用戶的畫像(性別、年齡、興趣等標籤)及其所處的環境屬性(地理位置、當前瀏覽網站、環境等標籤),並依此向ta投遞區別於他人的最適合的廣告。例如,給年輕女性推送化妝品廣告,給男性球迷推送啤酒廣告,給熬夜打遊戲的你推送肯德基,給正好身處炎熱戶外的你推送防晒霜等……

基於這種產品邏輯,如今誕生了許多種不同的精準營銷服務,從以前AdNetwork基於DMP作人群定向開始,RTB、PDB

(Private Reserved)、Preferred Deal、Private Action

等等概念層出不窮,基本上都是圍繞著業務流程和應用場景進行迭代,但究其本質技術依舊是機器學習,這點則始終沒有變。

一個小插曲:也許你聽到過很多DSP公司(程序化購買服務供應商)號稱自己能拿到BAT、電信、甚至是銀聯的確切用戶數據來進行用戶定向。然而真正了解過其技術實現的人都明白,且不說能從以上集團拿到如此隱私數據的量級及維度都非常有限外,mapping技術的不完善也同樣很難支撐起如此巨大的市場需求,最終導致這些概念也只能成為一種宣傳手段,徒有其表。

時至今日,精準營銷依舊是主要通過機器學習給互聯網中代表網民的cookie或device ID打標籤實現的。

對此其實並不難理解。根據從事市場營銷專家們的經驗,我們很容易地便能總結出如上文中所提到的那些、對營銷有用的「標籤」:性別、年齡、地域、收入等……這些標籤其實對於計算機來說最終也會和「某種蘋果能不能吃」一樣沒有區別,都只是些Yes

or No的問題。不同的是,這次我們需要許許多多個判斷結果。

再次,我們的訓練集和特徵又是什麼,我們去哪找那麼多「蘋果」,並得知他們的「生長環境」呢?事實上,作為精準營銷的訓練集cookie和device

ID並不難獲取,拋開在合作應用/網站上埋監測代碼不說,本身AdExchange(廣告交易平台)就可以用來幫助獲取海量的cookie,而我們所需要的便是從中挑選出一些已知用戶畫像的cookie作為訓練集進行訓練(方法很多,如對接第三方DMP)。同時,隨著cookie本身攜帶而來的用戶設備信息、網路信息、系統信息等就已經可以作為特徵進行訓練,而其累計而成的用戶歷史網站瀏覽軌跡,在處理後形成的有權重的訪問記錄更能成為每個cookie決定性的特徵依據。

還是拿厄瓜多的蘋果舉例:

我們想知道「某個品種的蘋果能不能吃」:某個Cookie是男是女、年紀多大、住在哪等;

我們已經有了許多已知是否能吃的「蘋果」:已知人群標籤的Cookie;

我們知曉了這些蘋果的「生長環境」:網站訪問記錄、設備信息、網路信息、系統信息等;

剩下的便是讓計算機對這些測試集進行訓練,並最終發現諸如:「生長在樹上的蘋果都能吃」相似的結論。

機器學習的實現

到了這裡便會衍生出來一個最終問題,並不是所以命題都像「生長在樹上的蘋果都能吃」一樣簡單、直白、可以查證。對於精準營銷來說像:「過去一個周訪問過5次時尚網站,同時訪問過10次電商的人,同時……一定是女性」這樣的結論實在很難去驗證,即便你身邊就有特例,那也無法就這樣簡單地證明這個模型是錯的,事實上,對於消費者畫像分析本身就很難達到100%精準。

那如何才能訓練出來最好的模型,或嚴格來說是分類模型(最後得到的結果有已有明確的歸類),並讓計算機歸納出最準確的結論呢?這裡就不得不了解一下機器學習在分類問題上究竟是如何進行「歸納」的。

我試了下用最傻瓜的方式來表述:找到一個數學函數,力求最準確地擬合具有不同「標籤」訓練數據點之間的「邊界」圖形。

如厄瓜多蘋果一例:

首先我們假設將每一個訓練數據點都放入對應維度的坐標系中(有幾項特徵就是幾維坐標平面),坐標軸代表了其特徵(值),則最終一定會形成如上圖所示的點陣圖。這裡由於一維數據不具備太大的意義,故多加了另外一個維度:蘋果的顏色。且同時大家應該都知道,數學函數最終都能在某個坐標系中用一個相應的圖形表現出來。而我們所要做的便就是找到這樣的一個函數,使它能盡量完美地將不同「標籤」的數據點切割開來開。如此一來,一旦出現新的數據,便很容易通過數學函數去驗證其到底會落在哪個區間,即找出其對應的標籤是什麼。

更多的例子:

然而以上幾個例子全部是用二維平面向大家展示,力求表達簡單、直接。若是有三項特徵,則最終所求的是一個曲面函數,這個曲面會把一個三維空間中不同標籤的樣本盡量分明地切割開來。事實上,常用的機器學習數據集的維度都會非常高。以精準營銷為例,對每一個網站的訪問記錄、系統信息、設備信息等都是備選特徵之一,這就導致了最終所謂的函數圖像是出現在一個無法可視化的高維空間中,只能通過數學公式去探究其特性。

其次,不同的演算法會帶來完全不同的模型訓練效率及準確度。這裡所說的「演算法」,簡單的理解就是指用哪一類函數去進行擬合。以厄瓜多的蘋果為例,用ax+by=c進行模擬,並不斷通過數據點到邊界模型(即直線)的距離來優化參數a、b與c,就是我們在這裡採用的一個簡單演算法。事實上,實際運用的演算法會異常複雜,都是由好幾代數學家、統計學家不斷測試、迭代最後形成的智慧精華。例如精準營銷最常用的便是邏輯回歸演算法,由於該問題過於學術,這裡就不具體展開了,有興趣的同學可以自行搜索一下相關內容。

最終,計算機將基於給到的測試集,不斷地對模型(即函數)進行訓練:判斷模型到每一份測試數據的誤差大小(以上例子中,「誤差」就是數據點到直線的距離),一邊試錯,一邊修改參數,進行自我迭代、優化,將誤差縮減到最小,最終生成能夠準確描述測試集「標籤」與「特徵」之間規律的函數。

寫在最後

最後我們再來簡地單聊一下精準營銷,即程序化購買。對於從事營銷、尤其是互動/數字營銷的從業者來說,精準營銷早已不是一個陌生的名詞,早在13年開始,精準營銷服務商便如泉涌般地出現在廣告市場中。相對於傳統數字廣告,其更靈活的投放方式、更精準的目標人群定向技術以及更具性價比的預算要求都曾一度讓廣告主及代理商們趨之若鶩。

然而好景不長,整個精準營銷行業在16-17年受到了重創,而歸結根本原因,在其不透明性。大量的虛假流量、充滿水分的KPI交付以及廣告主、代理商們為追求宣傳效果而產生的盲目信任都致使了這個新生代概念在短短的一兩年間內就給行業造成了巨大的傷害……具體細節就不在這裡一一複述了,有興趣的同學可以搜索國內程序化購買的前沿開拓者——宋星的系列文章來了解具體情況。

然而,泡沫擠掉了,剩下的就都將成為精華。毋庸置疑,只有程序化購買才能為一次完美的廣告投放——在合適的地點,合適的時間,合適情境下向合適的人投遞合適的內容——提供技術支撐。這就決定了,程序化購買依舊會是日後廣告投放技術發展的主流方向,只不過人們要做的,不再只是將廣告投放技術開發得更成熟——事實上精準營銷所用到的機器學習技術本並不具備很高的技術壁壘——而是更要專註於整個產業鏈的開放透明化、將上下游的利益在不侵害廣告投放效果的前提下平衡化,並完善各個環節的監督及考核機制,以此來促進整個產業的良性發展。

P.S. 厄瓜多並不產蘋果哦。

—— 專註於大數據與人工智慧 yuyidata.com

推薦閱讀:

機器學習筆記031 | 無監督學習演算法——K均值(K-means)
斯坦福機器學習筆記10密度分布估計の混合高斯模型
Python基礎_103.數據結構與演算法_查找
Cousera deeplearning.ai筆記 — 淺層神經網路(Shallow neural network)
【深度學習系列】卷積神經網路CNN原理詳解(一)——基本原理

TAG:精準營銷 | 機器學習 | 程序化購買 |