互聯網廣告系統是如何識別用戶的,比如年齡、性別、職業、興趣、購買力等?

互聯網廣告精準投放過程中,是如何獲取用戶的這些信息的,又是如何保證精準的。


廣告聯盟的定向很多,比如:

1.年齡

2.性別

3.地區

4.興趣

5.設備

其他不展開了,

地區,直接讀取ip就可以了,設備,直接讀取識別碼就可以了。

其他幾個其實可以一起說了:

一般信息讀取最優先的是終端投放站點,由站點負責識別你這個ip,如果你是註冊用戶,那就簡單了,直接上傳註冊信息裡面,計算需要的幾個數據值

如果你不是註冊用戶,就會讀取你的cookie

也就是說,你要是不想被定位的話,直接清除cookie和所有瀏覽記錄,退出所有賬戶,就可以了

我們看看cookie:

這個是知乎某個頁面留下的cookie

這個是百度某個頁面留下的cookie

可以看到每個頁面留下的cookie都保留了用戶信息,比如知乎上的ut系列上面有賬戶信息,百度的ssid是你的伺服器識別,可以判斷你的地區,所用網路

又比如這個淘寶的

這個tracknick這個值就是你的用戶名,就是你上次登陸過的賬戶,光這一個值,就能從http://taobao.com讀取你的賬戶數據。

也就是說,廣告平台的計算系統,只負責將讀取的cookies分析,大部分都是基於自己的分析模型,比如阿里媽媽系統就是靠阿里系統裡面的賬戶數據來實現定向。

所以年齡和性別都不是問題。

下面談談演算法:

比如年齡,他並不是分析你的準確年齡,而是將你判定為特定幾個年齡層的。

比如我們先將每個網頁的年齡屬性清空,然後讀取已有年齡數據的用戶(這就是為什麼網站都推薦你資料填全),比如a站,一開始年齡屬性是0,然後發現大量已知年齡為18-25歲的賬戶進入(這些賬戶可以是淘寶的,百度的,騰訊的,只要你賬戶上有可讀的生日信息)

那麼a站就會賦予年齡權重,18-25歲這個塊佔99%

然後當你的cookies和緩存裡面有大量的a站數據,但你在淘寶上的登記數據是45歲,同時經常買很多老年人買的東西。

也就是說,這個電腦很有可能是多用戶。

廣告系統會混亂嗎?不會的,因為投放站本身也有屬性,比如是個漫畫站,他就會給自己加個權重,同時廣告內容也有權重,比如是賣手辦的鏈接,他的權重也是偏向年輕人的,所以當你這個電腦訪問漫畫網站的時候,廣告系統是絕不會因為你買過中老年服飾就給你推薦養生膏方的。

總結一下,投放站,廣告主,以及用戶的cookies都有自己的年齡屬性和權重。

也就是說,廣告系統不會僅僅判斷你的屬性,更會判斷你當前的使用場景。

當然,有些流量主/投放站本身會手動選擇屬性區間的,但並不妨礙通投系統的識別。

而當你訪問百度,搜索一個中性值,比如唐太宗,旁邊的廣告系統就會錯亂了,他可能同時給你推薦手辦、acg以及中老年壯骨奶粉。

當然,上面這個問題,只存在於一個情況,就是只有年齡這個維度。

下面興趣維度就發揮作用了,同理,投放站,廣告主,用戶都會給廣告計算系統提供興趣的權重,由廣告系統結合場景處理並給出你感興趣的東西,比如你搜索唐太宗的時候,廣告系統就會給你歷史書、畫像等等推薦了。當然這只是個比方。

興趣維度因為是多維的,演算法就更加複雜,不同系統之間的演算法也有很大的差別,我也不是太懂具體的公式,就不細說了。

但你通過年齡這種單維演算法,肯定能夠大概感覺到多維演算法的框架了。

最後吐槽一下淘寶,經常會投放已經買了但是無需再買的東西,這一塊還是可以優化的。

廣告的演算法還有相當大的發展空間,比如關聯產品間的優化,比如尿片和啤酒之間的那種優化,,又如時間上的優化,比如買葉酸半年後給你推薦奶粉和尿片等等,還是有大量空間的。


數據!數據!還是數據!

用一句話概括就是:通過數據的挖掘來識別用戶,通過數據的精細化處理來劃分用戶群,再通過各種定向交易的方式將這部分用戶數據利用起來。

所以其實就是解決幾個問題:

其一,數據從哪兒來

其二,數據怎麼處理

其三,處理完怎麼用

01. 數據從哪來:

--------

有三種:

  • 註冊數據:

可不要小瞧這部分信息,在業界實踐過程中,這部分數據解決了很多很現實的問題,數據量也很大,是最直接可獲取的用戶數據。而且有些數據的質量非常高。

舉兩個例子:第一個比如百度,百度用戶賬號體系很弱,簡言之就是百度的產品是「真 用完就走」,別看張小龍大帝天天鼓吹這個概念,但在業界真正做到用完即走的,也就是各類所搜引擎吧。所以,為了局限於這種產品形態,百度的賬號體系沒有騰訊、阿里那麼健全。

第二個是阿里,阿里的註冊數據、賬號體系還有各類數據在業內算數一數二的,因為我們要交易嘛,交易就要跟支付產生關係,支付就要綁定銀行卡,身份證。還得填寫家庭住址啦,手機號啥的,行雲流水,跟你收集這些數據的原因坦坦蕩蕩,有理有據,因為人家是服務你啊。所以,阿里做效果廣告,識別用戶群,這類用戶數據就會發揮巨大作用。

--------

  • 行為數據:

行為數據指的是你在互聯網產品中的操作行為產生的數據,比如你的搜索行為,購買行為,加入一個社群的行為,以及我現在正在回答這個答案的行為,都是你的行為數據。這些數據能決定什麼呢?能決定的可多了。

根據你的搜索行為,可以判斷你當下對什麼感興趣——搜索廣告推薦

根據你的購買行為,可以判斷你的購買力、購買意向、等等——電商營銷

根據你加入了什麼QQ群,可以判斷你的興趣,比如你加入了母嬰群,說明你可能是個母親,也可能是很愛妻子的丈夫(哈哈哈哈哈),這時候給你定向推薦奶粉好像不錯

--------

  • UGC數據:

比如知乎上的各種答案,微信里各種公眾號的文章,你發的朋友圈、QQ說說等

大多數國內外主流的廣告系統,BAT、FAG基本都是基於這三類數據進行人群定向的。

02. 數據怎麼處理

利用大數據的處理技術進行人群定向現在在互聯網廣告行業已經是比較普遍的基礎技術了

具體技術闡述起來就寫成論文了,我就闡述一下過程和邏輯:

Step1: 根據你想做的行業領域搭建資料庫

Step2: 根據你有的數據給用戶打標籤

Step3:把打好的用戶標籤做成一個一個用戶群的篩選器,再灌入更多用戶數據,讓這個篩選器裡邊的用戶越來越多

Step4:測試這個用戶篩選器篩選出來的用戶好不好用(做AB、灰度、小流量等)

Step5:好用就擴大戰果,不好用就調整策略重搞

Step6:最後你得到了一個又一個識別出來的人群,可以用於定向策略。

--------

03. 處理完怎麼用?

各種不同的廣告產品用的方式不同:

搜索廣告關鍵詞定向策略較多,結合人群識別提升精準度;

展示廣告、Feed流主要依賴人群的商業興趣定向,所以這部分識別比較關鍵,直接決定廣告主的投放,什麼程序化購買啊、DSP之類的東西都是在這裡做的文章。

大概是這樣一個事兒吧。

以上,感覺有用希望不吝點贊哦^ ^

--------

純興趣研究討論,有不同意見可以一起討論。

知乎不回私信,有問題可以微博@ 鄭義分分鐘

以上。


互聯網媒體會收集註冊信息、以及用戶行為,然後對這些信息進行聚類分析,從而找出其中的規律,利用這些規律來識別用戶的年齡、性別,對於用戶的每一個特徵通過這種聚類演算法可以找出一個匹配的百分比,例如說某個訪問者是25~35歲的可能性大約為90%~~~~~~

然而,然而,究竟這種聚類分析學習的演算法是以什麼為依據的呢?總不能寫演算法的同學說有這類特徵的人是25歲~35歲那他們就真的是25~35歲了吧?

實際上一般媒體都會從調查公司購買數據,從而得到一批樣本客戶,這批樣本客戶的特徵是很明確的,你可以認為他們是百分之一百準確的。然後將這批樣本數據與自己網站里的客戶進行Cookie Maping,找到這批樣本客戶在自己網站里的行為數據及註冊數據。

這個時候才輪得到前面的回答所說的演算法上場了,他們通過聚類演算法等分析這批樣本客戶在自己媒體中的行為數據及註冊數據,比如愛看什麼視頻啦、什麼時間上網啦等等之類的。不斷優化演算法並對樣本客戶進行訓練,看看自己的演算法和購買來的特徵數據差異有多大,如此一直優化到準確率可接受為止。

當演算法準確率到達可接受程度了,就可以讓演算法發揮作用了,在廣告投放過程中使用這套演算法猜測訪問者的特徵,然後對符合特徵的訪問者投放指定的廣告……

而廣告主又是如何確認投放效果的呢?廣告主要求自己的廣告投放給25~35歲的男性網民,然後是否真的投給了這批網民難道是媒體說了算的嗎?媒體說多少就是多少嗎?

顯然不是的。廣告主會自己去向第三方的調查公司再去購買一批樣本數據,並認為這批樣本數據的用戶特徵是百分之一百準確的。一般而言,廣告主購買的樣本數據和媒體購買的樣本數據並不會是同一批數據。在廣告投放結束後,廣告主會收集到媒體投放的廣告中有多少恰好投給了這批樣本網民,而被投放廣告的這批樣本網民中又恰好有多少是滿足自己的投放要求(25~35歲的男性)的,從而計算出一個比例,然後認為媒體投放廣告的準確度就是這個百分比數字。

舉個栗子:

某網路媒體A為了實現人群定向廣告投放,向數據調查公司B購買了一批20萬個樣本,經過Cookie Mapping之後發現其中有約10萬個曾經訪問過本網站,A就會對這10萬個樣本進行分析,看看他們在自己網站中的行為及註冊信息分別是什麼樣的,然後研發演算法,並且反覆不斷的升級。終於有一天發現這個演算法對這10萬個樣本的猜測準確度達到了90%,於是認為該比例可以接受,然後就將這套人群定向演算法進行了全流量。

廣告主客戶C為了推廣自己的產品,在網路媒體A上投放廣告,要求廣告受眾是25~35歲的男性。購買量為1000個CPM,媒體A接了這個訂單後,使用自身的人群定向系統進行廣告投放,因為認為自己的這套演算法準確度約為90%,所以A實際上投放了1110個CPM,並向廣告主C收取1110 x 90% = 999個CPM的費用。

廣告主客戶C認為媒體A的人群定向不一定準確,需要進行監督,於是自行向數據調查公司B購買了15萬樣本的數據。廣告投放完畢之後發現其中有1萬個樣本被媒體A投放了自己的廣告,這其中有8000個樣本確實是25~35歲的男性。因此認為網路媒體A的人群定向準確性只有80%(而不是90%),由於媒體A一共投放了1110個CPM,所以廣告主客戶C只願意跟網路媒體A結算1110 x 80% = 888個CPM的廣告費用。

想要了解互聯網廣告,請關注我的知乎專欄

我的微信公眾號:蝦眼看廣告


本人在quantcast,就是做這的,年齡學歷性別愛好都能識別,基本上就是在每個網站上放一個tag,說是measure,同時做大數據歸類,根據你經常上的網站,把不同人放入不同的bucket來classify,基本就是這樣,有空再寫具體的


在我們互聯網中有個專業術語叫做用戶畫像,在big data時代,作為app開發者的我們不誇張的說會記錄用戶的每一次點擊並且上傳到伺服器,這樣我們可以根據用戶點擊內容形成預估,從而使用推薦演算法給用戶推送相關年齡段或者興趣的內容。


數據交換或者預測。

數據交換指跟其他公司交換雙方用戶數據,通過cookie或者手機imei號等關聯用戶。

預測的話,準不準看數據,沒有絕對的。

我做過性別預測,但不是很准,覆蓋率100%情況下70%+準確率,覆蓋率30%情況下80%+準確率,感覺已經是極限了。

詳細見我的分享

http://zhuanlan.zhihu.com/linger/20366456


初做廣告系統的時候,我也好奇到底算的準不準。由於完全沒有經驗,學渣又看不懂論文,所以一直困惑了我好久。

直到ff15上線,我的一群男性基友,大量在遊戲中建女號。我才發現其實我們對物理性別的定義並不能直接延展到虛擬性別。因此,現在我們是這麼看每一個用戶的,一個UID就是一個用戶,這個用戶擁有他的虛擬性別,虛擬年齡,虛擬職位等,由這些虛擬的標籤共同拼湊了這個虛擬的用戶。

另外,我們知道現實中的性別也並不是非男即女的,B面也是存在的。因此我們對虛擬性別的定義也並非非男即女,我們會計算一個男女的偏離度,以此作為廣告推送的基準。

虛擬的用戶跟現實中的樣子必然存在偏差,只是每個用戶的偏差大小問題。所以我們是不會去追究虛擬性別和物理性別是否一致的匹配度。然而想要計算虛擬性別的精準度,目前的方法是建立訓練集,但是我覺得這個方法並不客觀準確,還在尋找新方法。


拿APP來舉例:

獲取用戶年紀、性別等業務數據可以通過(大致)3個方法:

1,通過APP所承載的設備維度及APP本身維度(靜態維度)

1&> APP設備維度:機型(蘋果iPhone7s),操作系統(iOS),系統版本(iOS9.8.1)等;

2&> APP本身維度:APP類型(社交),APP描述(面向女性大姨媽預測),版本號(V2.1)

2,通過用戶畫像標籤(行為數據)

1&> 比如APP的描述:面向女性大姨媽預測的社交軟體,用戶在使用這個APP時,需要設置一些基本信息,比如性別,第一次來潮時間,最近一次例假,年紀等欄位;

3,APP自定義的標籤:

1&> 比如APP的描述,女性,大姨媽等欄位;

通過分析蘋果系統和安卓系統的男女使用佔比,這個是最粗糙的;囧

然後通過分析app描述的欄位,類似大姨媽相信女性用的多一些;

最後通過畫像來(行為數據)判斷,比如買衛生巾,自然女性可能性更大一些;

再然後通過APP自定義表情來驗證

這個都是通過訓練來推測的,沒有所以沒有所謂的多准一說,因為買衛生巾也有可能是男票呀~


這個簡單的說就是大數據了。我們的個人信息、喜好被各種網站, 各種APP記錄、分析。比如你的瀏覽記錄、搜索記錄、購買記錄、打字內容記錄(2016-5-27今天剛看到一個新聞說某狗輸入法和某度輸入法會上傳你所有的打字內容到伺服器,還是明文傳送的)。各個分散的資料庫通過一些關鍵的欄位關聯起來(手機號 手機編號 註冊信息等等),確定你是同一個人。然後就是在A數據商人資料庫的結果在用於B供應商給你推薦了。


經常看色情的,我閉著眼猜你是男性,色情當中還有亂x、SM、戀童……等等,大概猜個年齡出來?感覺不能再說下去,不知道會不會封號。有緣再見。


1.強賬號系統公司會根據用戶註冊信息判別性別年齡

2.賬號系統比較弱的,基本都在使用監督學習,根據已知答案的樣本來訓練模型,遇到新的數據時,將數據餵給訓練好的模型進行判別


添加一個答案,也是從知乎上看到的。詳細內容可自行搜索知乎。侵刪。

電影情節般的故事是這樣:傑弗里收藏了一副風景畫,這是他祖母海倫·福斯(Helen Fuchs)畫的。

傑弗里告訴警方,如果有人想要轉手畫作,一定會搜索畫家的簽名。果真,兩名盜賊就是在谷歌搜索上查了傑弗里祖母海倫·福斯(Helen Fuchs)的名字。犯罪嫌疑人就這樣鎖定~(≧▽≦)/~啦


酷狗音樂給我彈了兩次妹子直播消息幕之後,第三次給我彈了個男的,

男的!男的!男的!

手動大哭臉 5555555


如果網站有用戶註冊的信息,比如facebook類似的,直接讀取賬號信息就可以了。

如果是未註冊或者未登錄或者註冊信息裡面沒有此類信息,一般是通過cookie、IP等識別後,與連接的微信微博或者其它第三方網站有相關信息的網站去讀取用戶的信息。


目前ANG、瑞恩等幾家號稱有更好的演算法,也得到了融資,你可以去他們網站看看,甚至不妨打電話過去詢問下。


仔細看了下題主的問題發現之前的回答很不妥當。補充說明如下。

第一,廣告推薦過程中,很少採用用戶性別,年齡這麼粗的緯度來推薦。原因是廣告方或廣告聯盟不一定能拿到準確數據,即使拿到這麼粗的緯度也很難說有多大意義。用法可能用來做用戶畫像的其中一個屬性。

第二,推薦中常用的方法主要是item相似或相關,又或者用戶畫像再根據畫像屬性算相似或偏好。

第三,分析年齡性別常見於用戶屬性分析。例如youtube後台觀看視頻用戶數,facebook專頁用戶報告,或者ga的用戶屬性等。這裡基本不可能100%分析出來。方法不是特別清楚,大體上手機上一切行為都能監聽到(尤其gms這麼底層的服務),不過使用中一般會抹去個人的特徵只分析分布和構成。

第四,像facebook,twitter這種社交媒體兼職廣告聯盟的,天然有優勢。因為信息填的基本是真的,也沒必要再分析什麼,直接把信息拿來用就是。

……原答案……其他了解不多,說下國外移動端的;

谷歌的Admob,識別的方法是通過gmail賬號關聯的信息、搜索記錄、app安裝記錄等,具體到廣告還有用item的相關性演算法,年齡、性別、城市定位的準確度較高。

Facebook的廣告聯盟,識別方法是通過facebook賬號的關聯信息、社交行為記錄,年齡、性別等準確度不如谷歌,但是精細度高。


大部分都是個人主動提供信息+cookie mapping,當然移動端不需要做cookie mapping,因為大家都有收集用戶的imei或idfa等設備信息


cookie


別的不知道,鵝廠的精準投放真的很精準,不僅知道你的年齡,還知道你的姓名、身份證號以及人脈網路。


求題主看清dsp話題的介紹。。。


推薦閱讀:

如何正確的理解循環不變式?
競技遊戲的匹配系統要做到儘可能使雙方實力接近有多難?
如何計算有多個起終點的最小費用流問題?

TAG:演算法 | 互聯網廣告 | 推薦演算法 | 用戶行為分析 | 需求方平台DSP |