大數據更應該強調「人」
你知道「in」嗎?in是國內知名的圖片設計軟體,在 「in」 里用戶不僅可以給照片上打上各種標籤,如品牌、地點、心情等,還可以給圖片加上各種貼紙進行處理!它區別於國外的instagram,定位於「讓照片更加有意思」的社交化分享,你可以將打上標籤的圖片實時與好友分享互動。
短短兩年時間,in 依靠在大數據的深耕細作,迅速積累8000W用戶!在昨天結束的【友盟+】2016·U-Time 杭州站活動中,我們邀請到 in 大數據中心高級經理羽薇,為我們分享了in從沒有數據倉庫,到利用大數據的精細化,並應用到8000W用戶身上,找到人與人之間的聯繫!
我是在in成立一個月的時候加入in的,當時連一個數據倉庫都還沒有建立,而在過去的兩年時間裡,in到底是如何運用數據來推動業務增長?如何使用用戶的推薦,來做用戶的精細化運營的?
數據來源於【友盟+】應用統計
我認為主要有以下兩方面:
一、發現人早期的時候,in最火的功能是貼紙。很多人下載in是因為看到身邊的朋友用in做了萌萌噠很可愛的貼紙,所以下載了in。但我們希望,用戶因為貼紙到了in之後,能夠很快發現,原來我身邊這麼多人也在玩,這麼多有意思的人也在玩in,而且還在in里沉澱了這麼多的生活中的照片,從而產生關注這樣的行為。
所以在貼紙一上線的時候,貼紙的使用次數是有限的,用戶加了手機認證、上傳通訊錄可以解鎖使用次數的功能。這為我們緊接著的熟人關係模型帶來了非常重要的數據基礎。當然在一年多以前,需要認證手機才能貼紙解鎖的功能就已經下線了。但我們驚喜的發現用戶仍然非常樂意在in里通過上傳通訊錄來找到自己的關係。目前,在in上傳通訊錄的用戶已經達到了將近一半的量。
我們來看一下,這個是 in 的「關係推薦模型」
我們的關係數據來源除了通訊錄之外,還有微博和微信的關係數據。並且除了這些可以直接利用的一度關係之外,通過二度的關係運算,我們還能幫助用戶找到更多可能認識的人。從我們數據分析的結果來看,當存在4個二度關係的時候,關注的轉化已經等同於1個一度關係。
但這個第一個灰度的版本依然受到了很多挑戰,最大的挑戰就是,用戶的反饋,這裡是推給了我認識的人,但還是有很多人我不認識。
為什麼呢?歸結到兩個原因:
第一個原因,不同來源的關係數據他們背後的關係模型都是不一樣的,不能直接以這種無向邊的形式直接定義關係。
第二個原因,二度關係會推出來非常多的長尾結果,對於二度的結果,需要一個優化的排序策略。
01
關係的梳理
我們的關係來源於in、通訊錄、微博、微信4個渠道,每個渠道對於關係的定義都是不一樣的。比如在通訊錄里,我的手機號里存了另外一個人的號碼,這已經是非常強的社交行為,那就有已經很大概率是我的朋友。但在微博里很多關注都是對明星號或營銷號,所以兩個用戶當在微博互相關注時,我們才會當成一度關係來用。
其次,我們原來的二度關係的計算是沒有方向的,在第2個版本也做了調整。當A用戶的朋友列表和B用戶的朋友列表裡存在交集的時候,A和B用戶才互為二度關係。
02
數據化的運用—多維度的綜合運用
當某個用戶的一、二度關係全部找到之後,我們會對這些關係再做一次排序計算。除了結合一、二度的關係邊數以外,還加上了他們是不是常常出現在一個地方,有沒有連過同一個Wi-Fi等因素,來判斷這兩個人的關係緊密度。
到現在為止,有70%都是來自於這個簡單的數據模型,通過實際的場景來達到我們的目的,這就是發現人,讓用戶快速發現自己認識的人。
二、了解人——用戶畫像建立in的用戶畫像,是基於了解人,了解用戶的基礎上的。不單純的局限於in。
這部分分為四個要點:
生命周期
用戶在App內的行為特徵是怎樣的?喜歡用什麼功能?
時空屬性
地理位置的信息,以及時間屬性的信息,如住在哪裡?現在是不是在外地?
社會屬性
用戶作為社會群體中的一員所具有的固有的或動態的屬性,如性別、年齡、消費水平、社交活躍度等等。
欲和好
為什麼不說是興趣,因為興趣太泛,我們希望能找到用戶生活中最關注的那一部分信息。比如我們平台上,大部分都是年輕女生。對於她們來說,生活中最重要的部分莫過於讓自己變美、偶像、追星、戀愛、寶寶等等。
所以在建立in的用戶畫像之前,需要花了很多的時間,去剖析,所以建立下來,in的用戶畫像這樣的。
難點:欲和好。其中最有挑戰也最有意思的是欲和好這部分信息,好在我們有很好的數據基礎。在高峰期的時候,每天在in上傳的圖片數量甚至超過700萬,並且我們的圖像識別團隊能夠把這些圖片翻譯成機器能理解的語言。再加上圖片上的文字標籤,平台上的話題圈、熱門頻道、興趣達人,都為我們獲得用戶欲和好帶來了非常重要的信息。
但是第一個版本的結果出來了以後,結果不容樂觀。用戶在喜好上非常趨於一致,這現象不正常。比如,幾乎所有喜歡明星的人都喜歡鹿晗、TFBOYS,所有瀏覽發現頁的人都呈現美女、美食的偏好。為什麼呢?後來分析才發現,是熱度的內容影響了畫像的計算結果。
所以我們做了兩個調整:
內容懲罰——就是對平台的熱門內容做懲罰,進行適當的降權。
增加數據源——現在增加的是微博的數據源,因為它除了給我們帶來了微博的關係之外,用戶還會在微博裡面找到關係列表,可以知道用戶關注和偏好什麼信息。
當做了這兩個調整,也有信心做校準了。用戶畫像中就會有一個比較準確的校準。
比如:數據計算出來,這個女性是寵物控,那麼我們怎麼判斷這個計算結果是否準確的呢?
我們對這計算出來時寵物控的人抽樣推送一條寵物的精選內容,觀察她們的點擊率。
把這批人的轉化率和自己給自己寫上「寵物控」這個興趣標籤的人的推送點擊率進行比較。
結果得到,給自己打上「寵物控」興趣標籤的人的點擊率是隨機推送的1.8倍,而用戶畫像利用用戶行為數據計算出來的這批「寵物控」對推送的點擊率是隨機推送的2.4倍。
在對畫像的每個維度都做校準之後,用戶畫像就可以上線灰度應用了?
接下來in數據大腦會做些什麼呢?我們需要一個更系統化的數據大腦。從底層的數據收集、清晰、處理再到上層的應用,包括支持和推進精細化運營、廣告定向投放的等業務,真正做到一個系統化的穩健的持續從數據上支持和推進業務的數據大腦,和in一同成長。
推薦閱讀:
※『消費者平均廣告感知價值——11美元/分鐘』今日數據行業日報(2016.08.10)
※框架為數據科學家帶來哪些編程語言所不能帶來的優勢
※今日數據行業日報(2016.07.15)
※『《Pokemon Go》上市一個月營收突破2億美元』今日數據行業日報(2016.08.09)