沒數據積累和用戶畫像,我是這麼做頭條產品的

本來默默划船,在交流會上談個性化推薦都不惹人注意的今日頭條,毫無置疑現在已經被整個BAT圍剿,內容領域的企業不自覺把今日頭條當做競爭對手,非內容領域的互聯網公司也都想來分一杯內容的羹,一夜間,互聯網遍地都是feed流,不談內容推薦演算法都不好意思上桌了。

筆者近期有幸從0到1規劃頭條產品,想把自己的實操經驗分享出來,如果對感興趣的朋友有幫助自然開心,更希望得到業界大佬的批評和指正,畢竟一個人摸索前進,還是很危險的。

一、明確定位

經常使用閱讀產品很大的感受是大平台很容易出現資訊沒深度,垂直的內容資訊只在某幾個如科技,互聯網等幾個領域做的還不錯,我當時的設想是有沒有可能做行業內深度資訊,尤其是一開始切入那些並未互聯網化過深的行業,通過一個行業的試點,形成行業頭條,在沉澱優質行業知識的同時,以最低成本去複製到其他行業。

思考了挺久之後開始和老闆彙報了,省去10000字具體說服過程,最終同意了,因為團隊某公司與一個傳統行業A有交集,所以一開始的切入行業就是行業A了,下面開始具體執行了,看著一共10多個技術人員,我陷入了深思。。。

劣勢簡直不要太明顯

  • 沒有數據積累;

  • 沒有用戶畫像;

  • 團隊沒人從事過行業A;

我要開始作死的做頭條產品了。。。

二、頭條產品整體設計

我開始從三個層面去搭建產品,底層類型標籤層,中層數據抓取分析層,頂層業務應用層。

1.底層類型標籤層

底層根據具體行業進行梳理,本來這個過程應該產品和具體行業從業人員配合梳理,但是礙於資源有限,那就我來吧,肯定不足夠詳盡,但是一開始可以先跑起來。

底層類型標籤層分為類型和標籤,類型有層級性,資料庫預留到7級,實際梳理到3級就差不多了,如行業A,A公司是一個一級類型,A行業製造公司是二級分類,具體製造公司名稱是3級類型,每個類型獨立建表,每個表裡關聯海量標籤到類型上,如行業A技術這個類型里我們找到行業A技術術語詞典,刪選後就作為標籤關聯到A技術這個類型下面,類型數最後梳理了600多,標籤數量有10萬多,資料庫預留狀態位,可以視情況進行啟用關閉。

2.中層數據抓取分析層

數據抓取分析層分為爬虫部署,內容來源處理,數據歸類

  • 爬虫部署

我以一個技術外行的角度把爬蟲分為兩類,一類是不定向爬蟲,都是一個個單獨網站,這種技術消耗較大,需挨個處理,如各個A行業公司的官網新聞中心和行業A平台網站,需單獨處理,另一類定向爬蟲,主要是有搜索功能的大資訊平台,如今日頭條等,代碼可復用,寫好之後我直接建了一張表,專門放搜索爬蟲的關鍵詞,一堆關鍵詞一套代碼就可以實現,輸入進去就把含有這些關鍵詞的新聞抓取出來了,現在這張表關鍵詞也有700多了,爬取來的內容量實在太大,建議用mongedb處理

  • 內容來源處理

數據過來後先進行來源梳理,劃分優質來源和垃圾來源,提升優質來源內容的權重,優質來源主要是各公司官網,垃圾來源是指對具體行業而言,大量無意義的內容來自同一個來源,那麼將他認定為垃圾來源,比如一個叫xx說車的來源在建築行業被認定為垃圾來源,但是將來複制到汽車這個領域的時候,就不再是垃圾來源了,垃圾來源是一個長期的活,現在大概700多了,額,大部分垃圾來源是今日頭條的頭條號。

  • 數據歸類

過濾完垃圾源之後,就開始數據歸類了,本質上是將新聞內容歸到我們建立的一個個類型上,因為做行業資訊,希望一開始數據準度較高,我當時想了兩種方案,第一種是將類型根據自己關聯的海量標籤按權重建立一個個模型,所有抓取來的文章做全文的分詞處理,大量文章統計詞頻,每篇文章所有分詞就有一個總的頻率值,和類型模型比對,取相關性較高的,另一種就是把類型下面所屬的標籤和所有篩選過垃圾源的文章比對,含有標籤的文章歸到所屬類型下面,含有同一類型標籤越多,說明該文章相關性越高,為了快速上線就用第二種方案,但是相對,精度就差了一些,當然隨著人工的介入,篩出一系列垃圾源,類型和標籤維護工作的持續,內容準度好了一些

3.頂層業務應用層

業務展現層主要是梳理目標用戶感興趣的關鍵詞,將這些關鍵詞關聯到類型標籤層的類型,這樣,用戶訂閱關鍵詞之後就可以看到這個關鍵詞所屬的內容,前台現在以及上線2個產品,一個訂閱平台,行業頭條,與之配套的是後台管理中心

  • 訂閱平台

訂閱平台半封閉,面向行業A企業用戶和行業A自媒體從業者,釋放出他們感興趣的關鍵詞,內容準度更高,企業用戶訂閱關鍵詞,可以看到相關的資訊,看到平台具有的能力後,有慾望定製更多關鍵詞,後台審核後繼續部署爬蟲,推送數據給用戶,同時記錄用戶的所有行為數據

  • 行業頭條

行業頭條完全開放,面向准行業從業者以及泛行業愛好者,釋放出更多關鍵詞,但是較訂閱平台,內容質量稍差,但是目標用戶較廣,所以寄希望記錄用戶的所有行為數據(如評論,閱讀量,換一批事件,關注關鍵詞等),得到用戶反饋,建立用戶畫像,以達到根據不同用戶畫像推薦關鍵詞的效果,為真正的推薦做準備

  • 後台管理中心

含有新聞管理,來源管理(優質來源,垃圾來源),類型/標籤管理,用戶行為管理,推送管理,關鍵詞審核排期管理,評論搜索管理等,具體就不再詳述了,有機會再詳細介紹,簡單的把產品框架梳理了一張圖,和上面的論述結合起來,可能更方便理解

三、致同行

不要動不動就要再造個今日頭條,如果你的體驗和演算法做不到比他強百分之五十以上,正面硬剛基本沒戲,找准自己的切入點,認清自己的優勢;

內容推薦從來都很危險,如果用戶不需要的時候推薦,除非做到讓用戶驚喜,否則就是減分,用戶一定要用的產品,用戶只能忍著,可有可無的產品,極有可能被用戶卸載,這點做公眾號的朋友肯定深有感觸,每次推送內容都怕掉粉。。

因為對搜索一直比較有興趣,所以簡單闡述一下自己對輸入法產品想做內容的建議吧

用戶有自己了解資訊的需求:

主動獲取:RSS抓取(google訂閱),關注/訂閱(即刻)

被動獲取:平台推薦(傳統門戶,新聞網站),垂直類媒體資訊(36K,虎嗅等,最近馮大輝的readhub),個性化推薦(頭條,一點資訊)

這一類需求競爭極其大,還有一類是基於特定場景下,對資訊的了解訴求

比如找工作時,想了解某家公司;吃飯時,想了解附近餐館的情況;

這一類訴求特別長尾,目前多是怎麼被滿足的呢?

主動搜索,到百度,知乎等平台搜索,但得到想要的資訊路徑很長,比如你和朋友吃飯,你想知道附近有哪些好館子,搜到的代價就就極高這種場景大量發生在哪裡?聊天和查詢的時候!這正是我覺得輸入法切入資訊的機會,具體來講:

當和別人聊天說要跳槽,談的某家公司,輸入法輸入時有個提示(如顏色變化等)能方便的推送公司的最新資訊;

聊天約飯,方便推送出附近飯館和評價;

和男朋友說要買趙麗穎同款,男朋友能方便看到這些商品的資訊;

這些訴求的背後數據,辭彙出現的頻率,輸入法公司應該有足夠的積累,大可根據詞頻做內容準備,當用戶在輸入東西的時候,給用戶一個意外的驚喜,來達到資訊推薦的目的,希望有從事輸入法這塊的朋友能給予指導吧

最後,野路子出身的產品,非常誠懇的希望有同行能夠給出批評和建議。公眾號(小呆自留地)會盡量堅持更新,微信號:wuzhongjieaichirou(「吳中傑愛吃肉」拼音),歡迎關注交流,謝謝

aHR0cDovL3dlaXhpbi5xcS5jb20vci8yRHRNVkp2RVdzWWxyZDgzOTI3Sw== (二維碼自動識別)


推薦閱讀:

從國產熱播劇了解大眾流行熱點
科學的逼用戶去思考
談一談優秀產品人才在面試時表現出的典型特質
《QQ音樂》產品簡單體驗-第10天
如何將產品做到極致,分享我的一些感悟(下)

TAG:產品經理 | 產品 | 互聯網產品 |