沒數據積累和用戶畫像，我是這麼做頭條產品的

04-27

本來默默划船，在交流會上談個性化推薦都不惹人注意的今日頭條，毫無置疑現在已經被整個BAT圍剿，內容領域的企業不自覺把今日頭條當做競爭對手，非內容領域的互聯網公司也都想來分一杯內容的羹，一夜間，互聯網遍地都是feed流，不談內容推薦演算法都不好意思上桌了。

筆者近期有幸從0到1規劃頭條產品，想把自己的實操經驗分享出來，如果對感興趣的朋友有幫助自然開心，更希望得到業界大佬的批評和指正，畢竟一個人摸索前進，還是很危險的。

一、明確定位

經常使用閱讀產品很大的感受是大平台很容易出現資訊沒深度，垂直的內容資訊只在某幾個如科技，互聯網等幾個領域做的還不錯，我當時的設想是有沒有可能做行業內深度資訊，尤其是一開始切入那些並未互聯網化過深的行業，通過一個行業的試點，形成行業頭條，在沉澱優質行業知識的同時，以最低成本去複製到其他行業。

思考了挺久之後開始和老闆彙報了，省去10000字具體說服過程，最終同意了，因為團隊某公司與一個傳統行業A有交集，所以一開始的切入行業就是行業A了，下面開始具體執行了，看著一共10多個技術人員，我陷入了深思。。。

劣勢簡直不要太明顯

沒有數據積累；
沒有用戶畫像；
團隊沒人從事過行業A；

我要開始作死的做頭條產品了。。。

二、頭條產品整體設計

我開始從三個層面去搭建產品，底層類型標籤層，中層數據抓取分析層，頂層業務應用層。

1.底層類型標籤層

底層根據具體行業進行梳理，本來這個過程應該產品和具體行業從業人員配合梳理，但是礙於資源有限，那就我來吧，肯定不足夠詳盡，但是一開始可以先跑起來。

底層類型標籤層分為類型和標籤，類型有層級性，資料庫預留到7級，實際梳理到3級就差不多了，如行業A，A公司是一個一級類型，A行業製造公司是二級分類，具體製造公司名稱是3級類型，每個類型獨立建表，每個表裡關聯海量標籤到類型上，如行業A技術這個類型里我們找到行業A技術術語詞典，刪選後就作為標籤關聯到A技術這個類型下面，類型數最後梳理了600多，標籤數量有10萬多，資料庫預留狀態位，可以視情況進行啟用關閉。

2.中層數據抓取分析層

數據抓取分析層分為爬虫部署，內容來源處理，數據歸類

爬虫部署

我以一個技術外行的角度把爬蟲分為兩類，一類是不定向爬蟲，都是一個個單獨網站，這種技術消耗較大，需挨個處理，如各個A行業公司的官網新聞中心和行業A平台網站，需單獨處理，另一類定向爬蟲，主要是有搜索功能的大資訊平台，如今日頭條等，代碼可復用，寫好之後我直接建了一張表，專門放搜索爬蟲的關鍵詞，一堆關鍵詞一套代碼就可以實現，輸入進去就把含有這些關鍵詞的新聞抓取出來了，現在這張表關鍵詞也有700多了，爬取來的內容量實在太大，建議用mongedb處理

內容來源處理

數據過來後先進行來源梳理，劃分優質來源和垃圾來源，提升優質來源內容的權重，優質來源主要是各公司官網，垃圾來源是指對具體行業而言，大量無意義的內容來自同一個來源，那麼將他認定為垃圾來源，比如一個叫xx說車的來源在建築行業被認定為垃圾來源，但是將來複制到汽車這個領域的時候，就不再是垃圾來源了，垃圾來源是一個長期的活，現在大概700多了，額，大部分垃圾來源是今日頭條的頭條號。

數據歸類

過濾完垃圾源之後，就開始數據歸類了，本質上是將新聞內容歸到我們建立的一個個類型上，因為做行業資訊，希望一開始數據準度較高，我當時想了兩種方案，第一種是將類型根據自己關聯的海量標籤按權重建立一個個模型，所有抓取來的文章做全文的分詞處理，大量文章統計詞頻，每篇文章所有分詞就有一個總的頻率值，和類型模型比對，取相關性較高的，另一種就是把類型下面所屬的標籤和所有篩選過垃圾源的文章比對，含有標籤的文章歸到所屬類型下面，含有同一類型標籤越多，說明該文章相關性越高，為了快速上線就用第二種方案，但是相對，精度就差了一些，當然隨著人工的介入，篩出一系列垃圾源，類型和標籤維護工作的持續，內容準度好了一些

3.頂層業務應用層

業務展現層主要是梳理目標用戶感興趣的關鍵詞，將這些關鍵詞關聯到類型標籤層的類型，這樣，用戶訂閱關鍵詞之後就可以看到這個關鍵詞所屬的內容，前台現在以及上線2個產品，一個訂閱平台，行業頭條，與之配套的是後台管理中心

訂閱平台

訂閱平台半封閉，面向行業A企業用戶和行業A自媒體從業者，釋放出他們感興趣的關鍵詞，內容準度更高，企業用戶訂閱關鍵詞，可以看到相關的資訊，看到平台具有的能力後，有慾望定製更多關鍵詞，後台審核後繼續部署爬蟲，推送數據給用戶，同時記錄用戶的所有行為數據

行業頭條

行業頭條完全開放，面向准行業從業者以及泛行業愛好者，釋放出更多關鍵詞，但是較訂閱平台，內容質量稍差，但是目標用戶較廣，所以寄希望記錄用戶的所有行為數據（如評論，閱讀量，換一批事件，關注關鍵詞等），得到用戶反饋，建立用戶畫像，以達到根據不同用戶畫像推薦關鍵詞的效果，為真正的推薦做準備

後台管理中心

含有新聞管理，來源管理（優質來源，垃圾來源），類型/標籤管理，用戶行為管理，推送管理，關鍵詞審核排期管理，評論搜索管理等，具體就不再詳述了，有機會再詳細介紹，簡單的把產品框架梳理了一張圖，和上面的論述結合起來，可能更方便理解

三、致同行

不要動不動就要再造個今日頭條，如果你的體驗和演算法做不到比他強百分之五十以上，正面硬剛基本沒戲，找准自己的切入點，認清自己的優勢；

內容推薦從來都很危險，如果用戶不需要的時候推薦，除非做到讓用戶驚喜，否則就是減分，用戶一定要用的產品，用戶只能忍著，可有可無的產品，極有可能被用戶卸載，這點做公眾號的朋友肯定深有感觸，每次推送內容都怕掉粉。。

因為對搜索一直比較有興趣，所以簡單闡述一下自己對輸入法產品想做內容的建議吧

用戶有自己了解資訊的需求：

主動獲取：RSS抓取（google訂閱），關注/訂閱（即刻）

被動獲取：平台推薦（傳統門戶，新聞網站），垂直類媒體資訊（36K，虎嗅等，最近馮大輝的readhub），個性化推薦（頭條，一點資訊）

這一類需求競爭極其大，還有一類是基於特定場景下，對資訊的了解訴求

比如找工作時，想了解某家公司；吃飯時，想了解附近餐館的情況；

這一類訴求特別長尾，目前多是怎麼被滿足的呢？

主動搜索，到百度，知乎等平台搜索，但得到想要的資訊路徑很長，比如你和朋友吃飯，你想知道附近有哪些好館子，搜到的代價就就極高這種場景大量發生在哪裡？聊天和查詢的時候！這正是我覺得輸入法切入資訊的機會，具體來講：

當和別人聊天說要跳槽，談的某家公司，輸入法輸入時有個提示（如顏色變化等）能方便的推送公司的最新資訊；

聊天約飯，方便推送出附近飯館和評價；

和男朋友說要買趙麗穎同款，男朋友能方便看到這些商品的資訊；

這些訴求的背後數據，辭彙出現的頻率，輸入法公司應該有足夠的積累，大可根據詞頻做內容準備，當用戶在輸入東西的時候，給用戶一個意外的驚喜，來達到資訊推薦的目的，希望有從事輸入法這塊的朋友能給予指導吧

最後，野路子出身的產品，非常誠懇的希望有同行能夠給出批評和建議。公眾號（小呆自留地）會盡量堅持更新，微信號：wuzhongjieaichirou（「吳中傑愛吃肉」拼音）,歡迎關注交流，謝謝

aHR0cDovL3dlaXhpbi5xcS5jb20vci8yRHRNVkp2RVdzWWxyZDgzOTI3Sw== (二維碼自動識別)