今日頭條的核心技術細節是什麼?
要乾貨哦!
頭條不是第一個做新聞推薦的,但是技術上今日頭條有幾個特別有想像力的點。
推薦冷啟動 cold start
推薦系統裡面的冷啟動一直是一個很大的問題。當新用戶加入時,一般需要給用戶一個初始興趣值。比較常見的做法,比如quora,zhihu,pinterest是讓人手選感興趣的話題;另外一個做法是給一些初始歌曲或者電影讓人選喜歡或者不喜歡,然後生成一個初始值。無論哪一個做法,用戶的行為數據都不足以產生高質量的推薦。
以pinterest為例,因為主要用戶是女性,所以初始值大部分推薦的內容都是女裝時尚的。我大約認真pin了兩個月,才把推薦內容洗到直男的科技建築。
而頭條將微博賬戶和興趣綁定在一起,所以當用微博帳號登錄的時候,一開始的初始興趣分布就和人的微博記錄匹配上了。今日頭條則選擇了另一種解決方案——通過對用戶微博賬號的分析建立一個「興趣圖譜」,即根據用戶在微博上發布的內容及其所屬類別、用戶自標籤、社交關係、社交行為、參與的群組、機型、使用時間等來數據源來推斷出用戶的興趣點有哪些。社交關係、社交行為即用戶和用戶之間的交流狀況,可以根據二者間的共同好友數、相互評論熟、@數等來做度量。
泛閱讀產品「今日頭條」是如何基於微博興趣圖譜做個性化推薦的?
說起來很簡單,做起來也並不複雜,其實頭條也不是第一個做這個的。
但有意思的一點是頭條主打的是泛閱讀,所以,推薦即便比較一般,因為推薦的量大,用戶還是非常容易在推薦的內容里找到感興趣的。相應的,很多用類似的思路做精品閱讀的,基本都做不下去。類似的思路讓我想起了orbeus的phototime,人臉識別並不難,但是讓用戶手機上的照片圈出每一個人臉是什麼人卻是很大的工作量。 phototime通過導入用戶facebook上的照片作為標註結果,然後解決了冷啟動。
閱讀內容的原始積累
今日頭條本身並沒有產生新聞的媒體部門,所以將整個互聯網的新聞都納入了自己的信息源。雖然這一塊惹來很多版權糾紛,但是個人覺得並不是所有的網站都排斥被今日頭條抓取了內容,因為給很多網站帶去了流量。值得商榷的是網頁重構,雖說提高了用戶體驗,但是侵犯了那些媒體公司的利益。
在法律更健全的地方,這樣操作就會有風險,以apple自帶的股票app,或者yahoo finance,所有股票新聞都只是一個鏈接和標題,要老老實實鏈到第三方的新聞出處。題主,你要的乾貨來了!估計現在今日頭條的用戶量應該達到 5 億了。從 2012 年到 2016 年這幾年間,平均算下來,今日頭條平均一年新增 1 億多用戶,平均每月新增 1000 多萬用戶。每個月的成長,幾乎相當於別人努力一年甚至幾年的結果。
有人說,今日頭條的用戶量大多是靠預裝帶起來的。然而,預裝對於各家門戶的新聞客戶端來說,是一個帶來用戶量的常用手段。如果大家都用了同樣的手段,但最終留下來的是今日頭條,這說明了什麼?
市場是檢驗一款產品到底成功與否的唯一標準。今日頭條推薦的新聞,更符合用戶群體的口味。
然而,在擁有數億用戶的情況下,今日頭條若依然堅持人工推薦的話,人力成本巨大不說,效率也不會高。通過技術手段,自動化整個服務鏈條,從來是應對業務規模化的路徑。假如你以前不相信今日頭條自己有做個性化內容推薦演算法,那麼現在,你必須相信今日頭條它已經這麼做了。因為沒有一份報紙,可以每天出版數億份不同內容的讀物。
那麼,今日頭條如何做到內容精準化的推薦,它對今日頭條的商業模式帶來怎麼樣的影響?通過機器的方式對信息的分揀,以及推送,真的可以觸動到讀者的心嗎?
今日頭條核心演算法負責人楊震原,之前就在在 MindStore 分享時提到,一開始今日頭條的推薦演算法,首先入手的是「非個性化推薦」——解決的熱門文章推薦,以及新文章冷啟動的問題。楊震原在「MindTalk 線場」說,「單純的熱門(文章),會讓一些新文章沒有機會。單純的隨機(推薦),(文章)質量當然不好,所以考慮一些簡單方法,比如算一下威爾遜置信區間,來平衡熱與新的問題。」
之後,今日頭條開始逐步引入個性化推薦的策略。他們所採用的,是協同過濾(Collaborative Filtering)** + 基於內容推薦,直到今天依然構成今日頭條推薦演算法的基礎。
關於協同過濾,參考 IBM developerWorks 中文社區的專業解釋,「協同過濾一般是在海量的用戶中發掘出一小部分和你品位比較類似的,在協同過濾中,這些用戶成為鄰居,然後根據他們喜歡的其他東西組織成一個排序的目錄作為推薦給你。」
楊震原在 MindStore 分享,
(協同過濾)是一個很好的方法,直到今天我們還一直使用。但缺點也很明顯,對於沒有行為(記錄)的文章,沒辦法推薦,所以沒辦法用於文章的冷啟動。所以我們引入了基於內容推薦的策略。比如計算文章的分類、文章的關鍵詞,然後根據用戶對文章的閱讀、瀏覽等信息,細化用戶的個人資料。——這樣子,如果文章是和科技相關的,而用戶的個人資料也顯示科技相關,那麼就算匹配。」
在之後的工作,是把特徵、模型做得更加細化。比如,文章實體詞的抽取。我們最近對文章的分析,已經做得很細,可以精確地提取實體詞。我們近期引入了『詞嵌入』(word embedding)方法,做向量化的分析,還引入 LDA 的方法,進行 topic 分析等等。
除此之外,今日頭條還通過用戶對內容的「正負反饋」來判斷內容匹配是否精準。正反饋,包括用戶點擊了、看了很長時間、分享了、收藏了、評論了,都是正反饋。負反饋反而是比較難獲取的,現在今日頭條在內容上設置了一個小叉,點擊之後,會諮詢用戶不感興趣的理由,這種做法則會獲取比較強的負反饋。但是通過這種方式收集到的數據還不多。
那麼,我們知道現在的個性化推薦演算法還未盡善盡美。在「MindTalk 線場」上,有用戶提問,「今日頭條如何平衡傳統意義上的頭條新聞和用戶感興趣的頭條新聞?」對此,楊震原的回答是,「我們目前是增加非常少的運營幹預一天只有零星幾條,來增強傳統頭條新聞的推薦,避免機器推薦對這類內容推薦的不足。」但是,拿捏新聞推薦的平衡點,是整個業界都在鑽研的問題。
通過楊震原的解釋,我們基本知道了今日頭條推薦演算法的原理:通過演算法,一邊提取內容的特徵,一邊提取用戶興趣的特徵,然後讓內容與用戶的興趣匹配。
不過,除了對文本進行分析外,今日頭條如何對用戶進行分析呢?
楊震原說,「新用戶能夠得到的信息(歷史行為)非常有限。我們盡量通過一下其它途徑想辦法獲取信息,比如說,如果通過微博登錄,那麼就可以拿到很多信息,解決冷啟動的難題。再比如,手機機型、手機在什麼城市等信息,基本也可以知道。當用戶積累了一定的行為數據之後,就可以算出他們的興趣特徵。總之,盡量通過有限的信息,來猜測用戶的興趣。」
今日頭條通過機器匹配用戶閱讀興趣,與內容本身的特徵之後,這對他們的商業有怎樣的影響?
廣告界有一句名言,「企業所投放的廣告費總有一半是浪費掉的,但是卻沒有辦法知道被浪費掉的是哪一部分。」今日頭條目前的商業模式也是以廣告為主,因此在產品上所產生的巨大流量,可否與廣告內容精確匹配,進而進行更加精準的轉化。
根據今日頭條所提供的案例,此前海爾旗下卡薩帝選擇在今日頭條的動態開屏和信息流中投放廣告,最後開屏廣告的轉化率達 11.93%。
本文節選自我的專欄:今日頭條是怎麼做新聞推薦的?這篇文章告訴你 | MindStore - MindStore 官方博客 - 知乎專欄,歡迎大家關注下!每天都有最乾貨的精彩大咖分享報道和創業者訪談。
1、你們太誇大今日頭條的自動化推薦的作用了。2、今日頭條最早的種子用戶來自於內涵段子等幾個倒量進來的3、今日頭條的用戶群體和快手類似,偏中下階層的屌絲群體,而這幫用戶的規模是很驚人的。4、所謂的核心個性推薦技術並不是核心,核心是推薦的新聞內容都是比較符合屌絲用戶的三俗新聞,比如姐夫誘惑小姨子了、大波美女走光了等等諸如此類,牢牢得抓住了屌絲用戶的?,而且新聞本身呈現出趣味性。這才是為什麼能輕輕鬆鬆的超越網易新聞的根本原因。看看快手的日活就知道,群眾力量大哇!
好的東西 有人喜歡有人罵,到最後有一個事實就是:大家都離不開它!
今日頭條是國內領先的新聞客戶端,最大的特點是個性化推薦,真正的千人千面。初步估計有3億的積累用戶,日活用戶超過三千萬。之前就這個問題跟今日頭條的今日頭條演算法構架師@ 曹歡歡交流,就「今日頭條是怎麼推薦內容的?」進行了簡單交流。舉個簡單的例子,頭條在給用戶找一篇你可能喜歡的新聞的時候,他會考慮三方面的因素:
- 1、第一,用戶特徵,比如興趣,職業,年齡,短期的點擊行為。
- 2、第二,環境的特徵。推薦是一個情景化的事。比如我自己早上,會看一看科技新聞。周末晚上會看搞笑視頻。還有網路環境,你要有wifi的話,給你多推視頻。
- 3、另外就是文章自身的特徵,它有哪些主題詞,命中了哪些標籤,還有它的熱度,是不是很多家媒體都轉載了。包括文章時效性和相似文章推薦。
今日頭條的個性化推薦不靠人、靠技術推薦時會兼顧用戶、環境和文章本身特徵這點可以看做他很好的一個技術壁壘。在個性化推薦這塊還是考慮得因素蠻多的。
1. 用戶興趣圖譜
建立用戶興趣標籤樹,每篇收錄的文章都有標籤,然後給予用戶標籤樹的喜好程度進行概率推薦2. 協同推薦將相同興趣範圍的用戶喜愛的文章進行互相推薦。3. 熱門新聞推薦4. 人工運營推薦今日頭條的需要改進之處:
1. 推薦準確度仍然較低2. 熱門文章過度推薦,導致個性化程度差3. 興趣樹深度不夠,可能是他們的知識樹建的不夠深,這樣不能針對用戶進行更細分領域的挖掘。-----------兩年後分割線------------
今天再來看今日頭條,基本已經被色情沖昏了頭腦,這說明任何一顆聖潔的心都經受不起做賣肉帶來的金錢誘惑。當然可能是今日頭條技術太好,完美迎合了我國人民的喜聞樂見。基於語義的深度推薦是最難的,相信未來會有新的創業繼續做這個領域,但是新聞資訊小秘書這一點來說,整個產品形態還是起步階段。
-----------三年後分割線------------
今日頭條已經成為獨角獸,無論他是否在技術領域取得巨大進步,他在商業上已然成功,也許這成功來得太早,以至於擔心他變成另一個百度。今日頭條的財經新聞看起來很low, 幾乎都是標題黨,裡面的內容也不專業,還有很多推廣貼。難道這就是最好的新媒體?
絕逼是乾貨!
整理自8月8日今日頭條產品經理ZC的視頻講解,視頻時長30多分鐘,主題為《解密今日頭條演算法推薦原理》,面向受眾為今日頭條的自媒體創作者。
【聲明】
詳細圖文(含視頻截圖)見原文:http://note.youdao.com/yws/public/redirect/share?id=43aa778bef1fab276da7ffd8815ac91atype=false好!下邊是視頻筆記
你負責妙筆生花,我負責精準分發
要講清楚這個演算法,一堂課是遠遠不夠的,所以今天僅僅站在創作者的角度來講,方便短時間內給大家帶來最大幫助,讓創作者能明白我們的演算法。
一、一篇文章在頭條號如何被推薦?
作者需要了解推薦原理,但建議不要想著去鑽推薦的漏洞。總的原則是:一個懂演算法的人,一個會創作的人,在頭條,演算法肯定要讓創作者贏。。
二、消重
為什麼要消重?讀者視角,如果出現兩篇相同標題或圖片的文章,用戶體驗會很不好。而且浪費了今日頭條的資源。為什麼傳統新聞媒介不需要消重這個工作?
因為推薦機制不同。傳統新聞媒介都是平台方編輯篩選的。每一個字元有專屬的信息【身份證】
消重機制:三個方面:
1)內容消重
2)標題與預覽圖片消重:
有可能一個簡單戰報,一個是詳細報道。3)相似主題消重
2、如何要避免消重?
圖片==1)堅持原創
2)面對熱點要謹慎追逐。3)少用常見標題套路有人推崇頭條體,其實產品經理不推薦。三、文章審核
敏感、低俗、低質內容。 前二者是互聯網都有的,但低質是頭條特有的。極其會攔截那些內容?
1)標題
2)正文錯誤
3)包含推廣信息
二維碼、微信號等4)惡意推廣5)廣告硬廣告、鋪墊廣告、低質營銷廣告。如果你要打廣告,要用頭條的商品卡。四、如何讓文章快速通過審核?五、推薦1、傳統媒體怎麼推薦的?2、頭條的推薦3、頭條的興趣模型名字好,域名好,時機好,捨得花錢推廣~~~~~
核心技術就是叫一堆員工,偽裝成自媒體,抄襲不願意入駐今日頭條的原創內容源,這樣那些內容源由於抄襲者眾多就不得不加入今日頭條了。
在於提取出熱文章,今日頭條每天出來的文章不多,背後源很多
對於長尾的點,跟時間不相干的內容,段子啊,娛樂什麼的,大部分需要人工,而人工確實像說的那樣,做好審核就可以了
(抓取什麼的,都不是事)
好久之前回答的,今天突然又看到了,那就稍微補充一點吧。
1. 頭條的討巧地方在於,現有熱門再有推薦,這是大思路前提
2. 推薦的顆粒度基本只停留在大分類或者說常用的用戶場景上,比如早期頭條的分類是科技、財經、娛樂、體育、段子、美女、正能量這些。了解技術的人,可以搜一下「稀疏性」3. 會在每次推出來的文章拿一定比例(不超過20%),給一些非常個性化的需求點,比如裝修、徒步這些。一旦點擊率高就會加大比例。當然,還是在熱門的基礎上。4. 綜合來看,頭條的推薦細節里,熱度是優先於個性化的,即如果一篇特別契合你興趣的內容,熱度很低(通常等同於質量很低),也不會推給你;而不是特別契合你興趣的內容,熱度很高,也會推給你歡迎頭條內部人員打臉下載用過今日頭條,沒幾天就刪除了。廣告太多,導向性的新聞很多。 這個公司能快速發展最根本原因就是名字起得好,這是我作為一個普通用戶的體驗。
三大優勢:1,千人千面 2,你負責妙筆生花,我負責精準分發 3,資本合作
核心設計細節就是它的推廣很厲害,我已經數不清多少次在應用中誤觸而直接下載了,不過我並不知道裡面什麼內容,因為我都是下完立刻刪,估計裡面也就和qq瀏覽器主頁面差不多吧
看到「要乾貨哦」就想打樓主怎麼辦
用戶偏好標籤興趣標籤根據這些標籤曝光數據,根據曝光數據點擊情況調整曝光,詳細推薦過程可以看下文章http://mp.weixin.qq.com/s/Z8W2b1YLM4Ss_tPbWoI39w
今日廣告
精準推薦精你媽比!不還是標題黨,還是三俗玩意兒,黃易新聞今日頭條騰訊快報都他媽是些迎合民眾惡俗趣味的下三濫東西。
就是一個只會吹b的公司
移動預裝,
每天都要給買手機的裝這個app,不裝還要罰錢,呵呵。推薦閱讀:
※為什麼今日頭條的廣告效果好?
※今日頭條為什麼要孵化西瓜視頻、悟空問答、火山小視頻和抖音?
※如何看待頭條收購 Musical.ly?
※自媒體有哪些平台?
※如何在「今日頭條」上運營好一個自媒體號?