官方解密「智能演算法」,99%的抖音爆款,是如何一步步產生的?(收藏)

最近,參加了一期頭條官方主辦的宣講活動,有幸近距離了解「智能演算法」的核心邏輯。

今天,把獲取到的關於「智能演算法」的知識點整理出來,分享給大家,希望對各位打造抖音爆款的過程中,有所幫助。

這篇文章主要分為4個部分:

一、智能演算法的推薦原理

二、一個作品在推薦系統的「生命周期」

三、系統推薦中的常見問題

四、如何獲得更高推薦?

一、智能演算法的推薦原理

智能演算法推薦的本質,是從一個聚合內容池裡面給當前用戶匹配出最感興趣的內容。

這個內容池,每天有幾十上百萬的內容,涵蓋15s短視頻、1min長視頻、5min超長視頻。

而在給用戶匹配內容的時候,平台主要依據3個要素:內容、用戶以及用戶對內容的感興趣程度。

系統是怎麼理解我們創作的內容呢?

平台在做內容刻畫的時候,主要會依託於關鍵詞識別技術:通過提取文案、視頻中的關鍵詞,根據關鍵詞將內容進行粗分類,然後根據細分領域的關鍵詞,再對分類進行細化。

比如,視頻文案及內容的關鍵詞是「羅納爾多、足球、世界盃」

大部分關鍵詞都屬於體育類辭彙,就會先把你的作品分到體育大類,然後根據具體的關鍵詞,再細分到「足球」、「國際足球」等二三級類目。

關鍵詞提取原則:

1)高頻詞原則:系統從作品、文案中提取高頻出現的辭彙;

2)獨特性規則:大部分文案、內容出現的詞,不會被認為是關鍵詞。

比如虛詞(的、地、得、而、對於……);

比如轉折詞(雖然、但是、因為、所以……)。

怎麼才能讓系統更好的識別我們的關鍵詞呢?

1)避免使用非常規詞。比如:活久見、城會玩、腿玩年、DBQ……

2)名人/地名用全程,不用縮寫或外號。比如:詹姆斯vs詹皇,廣西、廣東vs兩廣地區,香港、澳門vs港澳……

3)多用具有代表性的實體詞。實體詞就是一些名詞和代詞,比如人名、地名、公司名稱等。

例如:《流動著的舞台,街頭中的故事》,在這個文案中,我們很難提取出有意義的實體詞,我們對它進行優化:《印度就是髒亂差?這組圖片讓你看清印度的另一面,與想像中大不同》

優化後,我們這個就能提取出「印度」這個實體詞,知道是跟印度有關的內容,進一步提取,還會發現「髒亂差」、「圖片」這些有意義的辭彙。

系統是怎麼理解用戶的?

為了更好的理解用戶需求,系統會從多個角度進行用戶畫像:

1)歷史瀏覽信息(從作品文案、內容中的關鍵詞提取)

2)身份標籤(興趣標籤、職業、年齡、性別、機型……)

3)環境特徵:根據他們當前的環境(工作、通勤、旅遊、娛樂場所、休息……),確認用戶的狀態

通過這一系列的比對、分析,系統推測還原出一個用戶的基本屬性,比如:Ta可能是一個正在旅遊的男性,喜歡足球、汽車等分類。

系統會把上述的用戶特徵,歸類為這個用戶的標籤。

用戶標籤主要分為3大類:

1)用戶的基本信息(年齡、性別、地域);

2)用戶的行為信息(關注賬號,歷史流浪記錄,點贊收藏的內容、音樂、話題);

3)閱讀興趣(閱讀行為、用戶聚類、用戶標記)。

系統根據用戶的信息和行為,對用戶進行分析計算,計算出用戶喜好的分類、話題、人物等其他信息,這樣就完成了系統對用戶的刻畫。

推薦演算法的本質:

利用作品的特徵(主題詞、標籤、熱度、轉發、時效、相似度)用戶喜好特徵(短期點擊行為、興趣、職業、年齡、性別等),以及環境因素(地域、時間、天氣、網路環境),擬合一個用戶對內容滿意的函數,它會估算用戶對每一個作品的點擊概率,然後再從系統幾十上百萬的內容流量池中,將所有的作品按照興趣由高到低排序,Top10的作品在此時會脫穎而出,被推薦到用戶的手機上進行展現。

二、一個作品的「生命周期」

作品發布之後,進入初審環節,初審結束後系統會進行一些加權推薦,將這些作品首先暴露給幾百上千用戶,這個環節被稱為冷啟動。

冷啟動完成之後,系統會對你的作品進行正常推薦。

在這個過程中,作品就會被展示出來,同時系統不斷搜集用戶反饋(完播率+轉評贊,甚至舉報),基於這些用戶行為進而觸發平台的複審流程,複審會影響作品的後續推薦——繼續推薦or打壓處理。

作品推薦流程:

1)初審

初審的目的,是判斷這個作品有沒有違反國家相關法律的風險。

在這一過程中,機器模型會優先判斷它的風險級別,然後根據風險級別,將內容分發給不同審核人員進行處理。

在機器+人工的共同配合下,內容會以非常快的速度通過初審,展現在讀者面前。

2)冷啟動

在內容審核之後,就是冷啟動階段。

冷啟動,是一個推薦上的概念,是指新的作品發布之後,系統會根據相關數據進行推薦的時間段。

冷啟動階段,系統會優先推薦給你的粉絲,粉絲的數量、質量以及對作品的喜好程度,都會影響作品的推薦效果。

3)加權推薦

新的作品發布之後,與之前已經在平台上火起來的內容相比,具有一定的劣勢,這些現在還是「冷」的內容,大部分可能火不起來。

但是,如果不把新的作品展現給用戶,就不會知道這個作品將來會不會火起來?

因此,對於所有的新內容,系統會進行加權推薦,讓所有的用戶有一定概率看到這個新作品。

4)確定用戶興趣

加權之後,內容會進行幾百上千次展現,基於這些基礎展現的用戶反饋(完播率+轉評贊),系統會初步判斷哪些人群會喜歡這個作品,哪些人群絕對不會喜歡。

作品審核的流程:

冷啟動(首次推薦給1000用戶)之後的作品,平台收集到最基礎的推薦效果反饋,如果一個作品的反饋很好,系統就會認為這個作品是有潛質的,會進一步擴量推薦給更多用戶,可能是1w/3w/5w甚至更多,如果一個作品用戶對它的興趣不是很大,系統就會收緊推薦,繼續觀察作品的表現。

在正常推薦過程中,基於各種各樣的用戶行為,系統會監測到很多數據上的異常(比如,一些作品點擊率特別高,但負面評論、舉報特別多),這時,這個作品就會再次進入審核流程,這個被稱之為複審。

相比於初審,複審將更為嚴格。

在複審中如果被發現存在標題黨、封面黨、低俗、虛假等問題,系統就會停止對這個作品的推薦。

三、推薦中的常見問題?

1、為什麼推薦量「不穩定」?

2、為什麼作品推薦一半就不推薦了?

3、為什麼我的推薦效果不好?

同樣一個熱點,大家作品的題材、風格都差不多,為什麼有的作品幾百萬展現,而有的作品卻只有幾百展現?

1)系統消重策略:

為了保護站內原創內容,提升用戶閱讀體驗,多個相似作品中,系統會優先推薦「更早發布」的原創作品。

如何避免消重?

1)堅持原創,不做搬運(抖音對重複類內容的檢測和打壓手段,都在不斷進化,搬運的生存空間會越來越小)

2)面對熱點謹慎追逐

3)體現鮮明的個人特色

2)同類作品擠壓:

針對熱點內容,抖音會優先選取最適合的一個,推送給用戶。

如果你也發表了相似的內容,但其他作品表現的特別好,你的作品就有可能不會得到很好的推薦。

每個作品的推薦量,既取決於當時具體的環境,也取決於當時整個內容池裡面其他作品的表現。

一個作品的推薦效果,與作品本身的質量有很大的相關性,如果一個作品推薦不好,可能是以下幾個原因:

1)作者的創作內容,質量不穩定

系統會對作者的創作能力精選評估,如果作品質量不穩定,系統就無法很好的評估作者的創作能力,進而影響這個作品的最終推薦效果。

2)創作內容不夠垂直

系統會判斷一個作者的專業度,並優先推送專業度高作者的作品,如果你經常換領域,就會導致系統很難評估你的專業度,進而影響推薦。

3)創作者內容受眾少

如果你的內容是某個小眾領域,人群優先,比如虛擬貨幣,抖音可能只有20萬人對它感興趣,系統推薦完了,後面就沒有辦法推薦給其他人了。

4)內容時效短

比如報道體育類賽事的進展,可能1小時候比分、結果就會有很大變化,這種情況下,系統就不會再推薦你的內容了。

作品推薦了一半,反饋很好,為什麼突然不推薦了呢?

這裡很有可能是因為作品出現了一些指標上的問題,比如它的點擊率很高,但同時負面評論、投訴信息也很高,這種情況下,作品就會進入複審流程。

在複審中,審核人員會對作品質量進行更為嚴格的審核。

複審不被通過,主要有5大原因:

1)標題黨

過度誇張、故意製造懸念、無中生有、歪曲事實、題文不符、低俗引導等。

2)封面黨&低俗

封面圖不清晰,存在惡意引導等情況,封面、內容涉及色情低俗等行為。

3)虛假

作品違背科學常理,描述違背證實、或存在與已發生事實相悖的事件情節,比如:《戰狼2》演員名單流出,天王華仔願意零片酬參演,陣容激動人心,影片中並沒有劉德華,這個內容純屬作者虛構。

4)包含推廣信息

文中含二維碼、手機號、微信號等聯繫方式,或變形版(如威信、薇信、微?信?公?眾……)

作品中含有惡意推廣內容(如違規醫療、違法財經、情感挽回、帶有不良暗示交友軟體等)

5)其他因素

受外部環境影響,如果當前熱點已經過時,那麼對應的受眾就會減少,作品的推薦就自然會受影響。

四、如何獲得更高的推薦?

平台認為,這些內容更受用戶喜歡:

1)作品視角新穎,觀點鮮明有態度;

2)作品內容充實,帶來信息增量(能讓用戶學到新知識);

3)堅持原創首發;

4)畫面更清晰;

5)豎屏。

更多關於「智能演算法」、抖音上熱門、漲粉玩法,歡迎加入知識星球——【抖音特訓營】


推薦閱讀:

抖音背後的成長邏輯?
抖音超級運營幹貨:從入門到精通,全攻略
玩了這麼久抖音,一直不火的原因原來是
100套抖音風快閃PPT模板,限時免費領取!

TAG:抖音 | 短視頻 | 推薦演算法 |