人工智慧(演算法推薦)對新聞媒體意味著什麼?

今日頭條以演算法推薦新聞而著稱。1月15日今日頭條主辦未來媒體峰會,張一鳴跑到台前對一眾媒體大佬發表演講《張一鳴:我眼中的未來媒體》,稱:「從前,人們讓媒體幫忙過濾信息,去決定自己該知道什麼事情在發生,這個權力在媒體手中;今天,信息空前的膨脹,人們無法僅僅依賴媒體完成信息過濾,於是,原先交給媒體的權力被收回了。 到底把權力讓度給誰,才能解決"該看什麼內容"這個問題呢? 我認為主流的方式有兩種, 一種是把權力讓度給社交關係,讓每個人推薦自己喜歡的內容給朋友,大家 一起來干編輯的工作,同時也消費朋友推薦的內容;第二種是把權力讓度給演算法,讓演算法來識別你的喜好,推薦你可能感興趣的內容。兩種方法都能大大提高信息分發的效率。」知乎的讀讀日報也在走演算法推薦的路。


【騎在演算法上的「世界精神」來了,媒體人怎麼辦?】

2015年的互聯網,不再有推特革命的喧囂,但技術賦權的衝擊深入各個角落。在中國,年尾熱鬧的網路事件層出不窮,百度賣貼吧、帝吧遠征FB、e租寶崩潰……

對貼吧等事件的思考,很多人依然習慣性聚焦於體制、民族等傳統政治層面,我看到的是,真正重要的「戰場」在技術和人類之間。歲末谷歌智能擊敗人類圍棋高手,深深震撼了我們這個以圍棋為傳統智慧精華的國度。當帝吧騷年與太陽花一代在FB相戰甚歡的時刻,FB的圍棋人工智慧取得了與谷歌幾乎同樣出色的進步;當人們聚焦百度良心的時候,另一類巨大的資訊流量入口正在俘獲媒體人的注意。最後這個是我要重點談的。

代表者今日頭條,只要隨便給某個媒體某篇文章導來上百萬的流量洪水,就會讓原本觀望的後者震驚不已。

1月15日,於年尾各種媒體論壇之中,今日頭條主辦的「珠海未來媒體峰會」引人矚目。最矚目的當然是頭條CEO張一鳴的演講:《我眼中的未來媒體》。他縱橫媒體發展史、國內外現狀,從古騰堡到貝索斯,從APP STORE到 Instant Articles,看似雄辯地證明媒體人把內容輸送到演算法推薦平台是大勢所趨。

對於長期關注這一塊發展的人來說,他說的東西並不新鮮。但重要的是這個姿態——這是一個在創業之初以全部團隊沒有編輯而自豪的技術型CEO,第一次高調走到台前,對台下一大群中國翹楚編輯們說話。

一點資訊緊跟其後。1月20日,與鳳凰博報聯合舉辦年度影響力自媒體盛典,宣布打通兩家平台,資源共享。一點資訊副總裁吳晨光面對台下上百位自媒體人,也在極力渲染一點資訊的讀者畫像等演算法技術。雖然技術總裁沒有走到台前,但一點資訊是和今日頭條一樣依靠機器演算法「精準」分發資訊的平台。河蚌相爭尚未白熱,兩隻黃雀已在後頭——騰訊的同類產品天天快報已經低調運營了一段日子,不知道在憋什麼大招。知乎的讀讀日報結合了UCG與演算法推薦,也在深挖坑廣積糧。

人們應該記得,2014年6月多家媒體因為版權問題對頭條發起聲勢浩大的訴訟。2015年11月也有媒體發動對一點資訊的訴訟,但造成的聲勢很小。再到2016年初,媒體人坐在台下為張一鳴鼓掌捧場,認真考慮合作。時勢變化,技術的發展已經讓人從陌生驚恐到不得不熟悉。

這一次,張一鳴要表達對傳統媒體和內容生產者的尊敬——

今天,「傳統媒體」 一詞已褪去光環,聽起來甚至有點過氣。但我想特彆強調的是,「傳統」 是一個很好的詞,是現實中演化出未來的基礎。

作為一個前程序員,我明白技術對世界的驅動作用;同時,作為一個重度內容愛好者,我也明白技術永遠不是最重要的東西,在今日頭條,技術的作用恰恰在於對"內容"的價值的深刻體認,而這些內容,正是由在座的各位所創作出來的。

這番話不全是甜言蜜語,符合技術人的直白特徵。只是在我這個旁觀者看來,這種「和親」背後有種耐人尋味的不安。

軟體工程系出身的張一鳴,努力說著文字工作者能聽懂的事情,但是他蜻蜓點水、一掠而過的東西才是命門所在。他在發言中不經意地三次談及對apple news等依靠編輯團隊推薦新聞的做法不感冒,一次批評了微信朋友圈社交推薦模式的效率低下,毫不掩飾對演算法推薦的推崇。

頭條不是百度,推薦引擎有別於搜索引擎。但是它所自豪的演算法推薦也不是這幾年才出現。演算法一直在那裡,谷歌甚至百度都是前輩,為什麼是頭條讓演算法成了頗具神秘感的明星?

對媒體人來說,到底什麼是演算法?就是那個不厭其煩向閱讀者推送同類新聞的東西么?媒體人是尊敬演算法還是敬畏那時常莫名其妙湧來的流量?

我想以一個不安的媒體人角度,探索有關這個演算法王國的幾個問題:

1、今日頭條們到底在做什麼,能做什麼?

2、媒體人的老帝國與演算法技術新帝國的融合的前景(代價)是什麼?

3、可能的誤區在哪裡?

演算法少年匹諾曹,他被要求做什麼?

普通讀者這些年對演算法推薦的直觀感受並不佳:瀏覽了某個淘寶頁面之後再去其他網站,頁面也會浮現同類產品的廣告,如果瀏覽的是情趣用品呢……在頭條看新聞也很容易遇到這種情況——相似資訊不斷湧來。不過就像帝吧遠征之人力洪流帶來的震撼,今日頭條巨大的流量也促使我重新審視演算法洪流。別忘了頭條招聘啟事上寫著:「對用機器學習演算法解決現實問題有強烈的渴望和堅定的信仰。」

即便這種看似粗糙的同類資訊推薦演算法,也足夠我先拋出對演算法的總體觀點,有三個層面:

演算法首先是一種類似金融資本的東西,是方法。就像財務投資者不必追求理解公司具體產品本身,只在乎能否增值。演算法不管內容實質是什麼,只管能否數字化、分類集合、反饋優化,是處理海量信息的方法。與資本一樣,它能提升效率,也和個體有矛盾。

第二,張一鳴在演講中說Facebook把技術支持變成了一項接近水、電、煤氣這樣公共服務的事情。再進一步,當演算法深入生活的方方面面,積累的智能本身將成為基礎設施。KK(凱文·凱利)在新書《必然》里說到,未來的人工智慧網路(主要包含演算法)將會成為「如同電力一樣無處不在、暗藏不現的低水平持續存在」。你可以像插電一樣隨時接入智能流。比如辦公室的桌椅和電腦都會識別你,記錄你喜歡的姿勢,在你一走進辦公室就調整好姿態,打開你常用的軟體、網站等等。但對於資訊內容傳播來說,這還不夠。內容不是桌椅,桌椅只要伺候我們,內容卻是裝載了他人靈魂的存在,要和我們互動、砥礪。這就是第三層,演算法要想觸及靈魂,還得努力。

頭條到底是什麼?有人已經說了它不是新聞客戶端,而是信息分發平台。僅此而已?

張一鳴稱:「將對媒體在今日頭條平台上的用戶數據進行更詳盡的統計分析。除了性別、終端、年齡、地域分布等用戶屬性基本分析外,還將提供用戶的興趣和情感傾向分析。通過這一功能媒體可以知曉受眾喜歡哪些分類的文章、用戶最喜歡文章里的哪些關鍵詞、關注你的人還喜歡哪些內容等等。」這話本意是在針對微信,微信公眾平台目前恰好只能提供受眾的「性別、終端、年齡、地域分布」分析。作為平台,頭條明確要為入駐媒體提供「服務」。興趣和情感,這是演算法更高的追求。

頭條的銷售人員可以告訴一家汽車製造商:用戶的閱讀行為數據能夠展現出哪個地方的人最喜歡你們的哪一款車,我們將把你們的廣告推送給合適的讀者。今日頭條的同類產品「一點資訊」也在做同樣的事情。創始人鄭朝暉曾對內容總監吳晨光強調:「比閱讀重要的是閱讀者的行為」。

所以頭條們在做什麼?今日頭條是偽裝成新聞客戶端的用戶行為數據收集器和分析器!(這感覺就像有個美國政治學者說的,現代中國是一個偽裝成民族國家的文明帝國。)每一篇新聞都應該被看作一道對用戶的測試題,用戶的每一次點擊、評論都是一種回答,都被系統記錄,和關鍵詞、Dom標籤、作者、閱讀時間、網路環境(wifi還是4g?)等等一起構成多維數據矩陣,刻畫出這個讀者的特徵。每道「測試題」都很粗糙,但是就像KK的「蜂巢思維」所言,海量資訊一起測試出的用戶特徵就比較準確。而且用戶是在無意識中完成測試的,答案比較真實。這就是頭條們的技術和商業模式核心所在。(讀者不必在隱私範疇擔心這個問題,按照KK的說法,未來美好數據生活就是以每個人的用戶數據為基礎的。)

頭條們還可以有更高的奮鬥綱領。正如谷歌搜索做的不止是搜索和收集用戶數據,還是在做人工智慧——用戶的每一次搜索和點擊都在幫助谷歌智能學習、調整思考方式。不難理解,為什麼「一點資訊」的創始人鄭朝暉來自前雅虎研究院。奇怪的倒是百度現在才推出同類產品百度新聞客戶端(毫無吸引力的名字),早點做,就沒有頭條們什麼事了。

猜想今日頭條的演算法

經常被頭條員工拿出來說的簡單演算法是AB測試和雙盲檢驗

演算法架構師曹歡歡和增長團隊的張楠都講解過如何用AB測試來判定一個產品修改的效果,比如一個按鈕是用紅色好還是用藍色號,那麼就各向1%的用戶發布兩種顏色產品,哪個下載的好就推哪個。如果用在新聞上,就是同一條新聞由編輯給兩種標題,測試哪個標題點擊好。

雙盲檢驗,是先讓演算法判斷一個新聞的分類和推薦對象,然後讓兩個編輯分別檢驗,如果結果一樣,就通過,不一樣就請第三人判斷並彙報程序員,重新調整演算法。在我看,這背後是一個類似神經演算法的「刺激-反應」模式——根據演算法反應對錯調整某個參數(權重),也是一種人工智慧里常見的「半監督式學習」。這大概也是張一鳴口中人機結合、發揮人的智慧的證據之一。

不過說實話,對新聞系的學生來講,這和他們傳統的職業夢想是有落差的。幾百個編輯坐在那,有點像工廠的校驗工人,和碼農一樣,用青春滋養這台演算法機器。

別慌。優秀媒體人只能在外部為這部機器投喂內容嗎?人機結合可以更高級點嗎?

讓我們把演算法看作一個正在成長的生命吧。一個務實的演算法只須保障商業模式,但一個高尚的,純粹的,理想遠大,脫離了低級趣味的演算法必然也渴望星空,渴望與我們互相引領。它在努力理解我們的同時,也渴望被我們理解。瘸腿狐狸只想拿匹諾曹做工具,藍仙女卻要給他栩栩生氣。

深入透視頭條的演算法

我注意到今日頭條在拉勾網打出一個百萬美元年薪的廣告,招募演算法架構師,要求擅長:貝葉斯學派相關演算法,超大規模離散LR,深度神經網路,各種tree-based的演算法等。其他演算法工程師崗位要求大同小異。

這些在技術人士眼中並不特別,很多IT公司必備,多和概率統計學有關。比如貝葉斯演算法,常用的郵件客戶端上就有出現。

Foxmail截圖(所以張小龍他也是很精通貝葉斯演算法的)

我想盡我所能簡單介紹一下這位百萬年薪工程師具備的演算法知識,不從數學專業角度(專業角度我也不懂),而是從用戶角度思考「演算法想要什麼」。

演算法如何閱讀新聞

以招聘啟事中的tree-based演算法為例。為了處理信息,演算法的初始訴求往往是對海量信息做分類聚合。人類眼中的辭彙在它眼裡都是參數(維度),一千個不同辭彙組成的一篇文章就是一千個維度組成的一個向量。然後機器在代數世界裡衡量不同向量的相似度——簡單向量距離分類法、貝葉斯演算法、KNN(K最近鄰居)演算法、線性回歸、邏輯回歸……

維度太多,於是演算法進化了,不再把每個詞當作維度,而是把html代碼里的節點標記(DOM)作為維度,這樣就大大減少了維度個數。人類看見的標題、文字、圖片,被代碼放在不同的DOM節點裡,比如head,比如body,比如TR、TD(表示表格的代碼),構成樹狀結構。演算法以這些節點為維度,用各種演算法對比不同的文檔異同——k means(硬聚類)演算法,minimax(極小化極大演算法)……再進一步,引入圖論範疇的模式樹,就有了更高級的tree-based演算法。

下圖是個常見的html dom展示,不需要看懂,只要了解機器眼中的文章是什麼樣子。

(機器眼中,各種標記最重要,然後通過各種公式來處理。樹狀圖來自愛范兒,公式來自酷勤網)

演算法五花八門,我說的也不準,主要看氣質——演算法這個孩子不知道新聞說了什麼,只知道哪些新聞是同類,哪些是熱點(點的人多當然就是熱點,機器可以通過一種「組合」演算法來判斷,可以參見南京大學新聞傳播學院助理研究員、奧美數據科學實驗室主任王成軍的文章《「今日頭條」怎麼計算:「網路爬蟲+相似矩陣」技術運作流程》)。文章標籤、關鍵詞等也起到作。

演算法匹諾曹的行為很有趣,好像在努力用各種辦法躲避對內容靈魂本身的認知,只通過外貌的形式特徵去猜內容的相關度。

演算法如何研究讀者

讀者身上沒有關鍵詞,沒有標籤,演算法如何把握?數學家們有辦法,貝葉斯演算法就是一種。

經典的貝葉斯問題在小學奧數里就有(美劇《生活大爆炸》里也有):假如分別有A、B兩個口袋,口袋A里有7個紅球和 3個白球,口袋B里有1個紅球和9個白球,現從這兩個口袋裡任意抽出了一個球,且是紅球,問這個紅球是來自容器A的概率是多少?

(圖片來自「機器之心」網站)

讓我們換一個更具新聞性的表達方式:假如已知韓國5年發射一次衛星且每次爆炸失敗率是60%,朝鮮2年發射一次衛星且每次爆炸失敗率是40%。現在從朝鮮半島傳來一聲衛星發射失敗爆炸的巨響,請問這枚火箭來自朝鮮的概率是多少?

根據貝葉斯公式【P(B|E) = P(B) × P(E|B) / P(E))】就可以推導出這個概率來,也就是逆向計算概率。恰好頭條自己提供了一個範例:

2015年10月,在中國傳媒大學新媒體研究院和今日頭條聯合舉辦的「洞見數據的力量——電視媒體高峰論壇」上,一位叫做安娜的女士說:

「頭條有個獨特的演算法能推算用戶的年齡,即使你沒在頭條訂閱。系統根據已確定年齡人群的動作、特點和興趣做了一個模型,由協同原則判斷讀者是否符合這個模型,這時機器先預判是否為該年齡段的用戶,同時機器再根據你的閱讀動作最終確定年齡段。」

這個獨特的演算法可能就是貝葉斯演算法(當然也許不止一種演算法,比如也可能存在專門用於挖掘不同數據集合間關聯性的Apriori演算法等)。我猜想演算法架構師會預先根據心理學、社會學統計數據以及以往讀者點擊數據,構建一個用概率來描述的人格特徵模型,比如男性模型的特徵之一是在閱讀新聞時點擊軍事新聞的概率是40%,而女性模型是4%。一旦一個讀者點擊了軍事新聞,演算法就開始逆推TA的性別,加上TA點擊其他新聞的行為數據,綜合計算,就能比較準確地判斷TA的性別。綜合ip地址(地理信息)、點擊時間、評論參與、點贊行為這些明確的信息,就能區分出不同讀者的取向、興趣。

如果我們回看商業史,就會看到這樣的演算法精神一直孕育在資本主義消費市場之內。歐美的商業家們早就在追蹤消費者的喜好數據,沃爾瑪超市裡的商品就是典型,什麼商品放在什麼位置都是有講究的,大賣場長期跟蹤用戶在商場里的行為和銷售數據,入口處堆放的商品就好比新聞首頁推薦的頭條。一開始是通過人工記錄、報表分析,有了攝像頭,就可以分析錄像中顧客的行動軌跡。互聯網推薦技術則使得這種跟蹤細化到了個人。

原理不難理解,但做起來考驗智慧和耐心。同時,演算法面臨著自己的巨大困境:

競爭的難題:無法區別的風格問題

在傳統的媒體公司,編輯團隊和廣告銷售團隊總會有矛盾和博弈。在頭條一類的公司,則是演算法團隊對編輯團隊佔據絕對優勢。這未必是好事。演算法團隊本身是較難產生風格的。頭條、一點資訊和天天快報究竟有多少區別呢?

風格既人(布豐),風格即靈魂。雞蛋個個不同但那不是風格,只是原始特徵。風格是一種需要積極建構的氣質,是生氣灌注的行動。

傳統媒體都是有風格的,沒風格的不是死了,就是殭屍媒體。

下面這個截圖體現了風格:

兩家媒體互不相讓,但也許都不得不承認對方是有自己風格的。美國的紐約時報和赫芬頓郵報同一個「美國夢」,也具有顯著不同的氣質。有自己相信並追求的價值觀,追求新聞事實時候有非如此不可的衝動,寫作時有難平之意化為不休的訴歌,這才是風格。

風格是原創,是觀點碰撞,是議程設置,是話語創新。演算法還沒學會這些,因為設計演算法的技術人可能還不太懂這些。

這還不只是差異化競爭問題,更重要的是產品的內在矛盾。頭條們不止是平台,因為偽裝不是白裝的,新聞客戶端的表象與演算法機器的矛盾是無法擺脫的「原罪」。形式不是內容之外可有可無的事物,形式就是內容。頭條們註定不可像沒有首頁推薦的微信公號平台一樣,真的只做完全中立,沒有一點情感和立場的平台。人們都認為你是資訊客戶端,你就要做資訊媒體的事情,哪怕和演算法的性格有矛盾。但矛盾不是缺陷,矛盾是推動自身進化的動力所在。

頭條招聘啟事給技術人才開高薪,但是如果內容方面沒有自我的精神風格或者主心骨,我猜測,在頭條這類公司,員工的企業認同可能會比較一般。他們的內部心態會和傳統優秀媒體相反,在傳統媒體,那些心懷理想的媒體人可以靠夢想支撐,而在頭條等企業,商業模式一旦壓制一切,對員工來說,這就是一筆生意。

他們想有風格。

起步較晚的「一點資訊」在努力表現自己的風格,比如宣稱自己是做興趣搜索,有別於頭條的演算法推薦。吳晨光宣稱一點資訊是「百度+頭條」:

「正如一點資訊董事長劉爽所說,如果頭條是造紙術和印刷術,那麼一點資訊就是火藥和指南針。這兩個APP都以『千人千面』為核心競爭力,因為確實像造紙術一樣改變了傳播。但一點比頭條更近一步:所謂火藥,是通過搜索喚醒了沉睡在APP里的信息,你可以通過搜索、訂閱,兩步完成你對任何你感興趣內容的定製。至於指南針,我這樣理解:因為一點後台有非常精準的用戶畫像,所以可以把最符合你興趣的內容分發給你。用我們內部的一句話說:大事件作出共鳴,個性化要像蛔蟲。」

可以看出來,作為後起者,一點資訊一方面不得不通過頭條來定義自己,同時又必須有所區別,於是強調搜索。不過從用戶直觀感受來講,這種區別是不太容易看出來的(一點資訊能夠把用戶的每個搜索詞變成訂閱詞)。頭條一樣有搜索功能,也會記錄讀者的搜索行為。

至於「指南針」,只是一個更生動的比喻。所描述的「用戶畫像」,可以猜想也是和貝葉斯演算法之類大同小異的方法。

看拉勾網上「一點資訊」的招聘,唯一的演算法師招聘廣告要求:「文本分類和語義理解,社交網路分析,網頁搜索,推薦系統等領域的特定演算法,理解自然語言處理、機器學習、網頁搜索,推薦系統,用戶數據分析和建模的基本概念和常用方法。」

應該說,所謂「特定演算法」大家都類似。具體的公式和策略五花八門,但那只是雞蛋的不同,最多在比拼誰的演算法最state of the art。能區別風格的還是操作者的思想理念、媒體情懷和輿論場的洞察判斷力。同樣的演算法,具體開發時候也要看悟性、靈性。谷歌與百度在用戶看來,最直觀的區別也還是理念和情懷的不同。

相比之下,吳晨光強調一點資訊在提高自媒體門檻的做法,這種篩選是由媒體人團隊做到的,也許更重要。

「最近兩個月,一點資訊封掉了大概7000多個號。古玩、健康、財經等,都是重災區。我們的競爭對手,在放寬入駐條件,但我們相反——高標準,並且實行嚴格的分級制度。從一級到六級,級別越高標誌著你的內容越優質,這樣你得到的展示量就越大。」

頭條大舉招募媒體人入駐平台,並加大對自媒體平台的投入,這是有意識地構築底盤,獲得內容版權,也是無意識地要讓自己更生動。

可是演算法少年尚未理解這種風格化的努力。

演算法匹諾曹的自我障礙:沉淪本我,缺乏超我

我們試著用社會心理學的語言來描述演算法獨尊主義帶來的信息繭房問題。

演算法和讀者一起,沉淪於本我的漩渦。本我的慾望讓你去點擊了一條驚悚的社會新聞,但本我不是人性,對本我的自省和超越才是人性。反覆湧來的社會新聞會讓讀者生厭。這個一直被人質疑的問題似乎沒有得到透徹的說明和改善。

求證過員工自己對這個問題的看法,他們會告訴你不喜歡這樣的信息就用手指劃掉,系統就會減少此類信息推送。在我看來,這只是一種簡單的線性思維。演算法只計算異同關係,只機械地問你要還是不要,而沒有計算諸如相對關係、主從關係等等複雜的關係。就像一個不太會戀愛的直男,聽到對方說no的時候,並不善解對方真正的意思。

演算法能否採用更好的策略,除了數學思維本身,還在於演算法對人性的理解。非線性思維才能貼近人性——哪怕是庸常之輩,也會渴望有一隻手能托起自己的頭顱。假如用戶多點擊了幾次驚悚社會新聞,演算法可以繼續推送同類資訊,但是一定要顯出一種「我猜你其實也是個有高尚趣味的人」的姿態——可以於驚悚新聞信息流里突然插入一條洗眼資訊,可以是正能量,可以是對立面,可以是新聞分析。既然瀑布流裡面可以插入廣告,為什麼不能插入和用戶點擊趣味相反的文章?

我不了解具體演算法設計問題,也許需要更複雜的集合演算法。每條資訊有自己對應的鏡像,就像本我對應的超我,就像西斯武士對應的絕地武士。不甘做機器保姆的小編可以參與打造這樣的集合,提升機器靈魂的同時提升自己,共同進化。彼此是對方的啟蒙者,而不是做一個被動的僕人。也許會有偏差,會有博弈,但魅力就在這裡。在《失控》看來,人機之間要有一定的對抗才能共同進化。也許演算法在等待讀者自己走出沉淪,但對抗就要求演算法更彈性一點,更搶先一點,主動試探讀者是否想要逆風而行。

用資訊測試讀者,是把讀者看作已完成的人格。而人性是永遠在路上的未完成之物。人性和人類的創造物,需要彼此激發,螺旋上升。分類聚合演算法只是把自己看作一個置身事外的觀察者,正如科學試驗里的觀察者,以為自己不在事件之中。但這是不可能的,演算法已然在參與人性的構建,只是採取了消極的方式——人以群分,每個人沉淪在自己的趣味里。後果是讀者的極化,老死不相往來,像黑客帝國里的人繭。人繭衰弱的同時,系統的活性也在衰減。

極端分化的人群與極端分化的信息一樣,缺少活性。而搜索引擎則沒有那麼主動地去極化人群,因為人在搜索時候主動性更強。

我們可以用貝葉斯演算法本身的問題來解釋這個危險:

研究者John Horgan在《科學美國人》上發表了一篇文章《被追捧和被歪曲的貝葉斯理論,究竟有什麼大不了?》(由「機器之心」網站提供中文翻譯 ),講述了貝葉斯演算法自身的一個矛盾(具體論證過程此處免去,可參見上面的文章鏈接):

「貝葉斯理論沒什麼神奇的。歸根結底,它就是在說,你的信念只和它的證據一樣有效。如果你有好的證據,貝葉斯理論就能得到好結果。如果你的證據不足為信,貝葉斯理論也就沒什麼用。進入的是垃圾,出來的也是垃圾。」

對貝葉斯演算法來說,初始確定的概率很重要,比如前面提到「40%的成年男性喜歡閱讀軍事新聞」,這個概率判斷就是初始確定的概率,能通過社會統計獲得比較接近現實的數字,一般也比較符合常識。但是對於很多事情,比如「上帝存在」,初始概率就難說了,有人會定為百分百,有人會定為零,於是最終結果不過反映了給出初始條件者自己的主觀願望。即便

「40%的成年男性喜歡閱讀軍事新聞」,表達的也是現有的社會狀況。最終的資訊推薦結果則反過來強化了這個初始概率——愛看軍事的就更多地看到軍事新聞。認為性別是後天建構的女性主義者,恐怕就會討厭這種刻板狀況。

所以,目前的演算法匹諾曹是不太懂得體貼各種人類需求的。未來他應該讓不同的趣味,不同的人群相逢。如果只是一個升級版的沃爾瑪,演算法背上的世界精神也終究只是互聯網化的於連·葛朗台。

(以下劃線部分開始快樂地胡扯,讀者可略過)

按照信息熵演算法理論,如果演算法只以旁觀者身份進行分類聚合排序,不增加互動,不培養信息熵。那麼在經過足夠的統計之後,一切塵埃落定。如信息熵計算公式所表明,當概率為0或者百分百時候,一切確定,信息熵就是零。

不讓信息在不同趣味群體間對流,就好比熱力學中杜絕兩個溫度不同物體的熱量傳遞,這是熵減少的過程。信息熵與熱力學的熵相反,在熱力學中,熵表示混亂程度,永遠是增加的趨勢。而在信息熵理論中,熵意味著信息,熵減少意味著信息也減少。信息熵為零,不再有擾動,對機器分類是好事,對人類不是好事,不再有碰撞,不再有激發,不再有智慧的「血氣」。

如圖:概率為0或者1的時候,信息熵(H)為0

這是一個在坍縮的信息體,就像一個正在坍縮的宇宙。大量投喂的信息被分類後,難以產生新的「核聚變」。

演算法匹諾曹的藍仙子在哪裡?

張一鳴批評微信朋友圈信息推薦效率低,在某種程度上是對的。在朋友圈獲得優質信息的效率取決於你的朋友質量,有精彩朋友才有精彩資訊,如果都是曬海灘的當然沒意思。頭條不受社交關係限制,對於缺乏豐富社交層次的人來說,獲得信息效率高。可是缺少社交屬性和社交關係的積累也是頭條的軟肋所在。

騰訊目前正在低調運行「天天快報」,與微信平台以及騰訊媒體開放平台分開,未來未必不會整合。那樣就可以結合社交推薦和演算法推薦,尤其可以利用朋友圈裡各種專業人士、學者點贊推薦或閱讀撰寫資訊的行為(只要他們願意公開)。帝國的反擊遲早要來,頭條們的演算法武士應該儘早打造具有熵增能力的資訊關係,並發展一種把「興趣」人格化的演算法社交方式。

演算法需要人,這話不止是說需要社交關係,而是策劃者的想像力。我見過微信公號「再深一點」圍繞豆瓣上的影片打分,手工收集打分者讀書數據,非常有趣。比如給電影《勝利大閱兵》五星的人喜歡看什麼書,給一星的人又看什麼書。在這個基礎上,如果加以聰明的演算法,就可以激發出新型社交模式,不過這裡不展開。

藍媒彙報告稱頭條購買了不少媒體的股份,比如世界說、新榜、多說、華爾街見聞等等。從演算法的邏輯講,我以為這不是最優的收購方向。在我看,與那些擁有社交數據的媒體比如微博合作才是對的。頭條們應該收購豆瓣。不是說就要做社交,而是要擁有社交數據並利用演算法激活之。豆瓣之類集聚的人之想像力,為什麼不能和機器演算法互相滋養?

在當前國家形勢下,頭條們的「方法」對於了解國情也是有幫助的。海量的數據,再加上一點政治眼光,就可以洞見肉眼看不見的東西。而這需要人的想像力。比如最近帝吧遠征臉書,舉國震驚,也引發了很多評論。無論各方如何評價,這都是90後乃至00後網路新人的一次亮相。各方都不太了解他們。商業公司需要了解他們,政府機構也需要了解他們。眾說紛紜,很多是從主觀偏見出發。

想了解他們有很多辦法,比如去採訪他們,去貼吧收集材料做統計。但百度或者頭條們顯然可以有更快捷的智能辦法,能夠通過相關評論資訊的閱讀和其他關聯數據,來考察相關人群的特點,他們的地域分布,他們的收入狀況,他們的興趣愛好。

我對比了一下今日頭條和一點資訊,搜索關鍵詞「帝吧」,今日頭條上和帝吧遠征有關的文章不到50篇,一點資訊上卻有200多篇,且閱讀量較高。這和二者的業界影響是不相稱的。這意味著:第一,單就帝吧事件來說,今日頭條沒能收集到足夠的數據。第二,頭條上關於帝吧的文章這麼少,明顯是受到了干預。這個不想說太深,只是要說明,即便頭條的議程也是可以被人類干預的。與其被動干預,不如主動經營。今日頭條也許躲過了帝吧風雲,但就像戰爭(軍事)是推動技術革命的最重大動力(別忘了互聯網首先誕生於美國軍事部門),唯有「戰爭」式的大事件才能逼迫一個媒體進化。從這一點上來說,頭條們還沒有接受真正的考驗。

在9月大閱兵期間,范瑋琪因為在微博曬娃遭到大量謾罵,有人批評罵人者是民粹,是買不起好產品的loser。但是學者鄒振東通過大數據分析發現他們的組成和其他群體類似,iphone使用率很高,顛覆了主觀判斷者的意見。並最終發現是微博的演算法推薦導致范瑋琪和讀者的意外碰撞。

這些命題需要有人想到,才能動用演算法去做。而人的因素不像演算法優化,總是可以總結成可複製的標準演算法。

洞察並善用人的智慧,發揮人群的博弈,而不是讓個人成為資訊餵食對象,才會讓演算法也變得更有靈氣。今日頭條、一點資訊和天天快報,哪一家會走得更遠?

媒體人的「命運細線」

二百年前,德意志哲學家黑格爾在自家門口看見拿破崙率法軍路過,認為這個侵略者實在是「騎在馬背上的世界精神」。今天駕演算法機器走到台前演講的技術人,還遠不到這樣的地位。不過新的「世界精神」就在他們身後。在新年的網路紅包雨里,在各種正在發芽的人工智慧知識媒體里,你能感受到這個新生命的跳動。

這不僅是媒體人的事情,技術面前沒有誰是無辜的。我想起不久前,南昌發生計程車司機圍毆網路專車司機導致車禍血案事件。人們固然可以批評計程車司機因循守舊暴力相向。但是聯想到今天傳統媒體的境地,計程車司機也未必不是技術進步時代的弱者。昔日的驕子媒體人,已經感覺到寒流來襲,但或許也遇到了一個可以好好思考的時刻。

在頭條內部,內容生產者的創意情懷並沒有消失,只是轉移了。臨近春節,一則今日頭條製作的《世界那麼大,常回家看看》的Html5文章刷屏了。內容無非是對比不同關鍵詞的點擊率,證明讀者雖愛「小鮮肉」,但是更愛「老爸」。喜歡「媽媽的菜」超過「米其林餐廳」。這當然是一個米其林的植入廣告,卻體現了這樣一個趨向:傳統內容創作者的創意轉移到廣告團隊去了。廣告團隊啟發了對數據的靈活使用。

現在,創意從傳統媒體的靈魂,變成了一個幽靈,徘徊在今日頭條們的演算法網路間。將重新落定,還是黯然飄走,問誰?

羊年最後幾天,發生了今日頭條和艾瑞諮詢的口水戰,焦點是艾瑞諮詢出具的新聞客戶端影響力數據,背後仍然是今日頭條與競品一點資訊的排位戰。這是新貴的戰爭形式,頭條憑藉自己的方法論和數據實力已經有底氣不屑傳統的數據調查公司。對此我不多做點評,只想說,在這商業的勾心鬥角和機器的凌厲攻勢面前,媒體人的情懷看似一件奢侈的事情。但是在這個新年,當可能承載宇宙原初秘密的引力波都已經被發現,我還是要替媒體人詩意一把——

「在天堂里,人還不是人。更準確地說,人還沒有被投放到人的道路上來。現在,我已經被拋擲出來很長的時間了,循一條直線飛過了時間的虛空。在什麼深層的地方,還是有一根細細的繩子縛著我,另一頭連向身後遠處雲遮霧繞的天堂。個體靈魂不是她自己選擇的,而是從天堂拋出的系在她身上的細線,使她的身體身不由己。薇娥麗卡自己不可能去找到一種生命熱情,只能從自己身上發現自己的生命熱情,這就等於發現把自己的身體與影子系在一起的那根細線。從天堂那邊拋出來的細線決定了薇娥麗卡身體的生命方向和個體靈魂的在世負擔,感覺到自己的個體命運。所謂個體命運不過是,一個人感到唯有這樣的生命熱情的散發才讓自己有美好地活過的感覺,才有自己身體的在世幸福,以至於非如此生活不可。」(引自劉小楓早期作品《沉重的肉身》)

已經沒有天國了,細線就在人類和演算法機器之間,牽動彼此。當我們沉淪在DAU(日活)、點擊數、轉化率、變現渠道等等之中,細線仍然在那裡,億萬流量也遮不住彼此的隱痛。

【作者出身數學系,沒學好,投入內容工作。面對技術的衝擊,思想者如何重新審視自己的位置?如何處理與技術的關係?寫作對本人也是一次挑戰,錯誤在所難免。演算法生命還是個孩子,媒體精英面對未來技術資本世界也是孩子,在迷宮中掙扎進化。本文技術部分已經發表於虎嗅網。】


現在這些個性化推送,全是根據tag來的

一篇文章有很多的tag,比如

(1)出自什麼媒體?

(2)是什麼方面的新聞?

(3)主要是關於什麼內容?

絕大多數推送,只要基於這三個就足夠了

你會發現,你讀過幾篇文章之後,後面大量的更新基本都是基於這三個

說得好聽點是懂你

說的難聽點就是給你喂屎

而且更煩人的是:有時候一些有意圖的推送,我拒絕過很多次了,依然還給我推送。這是最煩人的地方


我個人非常不喜歡計算機推薦閱讀內容這種形式,因為你一旦點了某個內容相關的內容之後,她不停地推薦給你的都是滿屏的類似的內容讓你的閱讀面越來越窄,我自己已經覺得不堪忍受了,而且完全沒有辦法從排版上去區別哪些是重點的內容和非重點的內容。所以我在關注了今日頭條和改版後的網易app之後,感覺到無法忍受。


就像有一天你突然吃到豬飼料(前提是不知道),額,覺得很美味。

被今日頭條發現了,然後他就每天悄悄的收集各種品牌的豬飼料,放到你的嘴邊。

你吃得很high,最後變成了一頭豬。


1、首先我對提問本身不是很認同,個人以為推薦演算法並不能等同於人工智慧(遺憾的是很多回答都把頭條式的推薦恭維成人工智慧)。當然人工智慧也會涉及到演算法,比如阿法狗用到的蒙特卡洛樹及價值網路等等,但是隨便一個推薦系統都會用到或多或少的演算法,而且就目前來看大多數網站或APP的推薦系統都算不上智能。回到問題本身,資訊類APP如今日頭條,根據用戶數據並結合演算法推薦媒體內容,我並不覺得這就叫人工智慧,因為它僅僅是一個推薦系統。

再來看人工智慧的定義:人工智慧是對人的意識、思維的信息過程的模擬。人工智慧不是人的智能,但能像人那樣思考、也可能超過人的智能。

2、未來可能有人工智慧參與到新聞媒體的各個過程(比如會寫新聞會評論的機器人)。但目前,將提問改為「演算法推薦對新聞媒體意味著什麼?」會顯得更恰當。

3、接下來就回答「演算法推薦對新聞媒體意味著什麼?」

演算法推薦無非是推薦新聞內容給讀者或者說用戶。這主要影響到兩類人:生產者(媒體,包括自媒體)、消費者(用戶)。

(1)對生產者的影響

更專心地生產好內容,這是個好消息,因為媒體人可以不用太擔心渠道問題,並可以更高效更廣泛地直達目標讀者。因為只要是好內容,頭條等平台都會願意給流量並匹配精準的用戶。此外,媒體人需要對用戶需求更敏感,要能理解「用戶眼中的好內容是什麼」。

(2)對消費者的影響

由於演算法的推薦,用戶減少了主動尋找內容的成本,提高了閱讀的效率,有利於獲得全面的資訊和知識。此外,由於頭條等資訊平台的倒逼,媒體人更在意用戶需求,用戶可以獲得更好的內容。隱患在於,演算法推薦不夠人性化、不夠智能,過濾掉了一些有用的內容,使得用戶的視野變狹窄。


1.門戶時代的衰落。曾經有人做過實驗,也就是所謂的AB測試,使用個性化推薦,比不使用的流量提升20%,所以以前模式必將改變,畢竟這年代新聞主要靠廣告收入,流量意味更多的錢。

2.對編輯和運營的依賴降低。每人都可以寫文章,不一定非要編輯的文章。文章投放時,編輯和運營也降低很大的工作量,現在使用NLP之類機器學習演算法可以自動抽取文章特徵,也可以找到合適的文章投放,所以在生產和投放過程中,編輯和運營的作用大大降低了


推薦閱讀:

「今日頭條」的推薦演算法為什麼會讓你覺得很准?
今日頭條的問答板塊和知乎功能如此雷同,會不會對知乎造成一定的傷害??
zaker、zite和今日頭條有什麼區別和共同點?
頭條號文章推薦量為什麼為零?
今日頭條的每個廣告展示量的單價到底是如何規定的?

TAG:人工智慧 | 新聞媒體 | 人工智慧演算法 | 今日頭條應用 | 讀讀日報 |