全世界都在呼籲「演算法透明化」,率先站出來的是今日頭條
一
過去一兩年,全球的傳媒觀察者、研究者都在盯著一個詞:演算法(algorithm)。
什麼是演算法?簡單粗暴地理解,演算法就是一套規則,由機器去執行。比如,你在微博信息流中看到的內容,並不是按照時間順序排列的,那麼是依據什麼排列的?演算法。演算法可以規定,你和一個人互動越頻繁,就能越多地看到ta發的微博;演算法還可以規定,短視頻內容會被優先展示給粉絲;等等。
再比如,你在今日頭條刷出來的新聞,並不是人工編輯幫你挑選排序的,而是機器自動完成的,那麼機器選擇新聞的依據是什麼?演算法。演算法可以規定,如果你喜歡足球,就多給你看足球相關新聞;演算法還可以規定,如果你身在北京,就多給你推北京本地新聞;等等。
同樣,淘寶向你推薦的商品,網易雲音樂給你列出的每日推薦歌曲,豆瓣猜你喜歡的電影,滴滴給你分配的司機,高德地圖給你推薦的路線,也都是依靠演算法完成的。背後的具體規則多種多樣,但它們都有一個名字,那就是演算法。
我們的生活正越來越多地被演算法決定:讀新聞、看電影、吃飯、打車……幾乎每一種日常行為,都受到演算法的影響。《人類簡史》《未來簡史》的作者尤瓦爾·赫拉利甚至預測:未來,跟誰談戀愛和結婚也會由演算法來決定。剛剛推出的《黑鏡》第四季已經在第四集中將這種設想寫進了劇本。
無處不在的演算法,實際上已經成了當今社會上的一種重要的權力(power)。它能在很大程度上決定我們看到什麼、聽到什麼、了解到真實還是虛假的信息、和誰產生互動。
我們都知道,權力需要得到監督,要被「關進籠子里」才好。可是,演算法的權力,我們目前還很難監督。
放眼全球,包括Facebook、Google在內的幾乎所有互聯網公司都將演算法視為公司的重要機密,不願意打開這個黑匣子,讓外界了解。
作為商業公司,互聯網巨頭們有種種考慮,這是可以理解的。但是許多觀察者和研究者指出:既然演算法已經如此深入地影響著我們的公共生活,它就不能再以「商業秘密」的形式被藏起來了,它應該得到公眾的了解和監督。
我長期跟蹤全球傳媒業界和學界的動向。這一兩年來,我最頻繁見到的詞之一就是:「演算法透明度」。要求互聯網公司向公眾公開演算法的細節,提高演算法的透明度,已經越來越成為共識。
皮尤研究中心去年2月發布的一份研究報告《演算法時代的利弊》顯示,演算法透明度是業界和學界共同關心的焦點之一。「找到一個能夠實現透明化,並且評估結果的框架,將會非常關鍵。」報告引用受訪專家的意見說。
去年12月,在聯合國教科文組織的一次會議上,電子隱私信息中心(Electronic Privacy InformationCenter, EPIC)主席Marc Rotenberg甚至提出:對演算法的知情權也是人們的一種基本權利,在演算法透明度和商業機密之間,需要找到一個恰當的平衡點。而ACM(國際計算機協會)的美國公共政策協會也在去年發布了演算法透明度的一份原則性文件,其中提到:鼓勵使用演算法決策的系統和機構對演算法流程和結果進行解釋。
雖然呼聲越來越大,但到目前為止,還沒有矽谷巨頭作出實質性的響應。Facebook在接受關於俄羅斯利用社交媒體平台干預美國大選的調查之後,扎克伯格強調會提高透明度,不過只是展示在平台投放廣告的商家信息,而不是對自身的演算法進行公開解釋。而在一次和國會議員的閉門交流中,Facebook只是語焉不詳地表示自己的演算法會給原創內容和多媒體內容增加權重,除此之外就沒有再透露更多了。
反倒是中國的一家互聯網企業開了個頭,率先進行了分享。這家企業的主要產品叫做今日頭條。
二
1月11日,今日頭條召開了一場旨在推動整個行業來問診演算法、建言演算法的分享交流會,主講人是資深演算法架構師、中國科技大學計算機博士曹歡歡。
參加交流會的,有100多位自中央電視台、新華社、人民日報技術局等媒體機構的從業者,以及來自阿里、騰訊、百度、美團、新浪、網易等科技公司的演算法工程師和產品經理。
曹歡歡博士的分享題目就叫做《讓演算法公開透明》,宗旨是面向行業公開演算法原理,消除社會各界對演算法的一些誤解。
讓演算法公開透明,說起來簡單,做起來複雜。
社交新聞網站Reddit的首席技術官(CTO)Christopher Slowe曾經在討論演算法的時候貼出下面這張叫做「藍球機器」圖——
在這張令人眼花繚亂的動圖裡面,有著數不清的機關和環節,它們彼此之間又相互關聯,共同左右著機器的運行。
讓演算法透明之後,我們看到的不會是一個「1+2=3」一樣的簡潔算式,而會是上面這張動圖那樣的複雜,甚至是一定程度上的混亂。而且,隨著技術的飛速發展和對用戶需求的更精準把握,演算法也總是在不停的更新之中。
這是我們在呼籲演算法公開透明的時候,應該做好的心理準備。如果說,讓演算法公開透明是互聯網企業的責任,那麼硬幣的另一面就是:公眾也應多學習和了解一些演算法常識,這樣才能更好地監督演算法。
三
今日頭條將這次分享的全文公開了,我個人認為有以下幾個要點。
要點一:今日頭條在做演算法推薦時,考慮了四個方面的因素。
怎樣決定把什麼樣的內容推給什麼樣的用戶?比較為人熟知的是:今日頭條會根據用戶的興趣來推送。它的廣告詞「你關心的才是頭條」主打的也是這一點。
但是,用戶特徵(包括年齡、性別、職業、興趣等)和內容特徵是否匹配,只是演算法在推薦內容時考慮的一個方面。也就是說,演算法確實會考慮一條內容和你本身的興趣是否搭配,但這只是一個方面。
演算法還會考慮其他三個方面的因素:一是時間和使用場景,比如你是在上班路上看,在家裡看,還是在旅遊途中看,等等;二是熱度特徵,也就是現在熱門的內容有哪些,這些在你第一次使用、系統還不了解你的時候(也就是所謂「冷啟動」)特別有用;三是協同特徵,也就是看和你相似的用戶在看什麼,把別人喜歡的內容推薦給你。
這最後一點尤其重要,因為這種被稱為「協同過濾」的方法,可以幫助避免「演算法越推越窄」的問題。它依據的不是你之前看了什麼,而是和你相似的其他人喜歡什麼,這有助於幫你探索到更多的內容。
要點二:演算法會對文本進行很多分析。
今日頭條是做圖文內容起家的,對文本進行分析是其基礎。只有分析了文本的特徵,才能得知讀了這段文本的用戶有何特徵。
今日頭條的演算法會對每一篇文本做很多層次的分析,包括分類、關鍵詞、topic、實體詞等。
在分類方面,第一層的分類是像科技、體育、財經、娛樂,體育這樣的大類,再下面細分足球、籃球、乒乓球、網球、田徑、游泳……足球再細分國際足球、中國足球……中國足球又細分中甲、中超、國家隊……
「topic」指的是一篇文章中各種詞出現的概率;「實體詞」則是指名詞和代詞,識別出了實體詞,才知道這篇文章講的是什麼。
要點三:演算法會考慮用戶的很多種行為。
很多人都知道,在今日頭條裡面,我點擊了閱讀了什麼內容,會被機器記錄下來,並根據此向我推薦更多的內容。
但演算法考慮的不僅僅是你點了什麼內容而已,還包括其他。
比如,你點一篇文章,但很快就關掉了,那麼可能是因為這篇文章是標題黨,你進去發現自己被騙了,於是馬上跳出。這種停留時間短的點擊會被記錄下來,用來過濾標題黨。
再比如,你點擊了一些熱門文章(如前段時間PG One的新聞),演算法不會太在意,不會認為你真的是PG One的粉絲。
如果一篇文章被推薦推薦給你,而你沒有點擊,這也會被機器記錄下來。這篇文章的相關特徵(類別、關鍵詞、來源)會被記錄成你可能不那麼喜歡的特徵,下次就少向你推薦這些了。
此外,人的興趣會發生轉移,所以演算法會著重考慮你新的行為,舊的行為會逐漸不那麼重要。
要點四:今日頭條是一個巨型的實驗室。
有這麼多因素要考慮,那麼也就意味著,演算法有很多種寫法:既可以特別重視用戶興趣,也可以特別重視推熱點文章,還可以特別重視記錄用戶不喜歡的內容……那麼,到底哪一種配置才是最好的?
「很多公司演算法做的不好,並非是工程師能力不夠,而是需要一個強大的實驗平台。」曹歡歡博士說,「有一句我認為非常智慧的話是,『一個事情沒法評估就沒法優化』。」
今日頭條就是一個巨型的實驗室,每天都在做著許多實驗。
比如,隨機選擇5%的用戶,給他們推某種新的演算法改動,看他們是不是喜歡。每天,用戶們都在充當著「小白鼠」,幫助提高演算法的質量。
這裡有一個很關鍵的問題:怎麼判斷用戶喜不喜歡?看他們是不是點得更多了?看得時間更長了?更活躍了?曹歡歡說:「不能只看點擊率或者留存互動等等,需要綜合評估。」他認為,一個良好的評估體系建立需要兼顧短期指標與長期指標,也要兼顧用戶指標和生態指標。「今日頭條作為內容分創作平台,既要為內容創作者提供價值,讓他更有尊嚴的創作,也有義務滿足用戶,這兩者要平衡。還有廣告主利益也要考慮,這是多方博弈和平衡的過程。」
他還透露,「目前,我們上線還是要由各業務比較資深的人組成評審委員會深入討論後決定。」
四
在我看來,這次公開分享中最重要的信息是:演算法並不是決策者,寫演算法的人才是。
表面上看,我們的生活越來越被演算法決定。其實,演算法只不過是一套規則,機器只不過是按照人寫好的規則行事。所以,最終還是被寫演算法的人決定。
曹歡歡博士在分享中說:「演算法分發並非是把所有決策都交給機器,我們會不斷糾偏,設計、監督並管理演算法模型。」
此外,演算法也不是萬能的,很多事情還是要配合人工干預來做。完全交給機器,並不現實。
比如,他承認:評估內容的效果時,既可以看點擊率、閱讀時間、點贊、評論、轉發等可以量化的因素,但「引入數據以外的要素也很重要」。「有些演算法可以完成,有些演算法還做不到、做得不好,這就需要內容干預。」言下之意,人工編輯的參與依然重要。
再比如,對標題黨、低質內容的打壓,對重要新聞的置頂、加權、強插,對低級別賬號內容的降權,都是演算法本身無法完成的,是由人工編輯進行的。
今日頭條此前給人的印象是,總在強調技術、機器。這本身並沒有什麼錯,因為它確實是一家以技術為內核的公司。但是,技術背後也是人,而且技術目前還有很多無法完成的工作,需要有人的干預。在這次分享中,我們看到今日頭條的形象在發生一些微妙的變化,在推進演算法透明度的同時,也在越來越多談到人的重要性。
今日頭條對外公開表示:「人工智慧發展帶來的挑戰,是人類此前沒有遭遇過的。當企業發展壯大時,有責任也有義務,與行業一道積極思考與研究新技術可能帶來的機遇和風險。」這樣的態度和姿態,以及這次公開演算法原理的嘗試,都是值得鼓勵的。
接下來,不管是在美國、中國還是其他國家,演算法透明化相信都會成為重要的趨勢。我們等待著下一家互聯網公司的主動分享。
推薦閱讀:
※怎麼看【悟空問答】未經作者同意,擅自搬了知乎的問題到它的平台上讓大家回答?
※今日頭條怎麼發視頻才能不重複?
※今日頭條的核心技術細節是什麼?
※今日頭條的每個廣告展示量的單價到底是如何規定的?
※如何看待拒絕今日頭條簽約邀請的知乎大V們?