標籤:

用2600條文本數據,為你揭秘TED受歡迎的真正原因!

文/胡舟

為什麼不超過18分鐘的TED演講,平均點擊率卻超過百萬次,最高的甚至超過5000萬次?為什麼連比爾?蓋茨、史蒂芬?霍金、阿爾?戈爾這樣的商界、學界與政界精英都競相登上TED的舞台?到底是什麼原因使得TED演講如此受歡迎?在近期的數據俠實驗室中,Merkle數據分析師胡舟對TED官網爬取了2600餘個演講文本進行分析,為大家揭開了TED

神秘的面紗。

科譜一下:TED Event知多少?

這次分享主要是想通過文本分析重新認識TED,探究TED為何如此受歡迎?

我將以案例分析形式向大家展示,如何利用自己已有的文本數據,運用NLP(自然語言處理)的方法,從不同維度來探究TED是一個怎樣的存在。

誕生於1984年、享譽世界的TED大會將「Ideas

Worth Spreading」宗旨流傳至今。TED就像一個「舞台」,將TED三個縮寫字母所代表的Technology

(技術)、Entertainment (娛樂)、Design

(設計)三個領域內的思想領袖與實幹家聚集起來,講述值得傳播的創意和知識。從2006年開始,

高質量的演講視頻被翻譯成100多種語言在全球網路免費傳播,深受追捧。

TED的最大的特點在於,無論是多麼深奧前沿的思想,都會被立刻濃縮在18分鐘內,這也是TED大會創始人克里斯·安德森一直秉持的觀念——讓信息變得清楚易懂。18分鐘的演講既避免了演講因為時間過長顯得拖沓,也迫使演講者更加精心地去準備演講內容。

TED除了一年一度春季的TED大會之外,下半年還有TED

Global大會,每次大會有4-5天,近百位嘉賓。TED每年還有一些不同獨立主題的子會議,如TED Women。此外,TEDx是TED

旗下的是非官方,自發性的活動項目,TED官網會從全球10000多個當地的TEDx活動選擇一些優質的TEDx演講上傳官網。

從TED不同Event的演講文本來看,可以明顯看出TED Global關注的主題更加國際化,如Africa、Country、Social等。

相比之下TEDx就更加貼近生活,關注更多的是Kids、Love、School之類的話題。而且TEDx票價相對便宜,雖然有人說TED和TEDx是應國家邀請登天安門參與閱兵儀式和買票登過天安門的區別,但是TEDx中依然不乏有質量很高的演講,而且離我們生活更近,如果可以自己參與其中也是極好的。

同時,從TED Women演講的主題和權重不難看出這個會議的獨特之處,由此也可以看出TED這個非盈利組織對於女性群體的尊重和關心。

什麼是NLP(自然語言處理)?

以往大家對TED的認識都是演講者生動的演說,而今天的分享,我將從TED演講的文本出發,運用NLP(自然語言處理)的方法,換一個角度帶大家重新認識TED。那麼什麼是NLP?自然語言就是人們日常使用的語言,所以通俗的來說NLP就是一門實現和計算機「說人話」的技術。其實,不管是讓計算機聽懂人話,也就是所謂的自然語言理解;還是讓計算機「說人話」,也就是自然語言生成,都比想像中來得困難。但是作為人工智慧的重要方向,NLP也是越來越受到大家的關注。

從下圖中,大家可以看到NLP的一些基礎演算法和業務應用。

實際上NLP技術離我們生活並不遠,它運用的覆蓋面非常之廣,從一句話的詞性標註到整個搜索引擎的應用,都有涉及到NLP技術,如大家比較熟悉的垃圾郵件分類、谷歌百度的機器翻譯,甚至機器客服也都會運用到NLP技術。

這次分享主要是想實現NLP眾多技術中的信息提取,大家都知道TED的演講那麼多,並且包含各種不同領域的知識,如何快速的知道這些TED的文本到底在說什麼?重點是什麼?這就是信息提取要幫我們做的事情。

信息提取的方法有很多,其中一種是統計類方法,另外還有像機器學習的方法等等,也就是用模型來提取文本的核心內容。統計類的方法很好理解,就是通過統計計算的方法評估出文本中不同詞語的重要程度,從而判斷文本的關鍵詞是什麼。這邊我以TED在數據科學和人工智慧方面Top10的演講文本來舉一個使用統計方法提取關鍵詞的例子。

左邊這張是由大大小小的單片語成TED字樣的圖,這其實是一張詞頻統計的詞雲圖。大家可以看到圖中像Intelligence、Human等字樣很大,也就是說這些詞在這十篇文章中出現的頻率最多。

右邊這張圖是運用TF-IDF演算法,對同一組詞統計計算得出的關鍵詞和權重。TF-IDF演算法與詞頻統計不同在於,詞頻統計只通過簡單地看某個詞出現的多少,就判斷這個詞是否重要。而TF-IDF演算法不僅會考慮到某個詞出現在一篇文章里的次數,也會考慮到這個詞是不是在所有文章里都提到,如果是,那說明這個詞可能並不具有代表性,從而權重會下降。

另一種我想分享的是運用無監督機器學習的方法來提取文本主題的方法,也就是這次我對TED文本分析主要運用的方法——主題模型(LDA)。

在說LDA主題模型之前,我先舉一個例子,比如說你在文本中看到了大量「科比」的字眼,很容易聯想到文本的主題可能是體育、籃球。

但你仔細一看,發現文章中全部都是關於科比的八卦,這時候你就會判斷文本的主題可能是娛樂八卦。這就是LDA想解決的問題,它認為不同詞語在不同主題里的權重是不一樣的,所以一個詞並不能代表一個主題。那用什麼代表主題呢?

機智的LDA採用的是一組帶權重的關鍵片語合來表示文本的主題。比如上PPT上的例子,兩組詞語雖然一樣,但由於每個詞語的權重不同,所以兩組詞語組合體現的主題並不一樣,明顯可以看出第一個主題中,NBA、科比和裁判權重更大,那它的主題可能更偏向於體育,而第二個主題則明顯偏向於娛樂八卦。

TED 在講什麼?

一直以來,各個領域的前沿思想者被邀請到TED 來分享他們獨特的觀點。

TED 演講涉及的主題從宇宙起源到未來科技,從奇妙自然到生活感悟… 可說是包羅萬象。然而,從演講的文本內容出發,TED的主題又有何特點呢?下面我將會分享在TED文本。

數據分析中的發現和經驗。這次分析的數據是從官網爬取下來截止到2017年9月的數據內容,包括演講標題、演講者信息發布、錄製時間、瀏覽評論量以及最重要的演講文本內容,一共是2600多條數據。

從上圖可以看到對不同錄製時間的演講視頻建立LAD主題模型的結果,其中People、Time和Life是每年TED眾多主題中的「常客」,而且所佔權重很大。從結果看來,TED並不像很多人認為如神壇一般遙遠,相反它更側重人文,也非常貼近生活,關注愛和孩子;其次,科技創意和故事的講述同樣是TED的重頭戲,演講者往往以幽默風趣的方式與大家分享自己的親身經歷,感悟和觀點。

此外,隨著時代的變遷,TED的主題也隨之變化著。

數據和信息爆炸的年代,TED的話題同樣更多集中在數據,社交方面。與過去更加側重一些個人,狹窄的主題不同,近些年的TED 更多關注國家政府,健康和家庭的主題。此外,女性的話題越來越受到演講者們的關注。

TED有著不同領域的新創意和想法的碰撞,同時也關心著時下的最新訊息。

例如從歷年TED演講文本主題中發現,相較其他年份,2008年除了「老生常談」的話題之外,其他有很多和太空、宇宙、星球之類相關的主題。2008年關於太空發生了什麼呢?從Google

Trend 上來看,其中關鍵詞Earth在2008年的搜索率非常高,而且,關聯搜索「earth-like planet」出現頻率非常高。

我們搜索了該年太空大事件新聞,發現08年美國專家藉助

「鳳凰」 號著陸探測器發現火星土壤里有冰凍水,掀起了學術和媒體界關於人類移居去火星的激烈討論,「earth-like

planet」也成了人們移居其他星球的夢想指南,Mars和NASA在Google的搜獲同樣在2008年達到高峰:

某種程度上這也說明TED和時下最新的熱點也是關係緊密。

一直以來,TED在啟發思考和鼓舞人心方面扮演著重要的角色。從歷年演講文本的情感分析結果上來看,TED果然是正能量的存在。

TED的情感分析得分一直在0.13上下波動,說明總體來看TED演講內容是積極向上的。同時,從主客觀度來看,TED演講文本的得分穩定在0.45到0.5,可見雖然TED是一個觀點的傳播,但並非雞湯式,情感類的傳播,從文本內容來看,TED還是相對客觀的。(polarity的分數是一個範圍為[-1.0,

1.0] 浮點數, 正數表示積極,負數表示消極。subjectivity是一個 範圍為 [0.0, 1.0] 的浮點數,其中 0.0 表示

客觀,1.0表示主觀的。)

值得一提的是2004年的情感分析得分異常之高,而將此年的主題單獨拿出來看,不難發現,happy、glamorous等非常正向的主題出現的權重很高。此外System、Money也出現在2004年TED演講時主題中,不免讓人猜想,莫非TED的情感得分與經濟有關聯?也許!下圖是密歇根大學消費者信心指數圖:

其中2004年該指數總體偏高,並在2004年一月達到103.8,此後該值直到2017年十月才突破100。可以看到,在2008年經濟危機時,TED的得分同樣出現低谷。可見,經濟形勢或許對演講者的心態有著一定的影響。

以上就是我分析的第一部分,利用它自身的數據,主要從時間維度、不同事件維度對TED的主題進行提取和分析,並從情感角度對TED進行了解剖。

TED為何如此受歡迎?

第二個部分主要是針對TED觀看者的反饋信息來揭開TED如此受歡迎的原因,其中主要涉及到的數據包括TED官網截止到2017年9月各個演講的瀏覽數、一級評論數以及觀看者對於評論的打分情況。

從上圖中可以觀察到我們選取的2600餘個視頻的瀏覽量、評論量和評分數量的分布,這些樣本的瀏覽量大概都集中在100萬到500萬,但其中也不乏千萬瀏覽量級的經典視頻。可以明顯地看到,圖中有六個點異常突出,也就是觀眾反饋最好的六個演講。

所以我將這六個最受歡迎的演講單獨找了出來:

其中「Thinkers 50頂尖思想家」與「創造力和創新領域的全球傑出思想家」Ken Robinson用風趣而睿智的創新案例告訴我們應培養創造力而不是去破壞它,成為瀏覽量最高的演講。

另外,很特殊的是《自私的基因》作者,演化生物學家Richard Dawkins的演講,雖然瀏覽次數不及其他幾個,但其直言不諱地對無神論和演化論的擁護,以及對上帝和宗教信仰的質疑和批判引起觀眾大量的評論。

此外其他幾個很受歡迎的演講基本上都是在圍繞人類自身生理或心理的主題,看來觀眾們對於探索人類自身的潛能和奧秘有著極大的興趣。

從觀眾對這幾個高分視頻的評價狀況來看,觀眾普遍非常強烈地感受到被激勵和啟發,這可能也是TED帶給大家最直接和有力的感受。同時吸引力和信息量同樣是這幾個高分視頻受到大家追捧的重要原因。可以發現大家之所以會喜歡TED很大的原因在於觀眾會對內容產生共鳴,雖然僅僅只有18分鐘的時間,但是演講者生動的演說,無論是從知識的獲取上還是精神的激勵上都得到了觀眾的好評。

除了上面提到的6個最受歡迎的演講,我對其餘的視頻進行了聚類分析,從下圖可以看到,在觀眾的喜愛程度上,兩千餘個視頻被劃分成了4類。

從文本主題上來看,這四類視頻有著明顯的區別。更受歡迎的演講更多的提到前沿和高新的科技,以及貼近生活的主題,而相對受關注低的演講可能更多涉及到一些相對枯燥的內容,如法律、物理、工業製造等。

看來人們在TED上更多是去選擇一些前沿新奇、輕鬆和貼近生活的演講,然而對於尋找一些專業性更強的內容,TED可能不是一個最佳的去處。

回到TED的宗旨:「Ideas Worth Spreading」,為了要讓想法更容易擴散,我們從TED視頻背後的數據發現,這些內容必須貼近人,從人的角度出發,和當下時事產生共鳴,才有可能更將想法傳遞給更多的人!

註:以上內容根據胡舟在數據俠線上實驗室的演講實錄整理,內容有所刪減,已經本人審閱,本文僅為作者觀點,不代表DT財經立場。

編輯 | 項靜: xiangjing@dtcj.com

題圖 | 網路

數據俠門派

本文數據俠胡舟,經濟學碩士,現任職Merkle數據分析師。對NLP和Data Mining 十分感興趣,喜歡發現和學習新鮮事物。碼得了code,鏟得了貓shǐ,堅信不會攝影的吉他手不是一個好的數據分析師。

加入數據俠

「數據俠計劃」是由第一財經旗下DT財經發起的數據社群,包含數據俠專欄、數據俠實驗室系列活動和數據俠聯盟,旨在聚集大數據領域精英,共同挖掘數據價值。了解數據俠計劃詳情請回復「數據俠計劃」,投稿、合作請聯繫datahero@dtcj.com。

推薦閱讀:

參加TedxYouth@chongqing(回.行)是怎樣的一番體驗?
為什麼TED能火?你喜歡TED演講內容嗎?
今日推薦:(視頻)為什麼最棒的僱員並沒有完美的簡歷
比爾蓋茨在TED上的keynote有什麼特點?如何學習製作?
如何評價楊瀾 TED 演講:重塑中國的年輕一代?

TAG:TED | 數據處理 |