如何科學地應對視頻標題黨?
05-12
源碼:GitHub - HankChow/Danmaku-Analyser
FBI WARNING:以下內容涉及劇透。
今天看了一下2017年1月19日那一期《暴走大事件》,標題是《暴走大事件完結篇》。
WTF?《暴走大事件》居然要完結撒花了?直到我看到這裡……
又是一次完美的標題黨。
好吧,在B站上面,各種標題黨/辣眼睛/葫蘆娃的視頻已經不少了,處處防不勝防。
既然如此,只好自己動手做一點微小的事情了。
寫爬蟲、抓彈幕、分詞、統計,擼出來一個彈幕分析器,通過分析視頻的彈幕內容來了解整個視頻的大致內容以及視頻的重點位置。只要了解彈幕裡面詞頻最高的詞語,就可以大概知道整個視頻的內容;知道了彈幕最密集的位置,直接空降到那個位置,就可以馬上看到高潮部分啦~
還是拿這一期暴走大事件來做實驗:
輸入視頻的av號和p數,直接分析,結果就出來了。
視頻在06:00左右的時候彈幕最密集,而且「媽賣批」在整個視頻的彈幕裡面出現了807次……空降到06:00的位置一看,果然是王尼瑪在那個時候打破標題黨,說出即將推出《暴走大事件》第五季……
嗯,就做了一點微小的工作。
推薦閱讀:
※Python 006-02:字典、集合
※用圖像識別來自動確認網頁載入成功
※【Python3網路爬蟲開發實戰】1.5.1-PyMySQL的安裝
※爬蟲入門到精通-爬蟲之非同步載入(實戰花瓣網)
※這或許是對小白最友好的python入門了吧——13,字典初識