我用Python分析了42萬字的歌詞,為了搞清楚民謠歌手們在唱些什麼
聽了這麼多年民謠,我有一種感覺,就是很多歌都似曾相識,但是仔細一想,又哪一首都想不起來,為了搞清楚這群流浪在祖國大地的現代游吟詩人們都在唱些什麼,我做了一些數據分析的工作。
我選取了大約30個覆蓋從程序員,朋克,基佬到女權主義者,中國大媽,穆斯林的能夠覆蓋所有人群的民謠歌手和樂隊,包括李志,夭十三,趙雷,宋冬野,周雲蓬,逃跑計劃等等,為了設立參照,我還取了一些其他風格的樂隊,比如老一些的汪峰,竇唯,朴樹和新一些的低苦艾,謝天笑,反光鏡,草東等等。
第一步:寫爬蟲
我首先寫了一個爬蟲,它可以根據歌手或樂隊的名字來自動抓取這個歌手的所有歌,為了保證平衡,我最多只抓取前50首歌,老實說,大多數歌手被人熟知的歌並不會超過這個數字。
這樣,我得到了小一百個裝滿歌詞的文件,滑鼠滑過就能感覺到從裡面溢出來的文藝氣息,我感覺一陣憂鬱襲來,為了寫接下來的代碼,我吹掉了一瓶可樂。
接下來,我開始了對這些歌詞(約42萬字)的分析。
第二步:情緒分析
首先是情緒分析,通過對這些歌詞的自然語言處理,我知道了不同歌手們吟唱的到底是開心還是不開心的事情:
數值的分布比較平均,但大致可以看得出有三個分類,一類是特別開心的,例如郝雲。但是我一開始也不太懂,為什麼丟火車的情緒也這麼高,後來聽了幾遍他們的歌,發現他們雖然唱腔慘兮兮的,但是歌詞還是充滿正能量的,丟火車樂隊歌詞中出現次數最多的三個詞分別是「永遠」「晚安」「倔強」,這些都是正面情緒的詞。第二類則是比較憂傷的,以我們熟悉的逼哥為代表,他們的歌詞中充斥著孤獨,沉默,淚水等詞語。雖不暴力,但是多少有一些黑暗。
第三類則以趙雷為代表,比較平靜,就像一個朋友給你講故事,不疾不徐,娓娓道來,裡面也有開心,也有難過,但總體情緒趨於中值。這也許解釋了為什麼趙雷這麼晚才火起來的原因——平淡的情緒較難快速給人以強烈的衝擊。但無論如何,好的音樂總會被人們發掘。
基於某種趣味,我又分析了一下其他風格的音樂的情緒:
民謠的情緒很豐富,而搖滾的情緒則大多是負面的,人們說,沒有憤怒就沒有搖滾,這話至少在歌詞的情緒上是正確的。
民謠歌手最喜歡什麼季節?通過對歌詞的分析,這個問題也可以解決:
其中,春天出現了81次,冬天出現了74次,夏天和秋天各出現了70和47次。由此可見,最受歡迎的是春天和冬天,最不受歡迎的是秋天。但我個人覺得秋天挺好的,秋高氣爽,菜價便宜。
同樣的,我也分析了歌手們最喜歡的城市,結果如下:
可以看得出,北方城市完全戰勝了南方城市,成了在歌詞中被唱的最多的地方,特別是北京,一共出現了81次。說到一線城市,人們會說北上廣深,但是在民謠的世界裡,北京絕對是不可撼動的存在。南方城市只有成都勉強露了幾個照面。作為一個成都人,我對此還挺高興的。
難以理解的是,雖然北方城市大獲全勝,但是歌手們卻更多的念叨著「南方」而不是「北方」,「南方」比「北方」多出現了大約5.7%
另一個我感興趣的問題是,民謠歌手們是在向前看還是向後看,是往未來寄託希望,還是緬懷過去?
看得出,民謠歌手是在往前看的,至少是活在當下的,「明天」這個詞在歌詞中出現的次數最多,接著是「今天」和「昨天」,而「前天」和「後天」則幾乎可以忽略不計,這也是可以理解的,比如說「我拿青春賭明天」,這聽上去很美好,如果要說「我拿青春賭后天」乃至於「我拿青春賭下個月5號」,這聽上去就像一個賭徒發瘋了。
在我的統計中,出現最多的幾個意象是:再見,姑娘,夜空,孤獨,快樂。
如果把民謠擬人化,那應該是一個喜歡南方的北京小夥子,覺得世界很操蛋,但罵歸罵,到底是對生活有希望的,憧憬著明天,在春天感到快樂,在冬天感到孤獨,沒有女朋友,但有幾個糾纏不清的前女友,經常和她們見面,見面的地方可能是成都,昆明,南京,上海,武漢。。。。。
最後推薦一下我珍藏多年的汽缸汪汪樂隊,雖然他們只出了半首歌,但依然非常不錯。哈哈。
-------------------------------------------------
喜歡好的就關注,持續更新。
作者:超級王登科
個人公眾號:「超級王登科」(ID:superwdk)
出處:超級王登科博客專欄
最近很多人私信問我問題,平常知乎評論看到不多,如果沒有及時回復,大家也可以加小編微信:tszhihu,進知乎大數據分析挖掘交流群,可以跟各位老師互相交流。謝謝。
推薦閱讀: