這四十年來的香港歌壇在唱些什麼,「南中國聽歌最多」的數據分析師帶你一探究竟

這四十年來的香港歌壇在唱些什麼,「南中國聽歌最多」的數據分析師帶你一探究竟

來自專欄 大數據商業應用--原力大數據

做大數據這行,很容易就會被貼上「悶騷」「無趣」的標籤。但是,在我們原力大數據的技術團隊里,就有一群「不走尋常路」的數據分析師。

他們在鑽研「高精尖」技術的同時,一樣對生活充滿了熱愛,甚至,他們會用數據分析的理論和態度來研究日常喜好。

今天這篇文章的作者「唔好動」,就是一位專註技術,同時又喜歡音樂的「文藝青年」。下面讓他用專業的大數據分析方法,帶大家一探究竟:這半個世紀的香港歌壇,到底都在唱些什麼?

--------------------------------------------富有情懷的分割線-------------------------------------------

文/唔好動

一個以寫代碼為生的填詞人

作為一個熱愛音樂的廣東仔,我從兒時的數碼暴龍,聽到現在的麥浚龍,見證了香港歌壇近二十年興衰。不管你是不是廣東人,相信廣東歌在很多人生命中都佔據著不可或缺的一席地。

那麼,那些年我們一起聽過的港式流行歌,到底在唱些什麼呢?作為一個專業的數據分析師,閑來做了一些歌詞文本分析來探討這個有趣的小問題。

一、分析手段介紹:

Step1定義「那些年」和 「港式流行歌」

「那些年」:為了凸顯港樂發展變化的軌跡,我將「那些年」定義為1970年到2010年,共40年,並以10年作為一個區間(年代),分別分析,以便對比。2010年後的歌就不納入研究範疇,一來還沒到十年,二來年代太近,最多只能算「這些年」。

「港式流行歌」:本著以人為本的思想,我先找到各個年代的代表歌手,再用爬蟲[1]爬取歌手在這個年代發行的所有專輯(錄音室專輯)的歌詞。那麼,什麼又是代表歌手呢?這沒有一個統一的標準答案,我暫且選取一些知名度高、作品量大和我比較喜歡(熟悉)的歌手。如八十年代的譚張梅陳、九十年代的四大天王等。

[1]爬蟲不是蟲,而是一種自動抓取網頁數據的程序或腳本。

Step2準備數據

定義明確後,我開始爬蝦米音樂的歌詞(因為蝦米比較好爬…)

一共爬取了28位歌手,5029首歌,100+萬字的歌詞。其中17位男歌手/組合,11位女歌手/組合。

▲爬蟲爬取的歌詞

平均每個年代7位歌手,平均每位歌手180首歌。是的,180這個數字也超乎我的想像,如黎明在90年代發行的專輯就有31張,而且還只算錄音室專輯。

▲爬到的陳奕迅2005年《U-87》里12首歌的歌詞。

Step3用TextRank演算法提取Top50關鍵詞

歌詞文本準備就緒,那麼我們如何在浩瀚的詞海里淘到每個時代的主旋律?我的做法是:運用TextRank演算法,提取Top 50的關鍵詞。

▲技術流程圖。

Step4 關鍵詞分析,一探究竟

在Top50關鍵詞的基礎上再去分析,其實就是間接分析了這些歌詞的主題。所謂窺一斑而見全豹也!下面,讓我來給大家詳細對關鍵詞進行分析:

二、關鍵詞分析:

本想每個年代選一個關鍵詞,但因為有些關鍵詞是跨時代的,所以我在分析舉例的過程中,並不會局限於某個年代,綜合挑選了四個最具代表性的關鍵詞進行分析。

為了給大家一個直觀的印象,我使用文字雲的工具,每個年代分別生成一張圖片。但需注意,文字雲工具分詞的演算法,與我提取關鍵詞的演算法並不相同,下文的分析以TextRank演算法的結果為依據,圖片僅供參考。

1.「鴛鴦」——受粵劇和英文歌影響的七十年代

七十年代的歌詞很有詩意,如相思、春風、今宵、鴛鴦等。可能是因為流行音樂剛開始不久,仍然受到以往粵曲風格的影響。

▲七十年代歌詞詞雲

其中「鴛鴦」特別吸引到我的眼球,心想:這種詞應該主要出自女歌手吧,要麼是小鳳姐(徐小鳳),要麼是汪阿姐(汪明荃),一定不會是我大Sam哥(許冠傑)和香帥(鄭少秋)的。

然而統計結果卻還我一個冰冷的巴掌——出現34次的「鴛鴦」,小鳳姐和汪阿姐一共才佔了7次,Sam哥佔了7次,剩下20次全是香帥的!原來我腦海中只有鄭少秋楚留香般的俠客形象,卻忽略了他風流倜儻的另一面。看來真的要杜絕主觀偏見,讓數據說話。

▲汪明荃與鄭少秋合照

七十年代的歌詞中,也出現很多英文單詞,如love,me,all等。因為在許冠傑開始唱粵語之前,香港人都在聽英文歌和國語歌。相信很多人對張國榮77年的American Pie有印象。英文歌是主流的現象從八十年代開始消失,可見許冠傑對港樂本土化起到極大的作用,難怪有「歌神」的稱號。

詩意和英文,就像一對鴛鴦,在七十年代的歌詞湖泊上出雙入對,代表著有別於其他年代的兩大特點。這也是為什麼「鴛鴦」這個詞雖然出現頻率不算太高,但仍當選年代關鍵詞的原因。

2、「我心」——八十年代前後,流行直抒胸臆

▲八十年代歌詞詞雲

八十年代前後,「我心」出現的頻率都很高,但零零年代就幾乎不見影蹤了。「妳已在我心,不必再問記著誰。」這是我馬上找到的、找到之後就不願再找的、包含「我心」的代表歌詞。相信榮迷都懂我在說什麼。

▲張國榮

雖說不願再找,但好奇心驅使,還是再找找吧。「我墮入情網你卻在網外看始終不釋放,你笑笑看看我象是望著獵物我心已傷。」譚校長的《愛情陷阱》代表另一種風格的「我心」。

校長、哥哥都那麼赤誠,頻頻將「我心」示人,不難想像其他歌手後輩會如何大力效仿,其中包括歌神張學友:《愛是永恆》中,「其實你沒有別離,在我心湖中」,還有《太陽星辰》的「太陽星辰,即使變灰暗,心中記憶,一生照我心」。

順便一提,這兩首歌都出自我很喜歡的林振強之手,傳說強伯的詞有很多太陽、星星和月亮,有機會可以數據分析驗證一下。

3.「沒有」——九十年代,從有到無的想像力到達頂峰

九十年代,歌詞中出現大量的「沒有」,「不可」,「沒法」,「不想」等否定辭彙。(其實八十年代就已經出現這種情況,只不過九十年代愈加明顯和有代表性。)其中「沒有」出現的頻率非常顯眼!

▲九十年代歌詞詞雲

八十年代的1098首歌中,「沒有」出現了207次,平均每五首歌出現一次;九十年代的2165首歌中,「沒有」出現了983次,平均每兩首歌出現一次;零零年代的1262首歌中,「沒有」出現了821次,幾乎平均每首歌出現一次!雖然「沒有」只是副詞,但我們不妨借它來研究一下歌詞里的規律。

看看幾個例子:

《風箏與風》:「沒有燈,背影怎可上路;如沒雲,天空都不覺高…… 當風箏沒有風,一顆心也都很重」。

《當》:「當山峰沒有稜角的時候,當河水不再流,當時間停住日夜不分,當天地萬物化為虛有」。

《最佳損友》:「問我有沒有,確實也沒有」。

韋禮安的《有沒有》:最後一段就有11個「有沒有」……

(《當》和《有沒有》是國語歌,但這套路太像了,所以放上來一起討論。)

▲twins

不難看出,上面的歌詞分兩類:「沒有」和「有沒有」。需要注意的是,「有沒有」也被統計入「沒有」的詞頻中。但因為兩者意思其實不同,我們只探討「沒有」。

「沒有燈,沒有雲,山峰沒有稜角」,「沒有」代表一種假設。因為有了,所以假設沒有,我們會怎樣;假設沒有,便脫離現實,去到詩意的境界(至少是歌詞的境界)。

難怪六七十年代的人聽不慣現在的歌,因為他們那時窮啊,那時幾乎是一無所有啊,你還讓他們聽 沒有沒有的,多殘忍啊!而他們聽的歌很多都是「有」的:

有風光,「漫漫前路有幾多風光,一一細心賞」(徐小鳳《漫漫前路》);

有胸襟,「湖海洗我胸襟,河山漂我影蹤」(鄭少秋《楚留香》);

有笑聲,「滄海一聲笑,滔滔兩岸潮」(許冠傑《滄海一聲笑》);

還有情,「未怕罡風吹散了熱愛,萬水千山總是情」(汪明荃《萬水千山總是情》)。

解釋一下,以前歌里的情不同於現在,以前的情多了幾分積極向上。

4、「世界」——零零年代,物質世界全球化和精神世界的探索

到了零零年代,除了「沒有」之外,「世界」已然成為歌曲中最熱門的詞。

▲零零年代歌詞詞雲

零零年代香港樂壇的代表人物無疑是第三代歌神陳奕迅,他有一首歌就叫做《世界》的:「原來愛情的世界很大,大的可以裝下一百種委屈;原來愛情的世界很小,小到三個人就擠到窒息」。還有一首更為人熟知的,《全世界失眠》:「一個人失眠,全世界失眠,無辜的街燈,守候明天」。

▲陳奕迅

說了很多男歌手,該到女歌手啦。零零年代的香港女歌手,我最愛楊千嬅,《飛女正傳》:「世界將我包圍,誓死都一齊,壯觀得有如,懸崖的婚禮」。為什麼從八十年代開始,到零零年代,「世界」越來越多地被歌手們傳唱?

一方面,我認為與全球化和經濟發展有關,借用一句台詞,「你連世界都沒觀過,還談什麼世界觀?」說一樣東西之前,你一定對它有所認識。「世界」在華語歌詞中的流行,其實反映了一種全球化的趨勢。

另一方面,我認為與一個人有關。這個人的名字也出現在零零年代的關鍵詞中,也是關鍵詞Top 50中唯一一個人名——他就是林夕。(註:歌詞文本中沒有去掉作曲作詞人等數據。)

「世界」這個中文辭彙,其實出自佛經,意指時間和空間。而林夕正好是佛教徒。林夕的詞,精美細膩的下面,是深不可測,蘊含著很多他的哲學思想,所以他會使用很多諸如世界的佛家用語,也理所當然。

三、結論:「愛情」——永恆的主旋律

「鴛鴦」、「我心」、「沒有」、「世界」,這四個關鍵詞中的關鍵詞,在香港樂壇年代變遷中,出現的頻率跌宕起伏。然而,另有一個詞,一直穩定且低調地佔據著四個年代的關鍵詞TOP 10,它就是——「愛情」。

原來「鴛鴦」也是在講愛情:只羨鴛鴦不羨仙,鴛鴦般的愛情無比美好;

原來「我心」也是在講愛情:我心傷悲或狂喜,都是愛情在發動;

原來「沒有」也是在講愛情:沒有愛情一切無法想像,有了愛情可以想像一切;

原來「世界」也是在講愛情:愛情的對象,有時就是全世界。

難怪聖經也說:「愛情,眾水不能熄滅,大水也不能淹沒。」

現在,你知道香港歌壇四十年都在唱些什麼了嗎?

最後,附上四個年代關鍵詞排名對比。(只顯示前15名)

▲70、80、90、00年代top15關鍵詞排名

今天就先分享到這裡,去看《歌手》了,心情好的話給大家用數據分析預測一下本季「歌王」吧!

原力大數據(廣州帷策智能科技有限公司)

廣州帷策智能科技有限公司致力於大數據研究及應用項目,積累了豐富且深入的大數據實踐經驗與成果。尤其擅長基於大數據的分析建模、能力固化和產品研發,力求幫助客戶透視業務全景,實現量化決策、精準決策和科學決策,高效提升市場營銷及運營管理能力。

官網:帷策:知識就是力量,數據就是能量

合作聯繫:020- 85279103 微信 jesich

本文為原創文章,轉載請註明作者,並附帶作者及公司簡介。

推薦閱讀:

今日數據行業日報(2017.03.16)
知識布局-sql-impala解析
如何成為大數據產品經理
2017,大屏可視化助力大數據應用落地
大數據計數原理1+0=1這你都不會算(五)No.55

TAG:文本分析 | 演算法 | 大數據 |