這四十年來的香港歌壇在唱些什麼,「南中國聽歌最多」的數據分析師帶你一探究竟
來自專欄 大數據商業應用--原力大數據
做大數據這行,很容易就會被貼上「悶騷」「無趣」的標籤。但是,在我們原力大數據的技術團隊里,就有一群「不走尋常路」的數據分析師。
他們在鑽研「高精尖」技術的同時,一樣對生活充滿了熱愛,甚至,他們會用數據分析的理論和態度來研究日常喜好。
今天這篇文章的作者「唔好動」,就是一位專註技術,同時又喜歡音樂的「文藝青年」。下面讓他用專業的大數據分析方法,帶大家一探究竟:這半個世紀的香港歌壇,到底都在唱些什麼?
--------------------------------------------富有情懷的分割線-------------------------------------------
文/唔好動
一個以寫代碼為生的填詞人
作為一個熱愛音樂的廣東仔,我從兒時的數碼暴龍,聽到現在的麥浚龍,見證了香港歌壇近二十年興衰。不管你是不是廣東人,相信廣東歌在很多人生命中都佔據著不可或缺的一席地。
那麼,那些年我們一起聽過的港式流行歌,到底在唱些什麼呢?作為一個專業的數據分析師,閑來做了一些歌詞文本分析來探討這個有趣的小問題。
一、分析手段介紹:
Step1定義「那些年」和 「港式流行歌」
「那些年」:為了凸顯港樂發展變化的軌跡,我將「那些年」定義為1970年到2010年,共40年,並以10年作為一個區間(年代),分別分析,以便對比。2010年後的歌就不納入研究範疇,一來還沒到十年,二來年代太近,最多只能算「這些年」。
「港式流行歌」:本著以人為本的思想,我先找到各個年代的代表歌手,再用爬蟲[1]爬取歌手在這個年代發行的所有專輯(錄音室專輯)的歌詞。那麼,什麼又是代表歌手呢?這沒有一個統一的標準答案,我暫且選取一些知名度高、作品量大和我比較喜歡(熟悉)的歌手。如八十年代的譚張梅陳、九十年代的四大天王等。
[1]爬蟲不是蟲,而是一種自動抓取網頁數據的程序或腳本。
Step2準備數據
定義明確後,我開始爬蝦米音樂的歌詞(因為蝦米比較好爬…)
一共爬取了28位歌手,5029首歌,100+萬字的歌詞。其中17位男歌手/組合,11位女歌手/組合。
平均每個年代7位歌手,平均每位歌手180首歌。是的,180這個數字也超乎我的想像,如黎明在90年代發行的專輯就有31張,而且還只算錄音室專輯。
▲爬到的陳奕迅2005年《U-87》里12首歌的歌詞。Step3用TextRank演算法提取Top50關鍵詞
歌詞文本準備就緒,那麼我們如何在浩瀚的詞海里淘到每個時代的主旋律?我的做法是:運用TextRank演算法,提取Top 50的關鍵詞。
▲技術流程圖。Step4 關鍵詞分析,一探究竟
在Top50關鍵詞的基礎上再去分析,其實就是間接分析了這些歌詞的主題。所謂窺一斑而見全豹也!下面,讓我來給大家詳細對關鍵詞進行分析:
二、關鍵詞分析:
本想每個年代選一個關鍵詞,但因為有些關鍵詞是跨時代的,所以我在分析舉例的過程中,並不會局限於某個年代,綜合挑選了四個最具代表性的關鍵詞進行分析。
為了給大家一個直觀的印象,我使用文字雲的工具,每個年代分別生成一張圖片。但需注意,文字雲工具分詞的演算法,與我提取關鍵詞的演算法並不相同,下文的分析以TextRank演算法的結果為依據,圖片僅供參考。
1.「鴛鴦」——受粵劇和英文歌影響的七十年代
七十年代的歌詞很有詩意,如相思、春風、今宵、鴛鴦等。可能是因為流行音樂剛開始不久,仍然受到以往粵曲風格的影響。
▲七十年代歌詞詞雲其中「鴛鴦」特別吸引到我的眼球,心想:這種詞應該主要出自女歌手吧,要麼是小鳳姐(徐小鳳),要麼是汪阿姐(汪明荃),一定不會是我大Sam哥(許冠傑)和香帥(鄭少秋)的。
然而統計結果卻還我一個冰冷的巴掌——出現34次的「鴛鴦」,小鳳姐和汪阿姐一共才佔了7次,Sam哥佔了7次,剩下20次全是香帥的!原來我腦海中只有鄭少秋楚留香般的俠客形象,卻忽略了他風流倜儻的另一面。看來真的要杜絕主觀偏見,讓數據說話。
▲汪明荃與鄭少秋合照
七十年代的歌詞中,也出現很多英文單詞,如love,me,all等。因為在許冠傑開始唱粵語之前,香港人都在聽英文歌和國語歌。相信很多人對張國榮77年的American Pie有印象。英文歌是主流的現象從八十年代開始消失,可見許冠傑對港樂本土化起到極大的作用,難怪有「歌神」的稱號。
詩意和英文,就像一對鴛鴦,在七十年代的歌詞湖泊上出雙入對,代表著有別於其他年代的兩大特點。這也是為什麼「鴛鴦」這個詞雖然出現頻率不算太高,但仍當選年代關鍵詞的原因。
2、「我心」——八十年代前後,流行直抒胸臆
八十年代前後,「我心」出現的頻率都很高,但零零年代就幾乎不見影蹤了。「妳已在我心,不必再問記著誰。」這是我馬上找到的、找到之後就不願再找的、包含「我心」的代表歌詞。相信榮迷都懂我在說什麼。
▲張國榮雖說不願再找,但好奇心驅使,還是再找找吧。「我墮入情網你卻在網外看始終不釋放,你笑笑看看我象是望著獵物我心已傷。」譚校長的《愛情陷阱》代表另一種風格的「我心」。
校長、哥哥都那麼赤誠,頻頻將「我心」示人,不難想像其他歌手後輩會如何大力效仿,其中包括歌神張學友:《愛是永恆》中,「其實你沒有別離,在我心湖中」,還有《太陽星辰》的「太陽星辰,即使變灰暗,心中記憶,一生照我心」。
順便一提,這兩首歌都出自我很喜歡的林振強之手,傳說強伯的詞有很多太陽、星星和月亮,有機會可以數據分析驗證一下。
3.「沒有」——九十年代,從有到無的想像力到達頂峰
九十年代,歌詞中出現大量的「沒有」,「不可」,「沒法」,「不想」等否定辭彙。(其實八十年代就已經出現這種情況,只不過九十年代愈加明顯和有代表性。)其中「沒有」出現的頻率非常顯眼!
▲九十年代歌詞詞雲八十年代的1098首歌中,「沒有」出現了207次,平均每五首歌出現一次;九十年代的2165首歌中,「沒有」出現了983次,平均每兩首歌出現一次;零零年代的1262首歌中,「沒有」出現了821次,幾乎平均每首歌出現一次!雖然「沒有」只是副詞,但我們不妨借它來研究一下歌詞里的規律。
看看幾個例子:
《風箏與風》:「沒有燈,背影怎可上路;如沒雲,天空都不覺高…… 當風箏沒有風,一顆心也都很重」。
《當》:「當山峰沒有稜角的時候,當河水不再流,當時間停住日夜不分,當天地萬物化為虛有」。
《最佳損友》:「問我有沒有,確實也沒有」。
韋禮安的《有沒有》:最後一段就有11個「有沒有」……
(《當》和《有沒有》是國語歌,但這套路太像了,所以放上來一起討論。)
▲twins不難看出,上面的歌詞分兩類:「沒有」和「有沒有」。需要注意的是,「有沒有」也被統計入「沒有」的詞頻中。但因為兩者意思其實不同,我們只探討「沒有」。
「沒有燈,沒有雲,山峰沒有稜角」,「沒有」代表一種假設。因為有了,所以假設沒有,我們會怎樣;假設沒有,便脫離現實,去到詩意的境界(至少是歌詞的境界)。
難怪六七十年代的人聽不慣現在的歌,因為他們那時窮啊,那時幾乎是一無所有啊,你還讓他們聽 沒有沒有的,多殘忍啊!而他們聽的歌很多都是「有」的:
有風光,「漫漫前路有幾多風光,一一細心賞」(徐小鳳《漫漫前路》);
有胸襟,「湖海洗我胸襟,河山漂我影蹤」(鄭少秋《楚留香》);
有笑聲,「滄海一聲笑,滔滔兩岸潮」(許冠傑《滄海一聲笑》);
還有情,「未怕罡風吹散了熱愛,萬水千山總是情」(汪明荃《萬水千山總是情》)。
解釋一下,以前歌里的情不同於現在,以前的情多了幾分積極向上。
4、「世界」——零零年代,物質世界全球化和精神世界的探索
到了零零年代,除了「沒有」之外,「世界」已然成為歌曲中最熱門的詞。
▲零零年代歌詞詞雲零零年代香港樂壇的代表人物無疑是第三代歌神陳奕迅,他有一首歌就叫做《世界》的:「原來愛情的世界很大,大的可以裝下一百種委屈;原來愛情的世界很小,小到三個人就擠到窒息」。還有一首更為人熟知的,《全世界失眠》:「一個人失眠,全世界失眠,無辜的街燈,守候明天」。
▲陳奕迅
說了很多男歌手,該到女歌手啦。零零年代的香港女歌手,我最愛楊千嬅,《飛女正傳》:「世界將我包圍,誓死都一齊,壯觀得有如,懸崖的婚禮」。為什麼從八十年代開始,到零零年代,「世界」越來越多地被歌手們傳唱?
一方面,我認為與全球化和經濟發展有關,借用一句台詞,「你連世界都沒觀過,還談什麼世界觀?」說一樣東西之前,你一定對它有所認識。「世界」在華語歌詞中的流行,其實反映了一種全球化的趨勢。
另一方面,我認為與一個人有關。這個人的名字也出現在零零年代的關鍵詞中,也是關鍵詞Top 50中唯一一個人名——他就是林夕。(註:歌詞文本中沒有去掉作曲作詞人等數據。)
「世界」這個中文辭彙,其實出自佛經,意指時間和空間。而林夕正好是佛教徒。林夕的詞,精美細膩的下面,是深不可測,蘊含著很多他的哲學思想,所以他會使用很多諸如世界的佛家用語,也理所當然。
三、結論:「愛情」——永恆的主旋律
「鴛鴦」、「我心」、「沒有」、「世界」,這四個關鍵詞中的關鍵詞,在香港樂壇年代變遷中,出現的頻率跌宕起伏。然而,另有一個詞,一直穩定且低調地佔據著四個年代的關鍵詞TOP 10,它就是——「愛情」。
原來「鴛鴦」也是在講愛情:只羨鴛鴦不羨仙,鴛鴦般的愛情無比美好;
原來「我心」也是在講愛情:我心傷悲或狂喜,都是愛情在發動;
原來「沒有」也是在講愛情:沒有愛情一切無法想像,有了愛情可以想像一切;
原來「世界」也是在講愛情:愛情的對象,有時就是全世界。
難怪聖經也說:「愛情,眾水不能熄滅,大水也不能淹沒。」
現在,你知道香港歌壇四十年都在唱些什麼了嗎?
最後,附上四個年代關鍵詞排名對比。(只顯示前15名)
▲70、80、90、00年代top15關鍵詞排名今天就先分享到這裡,去看《歌手》了,心情好的話給大家用數據分析預測一下本季「歌王」吧!
原力大數據(廣州帷策智能科技有限公司)
廣州帷策智能科技有限公司致力於大數據研究及應用項目,積累了豐富且深入的大數據實踐經驗與成果。尤其擅長基於大數據的分析建模、能力固化和產品研發,力求幫助客戶透視業務全景,實現量化決策、精準決策和科學決策,高效提升市場營銷及運營管理能力。
官網:帷策:知識就是力量,數據就是能量
合作聯繫:020- 85279103 微信 jesich
本文為原創文章,轉載請註明作者,並附帶作者及公司簡介。
推薦閱讀:
※今日數據行業日報(2017.03.16)
※知識布局-sql-impala解析
※如何成為大數據產品經理
※2017,大屏可視化助力大數據應用落地
※大數據計數原理1+0=1這你都不會算(五)No.55