中國有嘻哈丨數據分析誰是押韻轟炸機

Yo!Yo!Yo! What‵s up! 這裡是朝陽35處Lottelyn,AKA插畫師,Bang!Bang!Bang!

《中國有嘻哈》已經在一片混亂中收官,雙冠軍的結果你滿意嗎?中文說唱來到大眾視野,讓押韻這件小事也變得很秀。嘻哈文化來自美國貧民窟非裔和拉丁裔青年,但是,中文作為全世界唯一表音、表意、表形的三維文字,和嘻哈簡直是最強混搭,古有MC曹植七步成詩freestyle,今天就來看看中文嘻哈check it out。

普通中文流行歌也有簡單的押韻結構,但是嘻哈是真正讓押韻變成一種技術和藝術的音樂類型。押韻不僅增加了作詞難度,也提升了韻律上的美感,甚至用在battle罵人中也起到了如虎添翼的效果。

今天就讓我們為技術和藝術瘋狂打call,看一看怎樣押韻才是真正的OG(大佬)。DJ drop the beat!

假設押韻程度會影響嘻哈歌曲的熱門程度(取評論數),我們在網易雲音樂中抓取666首有【中文嘻哈】標籤的歌曲歌詞和評論數作為數據樣本。

接下來,我們要判斷一首嘻哈歌曲擁有像鑽石版稀有的花式押韻技巧,根據現在流傳甚廣的押韻檢查規則和音樂遊戲得分規則,結出如下押韻得分方法(由於非是音樂專業,總結的方式和說法可能與業內有些出入,有任何不妥的地方,請各位Rapper寫歌diss我):

看不懂的同學請抱緊我,我為大家一一解釋這些計分項目。

1. 句尾連續押韻

中文的押韻指的是拼音中的韻母相同,單壓、雙壓、三壓等的是使用了通一個韻母押韻的字數,如下,第一行末尾的【邁步】和第二行末尾的【態度】擁有相同的韻母,於是完成了雙壓*2次。

2. 句尾隔句押韻

也是句尾押韻,但中間並沒有連續出現而是隔了一句則算句尾隔句押韻,如下圖,第一行的【腳下踩】和第三行的【老爸買】完成了三壓*2次。

眼尖的同學可能發現了,腳下踩和老爸買的韻母並不是完全相同的,但是在讀音上非常接近。為了容納這種情況,我們引入了模糊押韻的概念,即讀音類似的韻母也算是押韻,參考了新韻部押韻表並稍微做了調整,照顧了部分有口音的Rapper。這樣類似的韻母也算是同一種押韻了,例如,(a,ia,ua)(ai,uai)(an,ian,uan,üan)。

3. 句內重複押韻

在一句中根據flow也有可能出現押韻的組合(因為單個韻母出現重複的概率高,所以雙壓及以上才進行計分),如下圖,同一句中出現的【一招帶跑】【幾秒敗倒】【擊倒菜鳥】就完成了四壓*3次,可以說是標準的押韻狂魔了。

4. 鄰句對仗押韻

上下相鄰兩句同樣位置也會出現押韻(也是雙壓及以上才計分)的情況,記為對仗押韻,如第一句的【詞爛】和第二句的【實彈】,記為雙壓*2。

5. 同韻連續押韻

末尾最大連續押韻次數,以此體現rapper們詞庫的深度,是否是語言的中東油田。

6. 押韻變化種類

使用韻腳的種類數量,以此體現rapper們詞庫的廣度,是否是行走的《新華字典》。

另外,在設計時還發現,hook副歌部分會有大量的重複計分情況,於是相同的bar小節只進行一次計分。另外此模型無法計算英文的押韻,或者中英文互壓,如,受害和go

die,怪獸和live show。

在制定了規則之後,利用Python將666首中文嘻哈歌曲作為數據集,採用Gradient Boosting回歸方法,得出六類得分的係數,並選擇幾位熱門Rapper的歌進行打分,得出如下結果。

平均得分排名,以下排名不知道是否與你心中的押韻轟炸機一致:

1. 113.209 貝貝(場外選手)

2. 105.187 Jony J(有嘻哈第四名)

3. 88.215 Vava (有嘻哈第五)

4. 69.793 PG one(有嘻哈並列第一)

5. 66.410 Tizzy T (有嘻哈第六)

6. 49.886 Gai(有嘻哈並列第一)

另外,根據已有數據進行統計,發現rapper們押韻的小規律,採用四種不同類型押韻的比例分別是:

平均最大同韻連續combo為22.84,如果全部使用雙壓,則會重複11.42次,大腦里的詞庫可以說非常可觀了。

一首歌中,平均會換韻11.34次,韻腳的轉換讓歌曲增加新鮮感和豐富感。

平均有效行數54.58行,並且還去除了重複的hook部分,基本是一般流行歌曲歌詞的2-3倍了,rapper高冷的外表下都是親切的話嘮。

當然了,評價一首說唱歌曲不僅僅是押韻了,為了聽起來不單調,flow的變化和break的處理也非常關鍵,再加上不同風格的beats配合,和喊麥以及數來寶有著本質的不同。最重要的是歌曲表達的內容,rapper作為keep real的代表,通常歌曲也會反映和直面現實社會問題,甚至有很多歌曲描寫家暴,歧視,單親家庭,校園暴力等一般流行歌曲不會去涉及的領域。Rapper作為創作者和藝術家,在hippop文化傳播率高的國家都擁有較高的地位。嘻哈文化還有很多經典的元素,例如,炫富, underground, beef,diss,

freestyle,廠牌,等都很值得有更多了解。

2013年,百度就曾經研發一款「為你寫詩」的應用,在自然語言處理飛速發展並廣泛應用的今天,發明一款「為你freestyle」, 「跟你battle」 的嘻哈機器人其實也不再遙遠了。另外,現在各大平台都有一些免費的自然語言處理開放介面,如詞法分析,情感傾向分析,相似度分析,關鍵詞提取等,拿來分析一下嘻哈歌曲也很有意思。

詞性識別(來自BosenNLP):

實例識別(來自BosenNLP):

情感分析(來自BosenNLP):

關鍵詞提取(來自BosenNLP):

語義聯想(來自BosenNLP):

其實,最早構思本片文章時是想做在線押韻檢測應用,後來發現實在太中文博大精深了,另外由於時間比較緊,只是簡單做了規則和小樣本的統計,請大家隨意感受一下中文嘻哈之美。《中國有嘻哈》對於我的最大收穫是,很久不聽中文歌的我,歌單中突然出現很多單曲循環的曲子。

最後特別特別鳴謝

實習生張毅同學,在實習的最後一天,工牌和電腦都已歸還的情況下,還用私人電腦幫我完成了所有數據。真的是感激涕零,希望您回學校一切順利。Bro Peace Yo。

首發於公眾號:朝陽35處


推薦閱讀:

Infovis的圖形推理(譯)
excel怎麼把一欄數據分別複製到其他欄?

TAG:中国有嘻哈综艺节目 | 数据分析 | HipHop嘻哈音乐 |