標籤:

流行音樂五十年的發展歷程

自從 1958 年開始,每年的 12 月 Billboard 都會評選出當年最火熱的 100 首流行單曲。本文主要利用圖表來分析美國地區年度流行單曲的表現情況。

藉助 R,我將入選最近 50 年(1965-2015)年度最佳流行單曲的歌曲信息整合到一個數據集中,你可以從我的 Github 項目中下載數據。(鏈接:github.com/walkerkq/mus)

獲取歌曲數據

我主要從維基百科中的 Billboard 年度最熱門 100 首單曲的網頁中獲取分析所需要的歌曲數據。從維基百科中獲取的是年度數據,而不是每周的排名數據。但是許多歌手的數據是周度數據,我們需要將其轉換為年度數據。

我利用 xml 和 RCurl 包從維基百科網頁中抓取分析所需的歌曲和歌手的名字。接下來我利用第一步獲取的列表數據從構建新的 URL 欄位,並從其他網站中抓取歌詞數據。比如對於網站 metrolyrics.com 而言,其網址鏈接為 metrolyrics.com/SONG-NA。如果無法從第一個網站中抓取到數據,我將依次從後續備選網站中爬取數據。最終結果顯示,78.9% 的歌詞數據來源於 metrolyrics.com 網站,15.7% 的歌詞數據來源於 songlyrics.com 網站,1.8% 的歌詞數據來源於 lyricsmode.com,大約 3.6% 的歌詞數據無法獲取。

最終的數據集中包含了 5100 條觀測值,變數有歌曲排名(1-100)、歌曲名字、歌手名字、上榜年份、歌詞和來源網站。雖然維基百科網頁上的數據格式相當標準,但是數據中仍然存在一些雜訊數據。需要注意的是,數據集中的歌詞數據可能存在一些誤差,我並沒有修正它們。

數據探索分析

歌詞中最頻繁出現的詞語

58% 的歌手僅一次上榜

總的1989 名歌手中的 1154 名歌手(58%)僅上過一次榜。下表中的數據根據歌手名字進行匯總統計所得:

職業生涯長短差異

我非常驚奇地發現職業生涯較短的歌手和高上榜率的歌手之間存在一定的相關性,比如蕾哈娜在 10 年的職業生涯中總共上榜了 28 次,所以接下來我打算探究歌手的職業生涯長短和平均每年上榜次數之間的關係,結果顯示這兩者之間存在負相關關係。歌手的職業生涯每增加一年,平均每年上榜次數將下降 94%。

數據集中不包括甲殼蟲樂隊 1964 年的數據,所以實際上他們的職業生涯是 12 年。

歌詞的變化特點

歌曲的單詞量和音樂長度逐年增長

數據集中的歌曲平均每首包含 332 個單詞和 114 個不重複單詞。歌曲的平均詞頻和詞頻方差逐年增長,這大概是因為隨著時間的推移上榜歌曲具有更豐富的多樣性。我對總詞頻和不重複的詞頻數做了對數處理,然後分別擬合線性回歸模型,其中總詞頻的係數為 0.01873,而不重複詞頻數的係數為 0.0136。這說明隨著時間的推移,每增加一年,上榜歌曲的總詞頻大約上漲 1.87%,不重複詞頻上漲 1.36%。

歌曲詞數的增長主要是由於歌曲的時間越來越長,歌曲長度從六十年代的 2.5 分鐘增長到 4 分鐘。

從 Boogie 到 Bitch: 每十年的歌詞特徵

利用我之前博文(鏈接:kaylinwalker.com/text-m)中提到的對數似然統計量,我們可以識別出每十年間歌曲的風格。簡而言之,歌曲語料庫中出現越多的單詞將擁有越高的似然統計量值。

從下圖中我們可以很明顯地看出:被重複收藏的歌曲會影響最終的計算結果。這引起了一個新的問題,似然統計量是否適用於歌詞分析領域,單一的、高度重複的歌曲是否會扭曲分析結果。

需要考慮的事項

Billborad 年度最佳 100 首歌曲評選政策的變化

流行歌曲內容的變化至少可以部分歸因於隨著時間推移而發生改變的排名方法。Billboard 的評選政策將隨著群眾購買音樂的方式的變化而變化。

  • 1958-1991: 排名由單曲銷量和播放量所決定
  • 1991: Billboard 開始利用 SoundScan 來搜集數字化的單曲銷量數據
  • 1998: Billboard 放棄參評歌曲必須以單曲發行的規定
  • 2005: 網路下載數量(iTunes)被納入評選體系中
  • 2012: 流媒體點播(Spotify, Rhapsody)服務次數被納入評選體系中
  • 2013: 視頻播放(YouTube)次數被納入評選體系中

在 2005 年以前,消費者只能通過購買單曲唱片和點播歌曲來影響評選結果,如今的消費者擁有的更多的消費渠道,消費者可以通過觀看視頻、下載單曲或者購買唱片等方式來證明哪些才是流行歌曲。

***

weixin.qq.com/r/WkMCGqv (二維碼自動識別)

原文鏈接:kaylinwalker.com/50-yea

原文作者:KAYLIN WALKER

譯者:Fibears


推薦閱讀:

穿Prada的科技女魔頭:ELLE 2017年傑出科技女性時尚大片
208個最新最全大數據/人工智慧專有名詞術語 中英對照(上)
從大數據+AI 談談概念與場景
1億數據,告訴你哪裡是上海買房TOP 10 站點!
哪個商圈能夠投你所好?讓這張數據地圖給你指路

TAG:大数据 |