AllMusic 藝人資料頁中,與該藝人之間「影響/被影響」的數據是如何得到的?


按照所能看到的數據結構來分析,這應該可以理解成是一個樹狀結構的關聯關係。

即A影響了B,B影響了C,A和B不會重複出現在後續的數據里。

暫且按這個數據結構特徵,我們需要先做第一件事情,找到樹狀結構的開頭和末端。

上線:

以藝人The Cure為例,影響他的藝人里有the Beatles,所以追尋Beatles的蹤跡,會發現Beatles上線有Elvis Presley(貓王)和Bob Dylan,而Bob Dyan的上線也有貓王。貓王的上線,都是一些我們真的都不太熟悉的老一輩藝術家了,選一個年代最早的,The Carter Family(卡特家族,1920年代活躍),查看卡特家族對應的上線,只有一個人,Lesley Riddle。

Lesley Riddle的頁面上,只有近似藝人的列表,沒有influenced by和follower。

那麼這裡大概是頭部的盡頭了

取Lesley Riddle的近似藝人Marion Sumner為例,對於marion sumner來說,也是沒有influenced by和follower的,只有這一個對應的藝人:Lesley Riddle。

下線:

the cure的下線有placebo.1994,再下線是coldplay,1998, 再下線時keane。至此再無下線,末端完結。

注意,樹狀結構僅供幫助理解,對應關係並非絕對的1 on 1.

即:A出現在B的influenced by里,但是A的follower里不一定有B。

見下圖:

接下來,取特徵樣本分析數據關聯的特徵:取Coldplay的樣本分析

Coldplay(基礎樣本)

GENRES* Pop/Rock

STYLES

* Adult Alternative Pop/Rock

* Alternative/Indie Rock

* Alternative Pop/Rock

* Britpop

ACTIVE 1990s - 2010s

FORMED 1998 in London, England

首張唱片發表時間:1998年

Blur (influenced by)

GENRES * Pop/Rock

STYLES

* Alternative Pop/Rock

* Alternative/Indie Rock

* Britpop

* Contemporary Pop/Rock

* Dance-Rock

* Alternative Dance

ACTIVE 1980s - 2010s

FORMED 1989 in Colchester, England

首張唱片發表時間:1991年

The Killer(Similar)

GENRES * Pop/Rock

STYLES

* Alternative Pop/Rock

* Alternative/Indie Rock

* New Wave/Post-Punk Revival

ACTIVE 2000s - 2010s

FORMED 2002 in Las Vegas, NV

首張唱片發表時間:2004年

Keane(SimilarFollower)

GENRES * Pop/Rock

STYLES

* Alternative Pop/Rock

* Alternative/Indie Rock

* Britpop

ACTIVE 1990s - 2010s

FORMED 1997 in East Battle, Sussex, England

首張唱片發表時間:2000年

Snow Patrol(SimilarFollower)

GENRES * Pop/Rock

STYLES

* Alternative Pop/Rock

* Alternative/Indie Rock

* Adult Alternative Pop/Rock

ACTIVE 1990s - 2010s

FORMED 1994 in Dundee, Scotland

首張唱片發表時間:1998年

Damin Rice (Follower)

GENRES * Folk * Pop/Rock

STYLES

* Alternative Folk

* Alternative Singer/Songwriter

* Alternative/Indie Rock

* Contemporary Singer/Songwriter

* Contemporary Folk

ACTIVE 1990s - 2010s

首張唱片發表時間:2001年

幾組數據對比可以得出的判斷結論是:

結論1,Genres和Styles 是將藝人鎖定在同一相似區間內的主要緯度。

結論2,關聯上的上下級關係,不是以組建時間為準。(Keane 組建時間比 Coldplay早,但它是Coldplay的Follower)

結論3,同樣,上下級關係也不是以首張唱片發行日期為準。(Snow Patrol與Coldplay同年同月發表首張唱片)

同時再對這組樣本的Bio進行分析,

對influenced提取Coldplay的關鍵字:Blur

Coldplay的Bio未提及Blur

對SimilarFollower提取Bio關鍵字"Coldplay":

Keane提及

killer未提及

Snow Patrol提及

Damin Rice未提及

結論4,所以也不能確定,關聯關係來自Bio。

為了進一步印證這個結論,更換樣本,取更為小眾的瑞典組合Club 8,分析Bio:

提及的藝人包括:Portishead,the Legends,Acid House Kings,

但在Club 8的Similar和influenced里,並沒有這三組藝人的名字。(這三組藝人的後兩組,其實就是Club8的成員參與的另外兩個樂隊,以常識判斷算作Similar未嘗不可)

所以,Bio里提及的藝人不影響結果。結論4成立。

再看Club8的influenced by的藝人,Antonio Carlos Jobim、Astrud Gilberto 、Jo?o Gilberto這三位bossa nova大師位列其中,從影響關係上的確對Club8有影響(Via Google),但是,這三個藝人的Genres和Style,與Club8並不是非常相近的。

Club 8

GENRES * Pop/Rock * International

STYLES

* Alternative/Indie Rock

* Indie Pop

* Swedish Pop/Rock

* Alternative Pop/Rock

* Alternative Dance

* Chamber Pop

* Indie Electronic

* Afro-Pop

Antonio Carlos Jobim

GENRES * Latin * International * Jazz

STYLES

* Bossa Nova

* Brazilian Jazz

* Latin Jazz

* MPB

* Brazilian Traditions

* Latin Folk

* World Fusion

Astrud Gilberto

GENRES * Latin * Easy Listening * International * Jazz * Pop/Rock * Vocal

STYLES

* Bossa Nova

* Brazilian Jazz

* Brazilian Traditions

* Mood Music

* World Fusion

* Brazilian Pop

* AM Pop

* Vocal Pop

* Film Score

Jo?o Gilberto

GENRES * Latin * International * Jazz

STYLES

* Bossa Nova

* Brazilian Jazz

* Brazilian Pop

* Brazilian Traditions

* World Fusion

* Tropicalia

* Latin Jazz

所以,上面的結論里「結論一1,Genres和Styles 是將藝人鎖定在同一相似區間內的主要緯度。」這條也不是絕對成立的。

同時也將Club8的influenced by的三組藝人,去維基和Last.fm查了一下,都沒有任何的關聯數據。

至此,基本上排除數據分析的全自動做法,判斷這部分數據有人為編輯的部分,只是人工的工作佔了多少的問題。

四條結論:

結論1,Genres和Styles 是將藝人鎖定在同一相似區間內的主要緯度,但不是絕對的。

結論2,關聯上的上下級關係,不是以組建時間為準。(Keane 組建時間比 Coldplay早,但它是Coldplay的Follower)

結論3,同樣,上下級關係也不是以首張唱片發行日期為準。(Snow Patrol與Coldplay同年同月發表首張唱片)

結論4,藝人之間的關聯關係也許來自Bio,但權重很低。

以下是對這部分數據整理方法的個人分析:

1,為什麼要分三類?

通常情況下,音樂網站多少都會有「相似藝人」或者「猜你也喜歡」

allmusic的藝人關係也不例外,並且由於它的數據更全,真正列出來的某藝人的相似藝人可能會有很多。

給用戶太多的選擇,等於不給用戶選擇。

給用戶呈現的每一條內容,都需要有足夠的驅動。

顯然,這樣的大篇幅羅列,不是友好的體驗。

所以才有了現在的形式:

2,數據來源如何整理

首先會有一個大的關聯表,羅列了所有與基礎藝人有關的藝人。

這部分數據來源可能來自於:

數據1:基礎數據關聯,同風格,同流派。

數據2:用戶協同數據:看了A的藝人也看了B

數據3:Bio:雖然影響很小,但不排除可能。

數據4:用戶提供數據:在allmusic的藝人頁,左側的簡介里,有一個按鈕Submit corrections,點擊可以由用戶提供相似藝人的名單。

數據1+數據2+數據3+數據4,去重之後會得到一個大的藝人列表A。

通過演算法的協同過濾,也就是上面說到的四個結論里並非絕對的數據:

結論1,Genres和Styles 是將藝人鎖定在同一相似區間內的主要緯度,但不是絕對的。

結論2,關聯上的上下級關係,不是以組建時間為準。(Keane 組建時間比 Coldplay早,但它是Coldplay的Follower)

結論3,同樣,上下級關係也不是以首張唱片發行日期為準。(Snow Patrol與Coldplay同年同月發表首張唱片)

結論4,藝人之間的關聯關係也許來自Bio,但權重很低。

(*另外可能這裡的過濾可能也包含了未知的演算法或者數據來源。)

得到一個推薦結過的列表,藝人列表A分成三部分

藝人列表A1(相似),藝人列表A2(被影響),藝人列表A3(影響)

人工編輯略做調整。

發布。


試著答一下。

我看了一下。首先我得說,我不知道是怎麼得來的。

如果AMG是完全從人工的角度篩選了這些作品,我覺得我們誰都不用廢話了。所以我試著從結果反推一下如果半自動或者全自動,如果是我,我如何獲取這些信息。

首先從結果看起,我隨便搜索了一個:

The Rolling Stones

因為AMG的條目很全,他可以十分精確的用一些維度去控制,我查看了一下每一個影響The Rolling Stones的人,他們的活躍年代或者樂隊組建年代,都比Rolling Stone早,最晚,也是同時代的Bob Dylan,也是在1962年發了第一張唱片。所以可見,也許這是AMG的一個數據上的死規矩,影響必須是在樂隊建立之前,跟隨必須在樂隊建立之後。

當然這可能也不太客觀。音樂音樂人的音樂創作不是靜止的。於是,我就乾脆找了一個音樂風格變化比較大,大概被後來的設備和創作方法影響比較大的音樂人,看看他是怎麼寫的。King Crimson結果發現,影響他們的人,從巴托克開始,也仍然是在樂隊建立之前的人。

所以可見,AMG對影響的定義應該是有死規矩的,這種規矩並不客觀。

然後再說說獲取這些信息

我搜索了Rolling Stones和隨便一個影響他的人,比如Alexis Korner老濕。我把它們扔進Google,直接看到他和Rolling Stones合作的視頻。也許這是影響的一個標準,從活躍年代上判斷,比Rolling Stones早,然後又有合作的作品。也或許是因為在同一個地方發跡,比如說Kiss和Rolling Stones的關係。這些標準,就不得而知了。但是我覺得,通過一些匹配的搜索和人工篩查,其實對於熟悉歐美音樂的國外編輯來說,做出一份這樣的匹配應該不是很難。

當然,如果是我,肯定把AMG抓了,自己用了。


推薦閱讀:

TAG:音樂網站 | 數據分析 |