AllMusic 藝人資料頁中,與該藝人之間「影響/被影響」的數據是如何得到的?
按照所能看到的數據結構來分析,這應該可以理解成是一個樹狀結構的關聯關係。
即A影響了B,B影響了C,A和B不會重複出現在後續的數據里。暫且按這個數據結構特徵,我們需要先做第一件事情,找到樹狀結構的開頭和末端。上線:
以藝人The Cure為例,影響他的藝人里有the Beatles,所以追尋Beatles的蹤跡,會發現Beatles上線有Elvis Presley(貓王)和Bob Dylan,而Bob Dyan的上線也有貓王。貓王的上線,都是一些我們真的都不太熟悉的老一輩藝術家了,選一個年代最早的,The Carter Family(卡特家族,1920年代活躍),查看卡特家族對應的上線,只有一個人,Lesley Riddle。Lesley Riddle的頁面上,只有近似藝人的列表,沒有influenced by和follower。那麼這裡大概是頭部的盡頭了取Lesley Riddle的近似藝人Marion Sumner為例,對於marion sumner來說,也是沒有influenced by和follower的,只有這一個對應的藝人:Lesley Riddle。下線:
the cure的下線有placebo.1994,再下線是coldplay,1998, 再下線時keane。至此再無下線,末端完結。注意,樹狀結構僅供幫助理解,對應關係並非絕對的1 on 1.
即:A出現在B的influenced by里,但是A的follower里不一定有B。見下圖:
Coldplay(基礎樣本)
GENRES* Pop/RockSTYLES * Adult Alternative Pop/Rock * Alternative/Indie Rock * Alternative Pop/Rock * BritpopACTIVE 1990s - 2010sFORMED 1998 in London, England
首張唱片發表時間:1998年Blur (influenced by)
GENRES * Pop/RockSTYLES * Alternative Pop/Rock * Alternative/Indie Rock * Britpop * Contemporary Pop/Rock * Dance-Rock* Alternative Dance
ACTIVE 1980s - 2010sFORMED 1989 in Colchester, England首張唱片發表時間:1991年The Killer(Similar)
GENRES * Pop/RockSTYLES * Alternative Pop/Rock * Alternative/Indie Rock * New Wave/Post-Punk RevivalACTIVE 2000s - 2010s
FORMED 2002 in Las Vegas, NV首張唱片發表時間:2004年Keane(SimilarFollower)
GENRES * Pop/RockSTYLES * Alternative Pop/Rock * Alternative/Indie Rock * BritpopACTIVE 1990s - 2010sFORMED 1997 in East Battle, Sussex, England
首張唱片發表時間:2000年Snow Patrol(SimilarFollower)
GENRES * Pop/RockSTYLES * Alternative Pop/Rock * Alternative/Indie Rock * Adult Alternative Pop/RockACTIVE 1990s - 2010sFORMED 1994 in Dundee, Scotland首張唱片發表時間:1998年
Damin Rice (Follower)
GENRES * Folk * Pop/RockSTYLES * Alternative Folk * Alternative Singer/Songwriter * Alternative/Indie Rock * Contemporary Singer/Songwriter * Contemporary FolkACTIVE 1990s - 2010s首張唱片發表時間:2001年
幾組數據對比可以得出的判斷結論是:
結論1,Genres和Styles 是將藝人鎖定在同一相似區間內的主要緯度。結論2,關聯上的上下級關係,不是以組建時間為準。(Keane 組建時間比 Coldplay早,但它是Coldplay的Follower)結論3,同樣,上下級關係也不是以首張唱片發行日期為準。(Snow Patrol與Coldplay同年同月發表首張唱片)同時再對這組樣本的Bio進行分析,
對influenced提取Coldplay的關鍵字:BlurColdplay的Bio未提及Blur對SimilarFollower提取Bio關鍵字"Coldplay":Keane提及killer未提及
Snow Patrol提及Damin Rice未提及結論4,所以也不能確定,關聯關係來自Bio。
為了進一步印證這個結論,更換樣本,取更為小眾的瑞典組合Club 8,分析Bio:
提及的藝人包括:Portishead,the Legends,Acid House Kings,但在Club 8的Similar和influenced里,並沒有這三組藝人的名字。(這三組藝人的後兩組,其實就是Club8的成員參與的另外兩個樂隊,以常識判斷算作Similar未嘗不可)所以,Bio里提及的藝人不影響結果。結論4成立。再看Club8的influenced by的藝人,Antonio Carlos Jobim、Astrud Gilberto 、Jo?o Gilberto這三位bossa nova大師位列其中,從影響關係上的確對Club8有影響(Via Google),但是,這三個藝人的Genres和Style,與Club8並不是非常相近的。
Club 8
GENRES * Pop/Rock * InternationalSTYLES * Alternative/Indie Rock * Indie Pop * Swedish Pop/Rock * Alternative Pop/Rock * Alternative Dance * Chamber Pop * Indie Electronic * Afro-PopAntonio Carlos Jobim
GENRES * Latin * International * JazzSTYLES * Bossa Nova * Brazilian Jazz * Latin Jazz * MPB * Brazilian Traditions * Latin Folk * World FusionAstrud Gilberto
GENRES * Latin * Easy Listening * International * Jazz * Pop/Rock * VocalSTYLES * Bossa Nova * Brazilian Jazz * Brazilian Traditions * Mood Music * World Fusion * Brazilian Pop * AM Pop * Vocal Pop * Film ScoreJo?o Gilberto
GENRES * Latin * International * JazzSTYLES * Bossa Nova * Brazilian Jazz * Brazilian Pop * Brazilian Traditions * World Fusion * Tropicalia * Latin Jazz所以,上面的結論里「結論一1,Genres和Styles 是將藝人鎖定在同一相似區間內的主要緯度。」這條也不是絕對成立的。
同時也將Club8的influenced by的三組藝人,去維基和Last.fm查了一下,都沒有任何的關聯數據。
至此,基本上排除數據分析的全自動做法,判斷這部分數據有人為編輯的部分,只是人工的工作佔了多少的問題。
四條結論:
結論1,Genres和Styles 是將藝人鎖定在同一相似區間內的主要緯度,但不是絕對的。結論2,關聯上的上下級關係,不是以組建時間為準。(Keane 組建時間比 Coldplay早,但它是Coldplay的Follower)結論3,同樣,上下級關係也不是以首張唱片發行日期為準。(Snow Patrol與Coldplay同年同月發表首張唱片)結論4,藝人之間的關聯關係也許來自Bio,但權重很低。以下是對這部分數據整理方法的個人分析:
1,為什麼要分三類?
通常情況下,音樂網站多少都會有「相似藝人」或者「猜你也喜歡」allmusic的藝人關係也不例外,並且由於它的數據更全,真正列出來的某藝人的相似藝人可能會有很多。給用戶太多的選擇,等於不給用戶選擇。給用戶呈現的每一條內容,都需要有足夠的驅動。顯然,這樣的大篇幅羅列,不是友好的體驗。
所以才有了現在的形式:
2,數據來源如何整理
首先會有一個大的關聯表,羅列了所有與基礎藝人有關的藝人。這部分數據來源可能來自於:數據1:基礎數據關聯,同風格,同流派。數據2:用戶協同數據:看了A的藝人也看了B數據3:Bio:雖然影響很小,但不排除可能。數據4:用戶提供數據:在allmusic的藝人頁,左側的簡介里,有一個按鈕Submit corrections,點擊可以由用戶提供相似藝人的名單。數據1+數據2+數據3+數據4,去重之後會得到一個大的藝人列表A。
通過演算法的協同過濾,也就是上面說到的四個結論里並非絕對的數據:結論1,Genres和Styles 是將藝人鎖定在同一相似區間內的主要緯度,但不是絕對的。結論2,關聯上的上下級關係,不是以組建時間為準。(Keane 組建時間比 Coldplay早,但它是Coldplay的Follower)結論3,同樣,上下級關係也不是以首張唱片發行日期為準。(Snow Patrol與Coldplay同年同月發表首張唱片)結論4,藝人之間的關聯關係也許來自Bio,但權重很低。(*另外可能這裡的過濾可能也包含了未知的演算法或者數據來源。)得到一個推薦結過的列表,藝人列表A分成三部分
藝人列表A1(相似),藝人列表A2(被影響),藝人列表A3(影響)人工編輯略做調整。
發布。試著答一下。
我看了一下。首先我得說,我不知道是怎麼得來的。
如果AMG是完全從人工的角度篩選了這些作品,我覺得我們誰都不用廢話了。所以我試著從結果反推一下如果半自動或者全自動,如果是我,我如何獲取這些信息。
首先從結果看起,我隨便搜索了一個:
The Rolling Stones
因為AMG的條目很全,他可以十分精確的用一些維度去控制,我查看了一下每一個影響The Rolling Stones的人,他們的活躍年代或者樂隊組建年代,都比Rolling Stone早,最晚,也是同時代的Bob Dylan,也是在1962年發了第一張唱片。所以可見,也許這是AMG的一個數據上的死規矩,影響必須是在樂隊建立之前,跟隨必須在樂隊建立之後。
當然這可能也不太客觀。音樂音樂人的音樂創作不是靜止的。於是,我就乾脆找了一個音樂風格變化比較大,大概被後來的設備和創作方法影響比較大的音樂人,看看他是怎麼寫的。King Crimson結果發現,影響他們的人,從巴托克開始,也仍然是在樂隊建立之前的人。
所以可見,AMG對影響的定義應該是有死規矩的,這種規矩並不客觀。
然後再說說獲取這些信息
我搜索了Rolling Stones和隨便一個影響他的人,比如Alexis Korner老濕。我把它們扔進Google,直接看到他和Rolling Stones合作的視頻。也許這是影響的一個標準,從活躍年代上判斷,比Rolling Stones早,然後又有合作的作品。也或許是因為在同一個地方發跡,比如說Kiss和Rolling Stones的關係。這些標準,就不得而知了。但是我覺得,通過一些匹配的搜索和人工篩查,其實對於熟悉歐美音樂的國外編輯來說,做出一份這樣的匹配應該不是很難。
當然,如果是我,肯定把AMG抓了,自己用了。推薦閱讀: