人工智慧可以作曲嗎?

  1. 理論上是否可行,在多大程度上可以替代人類?哪些類型的音樂更適合人工智慧發揮,哪些類型只能靠人腦?
  2. 現實中是否有嘗試,主要障礙在哪裡?
  3. 經濟上是否值得研究和推廣?
  4. 感性上是否會難以接受?那些本來就高度重複的流行樂,用AI替代技術難度應該不大,但人們聽音樂時真正在乎的是音樂本身,還是音樂文化,還是偶像崇拜?

這裡再提供一些相關的人工智慧嘗試替代人類的例子,一方面說明一下這個問題其實很現實,另一方面給大家提供些參考:

  1. AI在自然語言處理、機器翻譯、語音識別等方面的進展有目共睹,在一些不要求極高準確性和藝術文學性的場合,機器翻譯之類的在一定程度上已經可以替代人類。
  2. 聽說許多大型新聞網站已經開始用機器寫新聞了,因為快訊式的新聞基本有模板,填入關鍵信息,或讓機器自動獲取信息即可。
  3. 人類對藝術作品甚至學術作品的鑒賞能力在一定程度上只是心理暗示。前者有怎樣區分現代藝術和幼兒塗鴉,後者有南方周末 - 【天下遠見】給我一篇假論文,我能騙倒半個地球。人們欣賞一件作品到底是因為其本身的質量還是其看似專業的形式和大師的標籤?

前段時間一個熱門的研究工作是University of Toronto的研究者在ICLR『17投稿的一篇論文《Song from PI: A musically plausible network for pop music generation》(https://arxiv.org/pdf/1611.03477v1.pdf)。該論文提出了一種人工智慧(深度學習)的方法,從100小時的midi音樂格式裡面進行學習,然後採樣訓練好的模型可以生成音樂。在其項目主頁上有些合成的sample songs,大家可以聽聽:http://www.cs.toronto.edu/songfrompi/。

論文的大致想法是利用深度學習的LSTM模型(hierarchical recurrent network),利用100個小時的流行歌曲的mini格式的tag進行訓練。這裡比較有意思的地方是作者在這個模型裡面整合了一些音樂相關的general knowledge,模型結構如下圖所示,在RNN這個模型中有key layer, press layer, chord layer, drum layer等結構,在模型設計和合成的過程中也考慮了scale和chord等音樂因素。這些prior無疑可以更好的幫助人工智慧模型學習音樂中的關鍵元素以及常見套路。

論文裡面還展示了一些應用,比如說生成音樂的過程中同時生成跳舞的小人(如下圖),以及嘗試用neural image captioning的辦法生成歌詞或者朗誦,這些應用都給未來提出了無限可能性。

論文裡面還展示了一些應用,比如說生成音樂的過程中同時生成跳舞的小人(如下圖),以及嘗試用neural image captioning的辦法生成歌詞或者朗誦,這些應用都給未來提出了無限可能性。

這個研究工作的一個media cover比較客觀的評價了這個工作,也提了一些其他AI音樂製作的工作,感興趣的讀者可以看看:

這個研究工作的一個media cover比較客觀的評價了這個工作,也提了一些其他AI音樂製作的工作,感興趣的讀者可以看看:Top of the bots: This AI isn"t a cold, cruel killing machine – it"s a pop music hit machine

我自己比較關注AI在音樂/聲音以及多媒體的各種應用(八卦:我業餘時間在樂隊里彈貝斯=])。目前的AI技術產生的音樂還是在照貓畫虎,離真正的作詞作曲還有很長一段距離。也許更可行的辦法是AI-assisted music generation/composition,利用AI的技術來簡化音樂製作的過程。比如說作者可以隨意哼出一段旋律,然後AI自動合成和音進行和可能的曲式以及歌曲結構,然後作者可以繼續在這個結構上進行創作。另一方面,歌詞的生成也是完全可以通過機器學習的辦法進行。另外,再看看最近的neural style transfer(Style transfer | Gene Kogan)的驚人結果,我相信未來AI在繪畫音樂等藝術領域有著非凡潛力和可能性。

再說個最近我發現的一個關於聲音的有意思的應用:Visualizing Bird Sounds (https://aiexperiments.withgoogle.com/bird-sounds). 作者利用機器學習裡面一個叫t-SNE的數據降維的方法,重新組織幾百種鳥的聲音,然後在二維空間可視化出來,相近的鳥的聲音會聚類在一塊。如下圖,用戶可以自由瀏覽不同的鳥叫,並且很直觀的比較幾種鳥叫之間的相似性。


結語:我心底是不太希望AI染指人類的各種藝術,因為它們是人類自由靈魂和創造力的結晶,但是歷史洪流不可阻擋,我拭目以待:)


AI作曲並不稀奇,學術界這個領域叫Algorithmic Composition(演算法作曲),現在論文也會用Music/MIDI Generation(音樂生成)作為關鍵詞。過去用遺傳演算法、專家系統等來實現,近幾年基本都用深度學習研究,甚至已經有了商業應用

先來列舉幾個有趣的Demo吧

1. A.I. Duet - Google Magenta

https://aiexperiments.withgoogle.com/ai-duet/view/

Google Brain做的在線交互鋼琴,在用戶彈奏少量音符的情況下,根據音樂的相符度自動彈奏出搭配音樂。拿了2016NIPS Best Demo,現場視頻地址Google 人工智慧作曲 人機互動演示-NIPS2016。

2. Amper Music

Amper Music - AI Music Composer for Content Creators

Amper為用戶提供了 Classic Rock、Modren Folk、90』s Pop 和 Cinematic 四個大類的風格,然後每個風格下面又有將近 10 個左右的細分風格可以選擇。在曲子生成之後,可以對風格、樂器、節拍和長度進行重新調整然後再次生成。

筆者產生了一段30s的愉悅音樂,可以去試聽 https://soundcloud.com/y5mnphtxz2bf/song-generated-by-amper-music-90s-pop

3. The Infinite Drum Machine

https://aiexperiments.withgoogle.com/drum-machine/view/

也是Google Brain做的,一個互動式的自動敲鼓machine

4. Intelligent Music System

遊戲古墓麗影:崛起使用了這個IMS,官網上展示了Demo http://www.intelligentmusicsystems.com/vid/tempo_shifting.mp4 體驗一下就能感受到,遊戲背景的擊鼓聲隨著狀態不同(移動速度、野獸出現等)而發生了改變

5. 百度看圖作曲

默認視頻

通過將對張照片或某幅畫分析後確定主題、情緒和含義,訪問樂譜資料庫並找到與之匹配的音樂片段,最終將它們組合在一起。是的,其實百度這個智能說是檢索和組合,但視頻做的挺興奮的。


接下來是演算法層面的部分

現在DL領域最火的GANRL/DQN已經在CV、NLP應用很多了,而音樂其實與這兩個方面有非常多的相似性,比如時間序列信號處理等等。音樂的生成一般是一個生成模型,以前的音樂生成模型創作的音樂質量很低(也是生成模型的通病),而GAN/RL大大提升了生成模型,期待演算法作曲領域的重大突破。

最近幾篇值得關注的音樂生成論文

1. C-RNN-GAN: Continuous recurrent neural networks with adversarial training (2016.11)

Arxiv: Continuous recurrent neural networks with adversarial training

Github: olofmogren/c-rnn-gan

音樂試聽:http://mogren.one/files/c-rnn-gan-sample11.mp3 http://mogren.one/files/c-rnn-gan-sample.mp3

GAN在音樂生成的首次應用,也是GAN處理連續序列數據的針對性研究。針對以往音樂計算研究中使用符號特徵Symbolic Representation)的不足(計算機更容易理解數字表達),以及GAN的優勢,提出了一種LSTM/RNN的GAN網路。訓練預測數據為作者下載的古典MIDI音樂,使用Tone length, Frequency, Intensity 和Timing作為特徵。生成網路結構為2層單向LSTM,對抗網路為2層雙向LSTM,每次生成指定長度×88音階數據。生成音樂的評價使用韻律學的方式,根據Polyphony(兩個音同時彈奏的頻率)、Scale consistency(標準音程的比例)、Repetitions(音符組合重複的頻率)、Tone span(整段音樂的最低最高音階差)四個方面計算。

網路結構如下


筆者還簡單解讀了一下這篇論文,參考鏈接:An introduction to C-RNN-GAN (Generating Music)

2. MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation using 1D and 2D Conditions (2017.3)

Arxiv:A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation using 1D and 2D Conditions

音樂試聽: RichardYang - The Blog

男神Yi Hsuan Yang(Eric Yang)的MACLab最新研究成果,針對音樂生成中缺少上下文關聯的問題,使用CNN的GAN構建網路,在生成過程中可以給定1D和2D的條件。每次生成16×128音階數據,生成網路採用了典型的2層CNN+2層Dense

生成網路結構如下

3. Tuning Recurrent Neural Networks with Reinforcement Learning - ICLR 2017 (2016.11)

Arxiv:Conservative Fine-Tuning of Sequence Generation Models with KL-control

Blog:https://magenta.tensorflow.org/2016/11/09/tuning-recurrent-networks-with-reinforcement-learning

試聽:https://youtu.be/abBfZB5DlSY


Google Brain的近期成果,發表在ICLR17。結構如下

Action下一個noteState已經作出的曲子RewardMusic Theory及音樂上下文,使用了Music Theory作為Reward之一,比如有Stay in keyBegin and end with the tonic noteAvoid excessively repeated notes等方面。


此外,筆者還整理了一些深度學習作曲的資源,包括論文、相關的會議和一些開源代碼等,鏈接是umbrellabeach/music-generation-with-DL,歡迎關注!

希望各位前輩補充和賜教,謝謝~~


這是EMI(人工智慧音樂作曲系統)創作的一個模仿巴赫風格的讚美詩作品,大家先聽聽看。
視頻封面人工智慧譜曲:EMI創作的巴赫風格讚美詩——bach-1視頻
轉碼成wav格式以後才可以上傳到土豆,不過音質損失很嚴重,大家可以去這裡(5000 Chorales) 下載,解壓以後改成midi格式的就可以播放了。

相關文章:

1、譯言網 | 人工智慧譜曲的新時代

2、科學松鼠會 - 算出音樂來(http://songshuhui.net/archives/17332)

目錄:

  • 一、什麼是人工智慧?
  • 二、人工智慧的實現途徑。
  • 三、我會怎樣用人工智慧譜曲?
  • 四、人工智慧譜曲的前沿。
  • 五、總結
  • 六、回答題主的問題。

一、什麼是人工智慧?

提到人工智慧,相信很多人的第一反應是1997年5月擊敗國際象棋世界冠軍的的「深藍」計算機。

還有電影《機器人總動員》里的WALL?E和Eve。


有人可能會說,「深藍」和WALL?E簡直就是兩個時代的產物好嗎?別著急,往下看。

Wikipedia:

人工智慧(Artificial Intelligence, AI)是指由人工製造出來的系統所表現出來的智能。

從工程學的角度來看,人工智慧就是人造的智能。智能和人工智慧的關係就像是皮革和人造皮革的關係。不了解皮革的構造和特性,就製造不出相應的人工皮革。所以,首先要明確「智能」的概念。


「智能」是什麼?從直覺上講,智能就是人們認識和改造客觀世界的綜合能力,是人類區別與其他事物的本質特徵。然而,要給「智能」一個科學明確的定義,卻非常困難。因為,目前人類還沒有把能力揭示人腦及其思維能力的奧秘。於是,對於人工智慧的定義就有了兩種不同的觀點。


一種觀點強調智能的外在表現,認為只要機器表現得像人類一樣就是具有智能的。這種觀點叫做「弱人工智慧」,對應的檢測實驗是「圖靈測試」。


另一種觀點強調智能的形成過程,認為只有和人類一樣思考,具有人類的智慧的機器才叫智能。這種觀點叫做「強人工智慧」。對應的檢測實驗是哲學家約翰 塞繆爾設計的「中文屋思想實驗」。


為了實現「強人工智慧」,需要揭示人類智能的根本機理。在其基礎上去模擬、延伸、和擴展人類智能,實現腦力勞動的自動化,這是人工智慧研究的根本目標,也叫長期目標。相應的,近期目標是研究如何是計算機更「聰明」,在某一方面、從某種程度模擬人類的智能,如進行推理、決策、規劃和學習等。

上面提到的「深藍」計算機就是弱人工智慧,而WALL?E則是強人工智慧


很明顯,以目前人類的科技水平,實現人工智慧譜曲只能使用弱人工智慧的方式。那麼,弱人工智慧就只能通過劉慈欣的小說《詩云》里提到的窮舉法來譜曲嗎?


不一定!


先放一張人工智慧處理的圖片。


左邊是輸入的一個無規則像素點陣,右邊是經過自組織特徵映射網(SOFM,人工神經網路的一種)聚類的結果,你不覺得這很「抽象派」、「現代派」嗎!(我知道這稱不上藝術,但這只是一個形象的比喻。)


人工智慧有很多實現途徑,窮舉法只是其中之一。


二、人工智慧的實現途徑。

人工智慧作為一種剛剛建立不久的學科,很多理論和方法還都在探索階段。在人工智慧的發展歷史中,不同學科背景、不同研究領域的科學家們從不同的角度出發,對人工智慧進行著探索。現有的人工智慧的實現途徑有以下幾種:

  1. 符號主義。以「符號處理」為核心,認為知識可以用符號表示,基於符號的推理可以實現人工智慧。此類途徑研究時間最長、應用最廣、影響最大,廣泛應用於計算機博弈、自動定理證明等領域。「深藍」計算機就是此類途徑的代表作。
  2. 連接主義。通過模仿大腦神經元的結構,建立人工神經元,並連接成為人工神經網路,從而實現人工智慧。和符號主義的「自上而下」理念恰恰相反,此類途徑「自下而上」的關注智能體的結構。
  3. 學習主義。讓機器想嬰兒一樣學習成長,逐步地增長「智力」,是此類途徑的目標。然而,人類對「學習」這一過程的本質知之甚少,因此還處於不斷摸索的過程。學習主義可能是實現人工智慧的根本途徑。
  4. 行為主義。既然達到人的智力水平很困難,何不先製造昆蟲這樣地智能水平系統呢?與其他依靠鍵盤、滑鼠、顯示器等I/O設備輸入輸出的無實體智能系統不同,行為主義將智能實體置於環境之中,對環境的變化作出反應。
  5. 進化主義。通過模仿達爾文的進化論,將問題的解表示成若干個個體或基因,通過隨機擾動實現突變,並通過環境的選擇挑選優秀個體,從而獲得越來越適應環境的個體。
  6. 群體主義。自然界中群體的智慧往往大於個體智慧的和,例如雁群、蟻群等,群體主義就是模仿這種現象的一種途徑。

(上面的六種途徑並不是涇渭分明的,例如學習主義就用到了人工神經網路來實現。它們只是從不同的角度提出的解決方案。)

有了以上這些途徑,人工智慧可以解決哪些問題?

  1. 推理。
  2. 搜索。
  3. 學習。
  4. ……

三、我會怎樣用人工智慧譜曲?

  1. 啟發式搜索。
  2. 隨機輸入+SOFM聚類。
  3. 遺傳演算法。

1. 啟發式搜索。

搜索的目的是在最短的時間內找到最優的解。然而,解的最優性往往伴隨著計算的複雜性,因此必須在二者之間進行權衡。

搜索策略大致可以分類如下:

其中,啟發式搜索就是在搜索每一個節點時根據啟發式信息判斷是否有繼續向下搜索的必要,如果沒有,就結束對這個節點的子節點的搜索,從而減小了計算的複雜性。下面是啟發式搜索的示意圖:

對於譜曲演算法,我的想法是這樣:

利用啟發式信息,搜索長度為10的一段旋律的部分可能解。

說明:
(1)啟發式信息:啟發式信息可以是這個音和上一個或幾個音、這個和弦和上一個或幾個和弦的搭配程度,這個可以通過分析大量現有作品,從而獲得一個概率表。例如,如果在很多樂曲中,兩個和弦一起出現的概率很小,說明這兩個和弦的組合是不和諧的,就不需要繼續往下搜索了。
(2)長度為10:搜索長度不可以太長,否則計算量會很大。這也是這種方法的一大缺點。
(3)部分可能解。為了簡化計算,可以只在中音區搜索,即便如此,全部解仍有21的10次冪之多,不過考慮到啟發式信息,我們只需要搜索一小部分解就可以了。

評價:和簡單的枚舉不一樣,這種方法可以減少很多毫無意義的搜索。(劉慈欣的《詩云》里的外星人科技那麼發達,他應該會使用這種方法才對啊!^_^|||)不過,這種方法的缺點是樂曲長度短效率低(不適合窮舉法相比,而是和人類的創作相比)、沒有創造性

2. 隨機輸入+SOFM聚類。

上面的搜索法的缺點之一是沒有創造性,缺少變化,我認為很重要的一點是在最優性和可行性之間選擇了可行性。那麼,有沒有一種方法可以提高解的最優性呢?

為了提高樂曲的長度,聚類是一種不錯的方法。

Wikipedia:

聚類是把相似的對象通過靜態分類的方法分成不同的組別或者更多的子集,這樣讓在同一個子集中的成員對象都有相似的一些屬性。

我們再看一下這一張圖片。

這是利用自組織特徵映射網(SOFM,人工神經網路的一種)實現的顏色聚類。輸入一個無規則像素點陣,把有著相似屬性的點移動到一起,就可以輸出一張「像模像樣」的圖片。

同樣的,輸入一串很長的無規則的音,通過對相似的音的聚類,就可以的到一段聽起來富有變化但又不突兀的旋律。

說明:
(1)無規則的音可以隨機產生。
(2)「相似」的定義可以是頻率的接近,也可以是通過對大量樂曲的分析得到的一張相似性表。

評價:和上面提到的搜索不一樣,這種方法由於輸入具有隨機性,所以輸出也富有變化,避免了單調,而且單次計算複雜性很低。不足的是,這種方法聚類的結果不一定和人類的口味,所以同樣需要大量計算,從中選擇我們喜歡的解。

3. 遺傳演算法。

上面提到的兩種演算法,都是在給定了輸入以後才可以譜曲,真正的譜曲可不是這樣的。那麼怎樣才能使機器看起來像人一樣譜曲呢?

舉一個例子,我們假設外星人和人類的審美觀一樣,假如你是一個外星人,你完全不了解人類的思維方式,在你看來,人類作曲的過程就是一個隨機的搜索過程,而人類的大腦卻總能挑選出動聽的旋律出來,你是不是覺得人類很「智能」呢?

遺傳演算法是學習大自然中生物的進化,過程是這樣的:將音符的排列組合編碼成一組基因群體,從群體中選擇父代,父代通過隨機擾動產生隨機變化,通過適應性函數選擇優秀的個體,加入群體並下一次進化,直到找到可行解為止。

說明:
(1)編碼:把音符的順序映射為生物的基因。
(2)隨機擾動:每一代進化以後,隨機產生擾動,隨機對音符進行交叉(重組)、變異(改變某一位的音符),實現解的多樣化,從而盡量實現整體最優。
(3)選擇:進化以後通過適應度函數選擇,找出最適應環境的個體,進行下一次進化。
(4)適應性函數:評價解的優劣性,在這裡就是曲子的「悅耳度」,體現在數學上可以使不同音符、和弦相連的概率,也可以是和名作片段的相似性等。

評價:隨機擾動增加量解的多樣性,從而保證了解的最優性;選擇操作保證了搜索的效率,從而保證了搜索的可行性。

四、人工智慧譜曲的前沿。

Experiments in Musical Intelligence (音樂智能實驗,EMI)是美國加州大學聖克魯斯分校的音樂教授兼作曲家David Cope開發的一款軟體,被認為是目前最先進的人工智慧音樂作曲系統。開頭的巴赫風格的讚美詩就是他的傑作。下面是EMI的官網。

main

1987年,當Emmy譜寫的巴赫風格作品首次演出時,坐在伊利諾伊大學音樂廳的所有聽眾驚訝得目瞪口呆。兩年以後,在聖克魯斯巴洛克藝術節上,科普先生要求聽眾告訴他,哪首曲子是巴赫的原創,大多數人都無法給出正確的答案。

MI 中最深層次的原理是被 Cope 稱作「重組音樂 (recombinant music)」的原理 — 從一名作曲家的作品中識別出不同類型的重現結構,然後以新的排列來複用這些結構,依此產生一份「同樣風格下的」新作品。你可以想像 EMI 在學習了貝多芬的九首交響曲後,自行譜出《貝多芬第十交響曲》的情景。


給定幾個輸入作品的情況下,EMI 的核心手法是這樣的:


(1) 分解;(2) 重組。


當然,有許多重要的原理會限制什麼段落可以跟在什麼後面,這些原理都被公式化確定下來以保證樂曲的連貫。


EMI譜曲的基本單位不是音符,而是已有作品的重現結構。也就是說,EMI的實現原理可以這樣理解:買過來一批同一品牌的不同型號的汽車,拆開以後把零件重新組裝乘一輛「新車」。

五、總結。

EMI的實現原理相對簡單,他只會模仿,不會創作,但優勢是成品率高(相對我提到的幾種方法),容易實現。

我在上面提到的幾個方法,由於分別涉及了局部搜索和隨機擾動,因此有可能找到沒有先例的優秀作品(可能性是多少另說),會「創作」(雖然隨機猜測的比例更大),但代價是計算的時間複雜度、空間複雜度和EMI不在一個數量級,可行性較差。

總之,不管是EMI還是我提到的方法,人工智慧的本質是計算

如果人類能將譜曲轉化為演算法的話,計算機就可以實現真正意義上的譜曲。否則,計算機就只能模仿和猜測。

六、回答題主的問題。

1. 理論上是否可行,在多大程度上可以替代人類?哪些類型的音樂更適合人工智慧發揮,哪些類型只能靠人腦?
答:理論上可行,替代不了人類。人工智慧的音樂大多數是模仿,「創新」的可能性很小,代價很高。

2. 現實中是否有嘗試,主要障礙在哪裡?
答:現實中有嘗試,參見開頭給的視頻和連接。

3. 經濟上是否值得研究和推廣?
答:經濟上值得研究,但現階段不值得推廣。

4. 感性上是否會難以接受?那些本來就高度重複的流行樂,用AI替代技術難度應該不大,但人們聽音樂時真正在乎的是音樂本身,還是音樂文化,還是偶像崇拜?
答:以現階段的科技水平,在可預見的相當長的將來,人工智慧替代人的可能性不大。

參考資料:

  1. main
  2. 人工智慧導論:方法與系統/劉峽壁
  3. 譯言網 | 人工智慧譜曲的新時代
  4. jjgod / blog

Google 的一個叫 Magenta 的計劃,該計劃的目的是希望將機器學習技術應用到音樂和藝術創作上。最新的成果是,他們用人工智慧技術譜出了一段 90 秒的旋律。

人工智慧創作的音樂片段

讓機器去創作音樂作品並不是最近才有的事,2012年西半牙的研究者們就通過計算機演算法創作了一段音樂 Lamus。只不過它所採用的技術是讓計算機去模仿現有的音樂片段,通過發現其中的規律來製作音樂旋律。

而在 Google 的 Magenta 的計劃中,研究人員不只是想讓機器模仿製作出一段音樂,而是想探索機器是否能創造出音樂,以及如何實現?

研究人員讓計算機學習了大量的音樂片段之後,給它一些簡短的提示讓其自行創作出音樂片段出來。通過輸出結果的複雜性來判斷它是否具有創造性。

該計劃應用了輔助 AlphaGo 的機器學習技術 TensorFlow 系統來進行藝術作品創作研發。研發團隊稱,藝術創作本身其實就是作者通過自己的藝術作品來表達自己對世界的看法。對機器來說製作出一段音樂作品並不是最難的,難的在於讓這段作品有故事。

而這種讓機器去學習描述故事的探索不僅對於讓機器去進行藝術創作有幫助,同時它也可以被應用到語言學習中。因為它可以幫助機器在缺少整個語境的情況下,更好的去理解一整段句子。

目前這段曲子的代碼是公開的,如果你有興趣可以上 Github 查看它的代碼。研究人員稱他們希望能讓各個領域,如研究者、程序員及音樂家們參加到這項計劃當中。

這不是 Google 唯一一個與藝術有關的計劃,2015 年 Google 曾推出了「藝術家與機器智能」計劃,旨在探索藝術與計算的結合及機器智能藝術該是什麼樣子的。此外,更早的時候 Google 還推出了 Google 文化館,利用高精度的相機將線下展覽館裡的藝術作品搬到線上給更多的人欣賞。

(原文首發於好奇心日報,更多精彩請下載閱讀。作者:朱若淼 原文鏈接:人工智慧作曲是什麼樣子,這裡有一首)


https://deepmind.com/blog/wavenet-generative-model-raw-audio/
你往下看,前面是人工合成語音,後面是人工合成音樂,這次是直接拿wave訓練的。

theano的教程示例就有一個用lstm產生midi的東西,不過效果很糟糕,應該是因為參數太簡單。我自己學藝不精,正在慢慢學習dl的東西,還沒學會,不然自己就去寫了。

你這樣想,midi就是一個縱向128,橫向時間軸可以切片到64分音符,那麼一首100小節的曲子就是一個128*64^100的線性空間,當然如果你加上力度那麼再乘以128。這樣算是2^2000,那麼圍棋的空間多大呢?3^361,顯然是比這個空間小非常多的。假使有個演算法可以高效探索分支,那麼是可以做到的。實際上一般來說一首曲子遠不止100小節,速度100拍的話這才1分鐘。

這麼大的空間,人類是如何高效率遍歷的?實際上就是用了特徵。有和聲學的約束下,空間縮小多少無法計算,但是剩下的應該是九牛一毛。然後各種變換和重複,使得樂曲有類似於蛋白質二級結構三級結構的東西,同時還有各種修飾音符。

這樣看來作曲無外乎在一個空間中尋找一個解,然後這個解被人稱之為好聽。儘管這個空間巨大,有了約束後仍然是巨大的,但是圍棋的空間也是極大的,我認為電腦解決這都是時間問題。


侯世達:如聆巴赫
翻譯:Jjgod Jiang

在我還年輕時 — 也就是寫下《哥德爾、艾舍爾、巴赫》那時 — 曾問過自己這麼個問題:「計算機程序會有寫出優美音樂的那一天嗎?」然後做出了如下推斷:「計算機作曲程序在很長一段時間內不會產生什麼有新意的成果…… 『我們就快能用一台批量生產的二十塊錢郵購獲得的預置程序桌上型音樂盒子中那貧乏的電路寫出肖邦或巴赫假如活到今日將寫出的曲子』 — 這種念頭,哪怕只是想一想 (事實上我的確聽人如此提過),也已是對人類心智深度的一種荒誕可恥的誤估。」那時我的調子就是如此這般。

四分之一個世紀之後,我是如何看待這種推斷的呢?說不準。這些問題已困擾我多年,直到現在還是沒找到一個確定的解答。 1995 年春,我偶然發現了 David Cope 的《計算機與音樂風格 (Computers and Musical Style)》一書,他是加州大學聖克魯斯分校的一位教授。在書中我注意到了一首模仿肖邦風格的馬祖卡舞曲,它是由 Cope 的 EMI (「Experiments in Musical Intelligence (音樂智能實驗)」一詞的縮寫) 程序所譜的。之所以能引起注意,是因為作為畢生的肖邦愛好者,我覺得沒什麼偽托肖邦的曲子能騙過我的眼睛。所以我直接在鋼琴上即興把這首 EMI 馬祖卡反覆彈了好些次,每彈一次,我的困惑與驚訝便增加一層。

儘管能間或能聽出些小瑕疵,這首曲子還是給我留下了深刻的印象,因為它似乎在「傾訴」著什麼。如果誰告訴我它是出自人手,我絕不會懷疑它的表現力。這首曲子聽來有些懷舊,帶點波蘭味道,而全無抄襲嫌疑。它是嶄新的,而又毫無疑問地刻上了「肖邦風格」的烙印,卻不令人覺得情感空乏。我的的確確受到了震撼:抒情的樂曲怎麼能從一個從未聽過一個音、從未活過一秒鐘、從無一絲一毫情感的程序中寫出來?

越是糾纏於此,我就越是困擾 — 但也越是為之著迷。這裡確實有個不符情理的矛盾,狠狠將了我一軍。但我不會就此拒絕承認,認為 EMI 無關緊要或缺乏樂感,不然這隻能說明我的怯懦心虛而已。我要直面矛盾,與這個怪異的程序奮戰到底,因為它動搖了早在我內心深處的信念:關於音樂的神聖地位的信念、關於音樂是人類靈魂的終極聖地的信念。這也是人工智慧在奔向思維力、洞察力與創造力之前的最後障礙。

如果我只是看過 EMI 的架構而未聽過任何它的產出,我肯定不會把它放在心上。儘管 Cope 在 EMI 上花的功夫比大多數人工智慧研究者在任何項目上花的功夫都要多得多,EMI 的基本原理在我看來並不新鮮,甚至顯得沒什麼前途。顛覆我看法的是 EMI 所譜的曲子。

後續的幾個月里,我在美國和加拿大的許多地方做了關於 EMI 的講座,令我大為驚訝的是,幾乎沒有幾個聽眾對 Cope 模擬藝術創造力上的這一妙著感到沮喪,幾乎沒有誰感到威脅或擔憂。反之,我卻覺得某種能顯示人類深邃思維的崇高性不復存在了。對我來說,不僅丟臉,還很可怕。

EMI 中最深層次的原理是被 Cope 稱作「重組音樂 (recombinant music)」的原理 — 從一名作曲家的作品中識別出不同類型的重現結構,然後以新的排列來複用這些結構,依此產生一份「同樣風格下的」新作品。你可以想像 EMI 在學習了貝多芬的九首交響曲後,自行譜出《貝多芬第十交響曲》的情景。

給定幾個輸入作品的情況下,EMI 的核心手法是這樣的:

(1) 分解;(2) 重組。

當然,有許多重要的原理會限制什麼段落可以跟在什麼後面,這些原理都被公式化確定下來以保證樂曲的連貫。我可以總結出如下兩條規則:

(1) 局部的音調轉合模式應類似原作; (2) 全局的片段排布應類似原作。

這兩條規則也可以轉化為在解決拼圖遊戲時經常利用的兩類限制:

(1) 每塊拼圖的形狀必須與鄰接塊緊密嚙合; (2) 每塊拼圖上的圖案必須在整個圖片的大環境下有意義。

前一條限制可以被刻畫為「語法嚙合」,或者僅根據「形式」構造的嚙合,而後一條則可以刻畫為「語義嚙合」,或者僅根據「內容」構造的嚙合。單看其中任何一個都平平無奇,可一旦組合起來,它們就能成為一套非常強大的限制。

篇幅所限,這裡我無法詳述 EMI 中各種錯綜複雜的構造,它們被用來吸收風格元素、執行 Cope 編製的多層「重組」。

在我關於 EMI 的講座中,幾乎每次都會讓聽眾先聽上一組雙音小節,事先告知它們其中至少有一個是巴赫所作,也至少有一個是由 EMI 仿巴赫所作,然後由他們嘗試找出其歸屬。聽完之後我會讓聽眾投票,通常大部分的聽眾能認出真正的巴赫作品,但通常也只是 2/3 的聽眾選對,還有將近 1/3 的人錯了。而且選錯的並非總是那些缺乏經驗的聽眾。

EMI 在進化著 — 它不是一個固定的目標。Cope 是從 1981 年開始開發這個程序的,多年以來他並未停止。EMI 的早期作品就像任何作曲新手的一般稚嫩,可後來的作品就越來越令人難忘,Cope 也隨之對它有越來越高的期望。一開始他只是滿足於 EMI 創製的短篇二部創意曲和短篇馬祖卡,但現在他已經開始讓 EMI 譜寫整部整部的奏鳴曲、協奏曲和交響曲了。EMI 甚至還在編寫一部叫「馬勒」的歌劇 — 這可是對人類作曲家來說都極富挑戰性的工作。

毫無疑問,風格是一種多層次的現象。對風格的認知有深有淺,僅抓住一個作曲家的淺層習慣而忽略掉某些內在神髓是完全可能的。所以,在聽到一段音樂,認出其中某些手法和以前聽過的甲作曲家的手法相似,從而自行聲稱「這聽起來像甲的作品」的時候,我們又受到了多大的欺騙呢?我們到底能不能清楚地區分淺層感應與深層體會?說實話,音樂的「淺層風格」與「深層風格」、「語法」與「語義」、「形式」與「內容」之間到底有什麼區別?甚至到底有沒有區別?

在講座中,我通常還會加上一段插曲,這次涉及馬祖卡舞曲了 — 一首肖邦加一首 EMI。有一次我在紐約州羅切斯特市,世界著名的 Eastman 音樂學院做這個講座,幾乎所有的作曲與音樂理論教員都上了 EMI 馬祖卡的當,把它當成了貨真價實的肖邦 (相形之下,真正的肖邦作品卻被當成了計算機仿冒的小調)。一位 Eastman 的音樂學生,Kala Pierson 就此給我發了一封電子郵件,她說:「和大多數朋友一樣,我把第二首作品當成真正的肖邦。在你宣布第一首是肖邦的而第二首是 EMI 的那時,我們都倒抽了一口涼氣,它帶來的後果是一種快樂的恐慌,我從來沒見過這麼多理論家和作曲家的矜矜自得轉眼間被掃得一乾二淨 (當然也包括我自己的),它真是美輪美奐。」

我在羅切斯特的講座中 (事實上也是從所有關於 EMI 的講座中) 得到的震撼是,有著深刻音樂天分、經過長年訓練的人也有可能偶爾把 EMI 的作品當作真品。要記得 — 我們這才剛剛起步,我們人類才剛剛開始把「批量生產的二十塊錢郵購獲得的預置程序桌上型音樂盒子」這樣的夢想付諸現實,這種盒子就是在我寫《集異璧》時曾嗤之以鼻的「貧乏電路」上構建而成的。

再經過二十年的努力工作後我們能到達什麼境界?五十年呢?2084 年那時的頂尖水平又會是怎樣的?到那時還會有人能區分真偽嗎?誰會知道、誰會關心、又有誰會大聲呼籲風格最核心的那微小的一點還沒有被達到 (也永遠達不到)?一旦巴赫、肖邦們廣受讚譽的嶄新傑作,如尼亞加拉大瀑布的流水一般從硅晶電路上湧出時,又有誰還會關心這樣瑣屑的細節?這樣奇妙的一個新的音樂黃金時代,難道不該是「美輪美奐」的嗎?

以 Cope 所謂的《普羅科菲耶夫第十奏鳴曲》為例。在 EMI 第一張 CD《Bach by Design》的封套說明中,Cope 寫到:「這首由計算機譜寫的普羅科菲耶夫奏鳴曲完成於 1989 年,它的譜寫靈感來自於普羅科菲耶夫自己完成第十鋼琴奏鳴曲的嘗試,因其逝世而終止的嘗試。所以,這說明了類似 EMI 這樣的程序的一個潛在的用途。(即補完未竟作品)」可是對我來說,這樣的話不啻瀆神。

計算機模擬所令我擔憂的,並非在於它暗示了我們自己可能也不過是機器,因為我早已相信了這一事實。困擾我的其實是這樣的想法:觸及我心靈最深處的東西 — 大部分情況下這指的是音樂作品,我總把它們當作靈魂間直接傳遞的信息 — 可能可以被簡單的機制有效生產出來,這樣的機制要比產生人類靈魂的複雜生物機制簡單數千倍,甚至簡單百萬倍。這樣的景象由 EMI 鮮明而幾乎觸手可及地展現在了我的面前,令我產生了巨大的擔憂,在這樣憂悶的情緒下,我悲觀地羅列出了下面三個原因:

(1) (比如說) 肖邦要比我想像的淺薄得多。 (2) 音樂要比我想像的淺薄得多。 (3) 人類靈魂/心智要比我想像的淺薄得多。

讓我再略作解釋。關於第一點,既然我畢生都為肖邦的作品感動至深,假如 EMI 能一首接著一首地產出「肖邦風格」的樂曲,我將不得不從頭回顧我從肖邦音樂中得來的全部意義,因為我將不再相信這樣的意義只能來自於人類內心深處,而不得不接受這樣的事實:弗雷德里克?肖邦可能只是一個非常流利的藝匠,而不是一位擁有深刻情感的藝術家,一位我從孩提時就確信自己知之甚詳的藝術家。

這樣的損失會給我帶來難以想像的悲痛,但從某種意義上說,上述損失不會比第二點帶來的損失更糟,既然肖邦總被我當作音樂力量的代名詞。儘管如此,把所有的作曲家統統掃地出門肯定還是比只掃一位要來得困難。

當然,第三點帶來的損失將是對整個人類尊嚴的終極冒犯。當意識到人腦千億個神經元、將近億億個突觸連接中所蘊含的全部「計算能力」能被幾塊尖端水平的晶元超過,而產生有史以來最強大的「藝術大爆發」只需要一塊納米級別的電路板 — 全部這一切一切,不勞費神,全來自於一件沒有知覺、視覺、聽覺、味覺,不曾活過、死過、奮鬥過、痛苦過、成長過、思念過,不曾歌唱過、舞蹈過、搏鬥過、親吻過、期望過、害怕過、勝利過、失敗過、哭泣過、歡笑過、愛過、渴望過、關懷過的個體。

儘管 Kala Pierson 和許多其他的人可能會用「美輪美奐」這樣的詞來歡迎這種個體的來臨,可是一旦音樂最終不可避免地被歸約為了語法模式和模式本身,按我古板的看法,那會是非常黑暗的一天。


1,
大牙惱怒已極,來回急走幾步,總算擠出了一點兒耐性:「好,好,你說,按神說的那些五言七言詩,還有那些常見的詞牌,各寫一首,總共有多少字?」
  「不多,也就兩三千字吧,古曲詩詞是最精練的藝術。」
  「那好,我就讓你這個白痴蟲子看看它有多麼精練!」 大牙說著走到桌前,用爪指著上面的棋盤說:「你們管這種無聊的遊戲叫什麼,哦,圍棋,這上面有多少個交叉點?」
  「縱橫各19行,共361點。」
  「很好,每點上可以放黑子和白子或空著,共三種狀態,這樣,每一個棋局,就可以看作由三個漢字寫成的一首19行361個字的詩。」
  「這比喻很妙。」
  「那麼,窮盡這三個漢字在這種詩上的組合,總共能寫出多少首詩呢?讓我告訴你:3的361次冪,或者說,嗯,我想想,10的271次冪!」
  「這……很多嗎?」
  「白痴!」大牙第三次罵出這個詞,「宇宙中的全部原子只有……啊——」它氣惱得說不下去了。
  「有多少?」伊依仍然是那副傻樣。
  「只有10的80次冪個!你個白痴蟲子啊——」
-------------------------《詩云》

不要以為音符就那幾個,真的排列組合起來,那數量也是大到你無法想像的。
------------------------- 詩云

2,
 「那,您總該考慮詩的內容吧?最後的計算結果中肯定有百分之九十九的詩是毫無意義的,存下這些隨機的漢字矩陣有什麼用?」
  「意義?」李白聳聳肩說,「使者,詩的意義並不取決於你的認可,也不取決於我或其他的任何人,它取決於時間。許多在當時無意義的詩後來成了曠世傑作,而現今和今後的許多傑作在遙遠的過去肯定也曾是無意義的。我要作出所有的詩,億億億萬年之後,誰知道偉大的時間把其中的哪首選為顛峰之作呢?」
  「這簡直荒唐!」大牙大叫起來,它粗放的嗓音驚奇了遠處草叢中的幾隻鳥,「如果按現有的人類蟲子的漢字字型檔,您的量子計算機寫出的第一首詩應該是這樣的:
  啊啊啊啊啊
  啊啊啊啊啊
  啊啊啊啊啊
  啊啊啊啊唉請問,偉大的時間會把這首選為傑作?」
  一直不說話的伊依這時歡叫起來:「哇!還用什麼偉大的時間來選?它現在就是一首顛峰之作耶!前三行和第四行的前四個字都是表達生命對宏偉宇宙的驚嘆,最後一個字是詩眼,它是詩人在領略了宇宙之浩渺後,對生命在無限時空中的渺小發出的一聲無奈的嘆息。」
-------------------------《詩云》

一首歌,或許你我他都認為它是噪音,但誰又能保證這審美不會隨時間而改變,這首噪音不會成為後世的佳作呢?
------------------------- 詩云

3,
 「真是偉大的藝術品!」大牙由衷地讚歎道。
  「是的,它的美在於其內涵:一片直徑一百億公里的,包含著全部可能的詩詞的星雲,這太偉大了!」伊依仰望著星雲激動地說,「我,也開始崇拜技術了。」
  一直情緒低落的李白長嘆一聲:「看來我們都在走向對方,我看到了技術在藝術上的極限,我……」他抽泣起來,「我是個失敗者,嗚嗚……」
  「你怎麼能這樣講呢?」伊依指著上空的詩云說,「這裡面包含了所有可能的詩,當然也包括那些超越李白的詩!」
  「可我卻得不到它們!」李白一跺腳,飛起了幾米高,又在地殼那十分微小的重力下緩緩下落,「在終極吟詩開始時,我就著手編製詩詞識別軟體,這時,技術在藝術中再次遇到了那道不可逾越的障礙,到現在,具備古詩鑒賞力的軟體也沒能編出來。」他在半空中指指詩云,「不錯,藉助偉大的技術,我寫出了詩詞的顛峰之作,卻不可能把它們從詩云中檢索出來,唉……」
-------------------------《詩云》

讓人工智慧譜曲難的不是譜曲本身,難的是如何告訴人工智慧,你的審美觀~
------------------------- 詩云


寫個體驗。

靠一個名為Amper Music的網站,按步驟完成幾道選擇題,Amper高達上的人工智慧技術就能針對你的要求進行音樂私人訂製

(表白赤潮君,做的音樂真好聽~)

Amper Music 自動生成的音樂 - 騰訊視頻 https://v.qq.com/x/page/f03813aa8fh.html

周到君也試了試,這是全程製作記錄:周到上海

要知道,想當年還沒出道的周杰倫為了證明自己創作實力,可是10天寫了整整50首曲子啊!

1、註冊Amper

網頁鏈接在此:Amper Music

全英文是不是看著有點虛?

放心吧,都是很基礎的辭彙,周到君表示全程無壓力,而且還不用翻牆。

操作步驟也是異常簡單,簡單到用一個動作就可以全部概括...

那就是,點滑鼠

什麼準備一架麥克風、哼一句哆瑞咪,統統不需要。

唯一的準備工作,就是一定得先在網站右上角註冊(Log in),不然創作(Create Music)頁面是不會跳出來的!

2、創作

接著就是正式Create時間了。

開始時,會有簡易(Simple)和專業(Pro)兩種操作模式供你選擇。

區別在於,在專業版里你可以對音樂進行分段創作。什麼時候舒緩,什麼時候高潮,你看著辦,還能配上視頻畫面,而簡易版就只能一種風格走到底了。

不過話說回來,對像周到君這樣五線譜都不識幾個的業餘朋友而言,簡易模式已經很夠用了。

清清爽爽的界面

以此來舉例。

在選完操作模式後,首先你要決定整首曲子走什麼風格

Amper會提供四種最常見的曲風供你選擇,分別為Classic Rock(經典搖滾)、Modern Folk(摩登民謠)、90"s Pop(流行)和Cinematic(電影配樂風)。

在每種曲風下還會有7-8種子類型。

比方說,你是要歡快的、悲傷的、還是激情洋溢的。

從左往右依次是經典搖滾、摩登民謠、流行和電影配樂風

音樂子類型,隨便截一點給你看咯

其次,你需要決定這首曲子的時長。

最多只能設定5分鐘,但對於一首曲子來說也是綽綽有餘了。

再然後... 不,其實就是最後一步了...

點擊頁面下方的提交(Render Music)按鈕,你的Demo小樣就將在10秒鐘之後完成。

周到君試了試,這個等待時間和你整首曲子的時長一點關係也沒有,只和你的網速有必然聯繫。

竟然就結束了?!

3、試聽

曲子完成後立馬可以試聽,要是有細節不滿意,就去微調嘛。

比如,演奏中使用了你不喜歡的樂器,一鍵刪了它;
曲子的節奏太慢了,那就在節奏(Tempo)那欄里把它調快一點;
曲子聽著太短了,還可以在時長(Duration)那欄里把它放長。

曲子修改頁面

諸如上述的小問題都可以進行修改,反正所有修改完畢後,再重新Render(提交)一次就可以了。

如果實在覺得這曲子不能忍... 天吶,簡直和我設想的不一樣...

那就重來一首吧!

在作曲主頁面下方有一個隨機換歌按鈕,Amper網站會根據你之前的選擇需求進行重新創作。

如此操作下的曲目生成時間就更短了,好比你使用音樂播放器時不停在切歌。

切到你滿意為止!

曲子完成後的主頁面,微調編輯鍵和隨機換歌鍵周到君已經幫你框出來了

OK,決定是它了,那就點擊下載吧!

目前Amper網站支持MP3和WAV兩種音頻格式,足夠了吧。

你的所有曲目還會自動保存在你名下的曲庫內,以便整理和再修改。

你的曲庫

做視頻找配樂,情人節送情歌,自娛自樂什麼的,有這個神器都很棒啊!


  • 理論上必須可行。個人認為,需求恆定且能夠被足夠量化到一定程度的商業音樂可以交給人工智慧處理,而藝術性的發揮還是需要人腦。
  • 現實中的嘗試,其他人的答案說過很多了。其實行業內也有一些初步嘗試的軟體,比如band in a box,songsmith等等(max/msp也可以算)。但更準確的描述應該並非人工智慧譜曲,而是AI開發者和操作者藉由計算機工具的譜曲。
  • 經濟上的研究和推廣,事實上已經有相當的起步了~不過對音樂家的事業仍然沒有影響
  • 感性上不會難以接受,至少在計算機有真正的『創造力』之前,能夠聽到的AI作品都屬於AI開發者的作品而已。
  • 另外,高度重複的流行樂用AI替代難度仍然非常大。因為流行的東西變化的速度,對AI開發者的開發速度和對『流行』文化的把握程度要求都非常高。
  • 至於下面的例子,其實並不能說明什麼問題。本來對於AI而言,一個有著絕對量化標準的工作比人腦的執行力更強,但音樂的評價標準永遠不可能達到絕對量化。
  • 所以AI會在人腦譜曲時成為一個越來越好的幫手,但是獨立於人腦來說還是有不少困難。

  • 馮諾伊曼在某次演講中說到:

    到底什麼是計算機幹不了的?只要你把被認為是計算機無法解決的問題描述清楚,計算機就能總能找到一種方法解決它

    也就是說,如果題主能把什麼是作曲好音樂定義清楚,計算機就可能實現你所想要的。

    關於AI目前有多利害各位的回答已經比較詳細了。但是,我要補充的正是創作好音樂這一過程中無法描述的謎題:人工智慧和人類審美的關係。

    關於人工智慧有兩種常見的誤解:
    1 認為機器是理性的無法生產出美的有意義的有感情作品;
    2 認為機器不具有創造力,只能盡量模仿人類;

    對於第一種誤解,我想指出一段有限長度的旋律也是音符組合的一種。有限長度的音樂其組合也是有限的。即便一段聽起來充滿情感的樂句,只要有足夠長的時間,計算機也能枚舉出來。只不過計算機並不認為這條樂句有何特別,無非就是音符所有可能組合中的一個特例。機器也能製造被人類認為有情感的作品。

    第二種誤解常常源自於人們對歷史上天才的感嘆。這些所謂天才的作品如此震撼人心,使得人們相信他們身上有某種神秘的力量與智慧,因此認為機器只能模仿天才。但是,一首數百個音符的《月光》也是也是音符組合的一種。同上,只要給機器足夠長的時間,我們都可以在其胡亂枚舉出來的「作品」中找到天才一般的作品。(博爾赫斯的圖書館)

    綜上,AI能不能作曲這一問題就變成:計算機是否有某種演算法,在自己生成的大量「垃圾」中,篩選出符合人類審美的作品。所以,「AI能不能作曲」不是一個計算機能幹什麼的問題,這個問題本質上是「人類能不能把審美品味抽象成計算機能理解的規則

    人類審美(什麼是好音樂)是一個歷史產物,也是一個不斷流變的過程。固然我們的審美有一些通用的準則。但這些準則無法窮盡所有人類複雜的品味( Tom Waits 好聽么)。大部分情況下,我們都不知道自己喜歡什麼。所以一些音樂推薦服務就產生了,如Pandora,Spotify。人工智慧先驅Minsky曾經說過:「AI進展緩慢不是因為我們對計算機了解還不夠,而是對我們自己了解不夠。」

    當然,如果真有人把人類審美規則抽象成計算機語言,讓計算機在枚舉出的「作品」中去搜索「偉大的作品」還涉及計算複雜度的問題。但良好的審美規則能大大減少搜索空間。天才之所以能創作膾炙人口的巨作,是因為他們在人類社會中長大,諳熟人類文化,精巧的把握了時代品味。天才怎麼作曲的?其實他們也是試錯試出來的。正因為他們對人性的了解,大大減少了試錯次數。

    關於題主問的計算機創作音樂是否經濟上可行,值得推廣,能否成為偶像,答案就很簡單了:

    對於流行樂,其創作過程相比於地圖上色三體問題要簡單多了。讓人來干就好,根本不用動用每年電費上千萬美元的「神機」。至於要創作「偉大的傳世之作」,更不需要AI這麼高級的技術。所謂莫扎特肖邦舒伯特,無非也是當時的流行音樂,或作者死後才流行起來的音樂。人類隨著心情淘汰掉一些聽煩了的流行樂,留給後世的就是「偉大的傳世之作」。


    AI作曲?大材小用。

    ===============================回複評論=================================
    考慮到目前中文互聯網已經被表演欲過剩的人佔領了這一現狀,我本來盡量想把答案寫短,因此選擇了比較通俗的表達方式,造成了一些誤解。在此澄清。

    1. 關於「流行」
    我們常遇到一些言談舉止比較「老派」的人,在他們眼裡偉大的藝術家和「流行」沒有半點關係。在上文我把莫扎特等古典大師稱作「當時的流行作家」,本意在於強調這些作品必須曾經有一定流行度,才得以被保存留給後世。Beethoven 和 Justin Bieber 當然是不一樣的。但他們的作品都在受到過一定數量人的追捧。
    偉大的作品被一定數量的人追捧傳播難道不是好事嗎?為何「流行」就成了貶義詞?如果這樣,聽陳奕迅的會覺得鳳凰傳奇是流行,聽莫扎特會覺得陳奕迅是流行,聽巴赫的覺得莫扎特是流行,聽勛伯格凱奇覺得巴赫是流行。最後在高度文明的外星人眼裡,除了核電驅動播放的正弦波,其他地球音樂都是流行。
    固然,有一些作品在我們心中的意義是超越審美的,是撫慰心靈的,是救贖靈魂的。但是藝術作品從開始傳播直到呈現在你面前,就已經經歷了一個被神化的過程。Alan Bloom是一名著名的古典學者。他曾經引述柏拉圖把搖滾樂批得一文不值。結果被當時叱吒風雲的搖滾了樂人Frank zappa撰文駁得啞口無言。Bloom是一個我挺喜歡的大學者,但是關於音樂他犯了一些錯誤。他把社會對某些作品的神化當作了作品本身超越時代的內隱特質。偉大作品取得偉大的歷史地位,是和當時社會文化有關的。流行的音樂也可能成為偉大的音樂。
    我刻意淡化古典作品複雜深邃的特徵,而強調他們曾經流行過的事實,目的就是提醒大家不要犯和Bloom一樣的錯誤。成就一個作品的「偉大」,不光是作品本身,還有社會對其評價討論。人只有經過社會化,才能欣賞藝術作品。每個人都是帶著他人為我們創造出的成見去聽去看的。這種社會歷史的二次加工是一個摻雜了審美,權力與支配,階級區隔的複雜過程。

    2. 關於「枚舉」
    我在回答中說計算機可以把偉大的作品「枚舉出來」,想強調再偉大的音樂作品也只是所有音符組合的一個特例。這些所有音符組合構成的集合是遞歸可枚舉的。但我的意思不是說「因為《月光奏鳴曲》是遞歸可枚舉集合中的一個元素,所以計算機作曲枚舉音符組合就ok了」。這只是AI有可能創作好音樂的前提。接下來AI的作用就是做兩件事:1儘可能縮小搜索空間,2判斷自己枚舉出來的作品是否符合審美。這個題目下的回答大多集中討論前者。因此,我的回答只討論計算機是否可能具有「審美品味」。

    最後一句「AI作曲,大材小用」被這句話一些人解讀為「懂點計算機就指點江山」的傲慢。如果我沒能讓讀者領會其中的幽默,請見諒。研究AI作曲固然有意義。但很多人以為AI的最終成功就是要奴役機器為我們完美服務。AI一直在應用方面不斷取得突破。但是,AI領域最核心的問題「何為智能?」卻遲遲沒有答案。這個問題不但會顛覆人對機器的看法,最重要的讓人類重新思考:」我們是什麼?「 。

    把AI現今的發展與其最初為自己制定的理想主義藍圖相比較,我們看到的危機多於希望。最近一次大混戰AI方法論 Noam Chomsky VS Peter Norving 最後也沒爭出可所以然來。

    「AI作曲?大材小用。」是想提醒:當人類沉醉在被一個個天才妝點的歷史中的時候,自戀遮蔽了理智,微不足道的成就被歌頌。而一些叛徒,他們敢於拷問那些光芒萬丈的神話,他們才發現了機器所蘊含的無窮可能性,他們才有幸瞥見大自然的殘酷。

    3. 關於「AI作曲形式化」
    這個討論出現在問題的評論中。有人批評,AI作曲註定了只能創作形式化的音樂。而非形式化的音樂,比如中國的古琴。我想他的意思大概是是說AI作曲只能創作嚴格服從服從律法的音樂。

    這是一個好問題。

    AI作曲不一定需要律法。AI也可以創作調性自由甚至無調性的音樂。只要一段音樂的元素組合是遞歸可枚舉的,AI就可以找到符合我們要求的音樂。不光是微分音,即便是連續變化的音(滑音),計算機也可以用插值的方法逼近。有人可能說:「我定義一個完美的正弦波,計算機再怎麼插值都有誤差」。但是,這個誤差可以忽略不計。因為人耳辨識音高是有極限的。這個極限大概是3~4音分(100音分=半音),只要誤差小於這個數值,人耳是聽不出來的。


    大家都誤解計算機了。面對一個定義好的問題,計算機只要有時間總能做出來的。計算機不能做的是——當一個產品狗。


    謝邀
    樓上的回答從技術層面上說了很多,有對有錯,我就對我認為錯誤的地方做一下自己的闡述吧。
    1、要對曲子有詳細定義才能譜曲?
    錯誤。
    人工智慧的某些領域講究的就是人工智慧只是結構的自組織,換句話說,我們只需要給一些基本概念,例如音符,然後讓人工智慧「看」更多的世界上已有的廣受好評的曲子。
    在量達到一定量時配合良好的演算法,人工智慧就可以譜曲了。
    也許有的人會說這樣的話你的曲子全部是來源於已有的曲子的,不叫譜曲。這是要反駁的,世界上一切知識來源於已有知識。所以這麼想是錯的。
    2、音符的排列組合很多,數量級太高,計算機無法排列?
    這種說法是錯誤的。
    首先譜曲的過程本身就不是列出所有排列組合再判斷哪個最好。音樂家不會這麼做,計算機也不會這麼做。
    其次,所謂演算法,就是降低空間複雜度和時間複雜度。一個一種一種情況實驗的演算法,也能叫人工智慧演算法?
    3、藝術來源於人腦,機器不可替代?
    這種說法是錯誤的。
    藝術只是主觀定義的概念,可以被人腦外的東西所創造。
    前段時間有個利用統計學規律寫汪峰風格的歌詞的梗,再往前有寫唐詩宋詞的梗,都說明了這一點。
    一切都是有規律的,有規律,就可以模仿。
    4、機器人不能代替翻譯?
    錯誤。
    這玩意基本已經要面市了,用的是很火爆的deep learning演算法,技術基本成熟。20年內機器翻譯將會全面代替人工翻譯。


    記得幾個月前有一天,我搖搖晃晃地站在地鐵車廂里看侯世達的「哥德爾、埃舍爾、巴赫」看到一段話,然後我就在地鐵上哭得喪失了理智。

    這段話是這樣的:

    「音樂是種情感的語言,在程序能有像我們那麼複雜的情感之前,它無論如何無法譜出什麼優美的旋律。「贗品」——對已有音樂的句法進行膚淺的模仿——是容易達到的,但無論人們開始時是怎麼想的,音樂表現遠比句法規則所能捕捉到的東西要多得多。在相當長的一段時間之內,計算機作曲程序譜出的樂曲不會產生新的美感。」

    他接著寫道:

    「能有如此功能的"程序"必須得能自己走進這個世界,在紛繁的生活中抗爭,並每時每刻體驗到來自生活的感受。它必須懂得暗夜裡的涼風所帶來的喜悅與孤獨,懂得對於帶來溫暖愛撫的手掌的渴望,懂得遙遠異地的不可企及,還要能體驗到一個人死去後引起的心碎與升華。它必須明了放棄與厭世、悲傷與失望、決心與勝利、虔誠與敬畏。它裡面得能把諸如希望與恐懼、苦惱與歡樂、寧靜與不安等等相對立的情緒混合在一起。它的核心部分必須能體驗優美感、幽默感、韻律感、驚訝感——當然,也包括能精妙地覺察到清新的作品中那魔幻般的魅力。音樂的意義與源泉正是來自這些東西,也僅僅是來自這些東西。」

    不僅僅是音樂,所有藝術作品,對於我來說,都是一種表達。它所展現的內容和情感遠遠不止是那些規則和技法所能捕捉到的。它必須來源於一種體會,而這暫時來講還是機器所無法達到的。

    而我其實並不排斥,甚至期待有除了人類之外,新的情感和思想載體的出現,但這目前來講還是一種奢望。如果在我的有生之年,這一點出現了質的變化,我一定還會回來修改的。


    受不了一些答案...

    可以啊。

    可是可以又如何...?

    就不需要作曲家了?

    藝術誕生於不斷顛覆,而不是不斷重複。

    人工智慧作曲的普遍只會讓人類作曲更稀缺...

    即便人工智慧有了長足發展,等機器染指人類藝術,能夠自我顛覆的時候,要人類有用嗎?

    況且...

    現在普羅大眾的審美是誰引導的?

    幾十年以及百年前的藝術家們。

    沒有顛覆當下的先鋒。

    百年後你們玩屁去啊???


    研究生期間搞過這個問題,現在最新的方法是利用深度學習完成,具體方法如lstm。這些需要一定的計算機和數學功底。

    我認為純粹的計算機作曲有一定的難度,但計算機輔助人類作曲,編曲還是很有希望的


    機器學習的問題都是相通的
    無非就是一個輸入輸出的問題
    看你怎麼定義輸入和輸出了

    題主說的很對,現在有些地方已經在使用計算機生成諸如「文章摘要」,「視頻摘要」甚至讓演算法自主去產生一些「精彩的視頻短片」

    這些問題主要面對的,其實背後還是有人在裡面摻和
    這些問題都不是無監督(unsupervised)的,而是有監督(supervised)的
    也即是說,演算法在做這些事情之前,人會首先把這些東西分成三六九等。告訴他們什麼是「好音樂」而什麼是「不好的音樂」

    有了這樣最基礎的分類之後,如何去確定這些「好音樂」具有的特點,從而反向生成這些東西
    這又涉及到了特徵提取的問題,其實音樂粗看是一個類別,但是向下細分其實類別極多

    比如搖滾的、古典的、流行的、電子的。主流文化的亞文化的,甚至光是一個搖滾裡面都可以分類出極多

    那麼針對每一種類型的音樂,你使用的方法自然是不一樣的,比如圖像識別裡面,分場景和分人分動物,肯定不會用一個方法。音樂這種處理也是一樣

    如果你的目的只是讓「計算機生成一個曲子」,但是不去管這個曲子到底如何,那麼這實在太簡單
    但是如果還要更複雜一些,讓曲子的聽感在人看來也非常不錯的話
    那麼我們假設舉古典為例

    我對古典知道的並不多,我們假設把這個曲子分成三個成分吧,管樂、弦樂以及節奏部分
    那麼這三個成分我們假如知道真實樣本(ground-truth)以及這個樣本的一個打分(如果是音樂,可能打分會更微妙一點,我們不能僅僅用「好」與「不好」來評判,我們可能要用屬性(attributes)來進行更精細的說明,比如「節奏快的」,「節奏慢的」,「積極的」,「消極的」,等等)

    至於具體到底用什麼方法去訓練,怎樣去設計特徵。這個自然是搞這方面的人研究的東西了
    比如他們研究節奏與管樂是什麼關係,節奏與弦樂是什麼關係,管樂與弦樂是什麼關係,等等

    其實計算機和人一大區別在於計算機可以把一個問題扣得非常細。因為這種聲波的東西畢竟處理起來是可以精細到每一次採樣的,那麼計算機可以在數據里發現很多人發現不到的東西,從而利用這些東西。

    人更多的是一種感覺,感覺對了,就覺得好聽了
    =====

    至於說現在是不是有這麼做出來的東西,我對這方面不了解,看其他的答案里有提及
    我上面只是簡單的把背後可能用到的思路做一些很寬泛的說明

    =====

    最後再總結一下:計算機本身,在完全沒有人的參與下無法做出題主的要求
    最起碼人也必須要提供樣本,告訴計算機什麼是好什麼是壞。計算機才能從數據中學習
    也就是說,這裡依然是有人參與的,與實際中的「AI完全自發創造」還是有很大的差異
    畢竟,讓計算機對樣本聚類,並不是多大的問題,但是計算機無法對聚類後的樣本進行評估,因為本身它就不知道什麼才是好的,什麼才是不好的


    這是可以的,我自己也試過,效果也不錯,這裡來一些具有操作性的分析吧。給出一些演算法的雛形:

    • 首先,隨機產生音符:

    這的確是一個糟糕的演算法,其產生的聲音,幾乎不能稱作「音樂」。不過這也不失為一個很好的開始,畢竟,所有的音樂,都包含在「隨機產生的聲音」之中。也就是說,隨機化,可以遍歷到所有可能的音樂——當然,只是理論上的

    • 所以,我們就需要對隨機的結果進行剪枝:

    要「剪枝」,我們就要加入一些規則,比如:

    1. 和弦;
    2. 重複;
    3. ……

    我們還是從簡單開始,只加入「和弦」這一個規則,也就是要求音樂要悅耳:
    繼而,將基本的遍歷單位,由單個音符,上升到一串合理的音符。
    這樣,音樂已經大大改觀。

    但我們還不滿足——這樣的音樂,太混亂,沒有章法,也就是說,這種音樂的產生方式是這樣:
    x_t=Phi ,Phi 是隨機函數。

    我們可以將之升級為:
    x_t=Phi (x_{t-1})
    或者更進一步:
    x_t=Phi (x_{t-1},x_{t-2},...,x_{t-n})
    這樣的音樂,就有章法了,更加規整了。

    • 然而,這裡的隨機性,或者說,選擇的概率,對於所有的曲調都是一樣的嗎?

    現實中,不應當是這樣。我們可以做這樣一個假設——用過的音符,它出現的概率會更高,這樣有產生一個曲子的「基調」(從數學上,可以證明,各種「基調」產生的概率是相同的)。

    到了這裡,這樣一段聲音,其實是可以算得上是音樂了,我自己的實踐也驗證了,至少,不難聽。

    • 如果還不滿足呢?

    沒關係,主要的架構都有了,盡可向裡面增加規則,比如,隨機的增加一些不和諧的音符?對曲調的一些傾向?
    都可以包含在這個演算法之中。

    如此簡單的模型,猶可做到如此,想必,人工智慧,當可作出非常悅耳的曲子,至於思想性,則另當別論,若有時間,他日再論。


    人工智慧譜曲的例子,還有某次BBC的一個節目播出的,分析幾百首愛爾蘭民歌之後,電腦學會了一些小調中的特點和程式,以及歌詞的特點,然後譜寫新的愛爾蘭小調。製作人把電腦作曲作詞的愛爾蘭小調播放給愛爾蘭小調的歌手們聽,那些歌手都反映說,曲子有非常明顯的小調的風格和情調,只是聽起來不太自然……


    作曲的第一步永遠都是企劃,這一部分必須靠人力完成才能討論其獨特性;
    而即興成分和企劃成分在作曲工序當中都扮演著相輔相成的角色。


    美國喬治亞理工學院的團隊研發的機器人 Shimon ,能利用人工智慧與電腦演算法實時傾聽、理解,並配合現場的樂手進行即興演奏。並且,通過深度學習技術作曲,最近還創作了兩段長約 30 秒鐘的原創曲子


    Shimon 機器人的深層神經網路被灌入有大量的音樂數據,包括 5000 多首完整的歌曲以及 200 萬個音樂片段。但是,Shimon 不僅僅是將這些不同的音樂混合在一起,其特別之處在於會從中分析,並能像人類音樂家一樣,讓作品聚焦於整體的結構,而不是在現有的音樂片段中截取拼湊。

    雖然現在的作曲還是很淺層,但誰知道會不會哪一天,專輯封面就寫著:「作詞作曲:機器Shimon……


    參考文獻:機器人音樂家 Shimon 能出創作音樂了,未來會不會出專輯? - 知乎專欄


    推薦閱讀:

    TAG:音樂 | 人工智慧 | 計算機 | 科技 | 作曲 |