古詩為什麼能自動生成?

比如這種藏頭詩:
記李將軍歸來

  馬馳塞北孤煙起
  蓉開半朵冬已歸
  出師五載安天下
  軌轍半淺瘦駒羸
  經緯滄桑天下事
  紀史初衷戒後生
  人本菩提事事輕

據說都是在線自動合成的。

這是否說明古詩的格律、涵義過份形式化了,所以軟體演算法都能模仿得像模像樣。反之,現代詩或者普通的散文,新聞報道都是自然語言處理NLP無法勝任的?


很簡單,因為生成的不是詩。但是大多數人以為是詩。


1. 可以自動生成「形似古詩的文本」。甚至可以滿足格律要求。滿足對仗要求。那是遠比這個例子好得多的文本。

2. 規則化的做法,請看「稻香老農作詩機」。純深度學習的做法,請找清華自然語言處理組矣曉沅同學的論文(arxiv 1604.01537)。

3. 但是,以上兩種,在稍微認真讀過詩的人眼裡都比較容易被看出來不是人寫的。

4. 就算有一天機器可以生成讀者無法分辨的「古詩」,其意義與人所做的詩也不能等同。詩只是形。真正可愛的是作者要傳達的神。

5. 對人難的事情,對機器不一定難;反之亦然。人難實現的結果,對機器不一定難;反之亦然。

6. 不是針對題主。大概百年之後的人看我們今天這些言論,都只會覺得少見多怪。

7. 在同時懂舊體詩和nlp的人眼裡,這些詩的水平,比生成的新聞報道的水平都還差得遠。從數據數量的角度上來說,做現代文也好詩也好,比做舊詩容易太多了。假設有個指標評價「模擬程度」,普通文本生成打5分的話,舊詩的文本生成最多2分。

8. 只是很多人不懂nlp,更不懂舊詩。


相同水平的現代詩不需要NLP,只需要print("
")


1. 古詩嚴格的詩詞格律要求,對人是個壞事,學習這些搭配格律判斷押韻等等需要很長的時間。但是對機器來說,反而是好事,學習這些詩詞格律約束是機器的強項(機器對死記硬背比較在行),這些約束降低了機器生成文本的搜索空間,因此對機器是比較簡單的。
2. 簡單也只是相對其他文體而言 ,詩詞格律的約束對機器不難,難的是詩的流暢性,意境連貫性等比較高層的東西,這些對人比較容易,但是對機器反而是比較難的。


這個問題應該分類為編程。


有規則規律可尋的東西,機器做起來都比人容易,但是人心是機器無論如何也無法模仿的。古詩的格律,韻,對仗,節奏都是1+1的固定形式,對人來說要背,要記,機器又不用。


很簡單,因為現代詩和散文你就能看懂他在胡說八道。


這個。。。像模像樣?

等會踢完實況我來逐句分析下吧。

踢完實況,我來補充一下。

記李將軍歸來

由於生成器往往告訴我們,生成的詩歌是李白寫的,那麼按照李白的時代背景,李將軍應當是唐時人。
為了偷懶,我在某網站上單純搜索了李白寫給同宗友人的詩作,共四首,對象分別是李邕、李青、李騰空、李光弼
顯而易見,這裡的李將軍應當是指李光弼李太尉。

李太尉做過些什麼壯舉需要隆重紀念歸來的呢?
李白自己寫過一首《聞李太尉大舉秦兵百萬出征東南懦夫請纓冀申》,我們姑且認為這裡記李將軍歸來是指的征東南歸來。

由於這首詩是七句,那就應當是古詩,而非近體。那我們就不管格律了。

馬馳塞北孤煙起

然而首句寫的是馬馳塞北。征東南為什麼要跑到塞北去?難道李大將軍已然知道地球是圓的,打算聲東擊西?

蓉開半朵冬已歸

第二句完全不知道是幹什麼的。塞北有蓉,我也是第一次聽說。然後冬已歸?也就是說蓉開半朵之時,剛好是冬天來臨,李將軍歸來之日。然而這兩個概念放在一句話裡面,我只覺得湊湊湊。(真難編)

出師五載安天下

唔,五年搞定了。然而我記得袁晁起義,自李將軍出征之後,歷經了十來年才結束啊?

軌轍半淺瘦駒羸

軌轍半淺是什麼鬼。車轍快被風沙掩蓋么了?聯繫上下文五載和瘦駒,好像還說的過去。
不過,出師五載,天下太平了,你好歹說點神馬啊,天下太平了你還在抱怨馬吃不飽,是不是閑的蛋疼。

經緯滄桑天下事

出征平叛和經緯滄桑是什麼關係?你是要跟李將軍在宴席上暢談天下么?
人家打了勝仗你居然不祝賀人家!

紀史初衷戒後生
人本菩提事事輕

人家打了勝仗你還寫詩告訴在場的小廝,別去想什麼打仗啊封侯啊這些有的沒的了。我來告訴你們,這些都是虛妄,你應該像我一樣神馬都不管。來來來喝酒!
咦,詩裡面居然沒有寫到酒?
詩裡面居然也沒有韻?
= =這難道真的是詩?

我要是李將軍我會鬱悶死。老子辛辛苦苦平了叛,你給老子寫首說老子打仗是沒什麼用的事兒的詩。
你是存心要氣死老子吧。

李白,卒。


首先:
因為處理有規律的事情,機器比人更高效。
所以機器存在自動生成古詩的可能性。
不過機器無法創造流派(用詞可能不準確)。
所以:
只要給定規則,機器可以生成很多看似不可能的事物。
就好比「計算器」的存在。
我個人對古詩不太了解,不知道這些機器生成的古詩,算不算的上合格的古詩,所以這方面的內容不多說。


狗屁不通,毫無主旨。


這tm也能叫古詩?除了是7個字一句你告訴我哪tm是古詩?一說就來氣!中國傳統文化里最精粹語言文字現如今居然被糟蹋成這樣子!李白要是知道被這樣侮辱,躺在墳里能把棺材板啃穿!


劉慈欣《詩云》


頷聯跟頸聯根本不對仗啊,這不是詩


好歹湊個八句出來啊


聽上去順,神TM冬天芙蓉開半朵,還有,芙蓉和慶祝勝利有關係?


推薦閱讀:

為什麼計算機學科的論文不給出具體的參數、代碼、數據集來方便實驗重現呢?
如何評價「谷歌用神經機器系統把漢語翻譯成英語,錯誤率最高下降85%」?
如何向文科同學科普自然語言處理(NLP)?
想進 Google,Facebook 等公司,校招前一段時間是用來實習還是刷演算法題?
目前常用的自然語言處理開源項目/開發包有哪些?

TAG:自然語言處理 | 詩詞 | 唐詩 | 自動生成 |