仙與聖:李白、杜甫寫詩用字分析(唐代詩人寫詩用字分析之一)

唐詩,被視為中國詩歌的巔峰,從《唐詩三百首》到《全唐詩》均已融入中國人生活的方方面面。唐朝,被譽為詩歌的黃金時代,中國最偉大的一批詩人均來自這個時代。在這個詩的黃金時代,無數詩人懷著對社會、自然、人生的不同認識寫下來了無數著名的詩篇,這些詩句或浪漫、或壓抑、或悲天憫人、或飄逸洒脫。在這個時代,無數偉大的詩人以自己一生的時間,用一個個美麗的漢字堆砌出了一個奇幻瑰麗的世界,初唐陳子昂的《登幽州台歌》就是對唐詩最好的註解:」前不見古人,後不見來者「。

如果有一個中華詩詞名人堂的話,入選的將會大多是唐朝人。雖然中國沒有詩人名人堂,但是歷代文人對於唐代各詩人詩歌的水平評價早有公論。如飄逸絕倫的李白被稱為詩仙、悲天憫人的杜甫被稱為詩聖、自然脫俗的王維被稱為詩佛、為詩痴狂的白居易被稱為詩魔、璀璨多彩的李賀被稱為詩鬼、詩風豪邁的劉禹錫被稱為詩豪。本文就從這幾名最為著名的詩人著手,並結合後代人所寫的另一文體——宋詞,分析下唐代詩人寫詩用字的偏好。

唐詩和宋詞的比較

本文使用《全唐詩》文本作為素材進行分析,先選出大量的停用詞(如」誰」、「來」、「更「等無實際意義的代詞、動詞、副詞等)建立停用詞表,並對文本進行分詞統計,其統計結果如下:

《全唐詩》出現文字top20(除去停用詞)

採用柱狀圖只能表示有限的信息,作為補充我將出現頻率前1000的詞除掉停用詞後繪製出詞雲如下:

《全唐詩》出現文字詞雲(除去停用詞)

唐人最喜歡吟誦自然意象,如出現文字前20中自然意象就有「雲」、「春」、「月」、「日」、「山」、「花」、「風」、「秋」、「寒」、「玉」、「水」、「夜」、「樹」、「天」等14個,佔據70%。作為對比,我還分析了宋詞,分析文本為《全宋詞》:

《全宋詞》出現文字top20(除去停用詞)

《全唐詩》出現文字詞雲(除去停用詞)

作為唐詩的「後輩」,宋詞中使用頻率第1的意象文字是「春」,這一漢字在唐詩中排名為第3;唐詩中排名第1的「雲」字,在宋詞中依然表現強勁,排在了第3位;但唐詩中排名高居第2的「君」字則大幅度下滑到了宋詞中的第19名,這一現象可能和唐宋時代對人稱呼發生變化有關;此外,唐詩中排名第7的「花」字,在宋詞中排名則飆升到了第2,這一現象是否也與社會變遷有關就不得而知了。

接下來,我將會選出唐代六位大詩人,對他們的詩中的用詞進行分析。

李白篇

李白是唐代最偉大的浪漫主義詩人,關於他的個人信息無需多講,下圖展現了他寫詩時喜歡用的字詞前10:

李白詩使用字詞top10

李白詩詞詞雲

從上圖我們發現,李白使用字詞前10與全唐詩整體使用字詞前10相比,有五個字是一樣的,分別是『雲』,『君』,『日』,『月』,『山』,『秋』。這可能是由於受到當時詩歌風氣影響,詩人吟誦的意象較為固定所致。為了分析出詩人的個性,我將每個單獨的詩人詩句所用字詞中的在唐詩總體排名前十的字詞去掉,得到較為個性化的寫詩用字詞。李白的個性化用詞排名如下:

李白詩個性化用詞top10

李白個性化用詞詞雲

『歌』是李白一生最為重要的寫照,李白放聲狂歌了一輩子,留下了無數與「歌」相關的名句。「與君歌一曲」(《將進酒》)、「笑坐雕鞍歌落梅」(《襄陽歌》)、「我本楚狂人,鳳歌笑孔丘」(《廬山謠寄廬侍御虛舟》)……甚至就連杜甫寫給李白的那首不朽的《贈李白》也是與歌相關:

秋來相顧尚飄蓬,未就丹砂愧葛洪。

痛飲狂空度日,飛揚跋扈為誰雄。

「水」是唐詩中的重要意象之一,在唐詩用字詞排行總榜單中,「水」字也排在了第十二名。傳說李白也死於水中。我心中李白寫水寫的最好的莫過於那首《夢遊天姥吟留別》:

世間行樂亦如此,古來萬事東流。別君去兮何時還,且放白鹿青崖間,須行即騎訪名山。安能摧眉折腰事權貴,使我不得開心顏。

「天」是萬人仰望的方向,也是李白最喜歡寫的意象之一,《蜀道難》中他反覆吟唱行走蜀道之難,類似上天;《將進酒》中他說黃河的故鄉是青天,也豪邁的說到「天生我材必有用」;《飛龍引》中他要「騎龍攀天造天關」;《獨漉篇》中他說:「我欲彎弓向天射」。他關於天的詩讓我最為印象深刻的就是那首充滿無限想像力的《夜宿山寺》:

危樓高百尺,手可摘星辰。不敢高聲語,恐驚上人。

除了這三字以外,其餘七個李白最喜歡吟唱的字:「玉」、「心」、「金」、「笑」、「愁」、「酒」、「道」其實都在某種程度上是他一生性格與命運的映射:「心」如璞「玉」、揮「金」如土、縱」酒「狂歌、且「笑」且「愁」、一生都在漂泊的「道」路上。

杜甫篇

比李白小11歲的杜甫以風格渾樸沉鬱著稱,杜甫和寫詩風格洒脫的李白並成為「李杜」。杜甫的詩較多反映社會的各種狀況,表達了他憂國憂民的情懷。杜甫所寫詩歌中所用字詞排名前10的為:

杜甫詩使用字詞top10

從上圖中可以看出,杜甫詩中使用頻率最高的詞中除了「江」、「道」之外,其餘八字都與《全唐詩》使用頻率前十的字詞一致。杜甫的個性化用字詞前10如下:

杜甫詩個性化用詞top10

杜甫個性化用詞詞雲

「江」是杜甫使用頻率最高的個性化用詞,即便不去掉全部唐詩中使用頻率前10的字詞,杜甫中「江字」使用頻率也位於第3。如今的「江」字泛指大的河流,但是在古代,「江」字則獨指長江。杜甫詩中「江」字頻率如此之高,與他生命的最後十年曾多次徘徊、流落於長江流域有很大的關係。安史之亂後期,杜甫幾經輾轉到達成都,後又全家定居於長江邊上的奉節,長達兩年。在杜甫再度返回成都後不久,他所依靠的嚴武去世,杜甫不得已再度攜帶家人流浪。這次流浪就是沿著長江進行的,他先後到達今天的嘉州、宜賓、重慶、忠縣、雲陽、奉節。公元768年,他再度輾轉長江邊上的江陵、公安、岳陽,並在770年病死在長江支流湘江舟中。杜甫的這一西南長江漂泊時期的作品有《水檻遣心》、《春夜喜雨》、《茅屋為秋風所破歌》、《病橘》、《登樓》、《蜀相》、《聞官軍收河南河北》、《又呈吳郎》、《登高》、《秋興》、《三絕句》、《歲晏行》等千餘首,占他全部詩的百分之七十以上,這也直接導致了杜甫詩中寫「江」的如此之多。杜甫晚年寫「江」的詩不僅多,而且有很多的千古名篇,其中《登高》被譽為「七律之冠」。

風急天高猿嘯哀,渚清沙白鳥飛回。

無邊落木蕭蕭下,不盡長袞袞來。

萬里悲秋常作客,百年多病獨登台。

艱難苦恨繁霜鬢,潦倒新停濁酒杯。

「道」在唐詩中大概有三種意思:1、天地萬物的演化運行機制;2、唐代的行政區劃名;3、道家、道教的簡稱;4、道路;5動詞「以為」。唐詩中「道」大部分指道路,所以,「李白篇」中將「道」只說成道路雖並不完全正確,但也勉強說的過去。試想,那些人會一直吟誦和道路相關的詩句呢?應該只有那些一直漂泊的人吧。杜甫有首《憶昔二首》歷史教科書喜歡拿出其中兩句反映盛唐之繁華,但是杜甫寫這首詩的時候,中華大地的道路上則已經遍布豺虎。

憶昔開元全盛日,小邑猶藏萬家室。

稻米流脂粟米白,公私倉廩俱豐實。

九州路無豺虎,遠行不勞吉日出。

齊紈魯縞車班班,男耕女桑不相失。

宮中聖人奏雲門,天下朋友皆膠漆。

百餘年間未災變,叔孫禮樂蕭何律。

豈聞一絹直萬錢,有田種穀今流血。

洛陽宮殿燒焚盡,宗廟新除狐兔穴。

傷心不忍問耆舊,復恐初從亂離說。

小臣魯鈍無所能,朝廷記識蒙祿秩。

周宣中興望我皇,灑血江漢身衰疾。

「水」,如李白篇中提到的,為唐詩常用意象,杜甫的少有的歡快作品《飲中八仙歌》中有一句:「知章騎馬似乘船,眼花落井水底眠」。此外,古代除了「江」指長江,「河」指黃河外,其它河流一般被稱為「川」或者「水」,如漢江古代被稱為漢水。杜甫詩有一首《麗人行》,便描寫了長安曲江邊上楊氏姐妹的奢華春遊party:

三月三日天氣新,長安邊多麗人。

態濃意遠淑且真,肌理細膩骨肉勻。

綉羅衣裳照暮春,蹙金孔雀銀麒麟。

頭上何所有,翠微匎葉垂鬢唇。

背後何所見,珠壓腰衱穩稱身。

就中雲幕椒房親,賜名大國虢與秦。

紫駝之峰出翠釜,水精之盤行素鱗。

犀箸厭飫久未下,鑾刀縷切空紛綸。

黃門飛鞚不動塵,御廚絡繹送八珍。

簫鼓哀吟感鬼神,賓從雜遝實要津。

後來鞍馬何逡巡,當軒下馬入錦茵。

楊花雪落覆白蘋,青鳥飛去銜紅巾。

炙手可熱勢絕倫,慎莫近前丞相嗔。

除了以上三字之外,其餘七字:「愁」、「天」、「雨」、「州」、「書」、「馬」、「病」。

「愁」表達了他在亂世中強烈的的「上憫國難,下痛民窮」的社會責任感;

「天」為唐詩中常用意象,在《全唐詩》中使用頻率排在第19位,杜甫的一句「安得廣廈千萬間,大庇下寒士俱歡顏」足以流傳千古;

「雨」為唐詩中常用意象, 在《全唐詩》中使用頻率排在第24位。關於雨,杜甫有千古名篇《春夜喜雨》:「知時節,當春乃發生。隨風潛入夜,潤物細無聲。野徑雲俱黑,江船火獨明。曉看紅濕處,花重錦官城。」;

「州」在唐代大概相當於現在市,《全唐詩》中使用頻率為79,但在杜甫詩中頻率非常高,這是由於他一生(特別是生命的晚期)一直在全國各州流浪、逃難相關;

「書」字在唐代一般指代書信,杜甫長期流浪,當然期盼家人和友人的書信,他的《清明》中有一句:「古時喪亂皆可知,人世悲歡暫相遣。弟侄雖存不得,干戈未息苦離居」;

「馬」在《全唐詩》頻率排在第41,這說明唐代人十分依賴這一交通工具。杜甫則可能是長期外出的原因,對馬尤其具有感情;

「病」字在杜詩中如此之高的頻率說明杜甫身體狀況一直欠佳,學術界一般認為杜甫患有糖尿病,杜甫的《 同元使君春陵行 》中寫道:「我多長卿病,日久思朝廷。肺枯渴太甚,漂泊公孫城」。長卿病是指司馬相如患有的消渴症,即糖尿病。

微博:孔令遠

頭條號、微信公眾號:彩色說

推薦閱讀:

當我們從事數據崗位時我們需要會什麼
R語言實戰—02-創建數據集
基於新浪微博的男女性擇偶觀數據分析
Python 數據分析學習路線

TAG:可視化 | 數據分析 | 唐詩 |