有哪些現代分析方法可以用於解決「紅樓夢續寫爭議」?有哪些例子?

剛剛看到另一個問題忽然想起的,提取紅樓夢前80回和後40回的內容分析若干語言特徵等進行對比按理說應該可以得到更科學一點的結論吧?想知道有哪些方法/概念可以用於類似的目的,如果有相關的現成的文獻,書籍也請指一下~


我自己來一發!從文體的角度~

統計整部《紅樓夢》里頻率最高的100個字(最好是100個詞啦),

了的不一來道人是說我這他你去著也兒玉有寶個子又賈里那們見只太便好在笑家上么得大姐頭聽就出回知日要下都心事二老過話還起自如看叫到沒兩母些時之今小問因奶等鳳娘可什呢忙夫想面才爺中王打進此倒罷樣吃和正姑無幾

分別統計它們在各章的頻率,用PCA搞一下:

紅色的是前80回,藍色的是後40回,還是挺理想地分開了嘛~

具體用法上的區別的話,前80回的作者「一」用得比較多,後40回的作者「不」用得比較多,像這樣:

因為是用高頻字作的分析,所以因為情節不同帶來的用詞上的影響被最大限地排除了(應該

當然,我是隨便從網上爬來的文本,可靠性值得懷疑,以上內容僅供娛樂~


----補充說明一下----

這個答案的手法屬於「計量文體學」(或其他名字)的常用手法,學術界用統計方法研究文學的有很多,像《紅樓夢》這樣的超大作更是熱點,(國外)一有新方法肯定第一個被拿來試驗。(好吧,我不是這個圈子的研究者啦,推己及人了...

我來答題是為了娛樂自己和大家的。(盡量多圖少字,不浪費大家寶貴的娛樂時間)
如果感興趣的話請自行搜索一下這個學科,還有不少其他有趣手法呢。


1、參考:
基於計算機的詞頻統計研究
作者把紅樓夢分為3部分(A部分1~40回、B部分41~80回、C部分81~120回),運用檢索程序統計出三個部分副詞出現的次數,然後求A與B,A與C,B與C之間的相關係數,結果r(ab)、r(ac)、r(bc)相差甚微,因此作者認為後四十回為同一人所作。

個人覺得這種方法最不可靠。
2、參考:
http://fuzhii.com/2016/01/16/redmansions/?utm_source=tuicoolutm_medium=referral
原理:每個作者寫作都有自己的用詞習慣和風格,即使是故意模仿也會留下很多痕迹。在文言文中,文言虛詞分布均勻,書中每個回目都會出現很多文言虛詞,差別在於出現頻率不同,我們把文言虛詞的出現頻率作為特徵。
作者把將 20~29 回(詩詞曲比較均衡)作為類別 1 的學習樣本,將 110~119 回作為類別 2 的學習樣本。
特徵選取:(56個詞)
[ "之", "其", "或", "亦", "方", "於", "即", "皆", "因", "仍", "故", "尚", "呢", "了", "的", "著", "一", "不", "乃", "呀", "嗎","咧", "啊", "把", "讓", "向", "往", "是", "在", "越", "再", "更", "比", "很", "偏", "別", "好", "可", "便", "就", "但", "兒", # 42 個文言虛詞 "又", "也", "都", "要", # 高頻副詞 "這", "那", "你", "我", "他" # 高頻代詞 "來", "去", "道", "笑","說" #高頻動詞]
然後將兩個類別的特徵向量(每一回中出現的頻率)輸入到 SVM(支持向量機) 進行訓練得出一個分類模型。再對剩餘回目進行分類,看它們分別偏向於哪個類別。
結果:
1~80
[ 1. 1. 1. 1. 1. 2. 2. 1. 1. 2.
2. 1. 1. 1. 1. 1. 1. 1. 1. 1.
1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
1. 1. 1. 1. 1. 1. 1. 1. 1. 2.
2. 2. 1. 1. 1. 1. 1. 2. 1. 1.
1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
81~120
[ 1. 1. 2. 1. 1. 2. 2. 1. 1. 2.
1. 2. 2. 2. 2. 2. 2. 1. 2. 2.
1. 2. 2. 2. 2. 2. 2. 1. 2. 2.
2. 2. 2. 2. 2. 2. 2. 2. 2. 2.]
結論:前 80 回屬於一類,後 40 回屬於一類,80 回左右是分界點,後 40 迴風格不同於前 80 回
謝邀,我只是搬運工。


正好我們在做的 lexos 就是專門解決這個東西的。。。而且紅樓夢是經典的 test case 之一。。(因為這個 project 中國人很多。。。)

然後,放一下地址
web app: Lexos
源碼:GitHub - WheatonCS/Lexos: Python/Flask-based website for text analysis workflow.

然後我們的 testSuit 裡面就有紅樓:
Lexos/TestSuite/Experiments/Chinese/ClassicalChinese/紅樓夢HongLouMeng_Dream_of_the_Red Chamber at master · WheatonCS/Lexos · GitHub

okay,好的,我們來看看這個會發生什麼吧。

具體的指南可以看這個文件:
Lexos/_README_HongLouMeng_Dream_of_the_Red_Chamber.txt at master · WheatonCS/Lexos · GitHub

把它 scrub 和 cut 完了以後 (後 40 章分成四段,前 80 張分成 8 段)
然後我們用 Hierarchical Clustering 然後每個詞定義為兩個字元長:

完美的分成了兩個 cluster

然後用 kmean:

發現後四十章的完美的被擠到了左下角。。。

大概如此。。。我不是搞文學那邊的,這個軟體還有其他的用途,但是有了 result 我完全搞不懂這些 result 都是幹嘛的。。。這個是兩個比較好的 result。。。

--------------------------------------------------------------------------------------------
更新。。。我又偷偷用了 jieba 做了一下分詞上傳了上去。。。

然後 Silhouette Score 升高為了 0.7123,這個看起來不錯了。。。
然後依然兩個 40 和 80 完美分開。kmean 我好像發現了一個 bug。。。


昨天看《草木緣情》,說前八十回提到的植物非常多,後四十回少了很多,且都是常見的植物或中藥材。


第一次讀完紅樓夢的時候,關於鳳姐識字與否的前後矛盾,加上詩詞水平和回目水平的急劇下降,立刻覺得不太對勁。當時,還並不清楚續書討論的事情。

所以,不管專家如何分析,我都不改變我本能地觀點,即續書說。

至於用語言分析的方法來分析續書作者,十多年前做紅學研究的時候看過大概十幾篇,但具體有哪些書不是全記得了。簡單說一下。

高本漢在50年代寫的一本書《中國文法的探險》,選取《紅樓夢》中的虛詞進行分析,認為前八十回與後四十回使用了同一種方言。80年代初,陳炳藻、趙岡用電腦統計的方法,得出了和高本漢相近的結論,但曹清富、陳大康等人同樣做電腦統計分析,得出階段後四十回為續書。而同樣採用了選詞進行分析的統計學家李賢平,經過多種統計模式分析,認為前後大體一致。近年來也有不少著作,比如唐友忠的《紅樓夢後續作者考釋》,觀點是續書非原作,其觀點有:「一語未了」,前八十回獨出 40次,而語氣詞「嗎」,後四十回獨現 74 次之多。「生日」的同義詞,前八十回就有「壽日、壽辰、千秋、生辰、芳辰、芳誕、壽誕、聖誕、華誕」等九個,後四十回則只有「生辰」一詞。第三十八回「黛玉釣魚」,文言詞有十個,「四美釣魚」僅兩個;書面語,前部有十個,後部僅有一個;前部無一處兒化,後部卻有五處。前部寫黛玉釣魚,一語帶過;後部寫四美釣魚,卻十分詳盡。等等。書很厚,沒法全部轉述。

在我看來,後四十回是衰敗情節,加上結局的虛化,必然寫實性不如前八十回,另外續書必然殘缺不全經過了改寫,所以簡單的統計恐怕不能作為證明。

也有人提出前八十回南方方言更多,後四十回北京方言更多,但如果高鶚是對原稿進行修改補作,那麼也可以理解。所以語言統計研究似乎不可能照顧到所有情況的考慮。

我剛去知網上搜索了一下,沒有賬號,所以只能搜索不能下載——

光最近五年就有研究文章十餘篇,包括范昕的《中國古典小說〈紅樓夢〉中的元語言》、陳琳的《〈紅樓夢〉敘事元話語及其模式構建》、劉澤權的《〈紅樓夢〉敘事標記語及其英譯———基於語料庫的對比分析》、肖強的《〈紅樓夢〉前80回和後40回敘事結構的元語言標記對比研究》等等。

單拿2015年來說,清華大學中文系的劉穎、肖天久兩位同學發表了多篇論文,如《〈紅樓夢〉計量風格學研究》(紅樓夢學刊)、《〈紅樓夢〉詞和N元文法分析》(現代圖書情報技術)等,列舉了無數結論,證明續書非同一作者。而洛陽師範學院數學科學學院的聶淑媛,以《兒女英雄傳》作為對比研究,通過考察各組前後用字、詞的相關程度,論證後四十回的作者確系曹雪芹。

總而言之,我覺得這個方法再怎麼深入,也只能用來支持本來就相信某種立場的人。因為任何一種方法拿去分析其他作者的作品,恐怕會同樣出現不同的結論,畢竟……這不科學。


這個嘛,其實早就有人用計算機的文本分析分析過紅樓夢了,但是沒有一個令人信服的統一結論。高票答案說前後的用詞風格相差很大,但是還有人發過文章說兩者是接近的,可以說明作者是同一個人,跟誰說理去?


我一直強烈地支持AI,直到我發現它有一天可能被用來續寫紅樓夢,這讓我感到恐慌。


過去曾有人用統計的方法對用詞進行分析,結果竟然能得出完全相反的結果,分別證明後四十回是一個,或不是一個人寫的。


竟然沒有人提到安鴻志
《趣話概率 : 兼話《紅樓夢》中的玄機》
內容我就不複述了,可以去圖書館查閱.


紅樓夢就和維納斯一樣,沒法續


有一個比較初級的例子 記得是檢驗勃朗特去世後她家人出版的她的剩餘作品是否為她所寫。檢驗的方法是非參的某種頻數檢驗(抱歉記不太清了)具體就是將這幾本與原來的[簡愛]等作品中某些特定辭彙出現的頻率進行對比。


.


我怎麼連你的題目都沒看懂┏ (^ω^)=?
前面幾個答主好牛。
不論寫什麼,就只理解能力都讓人佩服。


目前所有方法得到的歷史結論大都只是猜測論證,最暴力直接科學的方法就是,坐等時光機的發明!


推薦閱讀:

神經網路,人工智慧這塊怎麼入門?
如何看待國人的論文SARM作者將論文從nips撤稿?
對於 Quant 來說, Financial Modeling 和傳統的機器學習方法有什麼聯繫和區別?
Softmax 函數的特點和作用是什麼?
如何評價rcnn、fast-rcnn和faster-rcnn這一系列方法?

TAG:語言 | 數據分析 | 機器學習 | 自然語言處理 | 紅樓夢(小說) |