能否僅僅通過語法構詞分析掌握一門完全陌生的語言?

在電影 普羅米修斯 里,David學習地球了上各種語言的構詞語法後,就可以通過外星人飛船上留下的幾個符號,掌握外星人的語言。這從語言學的角度來說可能嗎?

當接觸完全陌生的一套語言文字系統,沒有掌握這門語言的人來教的情況下,有可能僅僅通過一段文字 來掌握文字中各個符號的含義嗎?


謝題主喵。

如果語料有限的話,我的回答是,不能。

我這裡所說的有限,是指:

  • 沒有這門語言的母語者的指導;
  • 接收到一段總詞量在500詞以下的文本(500相當於CEFR的A1水準,是非常入門的水準了;總體看來,詞量越少、辭彙重複幾率越低的話,困難就會越大);
  • 沒有與現有任何一種語言對譯(包括句法對譯、辭彙對譯),沒有發現任何與現有語言的親緣關係;
  • 且沒有語音記錄(實際的讀音記錄)或沒有語音對照(比如說某個符號發什麼音)。

一旦以上四個條件有一個不滿足,那麼能夠解讀的幾率應該會有顯著提升。

接下來我就來解釋一下為什麼不太可能。說實話這個問題我意外地有發言權——因為我真的干出過這種事情來……

如果說現實世界中的例子, @鄧博元 所說的線形文字A是非常好的實例,不過相比我碰到的例子,線形文字A還算是線索比較多的了(因為就出土位置及前後考古成果,特別是線形文字B的存在,可以有一些比較可靠的猜想);既然題主問的是《普羅米修斯》的外星人,那麼我也就以另外一個外星人的虛擬故事來作答。有關這件事的瘋狂記錄,我曾經寫在了豆瓣日誌里:有關canonical Gallifreyan語言的一些無責任推測。

我當時研究的語言,是Doctor Who中的Gallifreyan;這種虛擬語言剛好完美地滿足了以上所有四個條件,而且它給出的信息比實際的線形文字A有限且更為散亂。根據劇集的設定,Gallifreyan一共有三種不同的書寫方案,卻從來沒有一個完整的發音系統(網上所有所謂的Gallifreyan的轉寫都是不符合設定的——事實上BBC根本就沒有給出一個完整的設定),也從來沒有任何關於語法的提示,並且它的情況比普通的人類文字複雜多了:人類文字是一維線性排列的,而Gallifreyan則有一維線性和二維環狀兩種不同的排列方式。

這是早期《五個博士》里Rassilon墓穴的Old High Gallifreyan。

這是第四代博士見到的Modern Gallifreyan的其中一種變體。

而這是05版DW重啟之後Tardis顯示屏上的Circular Gallifreyan。

說實話,如果前兩張圖多少還像是語言的話,那麼第三張圖已經完全不能被稱為「人類可以理解」的語言了。而如果我說這三種書寫方法對應的很有可能是同一種語言,我覺得可能很多讀者都已經瘋了……

如果要在沒有母語者的輔助下對一種陌生的語言進行破解,我們必須需要確認,這門語言和人類的語言有一定的相似之處(沒有相似之處的情況,可以參看姜峯楠的《你一生的故事》;事實上《你一生的故事》的強大之處就在於它突破了人類語言的界限),也就是說,我們需要在語言分析中分拆出音素和語素這兩個基礎要素。

在沒有語音記錄的基礎上,如果要分拆出音素的話,就必須首先知道當前手中的文字是表音文字還是表意文字——如果文字系統本身我們就很熟悉(比如拉丁系統,或者可以對應到已有表音文字系統)那也就罷了;碰上我們並不熟悉的文字,這一點的難度就會明顯上升,因為我們沒有任何語音記錄,不知道這串玩意兒讀什麼,也不知道每一個看似可以劃分的最小節到底表達了幾個音,不知道在哪裡構成音位對立。如果是表意文字的話,我們可能甚至很難知道同一個文字在不同情況下到底有沒有不同的音(這也是為什麼我們無法否認上古漢語有屈折或黏著的可能,因為我們不知道讀音會不會表現屈折或黏著現象)。

在沒有語義對譯、沒有歷史傳承線索的基礎上,我們也很難分拆出語素,因為我們無法知道一個詞表達的是什麼含義,和它構成最小對的詞到底是在音素上有差別還是在語素上有差別。而如果無法分拆出語素,我們就很難保證能夠了解這門語言的結構形態(typology)——它到底是孤立語、綜合語還是多式綜合語呢?時間的表達是依靠時態還是依靠副詞等因素呢?我們都無從知曉。沒有形態,自然也就很難更進一步到達句法層面,而沒有句法,就……還是不要談論「學習語言」了。

這種無力感,並不是學了語言學、了解了世界上可能存在的構詞法與語法規則就可以解決的。我自己在面對Gallifreyan的時候就是這種感覺:我大概知道世界上可能會有什麼形態的語言,但是我不知道我接觸到的這個新語言是什麼形態的;可以是表音文字,可以是象形文字,不管是孤立語還是綜合語每一種形態都有可能,這樣算下來,就一段文字,我可以有十多種甚至幾十種完全不同的猜想,而要推翻或者驗證這些猜想,我需要更多的語料才行——可惜沒有。我甚至不能保證我接觸到的這個新語言不是一個特例:托爾金的昆雅語是表音的,星際迷航的克林貢語是表音的,可Gallifreyan卻有可能不是表音的——就它的複雜書寫方式來看,很有可能是表意乃至於是語素文字。對於完全陌生的語言,如果是人類語言的話,我們多少還能有點譜;但是像題主原題所說的「非我族類」的語言,我們必須時刻警惕:誰知道外星人和我們的腦子會不會一樣呢?

說回兩年前的Gallifreyan研究吧。我當時把電視劇里能找到的所有的Gallifreyan文本、特別是Circular Gallifreyan文本全部綜合起來(一共也就是幾十個圓),又是考慮彼此之間的傳承,又是考慮音素表達和語素表達能夠達到的實際形態(因為肯定不可能是象形表達),最後也只是有了一個不成熟的對其結構的猜想;我甚至無法確定這門語言到底有沒有可能在讀音上出現屈折或黏著現象,從而只是猜測這有可能對應人類的孤立語。而由於缺乏辭彙之間的對譯,我即使看到這些符號,也很難明白到底是什麼意思,離完全破解這門語言,顯然還差了幾百個250000000光年的距離。這至少可以說明,一個具有相對比較豐富的語言學知識的人,在文本有限的情況下,也是難以通過語法和構詞法分析完全掌握一門語言的。

可能有人會說,「你做不到,又不代表別人做不到」——對此我意外地覺得特別有道理無法反駁,雖然我自信智商和推理能力應該不會太糟糕;網上也的確出現了一些基於英語讀音的Circular Gallifreyan轉寫法,但是我很確定它們是不符合DW原設定的,因為它們是基於英語而非獨立語言製作的,缺乏必要的語言學基礎,寫出來的形態也與現有設定相差甚遠。我一直很悲觀:除非BBC出了一套完整的設定集,否則我們大概永遠都不會知道Gallifreyan到底是如何表意的,可是BBC真的會有閑心出嗎……

就在今年四月份,各個大學的大四生在攢畢業論文的時候,有個網友豆郵我說,看到了我寫的Gallifreyan語結構分析,非常感動,想拿這個玩意兒做畢業論文。

我給她的回復是:何必和一個電視劇過不去呢,大家多少都只是說著玩玩而已。

而其實我更想說的是阿虛的那句名言:

(好的地圖炮,一定要打死自己才行呢。)大概就這樣喵。


只憑一小段完全陌生的文字是不能的,語言學界和考古界有個著名的例子叫線形文字A。

要達到解讀的目的,必須要有足夠的語料和考古學上與已知語言存在關聯的證據。


推薦閱讀:

如何評價清華大學第二十屆「搜狗杯」智能體大賽?
如何在短時間內學習多agent(有翻譯成智能體or代理)建模?
計算機虛擬可活動人腦神經細胞模型,這消息是真是假?算是重大突破嗎?對今後腦科學與人工智慧有多少影響?
Amazon Mechanical Turk 前景如何?
在做出「只用 Linux 不用 Windows」的決定前,有什麼需要注意的?

TAG:人工智慧 | 語言 | 語言學 | 自然語言 | 抽象 |