尋找詞語的邊界–––寶寶詞語習得的第一步

最近開通新專欄,有關狹義的語言學,以及廣義的認知科學相關內容。話題包括但不限於,兒童語言發展、雙語教學、第一/第二語言習得、自閉症、語言功能障礙、語言與人類認知等範疇。作者皆為美國一流大學語言學相關專業的博士、博士後、PI等。每周一更,公眾號首更,歡迎關注該專欄,以及對應微信公眾號:認知科學

讀者若對某個特定相關話題感興趣,也可以在評論中提出,作為作者們未來選材的範圍。

------------------------------------------------------------------------------------------------------------------

作者: 雪爺

兒童早期學習新的辭彙,主要是通過把詞的發音(也就是外界提供的語音信息)和詞的意思(即指代物品)聯繫起來。我們在特意告訴孩子某個物品的名字的時候,往往只是單獨說這個詞的發音(比如指著一隻喵星人,只說 「貓」)。然而更多時候,孩子們所接收到的語音信息是連續的。比如說,我們告訴他們,「這是一隻貓」,「那隻貓萌翻了」。這個時候,他們是怎樣從連續的聲音當中分解出一個一個的辭彙呢(word segmentation)?喵星人的名字到底是「貓」,還是 「只貓」,還是 「貓萌」 呢?這就是我們今天要介紹的內容——如何找到詞語邊界 (word boundary)。

學界最普遍引用的一個解釋,就是我們在之前的文章也提到過的,統計性學習(statistical learning)。

比如說,對於pretty baby這個短語,如果是文字的話,兩個詞之間是有個空格的,我們可以很容易發現這是兩個詞,可是,如果是有人對著寶寶說,「oh,what a pretty baby you are!」 寶寶們怎麼才能知道pretty baby是由pretty和baby兩個片語成的,而不是pretty和baby兩個 「詞」 組成的呢?

這就是一個尋找詞語邊界的任務:對於在一個句子里連續出現的任意兩個音節,寶寶們要決定它們是屬於同一個詞內部的,還是跨越了兩個詞的邊界的[1]。而統計學習的假設就是,如果A和B屬於同一個詞,它們一起出現的可能性是P1;如果A和B不屬於同一個詞,而是跨越了兩個詞的邊界,它們一起出現的可能性是P2;把很多句子平均下來,P1應該是穩大於P2的。很有道理是不是?一個物體的不同部分一起出現的可能性一定會比不同物體的兩個部分一起出現的可能性大啊!

說到這裡,這個貌似無法解決的問題似乎有了某種解法:寶寶們只要能追蹤音節和音節之間連續出現的可能性就可以了!不過,這個解法似乎好難啊是不是?我們自己是否能做到?其實,8個月大的寶寶們就已經可以做到啦!那麼,科學家們是怎麼知道寶寶們能做到的?

首先,他們發明了四個簡單詞語,bidaku, padoti, golabu,和 tupiro,這裡每個詞語都有三個音節(比如說,bi,da,ku就是第一個詞的三個音節;然後他們把這四個詞語用不同順序串聯起來(同一個詞不會連續出現兩次),形成一個2分鐘長的詞語大串聯,差不多是這個樣子滴:(途中用不同顏色標註了不同的詞語,但是寶寶們接收到的是沒有標記的哦,就是一大坨音節不帶任何間隙串聯起來被讀出來而已)

然後他們給寶寶們播放這個2分鐘的音頻,寶寶們只需要聽,不用做任何其他事情。注意,這一大坨音節之間存在以上說的規律:屬於同一詞語的兩個音節(比如bidaku裡面的da和ku)一起出現的概率比跨越兩個詞語的兩個音節(比如bidaku裡面的ku和padoti裡面的pa)一起出現的概率要高;在這個設計中,前者是後者的三倍。好了,這個階段是教學階段 (teaching phase),用來模仿寶寶們接收到的連續語音信號。接下來是測試階段嘍 (testing phase),目的是看看寶寶們通過這2分鐘的接觸,有沒有發現一大坨音頻裡面的四個詞語;比如說,他們是否知道bidaku是一個詞,而kupado則不是。

怎麼測試呢?很簡單,給寶寶們播放兩種音頻,一個是單獨呈現的「詞」(比如bidaku或者padoti),一個是單獨呈現的「非詞」(比如kupado或者tigola),然後比較一下他們對這兩種音頻的興趣是否有顯著區別就好啦!當寶寶聽到「非詞」的時候,就會好奇:這是什麼鬼?這幾個音節不是一家子的啊,幹嘛要單獨一起出現?寶寶們在無意識地 (implicitly) 分析、處理他們所接收到的音波信號,並可以利用其中的統計規律來作為劃分詞語邊界的依據。統計性學習在語言習得的方方面面都有所應用,在非語言學習中亦是。以後有機會我們可以多聊一些其它的例子。

最後,需要注意的是,這種通過音節共同出現的概率 (transitional probability) 來尋找詞語邊界的方法並不能保證準確無誤,也不是唯一的方法。寶寶們可能還會利用連續音波中的節奏變化來輔助完成這個任務。以後有機會我們再繼續這個話題。

------------------------------------------------------------------------------------------------------------------

我是彩蛋

你們自己想不想試一試統計學習的實驗呢?可以到這個網站來看一看:Language in Mind

------------------------------------------------------------------------------------------------------------------

參考文獻

[1] Saffran,J. R., Aslin, R. N., & Newport, E. L. (1996). Statistical learning by8-month-old infants. Science, 274(5294), 1926-1928.

------------------------------------------------------------------------------------------------------------------

微信公眾號:認知科學


推薦閱讀:

劇透 | 歡樂頌3中,關雎爾將變成下一個安迪?!
女孩子被富養是怎樣的感受?
家長不可錯失的6個學齡前兒童必備學習神器
親戚家的熊孩子弄髒了自己的東西,應不應該讓其賠償?

TAG:语言学 | 儿童教育 | 认知科学 |