漢字之間有無必要引入空格以方便斷句?
【參考來源】http://www.kaixin001.com/repaste/68643296_4281749599.html
比如以下兩個句子增加空格後可以方便對「天真」的理解:
- 今天 真 熱,我 想 開 空調 了。
- 孩子們 很 天真、很 可愛。
歧義是無法完全避免的,漢語在不空格的情況下已經可以達到令人滿意的消歧水平了,如果真想一點歧義都沒有,那就麻煩送佛送到西,給每個詞標註詞性,再連接成parsing tree,如果有語義標註那就功德無量了,冒昧代表Chinese Treebank以及各位NLP做到頭大的童鞋們感謝您。
漢語若脫離漢字書寫系統轉向拼音化,則必須加空格,以減少同音詞的語義混淆。有一個現成的例子是韓語,韓語書寫時需要「隔寫」,就是加空格,否則會有閱讀困難。而漢字在字型仍舊部分表意的狀態下,空格並不是必要的。
為了千分之一的邊緣情況去變動整個書寫系統,這種想法太愚蠢了。
確實有些斷句歧義難以處理,但如果連「今天真熱」、「孩子們很天真」這種斷句都搞不定,那真得去考 HSK 了。 需要的不是全面引入空格,需要的是不同行業、不同領域的人都約定自己領域內的附加書寫規則。通用的書寫規則必然有無數解決不了的邊緣問題,這些問題需要靠隨機應變的「擴展」解決,而不是大動干戈地去修改總則。謝@譚樊馬克邀。英語使用者有心理基礎的最小單位是word,所以word之間才有空格,而漢語使用者有心理基礎的最小單位是「字」而不是「詞」,所以字和字在形體上分開就足夠了。很多答主也提到詞間加空格能排除的歧義相當有限,但付出的代價卻很大。另外有些情況是不是「詞」本身就是存在爭議的(比如「雞蛋」「牛肉」),但目前這種爭議對實際應用沒有影響,如果漢語引入詞間加空格,必然會對這些情況逐一規定,增加的麻煩更多。
如果是給人看的,空格不但不能方便閱讀,反而會增加閱讀的困難。
不過如果是電腦識別,對於中國特色搜索引擎,增加空格往往可以減少不必要的「麻煩」:- 8口 交換器
- 爭做 愛心市民
- 曹操 逼迫漢獻帝
- 共產黨員先進性 交流活動
- 你媽 逼你來相親
別笑,我是認真的
遇空抽詞是英文檢索一大優勢,漢語在這塊確實有很大的劣勢。但是你要中國人改變這麼多年的習慣,談何容易?再說現在的趨勢也是以用戶為中心,國人的書寫習慣也是要必須重視的。你要相信,這樣的問題仍有可解決的方案。尤其是現在從信息轉入到知識層面,關聯數據、本體等一些技術的發展與成熟,在一定程度上都可以解決這個問題。而且,現在往智能方向發展,檢索的抽詞已經不再是以詞為單位了,以句子、段落、以及整個文本的抽取都是有可能的。只不過這些都還在研究階段。如果你是信息檢索這個專業方向的學生,你大可往這個方向發展。樓主給的鏈接,通俗的講,是讓機器理解語言,因為我是學信息檢索的,有些相關,所有就有了我上面一段的想法。但是再看樓主的問題,以及後面的一些看法,就跳躍到人的理解了。這個不是我所學範圍之類,只能談個人感受。首先,我們無法忽視閱讀習慣;第二,這樣的方法是否畫蛇添足?是加強了理解,還是減弱,或者沒有影響,都不太可知。我聯想到,當標點並未引入中國時,那又是如何閱讀和理解的呢?第三,是否可以這樣來說,行文格式是理解的影響因素之一,那影響的程度如何?是否能夠達到樓主所言,在行文上達到對詞的區分,就能加強理解呢?第四,我記得當年我小學剛學閱讀的時候,是用「/」在句子中把詞隔出來,這是用於初學者。在一定程度上,是能提升我的斷句能力。是否又有必要推廣到更大的範圍呢?第五,有些行文,是具有一定格式的,譬如有些怪癖的現代詩,加空格,怕是要破壞原有的行為格式,因而會破壞原有的意義呢?初步想法,歡迎拍磚!!!
這個我正好看過相關研究,因為畢業論文的關係。心理和語言學上,空格的問題就是「詞切分」的問題。拼音語言里空格分詞的效果是有顯著幫助的,包括日語。但中文的詞切分比較簡單,大多數單詞是1-2個漢字,字的樣子也和發音一定程度分開,對詞切分的依賴應該沒有拼音語言那麼強烈。但終究不做過實驗還是不能隨便下結論的。詞切分作語言認知中一個重要的環節,研究並不少。從目前的研究結論來看是,對有基礎閱讀能力的人來說,中文沒有必要用空格來切分詞。但也不至於一些人說的那樣有負面作用。各位覺得不舒服單純是習慣問題。
- 《Reading Spaced and Unspaced Chinese Text: Evidence From Eye Movements》里做了2個實驗
- 第一個實驗對比了4種情況:正常無空格、詞間空格、非詞空格、字間空格。結果表明,詞間空格文本和正常無空格文本一樣好讀。
- 第二個實驗不用空格,用高亮標記(highlight)來模擬空格的分組效果。結果也是類似的
- 《詞切分對初學者句子閱讀影響的眼動研究》和上一個研究類似,但是針對小學三年級學生,做了3個實驗,結果趨勢一致:小學三年級學生在閱讀有詞間空格的文本和正常的無空格文本一樣容易。閱讀技能低的學生在閱讀過程中更依賴於文本的低水平視覺線索
- 《可預測性和空格對中文閱讀影響的眼動研究》中對比了3組: 正常無空格、詞間空格、非詞空格。結果表明, 正常無空格條件和詞間空格條件的閱讀難度相同。但是正常無空格的文本的平均注視時間顯著比有空格分詞的長,可能因為無空格引人使得文本的漢字密度大,包含的信息量大,被試需自己進行詞切分,從而造成注視時間增長。
- 《詞間空格對國小正常及閱讀困難學生閱讀效率之影響》結論為詞間空格對正常閱讀能力學生來說和閱讀無空格形式文本相同,而對閱讀困難學生則是有幫助的。
- 《兒童和成人閱讀中的眼動控制 詞邊界信息的作用》也認為
- 在中文閱讀過程中,詞之間插入空格 (或者採用陰影標記詞) 對兒童和成人的總體閱讀效率均不會產生任何程度上的干擾。
- 而且詞間空格在辭彙加工的早期階段表現出明顯的邊界分割優勢,在同等程度上提高了兒童和成人的辭彙搜索速度,促進了兒童和成人的早期辭彙識別 。
- 《詞切分與字間距對引導式漢語文本閱讀工效的影響》的結論是不同步幅下的閱讀工效差異顯著, 其中3字/步條件下的閱讀績效最高,但詞切分並未能提高閱讀績效
另外考慮到實際上詞間空格對於被試來說是一種新的中文文本呈現方式 , 在熟悉度和接受度上均存在著差異。如果有熟悉的閱讀者,沒準會閱讀效率略微高一點。上面講到的研究里,也發現詞間空格條件的首次注視時間、凝視時間、總注視時間較短,注視次數較少、跳讀率更,這些都是優勢。另外,我們用空格分詞是因為方便,但或許空格這個距離並不是最佳方案,等等。
中文閱讀的單位是詞(Rayner, Li, Pollastek, 2007)。大量的認知科學研究表明,詞在閱讀認知加工過程中起著非常重要的作用。詞切分如果對閱讀沒幫助那反而是奇怪的事。按照E-Z讀者模型來說,詞間空格也提高跳讀率。其實我在想另一個問題,為什麼我們會有不空格就可以斷句的能力?
我想漢語作為母語的教學和學習的過程中,有一個環節十分常用且獨特,就是在漢字的輸入是通過大量的組詞造句而完成的。
所以漢字更多的是通過雙音節或多音節的詞語在腦海中的凝固印象來識記,而且這些詞語在完整的句子中是"高亮"的。
所以無論這個字或詞語出現在任何的句子中都會被語感慣性自動"分詞"斷句。「古生物學家」←如何斷這個詞?
- 「古 生物學家」:是指古代的生物學家嗎?
- 「古生物 學家」:貌似靠譜,但「學家」好像不是個詞吧?
- 「古生物學 家」:是說「古生物學」的「家」(home)?
- 「古 生物 學家」:OMG,這下可好,上面三條的毛病都佔了。
- 「古生 物學 家」:何棄療?
在很長的句子、成分又容易混亂、讀者往往要細看兩三遍才能斷句的那種少數情況,也許引入空格是不錯的辦法。我一般是打引號來解決這種情況。
但提問者舉的這兩個例子完全不必空開吧。是中國人都會斷句吧。打空格純屬增加寫作者負擔同時也讓讀者很彆扭吧。也許這樣可以降低機器理解的難度。我。了個。擦。這種。想法。簡直。是。安妮寶貝。入。骨髓。了。
我有時候在書寫郵件的時候會把人名或者易於產生歧義的詞用空格分開,但我一定不會想把所有的詞都這麼干。
支持 "漢語引入空格"的做法.
1 適當的添加空格,的確有助於提高對一句話的閱讀理解水平和理解速度2 空格加的好可以錦上添花, 但肯定不是必要的3 加空格無法形成統一的規範. 補充1 其實英文不加空格分詞也能看懂的,就是費力一些2 不感覺漢語無空格費力是因為習慣了費力的做法, 而且沒有接觸到更省力的做法
-----------------------------------------------------------------------------------------------空格會打亂句子的連貫性,妨礙讀者整體理解
如果這個邏輯通的話, 標點符號也是"妨礙讀者整體理解"
空格分開的恰恰是句子中聯繫不緊密的地方, 有助於區分句子成分.空格不但不能方便閱讀,反而會增加閱讀的困難
這種觀點是建立在"我已經有了很高的漢語閱讀水平,並且完全適應了沒有空格的書寫方式"基礎上的.
對於漢語水平較低的人,或者適應了"有空格的書寫方式"的人,肯定是有"空格的書寫方式"更好.通用的書寫規則必然有無數解決不了的邊緣問題,這些問題需要靠隨機應變的「擴展」解決,而不是大動干戈地去修改總則
引入空格並非"大動干戈", 僅僅是在標點符號
歧義是無法完全避免的
引入空格的目的是讓歧義更少, 讓句子含義更一目了然. 而非完全解決這個問題.
補丁只為 bug 而生
自己寫不清楚,自然就需要額外的輔助了
1.降低書寫速度,降低工作效率
2.與常年形成的閱讀方式不符,反而不便於語言理解
3.連貫書寫存在的極少量二義性可用等意的無歧義句替代,故無需採取加空格的形式對句意加以明確
綜上所述,加空格書寫為典型的過度設計,不應採用。
不過在進行計算機對自然語言識別工作中,要是人們說話書寫都以這種方式那就方便多了。樓 主的 問題 很 有趣;
對於學習漢語的人來說,這樣是多了一點點方便;能方便理解還能一定程度的減輕歧義呢,但是對於母語是漢語的人來說用處不大。甚至是可操作性不高,如果要我書寫要空格的話,會抓狂,哈哈哈例如:按照樓主在詞與詞之間增加空格的方法,
「北京市長春藥店」 增加空格後1)北京市 長春 藥店。
2)北京市長 春藥 店南京 市長 江大橋等等這樣的句子能減少歧義,但是 通過語境是可以看得出是春藥還是長春……那麼這個句子----------我家 門前 有條 水溝 很 難過。 這個難過…………~~還記得一個笑話: 點名看到一個人的名字很奇怪,竟然叫 木棍;其實人家叫木木 昆。林昆寫名字的時候 要寫 木木 昆完全沒必要改變漢語的習慣,除非用到有歧義的句子。
參考題主舉的兩個例子,我想我有充分的理由懷疑題主是台計算機。
咬死獵人的狗
我試過,就是用空格代替雙引號、書名號、破折號和單引號,空格後的內容類似英文的斜體,效果很好,原因在於:1.寫或輸入空格,比寫引號或者設置斜體等簡便;2.也能應對嵌套的需要斷句的情況。
推薦閱讀:
※原始漢語(Proto-Chinese)從原始漢藏語分出以後,由SOV到SVO的語序變化是怎麼出現的?
※「有+動詞」表過去式符合現代漢語語法嗎?
※修辭到底是怎樣界定的,關於一些句子的修辭?
※關於「連」在現代漢語中的用法?
※漢語中「來著」一詞用法來源是什麼?