俄漢文學翻譯語料庫的創建——基於契訶夫短篇小說的語料庫設計與實現

05-02

提　要：基於契訶夫短篇小說所創建的俄漢文學翻譯語料庫是一個以俄語經典文學作品及其中文譯本為語料的雙語平行語料庫。創建本語料庫的主要環節包括：語料文本的選擇與加工、語句屬性的確定與標註、搜索功能的支持與擴展以及用戶體驗的設計與維護。本語料庫創建的重要思想之一在於使用互聯網平台進行語料庫的搭建與運行。大眾用戶能夠充分利用互聯網平台完成數據共享與研究交流。

關鍵詞：平行翻譯語料庫；俄漢文學翻譯；契訶夫短篇小說

一、引言

作為一種新興的語言學研究工具，語料庫指的是「運用計算機技術，按照一定的語言學規則，依據特定的語言學研究目的而大規模搜集並儲存在計算機中的真實語料。這些語料經過一定程度的標註，便於檢索，可用於描述研究與實證研究」（王克非 2012:9）。語料庫的創建與應用，能夠很大程度上簡化語言研究者搜集整理語料的過程，可為研究課題提供有力的數據支持。隨著各種語料庫的大量創建與語料庫數據研究範式的確立，語料庫語言學應運而生。一批國內外的學者圍繞著語料庫的創建與統計原則展開了研究，取得了豐碩的成果。已建成的大型語料庫包括：英語的朗文語料庫（LONGMAN）、英國國家語料庫（BNC）、美國國家語料庫（ANC）、俄語的俄羅斯國家語料庫（НКРЯ）、漢語的北京大學《人民日報》標註語料庫等。

近年來，雙語語料庫、翻譯語料庫、雙語平行語料庫越來越受到研究者們的關注。這幾類語料庫採用語言描寫的方法，真實地將兩種原創語言（源文/譯文/多版本譯文）進行對比再現，對翻譯研究、翻譯教學、對比語言學研究、雙語詞典編撰、機器輔助翻譯與翻譯軟體開發等具有重要的應用價值。

我國俄語界對語料庫的研究主要可以分為三個方面：一是依託俄羅斯國家語料庫（Национальный Корпус Русского Языка）所作的相關研究；二是自建俄語語料庫，按照預設的研究目標，使用一些文字處理軟體對語料庫的數據加以分析總結；三是自建俄漢雙語平行語料庫，進行雙語對比研究。總的來說，基於單語語料庫的研究成果相對較多，但雙語語料庫的研製與應用尚處於起步階段。這正如王克非指出的：「基於單一語言語料庫的研究成果非常豐富，基於雙語語料庫開展的語言對比分析還不多見，這主要是因為雙語庫的建設難度較大，相對滯後」。同時，從語料庫應用的角度來看，較之單語庫，雙語庫有著更廣泛的應用空間。俄漢文學翻譯語料庫可以很好地應用於翻譯教學與翻譯研究，如果再輔以互聯網平台運行與開放使用，必將服務於更多用戶群體。本文將以契訶夫短篇小說及其三個中文譯本為語料對象，探討俄漢文學翻譯語料庫的創建以及互聯網模式下語料庫應用平台的搭建與運行。

二、基於契訶夫短篇小說的俄漢翻譯語料庫的創建

2.1 語料庫創建目的與應用定位

由文學大師創造的經典文學作品是一個民族智慧的結晶，它使民族語言得到了完好的保存與高度的凝練。同時，原著的經典譯本也是外國文學研究的熱點之一。同一部經典作品往往擁有多個版本的譯文。將原著與多個譯本聯繫在一起，進行原著與譯本、譯本與譯本間的對比研究，符合現代翻譯學、現代語言學重視言語、對語言進行描寫式研究的發展趨勢。而計算機技術的發展使原著及多譯本語料的搜集、存儲、標註、搜索及統計成為可能；互聯網技術的發展為多用戶在線訪問、發表評論及用戶交流提供了保障。

基於契訶夫短篇小說及其三個譯本所創建的俄漢翻譯語料庫能夠幫助研究者在掌握大量語料的基礎上將定性研究與定量研究結合起來，從而更好地輔助翻譯教學與翻譯研究。

2.2 語料的選擇

語料（文學文本）的選擇是俄漢翻譯平行語料庫創建的第一個重要環節。在確定作家和具體文學作品時，需要考慮作家的知名度、譯本的多樣化、作品內容的代表性、語言的規範性以及語言現象的豐富程度等因素。契訶夫是俄羅斯文學的卓越代表人物之一，其作品語言以精練準確見長。他的作品被中國讀者廣泛熟知，中文譯本較多，便於進行翻譯文本的平行對比。在契訶夫的大量作品中，短篇小說的成就最為輝煌。作為一個短篇小說大師，契訶夫的短篇小說數量最多，題材最為廣泛。課題組過廣泛搜集和多方比對，將以下短篇小說選定為語料庫的首批錄入作品： ?Анна на шее?（《掛在脖子上的安娜》）、?Ванька?（《萬卡》）、?Палата № 6?（《第六病室》）、?Смерть чиновника?（《一個文官的死》）、?Толстый и тонкий?（《胖子和瘦子》）?Хамелеон?（《變色龍》）、?Человек в футляре?（《套中人》）、?Крыжовник?（《醋栗》），收錄於1983-1986年間 ?Наука?出版社出版發行的30卷本?Полное собрание сочинений и писем в 30-ти томах?（《契訶夫作品全集》）。對應的漢語譯本則選取了汝龍（契訶夫小說全集. 上海譯文出版社, 2000）、馮加（契訶夫中短篇小說集. 譯林出版社, 2011）、沈念駒（契訶夫短篇小說精選. 浙江少年兒童出版社, 2009）三位翻譯家的譯本。

2.3 語料的加工

語料的質量決定了語料庫的可靠性，所有數據須經過初步處理後方可錄入計算機中。語料文本的處理主要分以下步驟進行：

（1）語料採集。隨著信息技術的不斷發展，互聯網上已能搜索到契訶夫短篇小說作品的俄語、漢語文本。課題組下載電子版後與紙質版原文仔細校對，經過整理後分別保存為格式統一的txt文檔。

（2）文本處理。為方便電腦讀取和顯示，需對文本格式進行統一化處理：俄語文本使用半形標點符號，漢語文本使用全形標點符號，每個自然段段首不保留空格，段與段之間不保留空行。

（3）段落劃分。由於俄漢語言間的差異，加之譯者的個人因素，有些譯文並沒有完全按照原文段落的自然順序來翻譯。考慮到今後語料的平行對比，課題組以俄語原文的章節、段落劃分為基準，對相應的漢語文本重新進行了段落的劃分。同一段俄語原文及其三個譯本為一組段落，每組段落均賦予一個獨立的Paragraph ID，便於進行數據的索引。

（4）語句對齊。語句層面同樣以俄語為基準，將漢語文本與原文一一對應[1] 。由於文學作品在翻譯時經常出現語序的調整，故這一步驟暫由人工完成，而新聞、科技等其他語體可使用SDL Trados[2] 內置的WinAlign等工具自動進行，完成後仍需進行人工校正。同一句俄語原文及其三個譯本為一組語句，每組語句均賦予一個獨立的Sentence ID，並且與其所屬段落的Paragraph ID相對應，便於定位數據的歸屬，使語料庫各組成部分間存在明確的層次結構。

圖1. 契訶夫短篇小說俄漢文本的語句對齊

（5）數據導入。先前步驟已完成句子層面的初步處理，為便於計算機存儲和管理這些數據，需將每一組已對齊的語句及對應ID製作成一條記錄，生成xml格式的數據表，並導入到SQL資料庫中。

圖2. 已對齊語句生成的xml數據表

2.4 語料屬性標註

標註是指以統一的標準來標示語料文本所具有的特徵，並將數據用二維表結構進行邏輯表達，使信息的性質和量值出現在固定的位置，實現數據的結構化，以便根據特定條件篩選出符合相應需求的語料。例如，俄羅斯國家語料庫設置了被搜索詞句的「辭彙—語法特徵」篩選功能，具體從語法特徵、語義特徵、補充特徵、片語特徵等幾個角度設置了120多個屬性選項；又如北京大學的《人民日報》標註語料庫，從26個基本詞類、專有名詞和語言學角度對所有的語料進行了多達40餘項的標記，幫助用戶精確定位所需信息。

在向語料庫錄入數據時，首先需要標註語料庫對象文本的元數據，即描述數據及其環境的數據，包括語言、版本、作者、出版信息等：

圖3. 契訶夫短篇小說俄漢翻譯語料庫元數據標註界面

為便於從原文及各個譯本中篩選出含有一定特徵的語句加以研究，錄入語句的同時還需定義其獨有的屬性欄位，即語句屬性的標註，據此可在語料庫中進行更詳細的搜索。俄漢翻譯語料庫檢索所需的標註屬性劃分亦尚無現成案例可以套用，如要達到一定的精度和可信度，需要有一套相對科學和嚴謹的屬性標準。根據俄譯漢的教學與翻譯研究需要，課題組對原文及譯文進行了三個方面的屬性標註，具體為：「語法範疇」、「修辭範疇」與「翻譯技巧」。其中語法範疇指的是原文自身的語法屬性，具體包括「單部句類型」與「動詞非變位形式」；修辭範疇分為原文修辭與譯文修辭兩部分，其中原文修辭主要包括「俗語、習語、諺語、成語」、「辭彙情感色彩後綴」、「人名稱謂」、「比喻」與「借代」，譯文修辭包括「四字格」、「正反義詞」、「疊詞」與「象聲詞」；翻譯技巧主要包括「增譯」、「減譯」、「成分改變」、「斷句」與「合句」。

人工標註的優勢在於能夠完成機器無法識別的一些屬性標註，可以為研究者提供更有針對性的屬性檢索與面向某一具體屬性的定量研究材料。例如，原句語法屬性的標註能夠幫助使用者便捷地一鍵搜索到所有帶有相關屬性的句子，大大節省了閱讀與記錄的時間，同時又能同步查看不同譯本的翻譯方法與角度；而翻譯技巧的屬性標註則揭示了譯者們對原文的不同處理方式，能夠有效地保障多譯本模式下不同譯者翻譯風格的定量與定性研究。

圖4. 契訶夫短篇小說俄漢翻譯語料庫語句屬性標註項

同時，人工屬性標註的不足之處也是顯而易見的，這種標註方式耗時長，需要大量人力資源的保障，很難快速處理海量文本，其準確性難免受到標註人自身知識水平的限制。但由於目前俄文信息處理技術的限制，俄語語句屬性的自動標註在實際操作中不易實現，語料的整理標註工作十分艱辛，大量的手工操作是必不可少的。為了保證標註的準確統一，課題組定期檢查標註錯誤並及時糾正，使錯誤發生的概率降到最低。

圖5. 契訶夫短篇小說俄漢翻譯語料庫語句屬性標註界面

2.5 語料庫檢索功能開發

語料的檢索是語料庫面對用戶最重要的核心功能之一。而俄語辭彙具有變化繁雜、詞形眾多的特點，如只對一種詞形進行搜索，則須進行多次操作方能獲得較為全面的結果；若通過模糊搜索等方法擴大檢索範圍，得出的結果往往包含大量不需要的信息。對此，課題組深入研究，刻苦攻關，實現了包含俄語基本辭彙所有詞形變化的語料檢索功能。

契訶夫短篇小說俄漢翻譯語料庫的檢索功能開發立足於俄羅斯著名語言學家扎里茲尼亞克的主編的《俄語語法詞典》（Грамматический словарь русского языка）。這是一本俄語詞形變化詞典，全書共收錄詞條近10萬個，詳盡地給出了這些俄語辭彙可能發生的所有變化方式，並進行了列舉和分類，歸納成索引符號。該詞典的電子化版本奠定了眾多計算機運行俄語程序的基礎，涵蓋拼寫檢查、搜索引擎、機器翻譯等諸多領域，為俄語國家的現代化建設做出了重要貢獻。

課題組通過《俄語語法詞典》所列的詞形變化，歸納出俄語基本辭彙形變的具體演算法，結合詞典中提供的特例，利用計算機根據詞條自動處理，整理出常用俄語辭彙的詞形列表[3] ：

圖6. 俄語基本辭彙詞形變化列表（部分）

搜索功能的運行流程可分為輸入、回溯、檢索、輸出四個步驟。假設其中一個俄語單詞的原形為A，其所有變化形式為A1, A2, A3… An，搜索時輸入的關鍵詞為Ax，那麼程序就會將關鍵詞與詞形變化列表進行比對，據此判斷出Ax屬於A1~An中的一項，再逐個對A1~An進行搜索，最終向用戶返回完整的搜索結果。

例如A為單詞原形человек，A1, A2, A3… An則為其所有可能出現的變化形式：человек, человека, человеку, человеком, человеке, люди, людей, людям, людьми, людях。當用戶輸入的關鍵詞Ax為человеку時，程序將判定出該詞屬於集合{человек, человека, ..., людях}，並分別以человек, человека, ..., людях作為關鍵詞檢索，並整合查找到的結果，最終反饋給用戶的結果如下：

圖7. 契訶夫短篇小說俄漢翻譯語料庫對「человеку」一詞搜索的結果（部分）

2.6 語料庫存儲和使用平台的構建

當前國內俄漢翻譯平行語料庫建設已實現語料在本地資料庫的存儲，並開發了相應的語料處理工具和管理系統。這些方法已可滿足較為初步的基於俄漢對照的翻譯教學與研究，但仍存在兩個問題：1、數據未能存儲在雲端，且缺少開放的外部用戶界面，本地域之外使用較為不便，移動性不強；2、依賴管理系統應用程序，僅能在特定操作系統運行，迭代開發較為繁瑣，兼容性不強。為滿足不同的教學和研究需要，課題組經過廣泛調研和深入分析，提出具有普適性的語料庫平台基本框架，以便在線進行內容管理和數據檢索。

該平台不同於傳統語料庫的C/S結構（Client/Server，客戶端/伺服器模式），採用B/S結構（Browser/Server，瀏覽器/伺服器模式），將系統功能實現的核心部分集中到伺服器上，簡化了系統的開發、維護和使用；採用MySQL關係型資料庫管理系統，具有體積小、速度快的特點，並可通過索引功能以加快數據檢索操作；編程語言採用JSP，可在所有平台的任意環境中開發、部署、擴展；運行環境為輕量級應用伺服器Tomcat，適合語料庫這類中小型系統和並發訪問用戶較少的場合，運行時佔用的系統資源小，擴展性較強。該平台具有以下優勢：

（1）使用方便，隨時隨地均可進行語料檢索；

（2）兼容性強，在Windows、Linux、Mac OS等各種操作系統上均可正常使用；

（3）類型開放，可建設多語種、多語體、多版本、多種標註屬性的平行語料庫；

（4）易於維護，可任意增刪語料庫或語料數據，技術升級和版本迭代更為簡便；

（5）程序輕量，可流暢運行；

（6）免去安裝，可直接使用。

目前契訶夫短篇小說俄漢翻譯語料庫的後台管理和前台檢索系統已基本完成開發，錄入數據7116條，總計78萬餘字，並通過相關備案手續（京ICP備12033280號），進入試運行階段，網址為 http://www.rucorpus.cn/。

圖8. 俄漢翻譯語料庫檢索系統高級搜索界面

圖9. 俄漢翻譯語料庫檢索系統搜索結果詳情頁

在語料庫系統層級結構方面，該語料庫可按照語體劃為不同的分類，同一分類下可按作者、題材等添加多個語料庫，每個新添加的語料庫均可按作品、來源等容納多個素材，繼而劃分素材段落，並對語句進行標註，具體結構如下圖所示：

圖10. 契訶夫短篇小說俄漢翻譯語料庫層級結構

三、語料庫使用體驗優化

為更好地滿足用戶需求，提升用戶體驗，俄漢翻譯語料庫檢索系統加入了一系列人性化的功能設置，方便廣大俄語學習者和研究者使用。

（1）搜索時如不需要遍及關鍵詞的所有詞形變化，可勾選「精確匹配」，系統將只搜索用戶輸入的詞形。

（2）在網站註冊的用戶登陸後，每條搜索結果都帶有收藏按鈕，點亮即可加入收藏，以便多次查詢或異地調取先前搜索結果，用戶可在自己的收藏夾查看已保存的結果。

（3）語料詳情頁面設置了評論功能，並且支持使用微博等社交平台賬號登錄和分享，以便收集用戶反饋，提升語料庫的內容和服務質量。

（4）課題組建立了以俄語語料庫為主題的互動社區，為廣大語料庫使用者和研究者提供資源共享和在線交流的平台，網址為 http://bbs.rucorpus.cn/。

四、當前存在的問題和今後的發展方向

由於國內俄漢平行翻譯語料庫的研究剛剛起步，加之課題組仍處在相對初級的探索階段，俄漢翻譯語料庫檢索系統還存在著許多值得改進之處，這也將成為課題組今後努力的方向：

其一，目前僅完成部分契訶夫短篇作品的錄入與標註，文本量相對較小，且語體和語料都較為單一，未來將擴大範圍、充實內容，製作托爾斯泰小說作品、俄語新聞報刊等語料庫。我們將嘗試通過內容智能採集工具，自動獲取俄語國家新聞網站的最新信息，實現千萬詞級、實時更新的動態語料庫。

其二，依靠人工進行屬性標註的效率較低，無法應對大量文本的標註。但人工標註是對文學等靈活性較強的語體進行屬性標註的必經之路，也為語料屬性的分類和框架構建奠定了基礎。隨著技術的不斷進步，我們將來必定能夠藉助大數據分析、人工智慧等手段，實現語料屬性的自動標註。

其三，目前語料庫較偏重語法屬性的標註，屬性標註的分類和框架仍需完善。今後項目組將會繼續積極進行探索和實踐，增加語義、語篇等類型的屬性標註，並將各類語義詞典的演算法導入語料庫，強化搜索功能。

五、結束語

契訶夫短篇小說俄漢翻譯語料庫的創建是一次大膽的嘗試，它將文本素材數字化，對詞法、句法和譯法進行屬性標註，強化搜索功能，輔以互聯網在線的形式，力求服務於廣大俄語學習者與研究者。作為國內首個面向大眾用戶的俄漢在線語料庫，該語料庫不僅解決了當前國內俄漢語料庫存在的移動性和兼容性問題，還在滿足用戶需求與用戶體驗優化等方面的進行了創新與研發。

俄漢雙語平行語料庫的研發任重而道遠，期待俄語界同仁共同努力，不斷開發出更有應用價值的不同層面的語料庫，為俄漢語料庫的相關研究添磚加瓦。鑒於篇幅所限，該語料庫的應用研究將另文探討。

[1] 需要指出的是，這樣處理雖然保證了俄漢語料語句層面的對齊，卻丟失了漢譯本在語篇處理方面的一些信息，即譯文和原文表達順序上的異同不能在語料庫中直接反映出來。對此課題組的解決方法是：為語句標註「斷句」與「合句」屬性，同時在語句搜索結果中呈現其所在段落，供查詢者參考。

[2] Trados是基於翻譯記憶庫和術語庫技術的計算機輔助翻譯軟體，為快速創建、編輯和審校高質量翻譯提供了一套集成的工具，更多介紹可參閱 http://www.trados.com/。

[3] 為減輕檢索時伺服器的負擔，部署至正式環境的詞形列表需去除每個詞條中重複出現的變化。

參考文獻

安?巴?契訶夫. 契訶夫短篇小說集——變色龍[M]. 馮加, 南京: 譯林出版社, 2011.

安?巴?契訶夫. 契訶夫小說全集[M]. 汝龍, 上海: 上海譯文出版社, 2000.

安?巴?契訶夫. 契訶夫短篇小說精選[M]. 沈念駒, 杭州: 浙江少年兒童出版社, 2009.

陳紅. 俄語語料庫的標註[J]. 中國俄語教學, 2012(2).

崔衛, 李峰. 俄漢—漢俄平行語料庫的構建設想與應用展望[J]. 中國俄語教學, 2014(1).

崔衛, 張嵐. 俄漢翻譯平行語料庫及其應用研究[J]. 解放軍外國語學院學報, 2014(1).

李紹哲. 俄語語料庫和基於語料庫的語法研究[D]. 黑龍江大學, 2012.

孫敏慶. 基於俄語國家語料庫的俄語動詞語義句法量化研究——以視覺動詞смотреть為例[J]. 解放軍外國語學院學報, 2013 (6).

王克非. 語料庫翻譯學探索[M]. 上海: 上海交通大學出版社, 2012.

張祿彭, 張超靜. 自建語料庫在俄語教學中的應用[J]. 中國俄語教學, 2012(3).

Зализняк А. А. Граматический словарь русского языка[M]. Москва: АСТ-ПРЕСС, 2010.

Старостин С. А. Русские словари и морфология[EB/OL]. http://starling.rinet.ru/morph.htm, 1998.

Чехов А. П. Полное собрание сочинений и писем в 30-ти томах[M]. Москва: Наука, 1983-1986.

作者簡介

劉淼（1979-），研究方向為俄語語篇語言學、俄語語料庫語言學。

郵箱：liumiaobisu@126.com

邵青（1989-），研究方向為俄語語料庫語言學。

郵箱：roblinka@qq.com