怎樣創建一個用於外語教學的語料庫?

想做一個用於教學的個人語料庫。

主要針對某語言考試。

其他方面還完全是小白。因為這學期有語料庫語言學的研討課,跟著老師慢慢入門吧。

P.S:我直接把我的建庫要點補充在這裡,各位可以參考,其他語種的大牛分享自建語料庫的經驗也歡迎。謝謝大家啦!

小規模靜態語料庫,不需要具有平衡性和代表性。

作為德語教學輔助;針對參加德福(Test-DaF)口語考試的考生。

通過與母語者材料對比進行錯誤分析。


學習英文,尤其是寫作,無論是學術類寫作,比如雅思,托福,GRE,論文等,或是非學術類寫作,很多人往往卡在一些疑問上面,試舉幾例:

  1. 我可不可以說「get on a car」?
  2. 我是應該用「a」還是「the」,還是都不用?
  3. 別人如何提出觀點?
  4. and,but這種詞到底能不能用在句首?
  5. look forward to/dedicated to等短語後面的動詞應該是用do還是doing形式?
  6. 對於我感興趣的某一個話題,作者是如何展開討論的?
  7. 我該用哪一個介詞,比如是discussion on還是in?
  8. 某個詞最常見的搭配是什麼?

卡在這些疑問上面是很糟糕的一件事情。本來組織思路和保證語法正確就已經很困難了,這些疑問就又處處設置了攔路虎。於是在寫作的過程中,就不斷地翻字典,上網找例句,反而將「完整完成一篇的作文」這個真正的目標拋在腦後,結果文氣中斷,越寫越沒有信心,最後不了了之。

另一方面,這類問題往往在字典中找不到答案。字典的重點是解釋單詞本身的意思,但往往不能給出一個單詞在實際中的常用搭配。比如,可以在字典中查到定冠詞「the」的完整釋義,但是你依然搞不清楚到底應該是用「go to cinema」還是「go to the cinema」;再比如,當要表達「濃茶」的含義的時候,到底應該用「strong tea」還是「powerful tea」?字典往往無法回答這樣的問題。在面對這樣的疑惑時,大部分人通過知乎或者搜索引擎解決,這樣效率未免太低。

這類問題雖然無法在字典中找到,可是答案就在觸手可及的互聯網上。想像一下,網上有海量優質的英語資源,其中必然包含了所有的英語慣用用法,你所需要的就是在這些浩瀚資源中找到答案。當某種用法重複出現的次數越多,就意味著這是最普通的慣用法,也就是你所尋找的答案。困難在於,搜索引擎沒有提供針對海量英語資源的專門檢索。

不過,還好你們有我,我現在來告訴你如何建立自己的專屬英語語料庫。再遇到上面的問題自己一個人完全搞定。

1,什麼是專屬語料庫?

我強調專屬語料庫,是因為你可以根據你此刻的需要來建立專門的語料庫。例如,你是數學專業,正在寫英文畢業論文,那麼你可以圍繞「數學」建立語料庫,這樣不但可以知道專業術語的慣用法,也可以從搜索結果中學習到本領域最優秀的學術著作是如何論述一個問題的。對於專屬語料庫,大致歸為以下幾類:

  • 考試類學術寫作:四六級,考研,雅思,托福,GRE等等

這些考試的寫作部分都屬於學術寫作範疇。每一個考試,網上都有非常優質的語料資源。以雅思為例,最權威的是官方出版的《劍橋》系列,可以將這套書最後的作文範文製作成一個專門的語料庫,配合搜索,你可以在官方範文找到自己具體的疑問。

  • 論文寫作

上面以「數學」舉了一個例子。這裡需要提醒的是,語料庫越大,搜索結果就越好。從質量上,盡量選取本領域最權威的著作或者paper作為語料庫,建議至少選擇30篇以上的論文。

  • 非學術類寫作

新概念,美劇,小說等等都可以建立成語料庫。

  • 將自己的英文寫作作文建立成一個語料庫。

你可以用這個語料庫不斷地檢查自己的錯誤,從而有意識地提高寫作水平。

2,如何建立?

語料庫的建立靠軟體:AntConc,這是一個開源軟體,提供Windows,MacOS和Linux版本,你可以點我到官網下載Laurence Anthony"s AntConc,如果外網打開速度太慢,你可以關注我的公眾號「賽門喵Simon」

在後台回復「antconc」獲得下載鏈接。下載完後安裝軟體。

1),啟動軟體後如下圖

2),導入語料庫。

  • 首先,將你準備好的語料庫轉換成TXT格式。一般原材料會是word,pdf,mobi,html等格式,mobi格式可以用calibre批量轉換,其餘格式轉換完全沒有技術含量,請自己動手解決。另外,為了日後檢索,將所有的txt文檔規律命名,比如可以按照「作者名+發表日期」或者「文章名+日期」等,具體按照自己的需求決定。以2016年全年《經濟學人》為例,我將文檔按照時間命名,一共52期,它們全被放置在同一個文件夾下方。

  • 將文檔全部導入AntConc,這可以通過「文件夾」導入。

3, 發揮語料庫的強大功能。

把準備的語料庫導入軟體後,你就可以發揮出它的威力了。我們以單詞「discussion」為例,假設我在想用這個詞的時候有幾個疑問:

  • 要不要在前面用冠詞 a 或者 the,或者不用?
  • 和discussion最常用的介詞是什麼呢?
  • 這個詞最常用的搭配是什麼呢?

帶著這些疑問,我們來進行搜索:

1),在搜索框中輸入「discussion」,點擊「start」。在「Concordance」書籤頁面中,出現了2016年全年《經濟學人》出現discussion的句子,「Concordance Hits」表明一共有92個例句,並不是很多。

2),到這一步,上面那三個問題的答案就已經蘊含在這些例句中了。不過設想一下,如果例句非常多,那麼這種毫無規律的顯示結果是很難讓人理解的。所以,為了更清晰的得到我們的答案,我們需要將結果以排序的形式顯示出來。這也是AntConc最強大的功能,也是我們要學習的重點。排序可以幫助我們了解一個單詞在英語中的慣用法。AntConc同時提供了三層排序,分別對應上表的Level 1,Level 2和Level 3。例如,如果我們想要了解「discussion」後面最常用的的介詞,我們可以按照「discussion」右邊的第一個詞排序,也就是上圖中的Level 1R(R是指right,就是discussion的右邊,1表示右邊第一位)。這樣,結果就會以「discussion」後面第一個詞的重複數量多少來排序。相反,如果我們想看「discussion」前面的冠詞用法,我們可以按照Level 1L的方式排序。

在下圖Kwic Sort中做如上的排序設置,結果如圖。你可以看到discussion前面的冠詞包括「a」和「the」,說明這需要根據具體的語境選擇。對於之後的介詞,大量重複的 of 和 on 說明她們是比較固定的搭配,其實 about 數量也很多,只是沒有在圖片中展現出來,結合例句的語境,你自然可以判斷出來不同的介詞在意思上有何偏差,那麼自然也就能夠選出最適合自己寫作的那一個。

3),有時候你可能覺得例句太短,那麼你完全可以點擊具體的詞條,這時候頁面會跳轉到對應例句所在的文檔。這對於論文寫作者很有用,因為可以具體到文檔中研究作者是如何展開一個話題的。

4,優化搜索,發揮語料庫強大功能。

掌握一些簡單的通配符,可以將語料庫強大的搜索功能發揮到極致,也就可以幫你解決一個更為具體的疑問。

1),大小寫區分

一開始我提出了一個疑問,「and能不能用在句首」,由於AntConc默認的搜索不區分大小寫,所以這個問題很難回答。但是不必擔心,AntConc是支持大小寫區分搜索的,做法很簡單,只要在點擊「Start」之前勾選上面的「Case」。可以看到,And 確實是可以用在一句話的開頭的,你同時可以借鑒這些例句。

2),通配符搜索

通配符「*」可以代表一個單詞,或者一個單詞中的一部分。舉例如下:

  • 如果搜索「*able」,那麼結果包括所有以「able」結尾的單詞,例如:unable,able,capable等等;
  • 如果搜索「they * that」,結果包括 they argued that,they concluded that,they discussed that,they find that 等等,考雅思托福的同學一定會發現這個功能很有用;
  • 如果搜索「they * * that」,結果可能包括 they strongly argued that,they also report that等等。

提示:假設你想要搜索所有關於woman的詞條,考慮到複數形式women,你可能需要使用另一個通配符「?」,而不是「*」。AntConc支持正則表達式,你可以在手冊中找到,非常容易上手。

5,一些受用的搜索技巧

1),我可不可以說「get on a car」?

你可以搜索「get * a car」看看結果,結果多半是不可以的,但是你也知道了正確的用法是什麼。

2),除了用這個動詞,我還可以用別的嗎?

搜索方法同1)。

3),我應該用哪個介詞?

輸入搜索詞,然後按照Level 1R排序,根據出現最多的結果來判斷。

4),正確的用法應該是 as follows 還是 as following?

搜索「follow*」,然後按照Level 1L排序就能得到你的結果。

5),應該用哪個冠詞,a還是the,還是不用?

輸入搜索詞,按照Level 1L排序。

6),在我所在的領域,用 for instance 還是 for example 較為普遍?

同時搜索 for instance 和 for example,然後按照Level 1R排序。至於如何同時搜索,你可以自己研究一下,很簡單。

6,語料庫下載

我正在準備雅思,托福,《經濟學人》和《紐約時報》的語料庫,並在近期放出,想要的朋友可以掃描下方二維碼關注我的公眾號「賽門喵Simon」(ID:nowenglish)。

http://weixin.qq.com/r/ETt0bGzEkzHsrSgP924D (二維碼自動識別)

--- THE END ---

Simon的往期文章:

中式思維

你的「中式英語」是不是這樣造成的? | 這樣才能避免「中式英語」| 這可能是你「中式英語」的罪魁禍首

語法

語法到底是什麼?| 換一種方式理解時態| 如果你認為would僅僅是will的過去式,那就大錯特錯啦 | 用心花10分鐘,了解一個as的用法 | 為什麼是go to bed,而不是go to the bed | 為什麼look forward to後面是doing,而不是do

英語學習資料 方法論

英文原版閱讀有哪些入門書籍推薦?| 英美國家出過哪些英語視頻教程? | 在英語學習過程中,有哪些書籍讓你醍醐灌頂? | 怎麼練好英語口語?| 每天堅持英語學習為什麼還是學不好? | 有哪些值得推薦的關於英文詞根的好書?| 如何提高英文寫作水平?如何提高英文寫作用詞準確度?| 有哪些提高英語聽力的經驗和訣竅?

乾貨雞湯 學習經歷

社會上有哪些讓你細思恐極的細節? | 每天都讀英文原版書,我這樣堅持了2年 | 試過無數次後,才知道什麼是正確學英語的方法…… | 如何看待我身邊 25 歲左右的女生已經鮮有努力勤奮向上的現象?


********************07.04.2015更新見最後************************

*************************************************************************

先說明,答主雖然是語言學專業的,但是學術水平也就一般,馬上研究生就要畢業了,也沒打算讀博。只是因為畢業論文做的是基於語料庫的研究,論文所需的語料庫是自己建設的,所以對語料庫建設有點點經驗,有說的不對的地方還請各位大牛指正。

關於語料庫語言學的基礎教程,推薦《語料庫語言學》(黃昌寧、李涓子,2007),《語料庫語言學導論》(楊惠中,2002)。不知道題主要建哪種語言的語料庫,答主是學德語的,對其他語言的不甚了解。如果題主需要德語方面的文獻,我可以另推薦給題主。

首先,建設語料庫之前,要明確以下幾個問題:

一,你希望建設的語料庫是靜態語料庫還是動態的。靜態語料庫,也叫參照語料庫,一旦建成,就不再改變其結構和內容。動態語料庫,也叫監控語料庫,不斷地更新以反映現代語言的變遷。比如,教育部語言文字信息管理司建設的國家語言監測語料庫,涵蓋了各種主流媒體語料庫,包括平面媒體、有聲媒體和網路媒體,以及教育教材和少數民族語料庫。我們經常看到的年度媒體流行語,年度網路語言使用調查,包括語言文字輿情監測等,都是在這個語料庫的基礎上完成的語言監測。而個人自建的小型語料庫,很難有足夠的人力物力投入的監控語料庫的建設中,所以多為靜態語料庫。

二,你所建的語料庫是否具有代表性平衡性

里奇(Leech,1991)曾指出,一個語料庫具有代表性,是指在該語料庫上獲得的分析結果可以概括成為這種語言整體或其指定部分的特性。

儘管一個樣本不足以代表一種特定的題材或主題,然而由大量各類樣本組成的一個語料庫可以成為一種語言的代表。(黃昌寧、李涓子,2007)

平衡性是指對語言各種形態、各類體裁、個時間段等的覆蓋。早期的大多數語料庫是偏愛用書面語的,甚至是只有書面語。即使現在書面語的語料庫也要比口語的多,因為書面語語料更易採集。而體裁也尚無廣泛承認的分類方法,難以衡量究竟各類體裁在語料庫中應佔多大比例。語料庫需要涵蓋的時間有多少,比如文學作品僅收集本世紀的,還是上世紀的。這些都是平衡性要考慮的問題。

三,你的語料庫規模如何。語料庫不管有多大,同這種語言的總體相比仍然是微不足道的。樣本越大則代表性越好。但是語料庫不管多大,同這種語言的總體相比仍然微不足道,因此語料庫的內容也很重要。

四,語料的的規模是量,內容就是質。內容最根本的要求是真實:其一是要收集實際使用中的文本,不能是語言學家或研究者自己杜撰的文本;其二是要收集符合條件的文本。比如在建立學習者語料庫時,要研究學術真實的語言能力,就不能把學生抄襲的作文收進語料庫。(楊惠中,2002)

接下來就是建設語料庫了。建設時首先要確定語料的來源,可以下載或保存已有的電子文本,比如電子版的新聞、書籍等;或者自己輸入,比如學生的作文;也可以通過掃描並文字識別的方式。在設計語料庫時,如之前所說的建設標準,要確定是建設口語還是書面語語料庫,是正式的還是文學的語言,語言是否具有典型性,以及文本的產生時間。還要注意語料的大小,需要多少樣本,每個樣本應該包含多少詞。注意在文本的採集中,應盡量採集完整的文本。語料庫中的每個樣本都是一個完整的文本,這比只收錄文本的一部分要好。(黃昌寧、李涓子,2007)

題主想建的是用於教學的語料庫,不太清楚具體指的什麼,我有兩種理解:一為題主希望從語料庫中提取某些語言現象,觀察母語者是怎樣使用該語言現象的,輔助語法、辭彙等教學;二是題主想建一個學習者語料庫,觀察該語言的外語學習者對此種語言的使用情況,比如通過對國內英語專業學生作文進行錯誤分析,輔助語言教學。

如果適合你的研究,題主可以優先選用現成的語料庫。英語母語者語料庫方面,比如上面答主說到的LOB Corpus、Brown Corpus,其他的還有比如Longman語料庫、BNC(British National Corpus)語料庫、LLC口語語料庫等。漢語的比如北大的人民日報語料庫,國家語委現代漢語通用平衡語料庫。國內的學習者語料庫方面有CLEC(Chinese Learner English Corpus)語料庫、SWECCL(Spoken and Written English Corpus of Chinese Learners)語料庫、COLSEC(College Learners" Spoken English Corpus)語料庫等。北外還有多語種在線語料庫檢索平台,不知道校外網站能不能訪問。這些語料庫都是由各大學和語言研究機構投入了大量人力物力建設出來的,相比之下比自建的語料庫規模更大、更具代表性,因此基於這些語料庫的研究更有說服力。

如果題主覺得現成的語料庫不適合自己的研究,還是需要自建,可以依託數字媒體,更快速的建設語料庫。若題主需要新聞類文本,可以用LexisNexis,這裡有多語種的報刊雜誌新聞篇章,可以根據自己的需要下載,彙集成語料庫。

自建學習者語料庫,舉個栗子,比如題主想做錯誤分析,或者研究學生對於某一語言現象的掌握情況,可以選取某一屆學生在英語考試或平時寫作練習中的作文作為語料,不同階段的作文屬於不同的子語料庫,比如大一下學期期末考試的作文,和大三下學期期末考試的作文,做兩個子語料庫。通過對比,可以看出學生對於此種語言現象的掌握情況在學習進程中是否有提高或無改變甚至退步。

題主想自建的語料庫是針對某語言考試的,倒讓我想起來一個。不知道題主知不知道CLC(Cambridge Learner Corpus)語料庫,是我在準備雅思考試的時候在雅思書後面發現的,介紹如下:

The Cambridge Learner Corpus(CLC) is a unique collection of over 95,000 exam papers from Cambridge ESOL. It shows real mistakes students make and highlights the parts of English which cause problems for learners. The CLC has been developed by Cambridge University Press with University of Cambridge ESOL examinations to help inwriting materials for learners of English.

Cambridge English Corpus

總之,自建語料庫就是要求人們儘力用所能獲得的條件來建設一個可供自己研究需要的語料庫的過程。

以上。

***************************07.04.2015更新***********************************

題主也是我大德語那我就再多說兩句吧。

似乎題主是在德國讀書,不知道哪個學校的。我在國內讀研,國內的德語語料庫研究現狀了解地多一些,德國的研究現狀陌生一些,比較熟悉的只有Freiburg的鳥教授,他原來是Heidelberg的青年才俊,年紀輕輕Diskuranalyse的成就就趕超了多少前輩,後來被Freiburg挖去了,然後每年會來我們學校做幾次講座。話說答主三年前剛剛開始碩士學習的第一周就跟學長學姐們一起聽他的語料庫語言學講座,我連語言學是毛還沒搞清楚呢就讓我學語料庫這樣真的好嗎?好嗎?好嗎?

很慚愧我沒考德福,不了解針對德福考試特點的語料庫應該怎麼建。但是答主我碩士論文做的就是母語者口語語料庫,口語語料是從IDS下載的Datenbank
für Gesprochenes Deutsch,在DGD上註冊以後就能下載語料了,網址是這個:http://agd.ids-mannheim.de/korpus_index.shtml,點進去後會出現這樣的頁面

點擊紅圈圈裡DGD的那個藍色的小標誌,就能進入DGD的下載頁面(要登錄哦),是這個樣子的

左邊可以看到各種Korpora,右邊有這些子語料庫的介紹、錄音、轉寫等等,可以下載,相信題主自己可以搞清楚啦。這個可以作為題主的Referenzkorpus用哦。

口語語料做標註是一件很頭疼的事情,轉寫下來的口語篇章每篇動輒好幾千有的上萬Token,要是再做日常對話的標註就更想死,那些母語者說出的口語寫下來簡直就認不出來,標註前要自己先設計好Tag。標註軟體我用的是AnnoTool,方便好用。標註時必須是.doc格式在word文檔里標註,如果下載的語料是.txt或者.pdf等等,記得先轉換格式。

搜索軟體我用的是AntConc,就是 @Birdie he講到的Laurence Anthony的這個軟體,可以在他的網站上免費下載最新的軟體:Laurence Anthony"s Homepage,網上也有使用教程。 @李怡彭這個軟體可以搜索多種語言,反正漢語是可以的,日語我不太清楚,你可以看看有沒有日語的編碼。

關於錯誤分析的文獻肯定很多,我沒做這方面的研究不清楚,不過論文我可以推薦一篇,我們上一屆的優秀論文,《Korpusbasierte diachrone
Vergleichsuntersuchung der grammatischen Kompetenz von
chinesischen Germanistikstudenten》,不知道知網能不能下到,題主要是找不到私信我,我給你。這篇論文用的是北外在建的一個德語學習者語料庫,做的是錯誤分析,題主可參考。

暫時想到這些。


大學期間研究過一點,北外使用的語料庫是使用一個名為CQPweb的開源軟體搭建的,其底層是CWB。

在sourceforge上可以下到源碼。


外語學習,我的經驗是意義和用法是最重要的。其中,意義和用法都可以在語言庫中找到最純正的應用。舉個不恰當的例子,呵呵這個詞如果單純學習,就只知道是描述笑的動詞。但是,說出呵呵後,內心澎湃的鄙視和臉上傲嬌的表情必須得在上下文(語言庫)中才能理解。這就是語言庫對外語學習很重要的一點:看看當地人怎麼用,和什麼搭配,然後,表達了一個什麼意思。

Lancaster University 之前在Edex上有一個語言庫(Corpus Lingustics)的公開課。目前最龐大和完善的語言庫就是英語的,Lancaster 也有在做其他各種語言(我就默認題主是針對英語的教學了)。英語語言庫,英國和美國各有一個(Lob Corpus 和 Brown Corpus),時間跨度都很長,覆蓋面也廣。通過Laurence Anthony"s Software ,就可以對這兩個語言庫進行分析(Brown Corpus去lancaster university上就可以下載)。比如,concordance 可以搜索目標詞前後左右多大區間都有什麼詞出現,頻率是多少;collocation 用來判斷什麼詞和目標詞是固定搭配,頻率和關聯度有多少。我覺得,最重要的功能是,可以將自己的文本和剛才說到的兩大英語詞庫進行比對,會生成出你的文本在哪些詞上和詞庫文本差距比較大的報告。你就知道,哪些詞你用的不地道了。Attention:Laurence Anthony軟體的文本都必須得是txt格式的,word,PDF都不可以。在 YouTube上有他自己開的專題,手把手教你怎麼用他的軟體。https://www.youtube.com/user/AntlabJPN

用於教學的話,可以把學生的作文都轉化成txt格式存檔,再以班級/個人/話題等等為單位,主要還是基於題主到底要達到一個什麼樣的目的,是分析個人的語法毛病,還是分析班級間差異等等。確定目標,建立好學生自己的語言庫之後,就可以開始按上述段落所言步驟開始分析了。


樓上面幾位從理論的高度概括了一些,查閱了些資料,我就從實際如何操作簡單說下個人看法:

首先建語料庫的目的要明確,用於語言教學的哪個方面,拼寫,語法句法,辭彙搭配還是口語?這個對後面要說的賦碼工作有很強的關聯性。

建立個人語料庫在互聯網時代是比較可行的,比起網上很多高端的語料庫,一線的教學工作者依照科學的方法做出的語料庫更新速度快,針對性強,對於教學是有很幫助的。

學習者語料庫的語料來自外語學習者產出的口語或書面語,將這些語料經過計算機處理後形成的資料庫應該就可以了。公立初高中,或者語言培訓機構都可以成為語料庫的來源;切記研究對象要垂直,範圍不可太廣。

以下是一個教師收集學生作文,保存分析然後應用的例子:

1、語料的收集和分類保存

按照優良差建立對應文件夾,按照入學年份,姓名,班級,性別進行分類保存,用英文命名;如:Good_2001_liming_m

2、語料的標註和賦碼

在txt文本頭進行標註:如&=2001; &=4; &=1;&=M,這些是便於檢索;

賦碼是比較重要和複雜的一步,如果語料庫的目的是分析語料錯誤,在進行詞性賦碼之前,應確定賦碼方案。(錯誤標註是一項細緻的工作,教師應先對錯誤分類,然後制定錯誤標註賦碼錶,解釋各賦碼的含義)。現在已經開發了多種詞性賦碼方案,如CLAWS自動詞性賦碼器等;

目前比較流行的詞性賦碼工具有AnnoTool和GoTagger軟體;

3、通過檢索,找出自己學生在寫作中的用詞規律、詞語搭配情況、語言特點以及錯誤類型情況等。分析之後,進行有針對性地教學。檢索的軟體可以了解下AntConc;

總的來說,建立個個人語料庫的步驟很簡單,規劃、語料收集、輸入計算機、標註、賦碼;然後要做的就是不斷得更新,檢索分析,然後將成果用於備課授課,和測試題等;


作者:jenny

鏈接:國內外有哪些比較好的語料庫?(corpora) - 知乎用戶的回答

來源:知乎

著作權歸作者所有,轉載請聯繫作者獲得授權。

我在英國 可能一些網站 你們需要vpn才能打開~

Some well-known Corpora

? Bank of English (Cobuild) TitaniaCollins Dictionary

? Leeds Collection of
Internet Corpora Leeds collection of Internet corpora

? British National
Corpora [bnc] British National CorpusBritish National Corpus (BYU-BNC)

? Corpora in
other languages http://www.lancaster.ac.uk/staff/xiaoz/papers/corpus%2
0survey.htm

Some parallel corpora

? Linguee: Linguee | Dictionary for German, French, Spanish, and more

? OPUS : corpus query (CWB)

? Europarl :
http://opus.lingfil.uu.se/cwb/Europarl/framescqp.html

? Opensubtitles
: http://opus.lingfil.uu.se/cwb/OpenSubtitles/fram es-cqp.html

? Mymemory:
MyMemory - Machine translation meets human translation

Search translation glossaries dictionaries proz 很喜歡

Building your own corpora

? Free software available: antconc – Link:
http://www.antlab.sci.waseda.ac.jp/antconc_inde x.html – Other software can be
found

? E.g. BootCaT for rough and ready web corpora

?
http://bootcat.sslmit.unibo.it/?section=home

Key elements to corpus building

? Define what you want your corpus for
– The more clear you are now, the better the resource will be
– E.g. 『English legal texts』 is too vague; you need to be more
specific: 『English journalistic writing about civil law for nonspecialists』
might be the right sort of level of precision

? Locate reliable sources
Criteria for selecting text: mode, type, domain, language,
location, date.
[bnc] Designing and Creating the BNC

? The minimum size of a corpus depends on two main
factors:
--the kind of query that is anticipated from users
--the methodology they use to study the data

Coding and cleaning files

? Antconc will only read .txt files, so you need to
clean up pdfs and html files to that format

? This can take time

? Maher, Waller and Kerans (2008) recommend
converting from html for this reason
– For more accessible genres, html files are going to
be more common

More tips on cleaning files

? Remove reference lists

? Remove non-linguistic content

? Remove extra spaces

? Problems of anomalous characters
– .txt tends to flounder with diacritics

? Hyphen issues

? From Maher, Waller and Kerans 2008

Web as corpra ? WebCorp: The Web as Corpus

? The
use of open-access corpra Allows you to create quick corpora of specialised
terms for specific jobs

? Major disadvantage is lack of control

? Major
advantage is rapidity

Research fully to ensure a translation doesn』t
exist:

– IATE (including looking on other languages)

– UNTERM portal
(http://untermportal.un.org/portal/welcome)

– Field specific resources (e.g.
Glossary of Tax Terms)

– Refined Google searches

– Create 『sample』 translations and search for these in
the TL.

? EU resources for translators:
– EU – DG Translation

? Interactive Terminology for Europe:
– IATE - The EU"s multilingual term base

? EU Terminology Coordination
– TermCoord – Terminology Coordination Unit Home Page

? French Law on the Internet - The Basics and Free Resources By
Emmanuel Barthe http://www.nyulawglobal.org/globalex/french_law_free_resources.htm

Chinese law resources on the internet
Chinese Law Resources on the Internet


Features - A Guide to the Spanish Legal System
http://216.122.177.166/dpz/legloc/default.html

Russian Law News (internet links)
http://www.russianlaws.com/resources/

Bilingual law information system: e.g. Hong Kong
Department of Justice

Research institutions and universities
Library Home Pagehttp://www.nyulawglobal.org/globalex/Russia_Legal_Research.htm


我所上的碩士課中 有一門選課叫 using technology and corpora 當時看到用電腦教學 還挺感興趣的 沒想到啊沒想到 難得我 簡直是!關鍵在於我自己之前沒有這個的任何相關基礎 學的 我想

馬上還要完成這樣一個作業 一片灰暗 題主 我是來看答案的 么么扎


推薦閱讀:

為什麼小孩子說話喜歡用疊詞,比如花花,吃飯飯?
我想認真對待要做的事情,不想再做一個拖拉墮落的人,要怎麼做才可以改掉?
法語是現存最嚴謹的語言嗎,為什麼?
現在學習世界語還有意義嗎?
滿語的大舌顫音r怎麼發?

TAG:語言 | 外語 | 辭彙 | 外語學習 | 語言學習 |