在線的比較成熟的語料庫有哪些?
中文的也推薦一些
(1-2是某英語老師推薦)
- 美國當代英語語料庫
Corpus of Contemporary American English (COCA) - 柯林斯語料庫
http://www.collins.co.uk/Corpus/CorpusSearch.aspx
(最近這個鏈接失效了) - 其他語料庫相關鏈接,包括日文:
Links to corpus related sites - 其實還可以通過Diigo書籤的標籤來搜索語料庫網站(美味書籤作廢不再推薦):corpus ( linguistics, habeas ), corpus, english | Diigo
- 還有任何情況下都不能錯過的維基百科:
Text corpus - 中文語料庫google一下很多,比如這裡全都整理好了: 國內可用免費語料庫(已經整理過,凡沒有標註不可用的鏈接均可用)_gjxyxkgy_新浪博客
補充日語噠:「現代日本語書き言葉均衡コーパス(BCCWJ)」:KOTONOHA「現代日本語書き言葉均衡コーパス」 検索デモンストレーション
日本國立國語研究所【KOTONOHA】計劃的一部分,同計劃開發出的語料庫和檢索工具還有很多,但BCCWJ以大規模和均衡性著稱,是目前唯一的日語均衡語料庫,可以用來客觀掌握現代日語書面語的總體特徵。
作者:jenny鏈接:國內外有哪些比較好的語料庫?(corpora) - 知乎用戶的回答來源:知乎著作權歸作者所有,轉載請聯繫作者獲得授權。
我在英國 可能一些網站 你們需要vpn才能打開~
Some well-known Corpora
? Bank of English (Cobuild) TitaniaCollins Dictionary
? Leeds Collection of
Internet Corpora Leeds collection of Internet corpora
? British National
Corpora [bnc] British National CorpusBritish National Corpus (BYU-BNC)
? Corpora in
other languages http://www.lancaster.ac.uk/staff/xiaoz/papers/corpus%2
0survey.htm
Some parallel corpora
? Linguee: Linguee | Dictionary for German, French, Spanish, and more
? OPUS : corpus query (CWB)
? Europarl :
http://opus.lingfil.uu.se/cwb/Europarl/framescqp.html
? Opensubtitles
: http://opus.lingfil.uu.se/cwb/OpenSubtitles/fram es-cqp.html
? Mymemory:
MyMemory - Machine translation meets human translation
Search translation glossaries dictionaries proz 很喜歡
Building your own corpora
? Free software available: antconc – Link:
http://www.antlab.sci.waseda.ac.jp/antconc_inde x.html – Other software can be
found
? E.g. BootCaT for rough and ready web corpora
?
http://bootcat.sslmit.unibo.it/?section=home
Key elements to corpus building
? Define what you want your corpus for– The more clear you are now, the better the resource will be
– E.g. 『English legal texts』 is too vague; you need to be more
specific: 『English journalistic writing about civil law for nonspecialists』
might be the right sort of level of precision ? Locate reliable sources
Criteria for selecting text: mode, type, domain, language,
location, date.
[bnc] Designing and Creating the BNC? The minimum size of a corpus depends on two main
factors:
--the kind of query that is anticipated from users
--the methodology they use to study the dataCoding and cleaning files ? Antconc will only read .txt files, so you need to
clean up pdfs and html files to that format ? This can take time? Maher, Waller and Kerans (2008) recommend
converting from html for this reason
– For more accessible genres, html files are going to
be more common
More tips on cleaning files
? Remove reference lists ? Remove non-linguistic content ? Remove extra spaces ? Problems of anomalous characters– .txt tends to flounder with diacritics ? Hyphen issues ? From Maher, Waller and Kerans 2008
Web as corpra ? WebCorp: The Web as Corpus
? The
use of open-access corpra Allows you to create quick corpora of specialised
terms for specific jobs
? Major disadvantage is lack of control
? Major
advantage is rapidity
Research fully to ensure a translation doesn』t
exist:
– IATE (including looking on other languages)
– UNTERM portal
(http://untermportal.un.org/portal/welcome)
– Field specific resources (e.g.
Glossary of Tax Terms)
– Refined Google searches
– Create 『sample』 translations and search for these in
the TL.
? EU resources for translators:
– EU – DG Translation
? Interactive Terminology for Europe:
– IATE - The EU"s multilingual term base
? EU Terminology Coordination
– TermCoord – Terminology Coordination Unit Home Page
? French Law on the Internet - The Basics and Free Resources By
Emmanuel Barthe http://www.nyulawglobal.org/globalex/french_law_free_resources.htm
Chinese law resources on the internet
Chinese Law Resources on the Internet
Features - A Guide to the Spanish Legal System
http://216.122.177.166/dpz/legloc/default.html
Russian Law News (internet links)
http://www.russianlaws.com/resources/
Bilingual law information system: e.g. Hong Kong
Department of Justice
Research institutions and universities
Library Home Pagehttp://www.nyulawglobal.org/globalex/Russia_Legal_Research.htm
補充:成熟的概念是什麼?看具體的需求,支持實務翻譯,還是教學科研或其他。
是否包括:語言種類?語料數量?可視化分析?檢索功能?計算能力?文本分析?定製化服務?上面大家補充了很多資源。
如果單從語料批量生產、翻譯實務利用、語料管理、語料開源和交易層面來說,Tmxmall語料商城,Tmxmall私有雲,在線對齊工具,在線檢索,API輸出CAT等應用功能,貫通語料生產,管理利用,交易增值,需求對接等環節。Tmxmall構建的語料流通平台為其他在線語料庫各項定製化的功能開發,提供了源泉。British national corpuscorpus of contemporary American EnglishMicheigan Corpus Of Academic Spoken English
用過一個網站的語料庫蠻全的,裡面有非常多領域的論文,不過目前只支持中英的句庫,叫Tmxmall。網址:http://www.tmxmall.com複製一下介紹:具備搜索、上傳、下載、賬戶管理和積分購買等功能。平台支持中英雙向檢索,檢索速度快;語料超過5000萬句對,總字數達10億字,且在持續增長;語料質量高,均經過人工審核;語料涵蓋面廣,覆蓋經濟、數理科學和化學、生物科學、醫藥、衛生、石油、天然氣工業、能源與動力工程、機械、儀錶工業、自動化技術、計算機等行業和領域。
日語的話可以嘗試一下國人自己開發的暢選日語語料庫,用起來挺簡單的,要比小納言功能更強大,語料樣本數量估計比中納言還要多,完全免費,推薦。暢選網|日語語料
下面複製了其網站的一部分幫助說明,供參考。
- 暢選日語語料庫致力於成為書面日本語的縮影,通過嚴謹的樣本來源選取,獲取準確的語料原始樣本。樣本的來源主要為書刊、報紙、文集、國會記錄、法律議案等官方網站或專門網站。通過本網站自主研發的網頁搜索引擎軟體,對目標網頁進行自動分析及內容抓取,確保內容與原出處一致,可供用戶在日語研究時參考使用。
- 語料庫中所含語料的基本內容信息已展示在檢索結果中,如:作品出處、發表時間、作者等。
- 為確保關鍵詞前後文脈的完整性,語料樣本採用原始語料的完整文本方式進行存儲。搜索時,通過暢選網自主研發的實時分詞檢索引擎,對所查關鍵詞進行實時分詞處理。該方法避免了傳統語料庫分詞預處理可能帶來的謬誤或缺失,可最大程度地獲取準確的檢索結果。
- 檢索系統以全形假名及漢字為基本單位,並支持各種UTF-8字符集的文字、標點符號及英文字母。
- 主要特色:
-
- 完全免費,收錄多達47萬篇,共計32.6億字海量名家名作、新聞、國會記錄及法律議案等原始語料樣本;
- 在線即時搜索,無需安裝軟體。使用方便簡單,界面友好,上手迅速;
- 文學作品、新聞及會議記錄等語料樣本均來自於權威官方網站,語料完整準確;
- 與用戶合作,根據用戶要求,定製專屬語料庫,為用戶進行語言學研究提供強大的技術支持。
對於英語來說,比較成熟的在線語料庫應該是柯林斯Cobuild在線語料庫http://titania.cobuild.collins.co.uk/form.html以及英國國家語料庫http://sara.natcorp.ox.ac.uk/lookup.html
補充一個
BCC語料庫
1、英語語料庫的話,國外資源比較多,谷歌上可以搜到美國當代英語語料庫(COCA)和柯林斯語料庫等,這兩個大的語料庫都是英語單語的。
2、雙語平行語料庫,如英漢語料庫,可以到國內各大翻譯論壇找找有沒有人分享資源的,不過語料質量需要自己留意;或者直接到Tmxmall語料商城上購買經過審核的專門行業語料庫,上面有多種語言對的語料資源。
面向保險領域,垂直行業的語料:https://github.com/Samurais/insuranceqa-corpus-zh
轉個我的回答,主要是針對國內的:
曾經費勁巴拉地找語料,有幾個湊合的網站,但國內真心沒有太好使的資料庫
海天瑞聲Speechocean,貌似是做的挺專業的,百度apistore上有,另外apistore本身就又不少數據語料庫在線、txmall,類似的網站還有,自己百度一下數糧,有點匯總的意思,和百度那個有點像另外樓上提的中科院和數據堂都有,而且都有一些科研類數據還有就是各大學都有各自的庫,但是找起來不太容易LDC
推薦閱讀:
※為什麼只有豆瓣和亞馬遜的推薦演算法可以做的這麼好?
※YouTube 的視頻推薦演算法是怎樣的?
※推薦演算法有哪些?
※OCR文字識別用的是什麼演算法?
※怎麼描述一個人的興趣呢,如何數學建模?