在線的比較成熟的語料庫有哪些?

中文的也推薦一些


(1-2是某英語老師推薦)

  1. 美國當代英語語料庫
    Corpus of Contemporary American English (COCA)
  2. 柯林斯語料庫
    http://www.collins.co.uk/Corpus/CorpusSearch.aspx
    (最近這個鏈接失效了)
  3. 其他語料庫相關鏈接,包括日文:
    Links to corpus related sites
  4. 其實還可以通過Diigo書籤的標籤來搜索語料庫網站(美味書籤作廢不再推薦):corpus ( linguistics, habeas ), corpus, english | Diigo
  5. 還有任何情況下都不能錯過的維基百科:
    Text corpus
  6. 中文語料庫google一下很多,比如這裡全都整理好了: 國內可用免費語料庫(已經整理過,凡沒有標註不可用的鏈接均可用)_gjxyxkgy_新浪博客


補充日語噠:

「現代日本語書き言葉均衡コーパス(BCCWJ)」:KOTONOHA「現代日本語書き言葉均衡コーパス」 検索デモンストレーション

日本國立國語研究所【KOTONOHA】計劃的一部分,同計劃開發出的語料庫和檢索工具還有很多,但BCCWJ以大規模和均衡性著稱,是目前唯一的日語均衡語料庫,可以用來客觀掌握現代日語書面語的總體特徵。


作者:jenny

鏈接:國內外有哪些比較好的語料庫?(corpora) - 知乎用戶的回答

來源:知乎

著作權歸作者所有,轉載請聯繫作者獲得授權。

我在英國 可能一些網站 你們需要vpn才能打開~

Some well-known Corpora

? Bank of English (Cobuild) TitaniaCollins Dictionary

? Leeds Collection of
Internet Corpora Leeds collection of Internet corpora

? British National
Corpora [bnc] British National CorpusBritish National Corpus (BYU-BNC)

? Corpora in
other languages http://www.lancaster.ac.uk/staff/xiaoz/papers/corpus%2
0survey.htm

Some parallel corpora

? Linguee: Linguee | Dictionary for German, French, Spanish, and more

? OPUS : corpus query (CWB)

? Europarl :
http://opus.lingfil.uu.se/cwb/Europarl/framescqp.html

? Opensubtitles
: http://opus.lingfil.uu.se/cwb/OpenSubtitles/fram es-cqp.html

? Mymemory:
MyMemory - Machine translation meets human translation

Search translation glossaries dictionaries proz 很喜歡

Building your own corpora

? Free software available: antconc – Link:
http://www.antlab.sci.waseda.ac.jp/antconc_inde x.html – Other software can be
found

? E.g. BootCaT for rough and ready web corpora

?
http://bootcat.sslmit.unibo.it/?section=home

Key elements to corpus building

? Define what you want your corpus for
– The more clear you are now, the better the resource will be
– E.g. 『English legal texts』 is too vague; you need to be more
specific: 『English journalistic writing about civil law for nonspecialists』
might be the right sort of level of precision

? Locate reliable sources
Criteria for selecting text: mode, type, domain, language,
location, date.
[bnc] Designing and Creating the BNC

? The minimum size of a corpus depends on two main
factors:
--the kind of query that is anticipated from users
--the methodology they use to study the data

Coding and cleaning files

? Antconc will only read .txt files, so you need to
clean up pdfs and html files to that format

? This can take time

? Maher, Waller and Kerans (2008) recommend
converting from html for this reason
– For more accessible genres, html files are going to
be more common

More tips on cleaning files

? Remove reference lists

? Remove non-linguistic content

? Remove extra spaces

? Problems of anomalous characters
– .txt tends to flounder with diacritics

? Hyphen issues

? From Maher, Waller and Kerans 2008

Web as corpra ? WebCorp: The Web as Corpus

? The
use of open-access corpra Allows you to create quick corpora of specialised
terms for specific jobs

? Major disadvantage is lack of control

? Major
advantage is rapidity

Research fully to ensure a translation doesn』t
exist:

– IATE (including looking on other languages)

– UNTERM portal
(http://untermportal.un.org/portal/welcome)

– Field specific resources (e.g.
Glossary of Tax Terms)

– Refined Google searches

– Create 『sample』 translations and search for these in
the TL.

? EU resources for translators:
– EU – DG Translation

? Interactive Terminology for Europe:
– IATE - The EU"s multilingual term base

? EU Terminology Coordination
– TermCoord – Terminology Coordination Unit Home Page

? French Law on the Internet - The Basics and Free Resources By
Emmanuel Barthe http://www.nyulawglobal.org/globalex/french_law_free_resources.htm

Chinese law resources on the internet
Chinese Law Resources on the Internet


Features - A Guide to the Spanish Legal System
http://216.122.177.166/dpz/legloc/default.html

Russian Law News (internet links)
http://www.russianlaws.com/resources/

Bilingual law information system: e.g. Hong Kong
Department of Justice

Research institutions and universities
Library Home Pagehttp://www.nyulawglobal.org/globalex/Russia_Legal_Research.htm


補充:成熟的概念是什麼?看具體的需求,支持實務翻譯,還是教學科研或其他。

是否包括:語言種類?語料數量?可視化分析?檢索功能?計算能力?文本分析?定製化服務?

上面大家補充了很多資源。

如果單從語料批量生產、翻譯實務利用、語料管理、語料開源和交易層面來說,Tmxmall語料商城,Tmxmall私有雲,在線對齊工具,在線檢索,API輸出CAT等應用功能,貫通語料生產,管理利用,交易增值,需求對接等環節。

Tmxmall構建的語料流通平台為其他在線語料庫各項定製化的功能開發,提供了源泉。


British national corpus

corpus of contemporary American English

Micheigan Corpus Of Academic Spoken English


用過一個網站的語料庫蠻全的,裡面有非常多領域的論文,不過目前只支持中英的句庫,叫Tmxmall。網址:http://www.tmxmall.com

複製一下介紹:具備搜索、上傳、下載、賬戶管理和積分購買等功能。平台支持中英雙向檢索,檢索速度快;語料超過5000萬句對,總字數達10億字,且在持續增長;語料質量高,均經過人工審核;語料涵蓋面廣,覆蓋經濟、數理科學和化學、生物科學、醫藥、衛生、石油、天然氣工業、能源與動力工程、機械、儀錶工業、自動化技術、計算機等行業和領域。


日語的話可以嘗試一下國人自己開發的暢選日語語料庫,用起來挺簡單的,要比小納言功能更強大,語料樣本數量估計比中納言還要多,完全免費,推薦。暢選網|日語語料

下面複製了其網站的一部分幫助說明,供參考。

  • 暢選日語語料庫致力於成為書面日本語的縮影,通過嚴謹的樣本來源選取,獲取準確的語料原始樣本。樣本的來源主要為書刊、報紙、文集、國會記錄、法律議案等官方網站或專門網站。通過本網站自主研發的網頁搜索引擎軟體,對目標網頁進行自動分析及內容抓取,確保內容與原出處一致,可供用戶在日語研究時參考使用。
  • 語料庫中所含語料的基本內容信息已展示在檢索結果中,如:作品出處、發表時間、作者等。
  • 為確保關鍵詞前後文脈的完整性,語料樣本採用原始語料的完整文本方式進行存儲。搜索時,通過暢選網自主研發的實時分詞檢索引擎,對所查關鍵詞進行實時分詞處理。該方法避免了傳統語料庫分詞預處理可能帶來的謬誤或缺失,可最大程度地獲取準確的檢索結果。
  • 檢索系統以全形假名及漢字為基本單位,並支持各種UTF-8字符集的文字、標點符號及英文字母。
  • 主要特色:
    • 完全免費,收錄多達47萬篇,共計32.6億字海量名家名作、新聞、國會記錄及法律議案等原始語料樣本;
    • 在線即時搜索,無需安裝軟體。使用方便簡單,界面友好,上手迅速;
    • 文學作品、新聞及會議記錄等語料樣本均來自於權威官方網站,語料完整準確;
    • 與用戶合作,根據用戶要求,定製專屬語料庫,為用戶進行語言學研究提供強大的技術支持。


對於英語來說,比較成熟的在線語料庫應該是柯林斯Cobuild在線語料庫http://titania.cobuild.collins.co.uk/form.html以及英國國家語料庫http://sara.natcorp.ox.ac.uk/lookup.html


補充一個

BCC語料庫


1、英語語料庫的話,國外資源比較多,谷歌上可以搜到美國當代英語語料庫(COCA)和柯林斯語料庫等,這兩個大的語料庫都是英語單語的。

2、雙語平行語料庫,如英漢語料庫,可以到國內各大翻譯論壇找找有沒有人分享資源的,不過語料質量需要自己留意;或者直接到Tmxmall語料商城上購買經過審核的專門行業語料庫,上面有多種語言對的語料資源。


面向保險領域,垂直行業的語料:https://github.com/Samurais/insuranceqa-corpus-zh


轉個我的回答,主要是針對國內的:

曾經費勁巴拉地找語料,有幾個湊合的網站,但國內真心沒有太好使的資料庫

海天瑞聲Speechocean,貌似是做的挺專業的,百度apistore上有,另外apistore本身就又不少數據

語料庫在線、txmall,類似的網站還有,自己百度一下

數糧,有點匯總的意思,和百度那個有點像

另外樓上提的中科院和數據堂都有,而且都有一些科研類數據

還有就是各大學都有各自的庫,但是找起來不太容易


LDC


推薦閱讀:

為什麼只有豆瓣和亞馬遜的推薦演算法可以做的這麼好?
YouTube 的視頻推薦演算法是怎樣的?
推薦演算法有哪些?
OCR文字識別用的是什麼演算法?
怎麼描述一個人的興趣呢,如何數學建模?

TAG:互聯網 | 計算機 | 自然語言處理 | 推薦演算法 | 語料庫 |