Galactic Dependencies依存關係數據集+細粒度語言類型學預測 | 直播預告·PhD Talk

嘉賓介紹

王丁泉,約翰霍普金斯大學 CLSP 實驗室博士生

活動主題

1. The Galactic Dependencies Treebanks: Getting More Data by Synthesizing New Languages

Galactic Dependencies 依存關係數據集 — 通過人工合成來得到更多數據

我們提出 Galactic Dependencies 1.0 — 一個使用 Universal Dependencies 格式注釋的大規模人造依存關係數據集。這個新數據集旨在為陌生語言的自然語言處理工具提供訓練和驗證數據。在這個人工數據集中,每個依存關係樹都是通過將一個真實語言的名詞和/或動詞的依賴隨機排列來匹配其他真實語言的單詞順序而生成的。我們講討論這些「新」語言的實用性,真實性,多樣性等多種特性。作為其應用的一個簡單示範,我們提出了單源遷移 — 通過使用「接近」的源語言訓練得到的語法分析器來分析目標語言。我們發現人工語言的引入有效的增加了源語言的多樣性,從而顯著提高了大多數目標語言分析效果。

2. Fine-Grained Prediction of Syntactic Typology: Discovering Latent Structure with Supervised Learning

細粒度語言類型學預測 — 使用監督學習來發現隱層結構

我們展示如何僅僅利用一個未知語言 POS 序列來預測其基本語序 — 比如該語言是主謂賓還是主賓謂、狀語前置還是狀語後置,介詞前置還是介詞後置等等。這些基本語序被稱為語言類型學特徵(linguistic typology),已經被證明對語法推導(grammar induction)有很大的幫助。在過去,此類的問題被認為是無監督學習,這篇文章的創新就是將其看作為監督學習,使用大量的人造語言作為訓練數據。該系統的特點是將語言 POS 序列的表面特徵(人工或神經網路特徵)關聯到其的深層結構(語言類型學特徵)。我們的實驗結果將展示:1)加入大量的人造語言有助於該系統的訓練。 2)該系統對於有雜訊的輸入是穩定的。 3)該系統相比於傳統的語法推導有很大提高。

活動時間

5 月 6 日 本周六 10:00 AM

活動地點

使用鬥魚App搜索房間號「1743775」

或通過PC端訪問:paperweekly的直播間-鬥魚 - 每個人的直播平台

論文共讀

本周,我們將利用在線協同工具,針對本期 PhD Talk 的兩篇主講論文發起同步論文共讀活動。小提示:主講嘉賓也將加入其中,和您零距離交流探討。添加主持人微信:zhangjun168305 進行報名,請備註「論文共讀」。

關於PaperWeekly

PaperWeekly是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事AI領域,歡迎在公眾號後台點擊「交流群」,小助手將把你帶入PaperWeekly的交流群里。

微信公眾號:PaperWeekly

新浪微博:@PaperWeekly


推薦閱讀:

BMXNet:基於MXNet的二進位神經網路實現
當AI學會了看相算命,畫風就有點不太對勁了
Edward中文文檔維護團隊招募成員
全卷積網路:從圖像級理解到像素級理解

TAG:自然语言处理 | 有监督学习 | 人工智能 |