深度學習之自然語言處理(一)
基於課程 CS224n: Natural Language Processing with Deep Learning
希望看這個系列文章的人,都能有所收穫,我有在很用心寫。
什麼是自然語言處理?什麼是深度學習?現在在心裡思考一下這兩個問題,看你是否有這兩個概念的輪廓,如果還沒有的話,可以移步 CS224n: 第一講。
自然語言 通常是指一種自然地隨文化演化的語言。英語、漢語、日語為自然語言的例子,而世界語則為人造語言,即是一種為某些特定目的而創造的語言。 不過,有時所有人類使用的語言(包括上述自然地隨文化演化的語言,以及人造語言)都會被視為「自然」語言,以相對於如編程語言等為計算機而設的「人造」語言。(來自 百度百科)
自然語言處理的目的是使得機器可以理解自然語言,從而可以處理任務,使得機器更加「智能」。更深入的來講,如果機器「完美」地理解了人類的語言,是否可以回答諸如「我是誰 我從哪裡來 我要到哪裡去」的哲學問題呢?赫拉利在《人類簡史》中這樣描述道:「智人之所以能夠征服世界,是因為有獨特的語言」。人類的獨特性正是由於語言的獨特性。那麼這種獨特性是如何產生的,我們不得而知。這種獨特性也使得自然語言處理,如同人工智慧的「聖杯」一樣,吸引了許許多多人投身其中。通過研究自然語言處理,我們是否能夠深入了解這種獨特性呢?我們是否可以有所期待,未來這座「聖杯」真的被摘下,如同打開的潘多拉的盒子,對人類社會產生巨大的影響呢?(內心os:天知道)現在,讓我們一起走進自然語言處理的大門吧。
關於深度學習(對於深度學習不了解的同學,可以移步 Neural Networks and Deep Learning),做一個比喻,如果自然語言處理是惡龍的話,深度學習就是那鋒利的屠龍寶劍。那麼你呢,就是那心懷屠龍夢想的翩翩少年,夢想著打敗惡龍,拯救人間。
構詞學(英國語言學分科學名:morphology,「組織與形態」)是語言學的一個分支,研究單詞(word)的內部結構和其形成方式。如英語的dog、dogs和dog-catcher有相當的關係,英語使用者能夠利用他們的背景知識來判斷此關係,對他們來說,dog和dogs的關係就如同cat和cats,dog和dog-catcher就如同dish和dishwasher。構詞學正是研究這種單字間組成的關係,並試著整理出其組成的規則。(來自 維基百科)
npls levels (嬰兒和大文豪的差別,在 NPL levels 的不同)
傳統與深度學習的對比 (論文)
word vector 應用於 all levels (Conclusion: Representation for all levels? Vectors)
關於學習,許多人沒意識到他們究竟獲得了多麼好的環境。
長久的編程練習使你獲得的是一種直覺,這是最為難能可貴的成長。
Q&A (option)
(未完待續)
推薦閱讀:
※強化學習在關係抽取、QA場景的應用
※淺談Attention機制的理解
※基於知識庫的問答:seq2seq模型實踐
※人語機器
※流程圖識別(1)
TAG:自然語言處理 | TensorFlow | PyTorch |