NLP選題：6大研究方向助你開啟科研之路

04-06

編者按：Sebastian Ruder是自然語言處理方面的博士研究生，也是AYLIEN的研究科學家。近日，他撰寫了一篇文章，專為初級研究人員選擇研究方向提供啟發和思路。本文收集了一系列有趣的研究課題，重點關注NLP和遷移學習。

（題圖來自網路某報告模板）

本文旨在為初級研究人員和那些希望進入新領域的學生提供一些啟發和思路。文章收錄了幾個有趣的研究課題，側重自然語言處理和遷移學習，因此並不適合所有讀者。如果你對強化學習有想法，OpenAI的這些RL課題會是你的良好選擇；如果你期待和他人合作，或是深入更廣泛的領域，你也可以去人工智慧開放社區Artificial Intelligence Open Network看看。

以下課題中的大部分尚是未知階段：很多時候，我們關於它們的描述還很模糊，因此發散主觀思維尋找更多方向也是可能的。此外，它們大多都不水，所以如果你想做出點成果，你必須認真努力。如果有需要，我個人可以為你提供這些方面的幫助，但前提是你要具備足夠的專業知識積累。需要注意的一點是，本文所囊括的文獻只是一小部分，只是為了提供一個概覽，也就是說，這些參考論文並不全面。

希望這篇文章能激發你的研究興趣，並幫助你找到合適的課題。

NLP：任務獨立型數據增強

數據增強旨在通過變換生成現有訓練樣本的變體，從而創建更多的訓練數據，這些變換往往可以反映現實世界中會發生的變化。在計算機視覺（CV）任務中，常見的數據增強方法有mirroring（鏡像反轉）、random cropping（隨機裁剪）、shearing（修剪）等。它的效果十分顯著，如在AlexNet[1]中具有出色的防止過擬合能力，它也因此被大多數最先進模型所使用。

但是，在NLP任務中，數據增強就不那麼應用廣泛了。在我看來，這可以被歸結為兩點：

NLP中的數據是離散的。它的後果是我們無法對輸入數據進行直接簡單地轉換，而大多數CV工具則沒有這個限制，如domain randomization[2]。
小的擾動可能會改變含義。在NLP中，刪掉一個否定詞可能會改變整個句子的情緒，而修改一段話中的某個詞甚至會改變語意。但CV不存在這種情況，不論圖像中的是貓還是狗，擾動單個像素一般不會影響模型預測，甚至都不會出現明顯變化，如插值就是一種有效的圖像處理技術[3]。

當前這方面的進展主要還是基於規則的[5]，或是只針對特定任務，例如語法分析[6]和zero-pronoun resolution[7]。Xie等人[39]用語言建模和機器翻譯的不同分布樣本替換單詞。而近期的一些研究也把目光集中在通過替換單詞/字元[8,9]、級聯[11]或添加對抗擾動[10]來生成對抗性樣本上。另外，Li等人還用對抗設置建立了一個系統，能生成與自然語言別無二致的語句。

反向翻譯[12,13]是機器翻譯（MT）中常見的數據增強方法，它允許我們引入只有單種語言的訓練數據。例如，在訓練EN→FR系統時，我們把只包含法語的文本用FR→EN系統翻譯成英語，然後得到的英語文本就能和原有法語文本合成並行數據用於訓練。反向翻譯也可以用於複述（paraphrasing）[14]。複述一般可用於問答文本的數據增強，當然，我並不太清楚它是否還有其他應用領域。

另一種和複述類似的方法是用變分自動編碼器從連續空間生成句子[17,19]。如果生成句子的表徵具備期望屬性[18]，那我們離風格遷移也就不遠了。

這方面有一些有趣的研究方向值得深入：

評估現有研究。評估現有的一系列數據增強方法，包括那些尚未廣泛使用的增強技術，如複述和風格遷移，你可以先試著把它們用在文本分類或序列標籤等多種任務中，方便後續比較。你需要確定哪些數據增強方法在任務中普遍表現良好、哪些則更適合特定任務。之後你可以把它們打包成軟體庫，提供一個簡單易用的基準測試（參考CleverHans NLP）。
帶有風格遷移的數據增強。驗證風格遷移能否通過改變數據中的某些屬性來增強模型學習效果。
研究數據增強。和Dong[15]那篇論文一樣，我們可以學著為特定任務進行複述或生成轉換。
研究數據增強的詞嵌入空間。典型的詞嵌入空間會把同義詞和反義詞聚集在一起，因此這個空間不允許近鄰替換。但考慮到Mrk?i?等人近期的研究[21]，或許專為數據增強專門匹配一個詞嵌入空間也未嘗不可。
對抗性數據增強。可以參考Ribeiro等人的工作[22]，我們可以試著對句子中最明顯的詞，如模型預測依賴的那些詞添加擾動。但是，這仍然需要保留語義的替換方法。

NLP：few-shot learning

Zero-shot、one-shot和few-shot learning是近幾年最有趣的IMO研究方向之一。繼Vinyals等人[4]前年提出few-shot模型應明確訓練用於進行few-shot learning後，去年Ravi和Larochelle[23,24]也在這方面有了一些進展。

從少量標籤樣本中學習是IMO最難解決的問題之一，也是將當前的ML模型與更普適的系統區分開來的核心難點之一。據我所知，Zero-shot learning現在僅在學習未知辭彙的詞嵌入這一塊有一些研究，而用於在聯合空間中潛入標籤和文檔的無數據分類[25,26]雖然是個有趣的相關方向，但它也要求可解釋標籤需要有良好的描述。

以下是一些潛在的研究方向：

標準化的基準。為NLP的few-shot learning創建標準化基準。Vinyals等人之前為Penn Treebank引入了一次性語言建模任務。它雖然有用，但和CV基準測試的評估手段相比仍然存在不小差距，而且就我知道的情況而言，幾乎沒有人在用這個任務。NLP的few-shot learning基準應該包含大量的類，並提供標準化的重複性分割。一個可行的操作是分類主題或細化實體識別。
評估現有研究。創建這樣一個基準後，下一步我們可以評估CV中現有的few-shot learning模型在NLP任務中的表現。
新的NLP方法。給定一個基準數據集和一個經驗性評估研究，之後我們就能為NLP的few-shot learning發掘一些新方法。

NLP：遷移學習

遷移學習對計算機視覺領域產生了非常深遠的影響，它大大降低了人們將CV演算法用於解決自己任務的入門門檻。研究人員從此無需為新任務另起爐灶，只需少量樣本，他們就能對在大型數據集上預先訓練好的模型進行參數調整，使之迅速應用於新任務。

然而在NLP中，我們到目前為止還是只能通過預訓練嵌入來預訓練模型的第一層。去年Peter等人[31,32]提出了一種添加預訓練語言模型嵌入的方法，但它仍需要為每個任務單獨設置架構。在我看來，為了釋放NLP遷移學習的真正潛力，我們需要預訓練整個模型並在目標任務上對其進行微調，就像CV任務微調ImageNet模型那樣。例如，建立語言模型是預訓練的一項重要內容，這就相當於NLP領域的ImageNet模型[33]。

以下是一些潛在的研究方向：

識別有價值的預訓練任務。選擇訓練任務是非常重要的，因為即使針對特定任務對模型進行優化，它的效果也很有限[38]。其他的工作，比如近期在通用語句嵌入方面的研究[34,35,40]，可能會成為語言模型預訓練或適配特定任務的一個補充。
微調複雜的體系結構。如果要訓練一個可用於多種任務的模型，預訓練無疑是最有效的。然而現在我們對如何預先設計更複雜的體系結構，如用於配對分類任務和推理任務的結構，仍然知之甚少。

多任務學習

多任務學習（MTL）在NLP中已經變得越來越常用，具體細節可以閱讀我之前的文章《深層神經網路中的多任務學習概述》。但是，一般意義上來說，我們對多任務學習還缺乏了解。

MTL也有不少有趣的研究方向：

確定有效的輔助任務。多任務學習的主要問題之一是確定哪些問題真正對模型具有價值。去年，Alonso和Plank[28]已經證明標籤熵可作為MTL的一個預測指標，但它並不是面面俱到的。在近期的一項工作中[27]，研究人員發現更多的數據以及更細化的標籤能更有效地輔助學習。如果未來關於MTL的論文不僅能提出更多新模型和輔助任務，還能解釋這個任務為什麼比那個任務更好，這將是很有建樹的。
硬參數共享的替代方案。硬參數共享仍然是MTL的默認操作方式，但它對模型的約束太過強大。試想一下，如果我們用相同的參數學習關於不同任務的經驗，它的訓練難度可想而知。因此我們需要更好的MTL方法，它們不僅要易於使用，還要能在多種任務中穩定工作。去年Misra等人[29,30]提出了一種名為cross-stitch units的方法，今年年初Augenstein等人又建議增加一個標籤嵌入層，這些設想都極具潛力。
人工輔助任務。最好的輔助任務是針對目標任務量身定製的輔助任務，而無需其他任何數據。我之前列出了一些人工輔助任務條目，但還不清楚其中的哪些會在多種任務中可靠地發揮作用，以及其中的哪些修改是能真正有效的。

跨語言學習

創建一個能在跨語言環境中表現良好，並可將知識從資源豐富處轉移到資源貧乏處的語言模型是IMO最重要的研究方向之一。近年來研究人員在學習將不同語言投影到共享嵌入空間的跨語言表示方面也取得了很大進展，可參考Ruder等人的論文[36]。

我們通常根據相似性基準評估，或在外部對下游任務（如文本分類）評估模型在跨語言任務中的表現。儘管最近的研究提供了一些先進技術，但我們並沒有很好地理解這些方法在任務、語言上的失敗原因，以及它們應該如何以與任務無關的方式降低失敗率，例如通過注入特定於任務的約束。

與任務無關的架構改進

定期推出新型體系結構，取代以前的體系結構，超越當前最先進的技術並針對特定任務量身定製。我已經概述了不同NLP任務的最佳實踐，但是在不比較這些不同任務的體系結構的情況下，我們還是通常很難從專門的體系結構中獲得線索，並且知道哪些組件會在其他環境中也表現出色。

Transformer是一個特別有前途的新模型。雖然完整的模型可能不適合所有任務，但多頭注意或基於位置的編碼等組件可以被作為構建模塊，這對於許多NLP任務通常很有用。

小結

我希望你能從這篇文章中找到有價值的研究方向，如果你有任何關於如何解決相關研究主題的想法和建議，可以給論智留言，或前往博客評論去各抒己見。

參考文獻

Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105).
Tobin, J., Fong, R., Ray, A., Schneider, J., Zaremba, W., & Abbeel, P. (2017). Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World. arXiv Preprint arXiv:1703.06907.
Zhang, H., Cisse, M., Dauphin, Y. N., & Lopez-Paz, D. (2017). mixup: Beyond Empirical Risk Minimization, 1–11. arxiv.org/abs/1710.09412
Vinyals, O., Blundell, C., Lillicrap, T., Kavukcuoglu, K., & Wierstra, D. (2016). Matching Networks for One Shot Learning. NIPS 2016. arxiv.org/abs/1606.04080
Li, Y., Cohn, T., & Baldwin, T. (2017). Robust Training under Linguistic Adversity. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics (Vol. 2, pp. 21–27).
Wang, D., & Eisner, J. (2016). The Galactic Dependencies Treebanks: Getting More Data by Synthesizing New Languages. Tacl, 4, 491–505. www.transacl.org/ojs/index.php/tacl/articl
Liu, T., Cui, Y., Yin, Q., Zhang, W., Wang, S., & Hu, G. (2017). Generating and Exploiting Large-scale Pseudo Training Data for Zero Pronoun Resolution. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (pp. 102–111).
Samanta, S., & Mehta, S. (2017). Towards Crafting Text Adversarial Samples. arXiv preprint arXiv:1707.02812.
Ebrahimi, J., Rao, A., Lowd, D., & Dou, D. (2017). HotFlip: White-Box Adversarial Examples for NLP. arxiv.org/abs/1712.06751
Yasunaga, M., Kasai, J., & Radev, D. (2017). Robust Multilingual Part-of-Speech Tagging via Adversarial Training. In Proceedings of NAACL 2018. arxiv.org/abs/1711.04903
Jia, R., & Liang, P. (2017). Adversarial Examples for Evaluating Reading Comprehension Systems. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing.
Sennrich, R., Haddow, B., & Birch, A. (2015). Improving neural machine translation models with monolingual data. arXiv preprint arXiv:1511.06709.
Sennrich, R., Haddow, B., & Birch, A. (2016). Edinburgh neural machine translation systems for wmt 16. arXiv preprint arXiv:1606.02891.
Mallinson, J., Sennrich, R., & Lapata, M. (2017). Paraphrasing revisited with neural machine translation. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers (Vol. 1, pp. 881-893).
Dong, L., Mallinson, J., Reddy, S., & Lapata, M. (2017). Learning to Paraphrase for Question Answering. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. arxiv.org/abs/1708.06022
Li, J., Monroe, W., Shi, T., Ritter, A., & Jurafsky, D. (2017). Adversarial Learning for Neural Dialogue Generation. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. arxiv.org/abs/1701.06547
Bowman, S. R., Vilnis, L., Vinyals, O., Dai, A. M., Jozefowicz, R., & Bengio, S. (2016). Generating Sentences from a Continuous Space. In Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning (CoNLL). arxiv.org/abs/1511.06349
Hu, Z., Yang, Z., Liang, X., Salakhutdinov, R., & Xing, E. P. (2017). Toward Controlled Generation of Text. In Proceedings of the 34th International Conference on Machine Learning. arxiv.org/abs/1703.00955
Guu, K., Hashimoto, T. B., Oren, Y., & Liang, P. (2017). Generating Sentences by Editing Prototypes.
Shen, T., Lei, T., Barzilay, R., & Jaakkola, T. (2017). Style Transfer from Non-Parallel Text by Cross-Alignment. In Advances in Neural Information Processing Systems. arxiv.org/abs/1705.09655
Mrk?i?, N., Vuli?, I., Séaghdha, D. ó., Leviant, I., Reichart, R., Ga?i?, M., … Young, S. (2017). Semantic Specialisation of Distributional Word Vector Spaces using Monolingual and Cross-Lingual Constraints. TACL. arxiv.org/abs/1706.00374
Ribeiro, M. T., Singh, S., & Guestrin, C. (2016, August). Why should i trust you?: Explaining the predictions of any classifier. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 1135-1144). ACM.
Ravi, S., & Larochelle, H. (2017). Optimization as a Model for Few-Shot Learning. In ICLR 2017.
Snell, J., Swersky, K., & Zemel, R. S. (2017). Prototypical Networks for Few-shot Learning. In Advances in Neural Information Processing Systems.
Song, Y., & Roth, D. (2014). On dataless hierarchical text classification. Proceedings of AAAI, 1579–1585. cogcomp.cs.illinois.edu/papers/SongSoRo14.pdf
Song, Y., Upadhyay, S., Peng, H., & Roth, D. (2016). Cross-Lingual Dataless Classification for Many Languages. Ijcai, 2901–2907.
Augenstein, I., Ruder, S., & S?gaard, A. (2018). Multi-task Learning of Pairwise Sequence Classification Tasks Over Disparate Label Spaces. In Proceedings of NAACL 2018.
Alonso, H. M., & Plank, B. (2017). When is multitask learning effective? Multitask learning for semantic sequence prediction under varying data conditions. In EACL. http://arxiv.org/abs/1612.02251.
Misra, I., Shrivastava, A., Gupta, A., & Hebert, M. (2016). Cross-stitch Networks for Multi-task Learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.doi.org/10.1109/CVPR.2016.433
Ruder, S., Bingel, J., Augenstein, I., & S?gaard, A. (2017). Sluice networks: Learning what to share between loosely related tasks. arXiv preprint arXiv:1705.08142.
Peters, M. E., Ammar, W., Bhagavatula, C., & Power, R. (2017). Semi-supervised sequence tagging with bidirectional language models. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL 2017).
Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep contextualized word representations. Proceedings of NAACL.
Howard, J., & Ruder, S. (2018). Fine-tuned Language Models for Text Classification. arXiv preprint arXiv:1801.06146.
Conneau, A., Kiela, D., Schwenk, H., Barrault, L., & Bordes, A. (2017). Supervised Learning of Universal Sentence Representations from Natural Language Inference Data. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing.
Subramanian, S., Trischler, A., Bengio, Y., & Pal, C. J. (2018). Learning General Purpose Distributed Sentence Representations via Large Scale Multi-task Learning. In Proceedings of ICLR 2018.
Ruder, S., Vuli?, I., & S?gaard, A. (2017). A Survey of Cross-lingual Word Embedding Models. arXiv Preprint arXiv:1706.04902.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … Polosukhin, I. (2017). Attention Is All You Need. In Advances in Neural Information Processing Systems.
Mou, L., Meng, Z., Yan, R., Li, G., Xu, Y., Zhang, L., & Jin, Z. (2016). How Transferable are Neural Networks in NLP Applications? Proceedings of 2016 Conference on Empirical Methods in Natural Language Processing.
Xie, Z., Wang, S. I., Li, J., Levy, D., Nie, A., Jurafsky, D., & Ng, A. Y. (2017). Data Noising as Smoothing in Neural Network Language Models. In Proceedings of ICLR 2017.
Nie, A., Bennett, E. D., & Goodman, N. D. (2017). DisSent: Sentence Representation Learning from Explicit Discourse Relations. arXiv Preprint arXiv:1710.04334

原文地址：ruder.io/requests-for-research/?utm_campaign=Revue%20newsletter&utm_medium=Newsletter&utm_source=The%20Wild%20Week%20in%20AI

譯文地址：NLP選題：6大研究方向助你開啟科研之路