2017 年回顧:NLP、深度學習與大數據
本文由 【AI前線】原創,原文鏈接:http://t.cn/RTHRSQq
AI 前線導讀: 「過去幾年以來,深度學習(簡稱 DL)架構及演算法已經在圖像識別與自然語言處理(NLP)、數據科學、機器學習和預測分析領域領域取得了令人印象深刻的進展。
儘管其在自然語言處理(簡稱 NLP)領域的應用最初較為平淡,但如今的成效已經證明這一層面將成為深度學習的另一大施展空間,並確實有能力為部分常見 NLP 任務提供最先進的支持成果。命名實體識別(簡稱 NER)、詞類(簡稱 POS)標記乃至情感分析都已經成為神經網路模型超越傳統處理方法的重要應用方向。而在此之中,機器翻譯的進步幅度尤為可觀」。
在今天的文章中,我們將回顧 2017 年年內基於深度學習技術所實現的 AI 發展成效。當然,受到篇幅所限,本篇文章不可能涵蓋全部科學論文、框架及工具。在這裡,我們只希望與大家分享這一年中最振奮人心的成果,同時結合全球 AI 大咖觀點,帶你回顧過去一年以來,深度學習帶來的發展及其意義。
自然語言處理的發展與趨勢
2017 年是自然語言處理領域的重要一年,深度學習所發揮的作用正在不斷擴大,尤其在某些情況下能夠帶來驚人的效果——而所有跡象都表明,這一趨勢在新的一年中還將持續下去。
從訓練 word2vec 到使用預訓練模型
可以說,詞嵌入是深度學習在自然語言處理領域最為知名的技術之一。詞嵌入源自 Harris 於 1954 年提出的分布假說,他認為具有相似含義的辭彙通常會出現在同類語境當中。關於詞嵌入的詳細解釋,這裡建議大家參閱 Gabriel Mordecki 發布的這篇精彩文章。
辭彙分布向量示例
Word2vec(由 Mikolov 等於 2013 年提出)與 GloVe(由 Pennington 等於 2014 年提出)等演算法正是這一領域的先驅性方案——雖然其尚不屬於深度學習(word2vec 中的神經網路較為淺表,而 GloVe 則採取基於計數的實現方法),但利用二者訓練的模型已經被廣泛應用於各類深度學習自然語言處理方案當中。另外需要強調的是,這兩種演算法確實極具成效,甚至使得詞嵌入成為目前最值得肯定的實現方法。
作為起步,對於需要使用詞嵌入的特定 NLP 問題,我們傾向於首先使用一套與之相關的大型語料庫進行模型訓練。當然,這種作法存在一定的入門難度——也正因為如此,預訓練模型才開始逐漸普及起來。在利用維基百科、Twitter、谷歌新聞以及 Web 抓取等數據完成訓練之後,這些模型將允許大家輕鬆將詞嵌入機制整合至自己的深度學習演算法當中。
2017 年的種種實踐證明,預訓練詞嵌入模型已經成為解決 NLP 問題的一類關鍵性工具。舉例來說,來自 Facebook AI Research(簡稱 FAIR)實驗室的 fastText 即提供包含 294 種語言的預訓練向量,這無疑給整個技術社區帶來了巨大的貢獻與推動作用。除了可觀的語言支持數量,fastText 還採用字元 N 元模型(即使是來自特定領域的術語等罕見詞,其中亦包含同樣存在於其它常見詞中的 N 元字元組合),這意味著 fastText 能夠迴避 OOV(即辭彙量超出)問題。從這個角度來看,fastText 的表現要優於 word2vec 以及 GloVe,而且前者在處理小型數據集時同樣更勝一籌。
儘管已經實現了一定進展,但這方面仍有大量工作需要完成。舉例來說,卓越的 NLP 框架 spaCy 就能夠對詞嵌入與深度學習模型加以整合,從而以原生方式實現 NER 及依存關係語法分析等任務,使得用戶能夠更新現有模型或者使用自主訓練的模型。
未來應該會出現更多針對特定領域的預訓練模型(例如生物學、文學、經濟學等),從而進一步降低自然語言處理的實現門檻。屆時用戶只需要對這些模型進行簡單微調,即可順利匹配自己的實際用例。與此同時,能夠適應詞嵌入機制的方法也將不斷湧現。
調整通用嵌入以適配特定用例
預訓練詞嵌入方案的主要缺點,在於其使用的訓練數據往往與我們的實際數據之間存在著辭彙分布差異。假定您面對的是生物學論文、食譜或者經濟學研究文獻,大家可能沒有規模可觀的語料庫用於嵌入訓練 ; 在這種情況下,通用詞嵌入方案可能有助於帶來相對理想的成果。然而,我們該如何對詞嵌入方案進行調整,從而確保其適合您的特定用例?
這種適應性通常被稱為 NLP 中的跨領域或領域適應技術,其與遷移學習非常相似。Yang 等人在這方面拿出了非常有趣的成果。今年,他們公布了一套正則化連續跳元模型,可根據給定的源領域詞嵌入學習目標領域的嵌入特徵。
其中的核心思路簡單但極富成效。想像一下,假定我們已經在源領域當中知曉詞 w 的詞嵌入為 w_sw。為了計算 w_twt(目標領域)的嵌入,作者在兩個領域之間向 w_sw添加了一個特定遷移量。基本上,如果該詞在兩個領域皆頻繁出現,則意味著其語義與領域本身不存在依存關係。在這種情況下,高遷移量意味著該詞在兩個領域中產生的嵌入結果傾向於彼此相似。但如果該詞在特定領域中的出現頻率比另一領域明顯更高,則遷移量將相應降低。
作為與詞嵌入相關的研究議題,這項技術還沒有得到廣泛關注與探索——但我相信其會在不久的未來獲得應有的重視。
情感分析——令人印象深刻的「副產物」
與青黴素乃至 X 光一樣,情感分析同樣是一場意外中的驚喜。今年,Radford 等人開始探索位元組級遞歸語言模型的特性,但其本意只是希望預測 Amazon 評論內容中的下一個字元。最終的結論顯示,他們訓練模型中的某個神經元能夠準確預測情感值。是的,這個單一「情感神經元」能夠以令人印象深刻的水準將評論內容歸類為「正面」或「負面」。
審查極性與神經元的值
在注意到這種現象後,作者們決定利用斯坦福情緒樹庫對該模型進行進一步測試,並發現其準確性高達 91.8%——優於原有最好成績 90.2%。這意味著他們的模型能夠以無監督方式利用更少實例實現訓練,並至少能夠立足斯坦福情緒樹庫這一特定但涵蓋範圍廣泛的數據集之上實現最為先進的情感分析能力。
情感神經元的實際使用
由於該模型立足字元層級運作,因此各神經元會根據文本中的每一字元作出變更,而最終成效令人印象深刻。
情感神經元的行為
舉例來說,在「best」一詞之後,該神經元的值會變為強正值。然而這種效果將隨著「horrendous」這一負面詞語的出現而消失——非常符合邏輯。
生成包含偏向極性的文本
當然,這套訓練模型亦是一套行之有效的生成模型,因此能夠用於生成類似 Amazon 評論的文本內容。而讓我個人感到驚喜的是,大家甚至能夠簡單覆蓋情感神經元的值來選定所生成文本的偏向極性。
以上為所生成的示例文本。
作者們選擇了乘法 LSTM(由 Krause 等人於 2016 年發布)作為其神經網路模型,這主要是由於他們發現乘法 LSTM 的超參數設置收斂速度要遠高於其它普通 LSTM。其中包含 4096 個單元,且利用 8200 萬條 Amazon 評論內容進行訓練。
時至今日,我們仍無法理解這套經過訓練的模型為何能夠以如此精確的方式捕捉到評論內容的情感傾向。當然,大家也可以嘗試訓練自己的模型並進行實驗。再有,如果您擁有充分的時間與 GPU 計算資源,亦可投入一個月利用四塊英偉達 Pascal GPU 重現研究人員們的訓練過程。
Twitter 中的情感分析
無論是對企業品牌的評價、對營銷活動影響作出分析抑或是量化 2016 年美國總統大選中民眾對希拉里與特朗普的支持程度,Twitter 中的情感分析一直作為一款強大的工具存在。
特朗普對希拉里:Twitter 上的情感分析
SemEval 2017
Twitter 上的情感分析已經引起了 NLP 研究人員們的廣泛關注,同時亦成為政治及社會科學界內的熱門議題。也正因為如此,SemEval 自 2013 年以來提出了一項更為具體的任務。
今年,總計 48 支隊伍參與到評選當中,這也再次證明了 SemEval 的魅力所在。為了進一步了解 Twitter 公司組織的 SemEval 究竟是什麼,我們將首先回顧其今年提出的五項任務:
任務 A: 根據給定的一條推文,判斷其代表正面、負面抑或中性情感。
任務 B: 根據給定的一條推文與主題,將與該主題相關的推文內容進行觀點二分:正面與負面。
任務 C: 根據給定的一條推文與主題,將與該主題相關的推文進行觀點五分:強正面、弱正面、中立、弱負面、強負面。
任務 D: 根據與某一主題相關的一組推文,估算其中正面與負面情感類別的分布情況。
任務 E: 根據與某一主題相關的一組推文,立足以下五種類別進行推文內容估算:強正面、弱正面、中立、弱負面、強負面。
如大家所見,任務 A 屬於最常見的任務,有 38 個團隊參與了這項任務 ; 但其它任務則更具挑戰性。主辦方指出,深度學習方法的使用量已經相當可觀並仍在不斷增加——今年已經有 20 個團隊開始採用卷積神經網路(簡稱 CNN)與長 / 短期記憶(簡稱 LSTM)等模型。此外,儘管 SVM 模型仍然相當流行,但已經有一部分參與者將其與神經網路方法或詞嵌入特徵加以結合。
BB_twtr 系統
今年我還發現了一套純粹的深度學習系統,即 BB_twtr 系統(Cliche,2017 年),其在五項任務的英文版本挑戰中全部位列第一。該作者將 10 套 CNN 與 10 套 biLSTM 結合起來,並利用不同超參數以及不同預訓練策略對其進行訓練。感興趣的朋友可以查閱鏈接內論文中對該網路架構的詳盡描述。
為了訓練這些模型,作者採用了人類標記推文(為了讓大家體會到其工作量,單是任務 A 就包含 49693 條此類推文),同時構建起一套包含 1 億條推文的未標記數據集。其能夠通過簡單的字元表情標記——例如:-)——從這套未標記數據集中提取出獨立數據集。這些推文通過小寫、標記、URL 以及表情符號等被替換為統一的標記方式,用於強調證據的重複字元也經過類似的處理(例如將『Niiice』與『Niiiiiiice』統一轉換為『Niice』)。
為了對作為 CNN 及 biLSTM 輸入內容的詞嵌入進行預訓練,該作者採用了 word2vec、GloVe 以及 fastText 對未標記數據集進行訓練,且三者皆採用默認設置。在此之後,他利用中立數據集對詞嵌入進行微調,旨在添加極性信息 ; 最後再利用人類標記數據集對模型進行再次微調。
利用以往 SemEval 數據集進行實驗,他發現 GloVe 會導致成效降低,且並不存在適用於全部數據集的最佳模型。該作者隨後將全部模型利用一套軟投票策略結合起來。最終得出的模型順利戰勝了 2014 年與 2016 年的獲勝模型方案,且與其它幾年的優勝者亦相差不多。正是這套方案,在 2017 年的 SemEval 當中獲得五項任務的英文版本優勝。
儘管他選擇的組合方式並不具備有機性——而僅通過一種簡單的軟投票策略實現,但這項工作仍然證明了將多種深度學習模型加以結合的可能性。事實上,這次嘗試還證明了我們完全能夠以端到端方式(即輸入內容必須經過預處理)實現超越監督學習方法的 Twitter 情感分析能力。
令人興奮的抽象概括系統
自動概括與自動翻譯一樣,皆屬於自然語言處理領域的元老級任務之一。目前實現自動概括主要通過兩種方法:基於提取型方法,通過從源文本中提取最重要的文本段建立摘要 ; 基於抽象型方法,以抽象方式通過生成文本構建摘要內容。從歷史角度來看,基於提取的方法最為常見,這主要是因為其實現難度要遠低於基於抽象型方法。
過去幾年以來,基於遞歸神經網路(簡稱 RNN)的模型開始在文本生成方面取得驚人的進展。其在簡短輸入與輸出文本場景中的表現非常出色,但所生成的長文本卻存在著連續性差及重複度高等問題。在工作當中,Paulus 等人提出了一種新的神經網路模型以克服上述局限——而結果令人振奮,具體如下圖所示:
模型所生成的摘要內容
作者們利用一款 biLSTM 編碼器讀取輸入內容,並利用 LSTM 解碼器生成輸出結果。他們的主要貢獻在於利用一種新的內部關注策略對輸入內容以及連續生成的輸出結果進行分別關注,同時結合標準監督詞語預測與強化學習機制建立起一種新的訓練方法。
內部關注策略
之所以要提出內部關注策略這一概念,主要是為了避免輸出結果中的重複性問題。為了達到這項目標,他們在解碼過程中使用暫時關注機制查看輸入文本中的前一段落,並藉此決定下一個將要生成的辭彙。這就迫使該模型在生成過程中使用輸入內容中的不同部分。此外,作者們還允許模型從解碼器當中訪問此前曾經存在的隱藏狀態。將這兩條函數結合起來,即可為摘要輸出結果選擇最理想的一下個單詞。
強化學習
在創建同一條摘要時,不同的人往往會使用完全不同的辭彙與句子——而這兩條摘要可能同樣準確有效。因此,良好的摘要並不一定需要儘可能同訓練數據集中出現的辭彙序列相匹配。以此為前提,作者們決定避免使用標準的指導強迫演算法,而是在每個解碼步驟內(即生成每個單詞時)儘可能減小丟失值。事實證明,他們選擇的這一強化學習策略確實非常有效。
來自近端到端模型的出色成果
這套模型接受了 CNN/Daily Mail 數據集的測試,並得到了極為出色的處理結果。除此之外,人類評估者亦對該模型作出了測試,並發現其摘要結果的可讀性與質量都有所提升。這些結果令人印象深刻,特別是考慮到其僅需要非常基礎的預處理過程:對輸入文本進行標記與小寫化,而後將數字全部替換為「0」,最終將數據集內的部分特定實體徹底移除。
這是否代表著通往無監督機器翻譯的第一步?
所謂雙語詞典歸納,是指利用兩種語言的源語與單語語料庫實現單詞識別與翻譯——這是一項歷史相當悠久的自然語言處理任務。自動生成的雙語詞典能夠有力支持其它 NLP 類任務,包括信息檢索與統計類機器翻譯等。然而,此類方法大多高度依賴於某種資源——例如初始版本的雙語詞典。而這類詞典往往並不存在或者很難構建。
隨著詞嵌入機制的成功,人們開始考慮實現跨語言詞嵌入的可能性——其目標在於分配嵌入空間,而非建立詞典。遺憾的是,第一批實現方案仍然依賴於雙語詞典或對等語料庫。不過在實踐工作當中,Conneau 等人(2018 年)提出了一種極具發展前景的方法,其不依賴於任何特定資源,且在多種語言到語言翻譯、句子翻譯檢索以及跨語言單詞相似性類任務當中擁有優於現有監督學習方法的實際成效。
作者們開發出的方法是將所輸入的兩組詞嵌入以單一語言數據為基礎進行獨立訓練,而後學習二者之間的映射關係,從而使得翻譯結果在公共空間內儘可能接近。作者們利用 fastText 對維基百科文檔進行無監督辭彙向量訓練,下圖所示為這種方法的核心實現思路:
在兩套詞嵌入空間之間建立映射關係
其中紅色的 X 分布為英語單詞嵌入,而藍色的 Y 分布則為義大利語單詞嵌入。
作者們首先利用對抗性學習以獲取用於執行第一次初始對齊的旋轉矩陣 W。根據 Goodfellow 等(2014 年)提出的基本原則,他們構建起一套生成對抗網路(簡稱 GAN)。若大家希望了解 GAN 的工作原理,推薦各位參閱本篇由 Pablo Soto 撰寫的文章。
為了在對抗學習過程中進行問題建模,他們在定義中為鑒別器添加了判定角色,同時隨機從 WX 與 Y 中提供某些樣本元素(詳見上圖中的第二列),藉以判斷這些元素屬於哪一種語言。接下來,他們訓練 W 以防止鑒別器作出準確的預測。這種作法在我看來簡直有才,而其結果也相當令人滿意。
在此之後,他們利用兩個後續步驟進一步完善映射關係。其一是避免在映射計算中因罕見字的出現而引發問題。其二是構建實際翻譯能力,其中主要應用到已經學會的映射關係與距離度量機制。
在某些情況下,這套模型擁有極為先進的處理結果。例如在英語到義大利語的單詞翻譯過程中,在 P@10 的情況下,其能夠以接近 17% 的精度完成源單詞翻譯(具體數量超過 1500 個)。
英語到義大利語單詞翻譯平均精度。
作者們宣稱,他們的方法將能夠作為無監督機器翻譯技術的重要起點。如果實際情況真是如此,那麼未來的前景絕對值得期待。當然,我們也希望看到這種新方法能夠走得更快、更遠。
專用型框架與工具
目前市面上存在大量通用型深度學習框架與工具,其中 TensorFlow、Keras 以及 PyTorch 選項得到了廣泛使用。然而,專用型開源 NLP 深度學習框架及工具也開始興起。2017 年是令人振奮的一年,目前已經有不少非常實用的開源框架被交付至社區手中。而以下三款引起了我的濃厚興趣。
AllenNLP
AllenNLP 框架是一套構建於 PyTorch 之上的平台,用於在語義 NLP 任務中輕鬆利用深度學習方法解決問題。其目標是幫助研究人員設計並評估新模型。該框架包含多種常用語義 NLP 任務的參考實驗模型,具體包括語義角色標記、文本引用以及共因解析等。
ParlAI
ParlAI 框架是一套開源軟體平台,用於進行對話研究。其利用 Python 實現,旨在為對話模型的共享、訓練與測試提供一套統一的框架。ParlAI 能夠與 Amazon Mechanical Turk 實現輕鬆集成。另外,其還提供多種流行數據集,並能夠支持大量神經模型——包括記憶網路、seq2seq 以及關注型 LSTM 等。
OpenNMT
OpenNMT 工具集是一款通用型框架,專門用於序列到序列類模型。其可用於執行諸如機器翻譯、摘要、圖像到文本以及語音識別等任務。
寫在最後
毫無疑問,用於解決 NLP 類問題的深度學習技術正在不斷增加。在這方面的一大證明性指標,在於過去幾年來發表在 ACL、EMNLP、EACL 以及 NAACL 等關鍵性 NLP 會議上的深度學習論文在比例上出現了顯著提升。
深度學習論文百分比變化圖
然而,真正的端到端學習目前才剛剛開始。我們仍需要完成一些經典的 NLP 任務以籌備數據集,例如對某些實體(包括 URL、數字以及電子郵箱地址等)進行清洗、標記或者統一化調整。我們還在利用各類通用型嵌入,其缺點在於無法捕捉到特定領域術語的重要意義,且在多詞表達式的理解方面表現不佳——我在自己的工作項目中已經充分體會到了這些弊端。
對於將深度學習技術應用於 NLP 領域而言,2017 年無疑是偉大的一年。我希望 2018 年能夠帶來更多端到端學習成果,而各類專用型開源框架也能得到進一步發展。如果您對於本文中提及的各類成果及框架有著自己的看法,或者擁有您支持的方案,請在評論中與大家分享。
機器學習與大數據的發展與趨勢
2017 年,我們見證了大數據將 AI 推向了技術浪潮之巔。AI 成為媒體和從業者的注意力焦點,當然這其中包含了正面(各行各業日趨強大的機器學習演算法和 AI 應用)和負面(機器將取代人類工作,甚至控制人類世界)的信息。我們也目睹了基於數據的價值創新,包括數據科學平台、深度學習和主要幾個廠商提供的機器學習雲服務,還有機器智能、規範性分析、行為分析和物聯網。
我們綜合整理了一些數據科學家、AI 專家對 2017 年機器學習和發數據發展現狀的總結,以及他們對 2018 年發展趨勢的預測,由於篇幅有限我們隱去了這些專家的名字,如果需要了解專家的詳細信息,請參看文末的參考文章,如果各位讀者有其他補充和觀點,歡迎在評論區與我們討論。
2017 的發展狀況
AlphaGo Zero 帶來了一種新的增強學習方式,或許是 2017 年 AI 領域最重大的研究成果
2017 年,我們看到了 AI 的大踏步發展。儘管之前的深度學習模型需要大量的數據來訓練演算法,但神經網路和增強學習的應用告訴我們,大數據集並非高效演算法的必要條件。DeepMind 使用這些技術創造了 AlphaGo Zero,它的表現已經超出了之前的演算法。
企業 AI 成為主流
很多大型公司啟動了 AI 或機器學習項目,不過這些項目的目標有一定的局限性。大型廠商的項目日趨走向開源,DIY 項目會越來越多。這意味著企業必須提升數據科學技能。例如:
(1)谷歌發布了第二代 TPU,如果從能量方面來考量,它可以節省數十億美元。
(2)英偉達發布的 Volta 架構基於特斯拉 GPU,每個 GPU 可以支持 120 萬億次浮點運算。
(3)D-Wave 量子計算機炒作風波平息,帶有 QISKit 量子編程框架的 20 量子位量子計算機出現。
機器學習被應用在數據集成上
2017 年是智能分析平台的發展元年。從分析機器人到自動化機器學習,數據科學中出現了太多複雜、智能自動化的東西。數據集成和數據預備平台能夠智能地處理數據源,自動修複數據管道中的錯誤,甚至基於通過與人類交互學習而來的知識進行自我維護或完成數據質量處理任務。自動機器學習平台和半自動化的特徵工程很快改變了數字分析領域的遊戲規則。
數據科學自動化,出現了很多自動化機器學習平台。機器學習解決了數據分析和數據管理的大難題,需要大量人工介入的數據集成被某種程度的自動化方式所取代,為我們節省了大量時間。
保守的公司開始擁抱開源
最為保守的傳統公司(如銀行、保險、健康醫療)開始主動使用開源的數據分析、AI 和數據管理軟體。有些公司鼓勵員工拋棄使用具有著作權的工具,有些則只建議在個別項目上使用它們。這其中有成本方面的考慮,但更好的性能和招聘方面的便利也是重要的考慮因素。
Python、Java 和 R 語言從 2017 年開始成為最為吃香的編程語言
人們對 AI 發展的期待快過其實際發展程度
2018 年趨勢預測
AI 將更多應用在商業領域
2018 年,AI 的發展腳步會加快,AI 的價值將在這一年得到體現:
- McAfree 實驗室的研究報告表明,對抗機器學習將被用在網路入侵檢測、欺詐檢測、垃圾檢測和木馬檢測上。
- HPE 將研發標量積引擎,並推出自己的神經網路晶元,用於高性能推理計算,如深度神經網路、卷積神經網路和循環神經網路。
- 無監督學習和自治學習將助力機器人與周圍的陸上環境和水下環境互動。
- 機器學習在物聯網和邊緣計算領域的應用門檻將會降低,空間位置智能將出現突破性的演算法,應用在手機、RFID 感測器、UAV、無人機和衛星上。
- 機器學習應用繼續擴張領地,比如市場、金融風險、欺詐檢測、勞動力優化配置、製造業和健康醫療。
- 深度學習不管在勢頭上還是在實際應用價值上都蓬勃發展。一系列新型的高級神經網路將機器學習提升到新的高度,以高性能解決大信號輸入問題,如圖像分類(自動駕駛、醫療圖像)、聲音(語音識別、說話者識別)、文本(文本分類),甚至是「標準」的業務問題。
這一領域的開發內容與 2017 年相比可能不會有太大變化:流程自動化、機器智能、客戶服務、個人定製化以及勞動力轉型。物聯網領域的發展也會更加成熟,包括更加成熟的安全特性、模塊化平台、用於訪問感測器數據流的 API 以及邊緣分析介面。我們也將看到數字化在其他領域成為主流,如製造行業、基礎設施領域、工程領域和建築行業。我們相信,2018 年會有更多的從業者將 AI 的優勢帶向更廣大的領域。
2017 年是星光耀眼的一年,很多甚至跟 AI 都擦不上邊的廠商開始提供 AI 產品。2018 年,我們將看到 AI 和機器學習應用在更多的商業領域。為什麼這麼說?因為那些亟待解決業務問題的大佬們並不關心具體的技術將怎樣發展,他們會想方設法加速供應鏈流動,想知道客戶的動向,並向計算機尋求答案。那些能夠以最快速度提供預測分析的廠商將成為遊戲規則的制定者。
獨立 AI 初創公司將走向衰落
在過去幾年,風險資本的追捧催生了數百家 AI 初創公司,每家公司都只解決一小部分問題。儘管它們很努力,但要在現有的流程中實現集成將是一個巨大的挑戰。因此,現有的公司要麼提供易於集成的 AI「微服務」,要麼向已經將 AI 嵌入到事務系統中的廠商購買服務。
規則與安全將至關重要
隨著 AI 在眾多領域的應用,如犯罪審判、金融、教育和職場,我們需要建立演算法標準來評估它們的準確性。關於 AI 對社會影響的研究將會持續增長,包括建立 AI 的適用規則(比如避免決策黑盒)以及了解深度學習演算法是如何做出決策的。
安全問題將繼續升溫,企業將在安全方面投入更多的精力,提升區塊鏈可見性是提升公司數據安全性行之有效的方式。期待下一年能夠看到自動化 AI 被無縫地集成到更多的分析和決策過程中。歐洲通用數據保護條例的實施確保數據不會被濫用,從而更好地保護個人數據。
量子計算將吸引更多目光
量子機器學習的未來取決於擁有更多狀態的量子位,可能是 10 以上,而不是只能支持兩種狀態的量子位。量子計算和數據科學演算法將吸引更多人的眼球,儘管真正的量子計算機還離我們很遙遠。
AI 泡沫將持續膨脹
人們從 2017 年開始大肆談論機器學習、AI 和預測分析,可惜大部分公司或廠商都是在故弄玄虛,他們根本沒有真正的實力去做這些事情。這些領域需要時間和人才,實打實的經驗是非常重要的!AI 泡沫將繼續膨脹,不過我們也會看到沉澱的跡象。AI 仍然會被過度吹捧。
數據科學家群體將擴大
數據分析員和數據科學家需要知道哪些演算法可以用來做什麼。分析和機器學習的自動化將產生多元化的演算法,有可能會出現「人人都是數據科學家」的局面。與此同時,GDPR(歐洲通用數據保護條例)將在 2018 年 5 月 25 號開始實行,這將給數據科學帶來重要影響。
2018 年將是數據科學和預測分析領域出現眾多領頭羊的一年,不只是因為這是大勢所趨,根本原因是它們將給我們的業務帶來真正的改變。預測招聘可以為你省下數百萬美元的招聘經費,AI 和機器學習可以在幾秒鐘內完全之前需要幾天才能完成的事情。
2018 年,實現「人人都是數據科學家」的目標將是頭等大事。從專家的經驗來看,團隊仍然需要保持綜合性結構:為不具備數據分析背景的員工和高層提供工具來幫助他們做出決策。更重要的是,團隊需要開發出自己的數據模型,要有能夠理解模型和特定分析技術局限性的的數據科學家。
參考文章
https://tryolabs.com/blog/2017/12/12/deep-learning-for-nlp-advancements-and-trends-in-2017/
https://www.kdnuggets.com/2017/12/data-science-machine-learning-main-developments-trends.html
關注我們的微信號"AI前線",後台回復「AI」可獲得《AI前線》系列PDF電子書
推薦閱讀:
※2017黑五背後的消費者數據_諸葛io
※流行音樂五十年的發展歷程
※穿Prada的科技女魔頭:ELLE 2017年傑出科技女性時尚大片
※208個最新最全大數據/人工智慧專有名詞術語 中英對照(上)
※從大數據+AI 談談概念與場景
TAG:自然语言处理 | 深度学习DeepLearning | 大数据 |