人工智慧領域發展的關鍵技術

04-01

從語音識別到智能家居，從人機大戰到無人駕駛，人工智慧的「演化」給我們社會上的一些生活細節，帶來了一次又一次的驚喜，未來更多智能產品依託的人工智慧技術會發展成什麼樣呢？讓我們來看看2018人工智慧標準化白皮書裡面，對人工智慧關鍵技術的定義。

人工智慧技術關係到人工智慧產品是否可以順利應用到我們的生活場景中。在人工智慧領域，它普遍包含了機器學習、知識圖譜、自然語言處理、人機交互、計算機視覺、生物特徵識別、AR/VR七個關鍵技術。

一、機器學習

機器學習（Machine Learning）是一門涉及統計學、系統辨識、逼近理論、神經網路、優化理論、計算機科學、腦科學等諸多領域的交叉學科，研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的性能，是人工智慧技術的核心。基於數據的機器學習是現代智能技術中的重要方法之一，研究從觀測數據（樣本）出發尋找規律，利用這些規律對未來數據或無法觀測的數據進行預測。根據學習模式、學習方法以及演算法的不同，機器學習存在不同的分類方法。

根據學習模式將機器學習分類為監督學習、無監督學習和強化學習等。
根據學習方法可以將機器學習分為傳統機器學習和深度學習。

二、知識圖譜

知識圖譜本質上是結構化的語義知識庫，是一種由節點和邊組成的圖數據結構，以符號形式描述物理世界中的概念及其相互關係，其基本組成單位是「實體—關係—實體」三元組，以及實體及其相關「屬性—值」對。不同實體之間通過關係相互聯結，構成網狀的知識結構。在知識圖譜中，每個節點表示現實世界的「實體」，每條邊為實體與實體之間的「關係」。通俗地講，知識圖譜就是把所有不同種類的信息連接在一起而得到的一個關係網路，提供了從「關係」的角度去分析問題的能力。

知識圖譜可用於反欺詐、不一致性驗證、組團欺詐等公共安全保障領域，需要用到異常分析、靜態分析、動態分析等數據挖掘方法。特別地，知識圖譜在搜索引擎、可視化展示和精準營銷方面有很大的優勢，已成為業界的熱門工具。但是，知識圖譜的發展還有很大的挑戰，如數據的雜訊問題，即數據本身有錯誤或者數據存在冗餘。隨著知識圖譜應用的不斷深入，還有一系列關鍵技術需要突破。

三、自然語言處理

自然語言處理是計算機科學領域與人工智慧領域中的一個重要方向，研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法，涉及的領域較多，主要包括機器翻譯、機器閱讀理解和問答系統等。

機器翻譯

機器翻譯技術是指利用計算機技術實現從一種自然語言到另外一種自然語言的翻譯過程。基於統計的機器翻譯方法突破了之前基於規則和實例翻譯方法的局限性，翻譯性能取得巨大提升。基於深度神經網路的機器翻譯在日常口語等一些場景的成功應用已經顯現出了巨大的潛力。隨著上下文的語境表徵和知識邏輯推理能力的發展，自然語言知識圖譜不斷擴充，機器翻譯將會在多輪對話翻譯及篇章翻譯等領域取得更大進展。

語義理解

語義理解技術是指利用計算機技術實現對文本篇章的理解，並且回答與篇章相關問題的過程。語義理解更注重於對上下文的理解以及對答案精準程度的把控。隨著 MCTest 數據集的發布，語義理解受到更多關注，取得了快速發展，相關數據集和對應的神經網路模型層出不窮。語義理解技術將在智能客服、產品自動問答等相關領域發揮重要作用，進一步提高問答與對話系統的精度。

問答系統

問答系統分為開放領域的對話系統和特定領域的問答系統。問答系統技術是指讓計算機像人類一樣用自然語言與人交流的技術。人們可以向問答系統提交用自然語言表達的問題，系統會返回關聯性較高的答案。儘管問答系統目前已經有了不少應用產品出現，但大多是在實際信息服務系統和智能手機助手等領域中的應用，在問答系統魯棒性方面仍然存在著問題和挑戰。

自然語言處理面臨四大挑戰：

一是在詞法、句法、語義、語用和語音等不同層面存在不確定性；

二是新的辭彙、術語、語義和語法導致未知語言現象的不可預測性；

三是數據資源的不充分使其難以覆蓋複雜的語言現象；

四是語義知識的模糊性和錯綜複雜的關聯性難以用簡單的數學模型描述，語義計算需要參數龐大的非線性計算

四、人機交互

人機交互主要研究人和計算機之間的信息交換，主要包括人到計算機和計算機到人的兩部分信息交換，是人工智慧領域的重要的外圍技術。人機交互是與認知心理學、人機工程學、多媒體技術、虛擬現實技術等密切相關的綜合學科。傳統的人與計算機之間的信息交換主要依靠交互設備進行，主要包括鍵盤、滑鼠、操縱桿、數據服裝、眼動跟蹤器、位置跟蹤器、數據手套、壓力筆等輸入設備，以及印表機、繪圖儀、顯示器、頭盔式顯示器、音箱等輸出設備。人機交互技術除了傳統的基本交互和圖形交互外，還包括語音交互、情感交互、體感交互及腦機交互等技術。

五、計算機視覺

計算機視覺是使用計算機模仿人類視覺系統的科學，讓計算機擁有類似人類提取、處理、理解和分析圖像以及圖像序列的能力。自動駕駛、機器人、智能醫療等領域均需要通過計算機視覺技術從視覺信號中提取並處理信息。近來隨著深度學習的發展，預處理、特徵提取與演算法處理漸漸融合，形成端到端的人工智慧演算法技術。根據解決的問題，計算機視覺可分為計算成像學、圖像理解、三維視覺、動態視覺和視頻編解碼五大類。

目前，計算機視覺技術發展迅速，已具備初步的產業規模。未來計算機視覺技術的發展主要面臨以下挑戰：

一是如何在不同的應用領域和其他技術更好的結合，計算機視覺在解決某些問題時可以廣泛利用大數據，已經逐漸成熟並且可以超過人類，而在某些問題上卻無法達到很高的精度；

二是如何降低計算機視覺演算法的開發時間和人力成本，目前計算機視覺演算法需要大量的數據與人工標註，需要較長的研發周期以達到應用領域所要求的精度與耗時；

三是如何加快新型演算法的設計開發，隨著新的成像硬體與人工智慧晶元的出現，針對不同晶元與數據採集設備的計算機視覺演算法的設計與開發也是挑戰之一。

六、生物特徵識別

生物特徵識別技術是指通過個體生理特徵或行為特徵對個體身份進行識別認證的技術。從應用流程看，生物特徵識別通常分為註冊和識別兩個階段。註冊階段通過感測器對人體的生物表徵信息進行採集，如利用圖像感測器對指紋和人臉等光學信息、麥克風對說話聲等聲學信息進行採集，利用數據預處理以及特徵提取技術對採集的數據進行處理，得到相應的特徵進行存儲。

識別過程採用與註冊過程一致的信息採集方式對待識別人進行信息採集、數據預處理和特徵提取，然後將提取的特徵與存儲的特徵進行比對分析，完成識別。從應用任務看，生物特徵識別一般分為辨認與確認兩種任務，辨認是指從存儲庫中確定待識別人身份的過程，是一對多的問題；確認是指將待識別人信息與存儲庫中特定單人信息進行比對，確定身份的過程，是一對一的問題。

生物特徵識別技術涉及的內容十分廣泛，包括指紋、掌紋、人臉、虹膜、指靜脈、聲紋、步態等多種生物特徵，其識別過程涉及到圖像處理、計算機視覺、語音識別、機器學習等多項技術。目前生物特徵識別作為重要的智能化身份認證技術，在金融、公共安全、教育、交通等領域得到廣泛的應用。

七、VR/AR

虛擬現實（VR）/增強現實（AR）是以計算機為核心的新型視聽技術。結合相關科學技術，在一定範圍內生成與真實環境在視覺、聽覺、觸感等方面高度近似的數字化環境。用戶藉助必要的裝備與數字化環境中的對象進行交互，相互影響，獲得近似真實環境的感受和體驗，通過顯示設備、跟蹤定位設備、觸力覺交互設備、數據獲取設備、專用晶元等實現。

虛擬現實/增強現實從技術特徵角度，按照不同處理階段，可以分為獲取與建模技術、分析與利用技術、交換與分發技術、展示與交互技術以及技術標準與評價體系五個方面。獲取與建模技術研究如何把物理世界或者人類的創意進行數字化和模型化，難點是三維物理世界的數字化和模型化技術；分析與利用技術重點研究對數字內容進行分析、理解、搜索和知識化方法，其難點是在於內容的語義表示和分析；交換與分發技術主要強調各種網路環境下大規模的數字化內容流通、轉換、集成和面向不同終端用戶的個性化服務等，其核心是開放的內容交換和版權管理技術；展示與交換技術重點研究符合人類習慣數字內容的各種顯示技術及交互方法，以期提高人對複雜信息的認知能力，其難點在於建立自然和諧的人機交互環境；標準與評價體系重點研究虛擬現實/增強現實基礎資源、內容編目、信源編碼等的規範標準以及相應的評估技術。

目前虛擬現實/增強現實面臨的挑戰主要體現在智能獲取、普適設備、自由交互和感知融合四個方面。在硬體平台與裝置、核心晶元與器件、軟體平台與工具、相關標準與規範等方面存在一系列科學技術問題。總體來說虛擬現實/增強現實呈現虛擬現實系統智能化、虛實環境對象無縫融合、自然交互全方位與舒適化的發展趨勢。