【人工智慧】產品應用現狀總覽與未來思考

07-26

一個很大、很難成品的題目，但是自己很喜歡這一塊，並且碩士期間也在從事基於深度學習的目標檢測與識別的研究，所以希望能在總結與思考之後有一定的收穫和一個清晰的脈絡。無法一覽無餘，但願能見微知著。

本篇文章，會先談一下自己對人工智慧產品的一個理解和使用體驗(用戶角度)。
接著以【行業應用】和【產品形式】兩個角度，總結一下人工智慧產品的應用情況。
最後，通過學習與總結再以一個產品人的角度，展望AI產品的未來。

AI(Artificial Intelligence)

【真假】「人工」智能

先從用戶的角度，談一下，現如今已經滿大街都飛揚著的「人工智慧」。總結一下：說自己是AI產品的，大部分都是人工的AI；你感受不到的，卻處處有AI。

我覺得上面的總結形容地應該很貼切了，由於很多普通用戶對技術實現上沒有太大的概念，所以總是被一些帶有迷惑性質的AI宣傳所欺騙，最後自己使用之後，評價基本都是：「什麼破人工智慧，真笨！」。而真正的人工智慧技術，其實已經進入我們的生活，只是我們未曾察覺，而好的技術就是這樣，不需要大張旗鼓的宣揚，卻真真切切的提高了我們生活的效率。

先說說我們能看到的那些「假」人工智慧。

智能水杯： 主要功能為，水溫顯示、水溫鬧鐘、高溫預警、飲水提醒、微信互聯、定位尋找等。其實來看一下，這裡面的功能，都是需要人為的在對應的智能硬體APP上設定，才能達到智能。當我們有新的想法時，還得去重新設定。是實實在在的【人工手動】智能。可這樣的杯子，可以在某大平台自營賣到300+、400+的價格。

智能水杯功能宣傳圖

從智能水杯，再看很多類似的「智能硬體」設備。它們通過人工的一些設定，達到自動的作用，但是如果情況有變，我們希望更改設置時，就還需要人工的去設定，就非常的不智能了。

但其實，是否需要人工設定，這個界限是有點模糊的，因為很多人工智慧系統需要一個冷啟動，但很多這樣的智能硬體設備確實是一點AI的相關技術都沒有用到，靠的是感測器顯示和人工程序設定。

不過這類產品，可能也沒想往AI上設計，但只是介於智能和普通之間，找不到其他好聽的修飾詞，所以便取了「智能」。就像剛出來的智能手機一樣。這裡就再不細談這些產品是否可以算入「假」的人工智慧(因為人家也沒有明確自己是AI產品)，但是，確實，會給用戶帶來一定的混淆。

【弱】人工智慧產品的前因後果

不過，真正使用了"Machine Learning"的【弱】人工智慧產品，才是讓用戶說出「什麼破人工智慧」的禍首。

智能機器人：現在市面上的機器人基本可以用能動的和不能動的來區分價位。在交互上，有純語音交互的，也有視覺+語音的。這些產品集成了大量的機器學習和深度學習技術，一開始的亮相驚艷無比，但是慢慢的新鮮感就會下降。

其實出現這樣的現象，根本的原因是這些產品無法自學習。雖然對比不同的交互，會有不同的設定，甚至在出現訓練時沒有輸入過的陌生指令，也可以很好地拆解並做出反應。但是，這些演算法始終都無法自學習(無監督學習)，所以，某種意義上來講，就是【弱】人工智慧。

還有類似的：「智能推薦」、「個人語音助手」等，我們會發現都是在一定程度上的「智能」。這也是監督學習的一個弊端。機器無法自學習，在某種意義上就是【弱】人工智慧。雖然，現在也有些「智能推薦」應用，可以根據用戶的使用數據，不斷學慣用戶行為迭代更新模型參數，但是，由於還是偏向學慣用戶歷史行為數據，所以，這類的產品也會因為無法適應人類多變的興趣和情感需求，而被詬病。

而對於，「聊天機器人」來講，很多用戶在使用過程中很容易跳戲，或者覺得並不智能。

清華大學的黃民烈博士表示，想要讓機器像人一樣與用戶交流，還要需要幾個關鍵點：1.需要給機器一個固定的人格和屬性。2.要讓機器知道交談的話題是什麼，並且是在跟誰交談。3.要考慮對話時的一些其他環境信息，甚至考慮多方面的綜合感知信息：如語音、語調、姿態和表情。

不過，以上說的這些，都是人工智慧呈現一個完整的閉環產品形式在展現，涉及到的使用場景是非常廣泛開放性的，所以用戶無法真切地感受到AI給我們生活中的細節末梢帶來的巨大變化。

系統化、閉環形式的產品，總是難以打造的。當技術未成熟時，人工智慧，很難作為一個獨立的載體，開放式地為人類服務。但是，由於深度學習近幾年的飛速發展，在一些細分領域上，人工智慧已經可以勝任人類的工作，例如：人臉識別、智能安防、語音識別等等。

所以接下來，我們就來看看，應用了AI技術的產品都有哪些，如今的AI+ 是如何改變我們生活方式和產品形態的。

這些年我們遇見的人工智慧

這一塊的內容思前想後了半天，寫了又刪，刪了又寫，主要是不知道該如何邏輯清晰地把概況都總結下來。最後還是覺得用【產品形式】和【應用行業】這兩個角度進行總結，雖然有交叉的地方，但是大部分都還是有區別的，盡量全面的了解一下AI的各種應用。

AI應用中的產品形式展現

首先，先上一個導圖。我按照產品的輸入形式分為了4種：文字、語音、圖像、視頻。接下來，按照AI技術如何處理這些輸入或產品的輸出形式進行了舉例。

AI產品——產品形式

首先要提一下，由於深度學習大量地應用到這些領域的研究中，所以從12年到現在，在上述的大部分領域中，學術界大幅地提升了演算法的精度，這給產品化的應用帶來了前提條件。因為，在學術界，可能提高1%就可以發論文；但是在工業界，需要有一個很高的精度，才能投入使用。並且，值得一提的是，在有些領域裡，機器的準確率已經比人類還要高。

這裡我們需要感謝硬體的不斷發展，讓我們得到了巨大的計算能力。也要感謝互聯網的不斷發展，讓我們積累了龐大的數據。最後，也得感謝Geoff Hinton、Yann LeCun等學術泰斗，他們的堅持和創造讓學術界重新看到了深度學習的無限潛力。

好了，開始細細說一下這些已經應用在我們生活中的AI產品。

文字

機器翻譯：這個大家應該都會用到：【百度翻譯】、【google翻譯】。目前的【google翻譯】已經擁有100多種語言之間的互譯功能，十分強大。雖然，對於有歧義的句子等，還是無法很正確的翻譯；但是，對於日常的輔助閱讀，已經十分夠用了。

智能客服：這個應該也很熟悉了，現在很多行業90%以上的客服回答都是由機器人來完成的。由於很多問題，都是相似的，可以直接對用戶輸入的文字做分詞處理，匹配關鍵詞，然後回答相應的問題，極大地減少了人工客服重複性的工作。

閱讀理解：讓機器閱讀文章並回答問題。雖然，我們讓機器做閱讀理解並評分意義不大，但是如果作為一個輔助技術是非常重要的：可以幫助人類在大量的文本中找到想要的答案，減少人力付出。

機器人寫稿：這項應用已經在很多細分領域中開展了。比如地震新聞、體育新聞、財經新聞等。這些領域中的新聞播報都有固定的格式，讓機器學習這些模板，然後給機器輸入相關的數據，可以在極短間內輸出新聞報道。前段時間關於四川九寨溝發生的7.0級地震，中國地震台網機器人自動編寫稿件僅用25秒出稿，寫了540字並配發4張圖片。

2017年8月8日21時37分15秒，中國地震網機器人自動編寫的稿件

拼寫補全：我們在日常打字的時候，在我們未拼寫完全的時候，輸入法就會猜我們需要打什麼字。這個就是利用大數據讓機器更了解我們。

語音

語音識別：這個大家就再熟悉不過了，現在手機上的主流輸入法都支持語音輸入，並且自己也會經常使用，自己走在路上給對方發消息，但是對方不方便接受語音消息時，依然可以抬著頭走路，剛需啊！這裡值得一提的是，國內的一些相關廠商在安靜的環境下，中文的語音識別準確率達到97%。但是，同樣，未來的技術重點也是要在這個【安靜的環境】。不過語音識別更重要的意義在於，它給我們連接機器提供了一個更方便的介面。

即時翻譯：語音識別+機器翻譯，就出現了現在很多即時翻譯軟體，出國旅遊的利器。

語音合成：這裡，想要強調的是，語音合成技術是TTS系統中最基本而重要的模塊。而TTS是text-to-speech.作者本人一開始居然還傻傻地以為是將兩段語音合成。所以，我們在使用siri時，就是語音合成技術讓她開的口。很多，閱讀軟體中的機器讀文功能，也是通過語音合成技術模仿人聲。說白了，就是通過訓練，讓機器可以學習人的聲音說話。

語音喚醒：很多電影，主角一聲吼，各種機器小弟來相見，這就是用到了語音喚醒。語音喚醒有兩種基本方式，一種就是通過語音識別，然後匹配喚醒詞。第二種，利用聲學模型(音調、頻率等)，匹配喚醒庫里發音詞的發音特徵，從而喚醒。

語音分離：之前在講語音識別時是不是提到，在嘈雜的環境下識別率會降低。這裡就有語音分離的用武之地了，可以將非人聲或其他雜訊分離出來，只將我們想要的聲音輸入。

圖像

人臉識別：已經大量應用，iphone X刷臉解鎖；刷臉支付也已進入試用階段；甚至還可以通過兒童時候的照片找出長大之後的人臉；在一些安檢點會通過照相匹配身份證上的人臉信息，以查看是否是本人。這都是人臉識別的應用。

目標檢測&目標識別：大多數情況下這兩個技術都是同時應用的。這項技術也是整個計算機視覺的基礎，很多應用的核心技術也是基於此。效果就是可以檢測出一張圖片中你想要檢測的目標並識別出它是什麼(人、動物、手機、汽車等等)。現在學術界的Yolo9000可以檢測並識別9000種類別的物體，並且可以達到實時的速度。而且，目前機器識別目標的準確率早已高於人類(在一些標準數據集上的測試結果)。所以整個技術的成熟度已經很高，可以作為基礎技術應用到各種複雜系統中去：例如，智能駕駛中需要檢測並識別周圍的物體；智能安防領域中需要檢測攝像頭中的感興趣目標，等等。最後，用一句話概括，就是可以讓機器認識物體。

場景識別：一張圖片我們分為前景和背景。當人站在足球場上時，我們就可以利用目標檢測和識別技術將人檢測並識別出來，而場景識別呢，就可以告訴我們，這是足球場。一個是檢測前景物體的，一個是檢測背景的。而場景識別，要更加複雜一點。

OCR：Optical Character Recognition——光學字元識別。是指對文本資料的圖像文件進行分析識別處理，獲取文字及版面信息的過程。這個應用就十分廣泛了，而且也已深入我們的生活：比如，你在手機上添加銀行卡時，很多軟體會讓你直接把卡放在攝像頭的中央位置，然後就會自動識別出卡號。還有一些軟體需要添加身份證或者是個人證件時，也可以使用相似的操作；以及你在停車場進出的時候，車牌識別，其實也算這個領域。也有很多軟體應用在直接把PDF的內容轉換成可編輯的文檔。可謂十分廣泛。也是非常基礎的一個應用。

圖像處理：其實在這個領域內，有些方法並沒有用到機器學習的內容，但是也有用到的。應用也是十分廣泛的。現在的很多美圖軟體，都可以按照用戶想要的效果輸出處理後的圖片。當然還有一些更有意義的：比如，圖像去霧、圖像去燥、暗光增強、失焦修復。當然還有各種濾鏡啊等等。應用十分廣泛。還有值得一提的是，圖像超解析度：就是可以用深度學習模型將原始低解析度的圖像經過處理後變成高解析度的圖像。並且，效果就是，你會認為處理過後的圖像就是原始圖像。再多說一句，這項技術更進一步，可以達到，你給機器輸入一個文字：「貓」，它就可以幫你生成一張貓的圖片。

圖像融合：其實圖像融合也可以算是一種圖像處理的方式。目前已經有很多圖像融合的APP了，並且這些圖像融合不是簡單的兩個圖像相疊加，是在風格上的融合，並保持一定的內容特徵。在學術上，叫做圖像風格遷移，可以讓人人都成為梵高風、畢加索風的圖片創造者。大家可以下一個【prisma】體驗一下。這裡其實，想說，看很多文章說這樣機械化的創造，會不會消滅藝術；但，我覺得，雖然機器在融合的過程中並不會加入情感和思考，但是，背後操作的人，依然有著溫度。所以，作為一個工具，可以讓我們人人都成為一個「假」的藝術家，可這也是藝術希望的啊。我們需要做的，就是更好地了解這些工具，並讓他們成為生產力。

圖像分割：其實圖像分割，就是摳圖，並且是完全按照物體的輪廓扣出來的圖。現在很多軟體也可以做到，把你想要的前景目標按照其邊界輪廓扣出來，然後，你就可以任意妄為的讓它去你想去的地方了。

最後看一下兩篇在各自領域內較頂級的論文中的實驗截圖，感受一下目標檢測與識別和圖像分割的區別。其中，左圖上面的數字就是機器認為是該物體的概率(最大為1.0)。真正的技術上原始的輸出是這樣子的，在此基礎上，到產品端給用戶的展示方式和形態可以有更多的想像力。

目標檢測與識別圖像分割

真正的技術上原始的輸出是這樣子的，在此基礎上，到產品端給用戶的展示方式和形態可以有更多的想像力。

視頻

其實視頻中的很多應用基礎是上一節講過的圖像技術，因為視頻都是由一張又一張的圖片組成的。在處理視頻時也會將其作為圖片進行處理，隨後再將其連貫起來看。但是需要注意的是，視頻，比圖片多了一個時間序列信息。而利用這個信息，也是很多視頻應用中，最關鍵的一步。

行為分析：當我們將視頻中出現的目標按照先後關係連續去看每一個動作時，其中就蘊含著行為的特徵。技術上實現的原理也是這樣的，先通過把每一幀里人的動作給識別出來，然後再放到另一個模型中連貫的去處理這些動作特徵，最後得到預測的行為結果。這個，在人機交互中有十分大的潛在應用價值。而在實際投入使用中，很多城市都安裝了預警攝像頭，如果在其監控範圍內有潛在的犯罪行為，就會自動報警。

視頻分割：這個就是做連續的圖像分割。把視頻中的一些前景或背景分割出來，有利用更好的研究視頻的內容信息。也可以作為一種輔助工具，用於無人機導航和智能駕駛中去。

視頻語義理解：視頻語義的理解其實是一個多特徵的融合。利用之前提到過的：行為分析、人臉識別、語音識別等技術，對視頻的相應內容進行識別，並綜合這些特徵，理解視頻內容。

SLAM：Simultaneous Localization and mapping，同步定位與地圖構建。是近幾年很火的一項研究。我所知道的，有兩個應用：1.無人機在室內環境下無法利用GPS導航飛行，這個時候就需要SLAM技術，在陌生的室內環境中進行視覺導航。大致的原理就是，通過攝像頭拍下室內的場景，然後進行地圖的構建，隨後用戶就可以操作無人機飛行室內的一些指定位置了。這樣就解決了之前無人機無法在室內定位導航飛行的難題。2.在陸地上走的機器人，進入一個陌生的環境也需要進行導航。通過在運動過程中拍下的室內場景，構建室內地形地圖特徵，並定位自身位置和姿態。這個在一些災難救援場景中，就顯得尤為關鍵和重要。

目標跟蹤：目標跟蹤就是將目標在視頻中的行動軌跡給畫出來，從而就能定位一個人。目標跟蹤其實是在目標檢測的基礎之上做的一個演算法跟蹤。因為，因為目標檢測無法區分檢測到的兩個人，並且，在目標被遮擋的情況下，也是無法檢測到目標的。而應用目標跟蹤技術，即使在遮擋的情況下，根據目標移動的軌跡也可以預測出他的位置，並且，如果同時檢測到多個目標，還可以區分出這些目標的軌跡。

智能安防：以前，我們安防預警需要靠人盯著，或者說在事發之後，需要人為地去翻看錄像。而，將以上目標檢測與識別、人臉識別、目標跟蹤、行為分析等技術整合之後，就可以依靠機器查出犯罪嫌疑人分的移動方向，甚至在城市的其他攝像頭中找到犯罪嫌疑人。也可以，讓機器全天候24小時的情況下監控一些關鍵區域，預警是否有危險情況的出現。智能安防是一個領域，其中需要應用到的技術是依據場景和需求而定，但其中肯定少不了AI的應用。

AR/VR：這一塊的技術應用筆者不是很了解，但是，其中肯定集成了深度學習的一些基礎應用技術，例如：人臉識別、目標檢測、場景識別等。而VR/AR未來可能會隨著硬體的普及，重新定義一些我們的生活方式。不過，在此之前，應該先很好地解決長時間佩戴眩暈問題。

好了，到這就先告一段落了，仔細回顧一下上面所介紹的，在產品的形式上，AI幾乎已經是包攬了所有的計算機軟體形態(不知道這樣說準確不)了。而一些基礎應用，已經滲入到各行各業中，有的作為工具、有的作為零件，被集成到了行業中的系統中，為用戶或使用人員帶來了便利。而其中，有一個特點，就是應用最為廣泛的，是一些基礎技術。它們作為工具，加快了傳統的人工處理或一些傳統技術處理的速度。

AI產品在各行業中的應用展現

這一章節，先上圖，隨後我們對這些行業進行一些簡單的介紹和分析，如果有對某項應用感興趣的，可以直接在網上搜索下面的關鍵詞，都可以得到很多的資料和介紹。

AI產品——行業應用

以上，我挑了幾個公認的AI改變巨大的行業進行了細分。

生活服務：

如今的智能手機就是集各種