Smart乾貨知識分享丨自然語言處理系統在餐飲業中的應用
一、餐飲業自然語言處理系統
餐飲業自然語言處理系統針對餐飲行業,整合用戶評論數據收集、線上處理、用戶評價及話題細分、自然語言的全流程人工智慧平台。將線上收集的用戶評論通過人工智慧中的自然語言處理的方法進行情感與語義主題的分析,配合以機器學習和深度學習建立的系統,將自動化理解人類語言的能力提高到最大。
1.機器可以自動識別用戶所表達的情感,從而使用戶可以在最快的時間總結出用戶所表達的情緒,以及整體用戶針對某一話題的情緒,甚至整體情緒。
2.根據話題實時圈定用戶群體,自然語言處理系統可以將熱衷於某一話題的用戶篩選出來,並圈定為同類用戶,從而節省大量人工篩選的工時。
3.自然語言處理系統可以對關聯性強的話題進行連線處理,從而大大提高建立話題關聯性的效率,使語料庫的分析更加快捷。
機器學習背景及意義
背景
在移動互聯網普及的今天,數據的儲備較之過去有了指數級的增長,在大數據技術日益成熟的今天固然是一件好事,但是由於數據量過大,採集到的語料需要大量的人力進行處理與清洗,最後的分析也成為一項曠日持久的大型工程,在業界成為主要難題。
意義
自然語言處理系統,可以將語料分析自動化,減少因人力審批所需的時間、金錢和所產生的操作風險。
二、主要研究內容、關鍵技術、特色和創新
2.1主要研究內容﹕
1.漢語普通話、漢語粵語、以及英文的不同分詞方式;
2.挑選三門語言不同的停用詞和常用詞詞庫;
3.通過神經網路訓練詞向量;
4.利用詞向量進行詞嵌入,從而發現類似性;
5.對語料進行深度學習,使計算機具備情感識別能力。
2.2關鍵技術,本項目創新點主要體現在如下幾個技術環節,本項目的關鍵技術及創新點如下:
2.2.1關鍵技術
1.中文分詞,是通過基於動態規劃尋找最大概率路徑,找出基於詞頻組合的演算法,可以最精確地切割語料。
2.英語分詞,不同於中文,英文辭彙以詞綴為主,因此整理海量的英語詞綴庫成為必需品,再結合動態規劃,可以最大程度發揮分詞的效能。
3.詞向量,使用到了神經網路,即通過函數層疊加,再利用權重分配而做到的機器學習演算法,和K-Means演算法,即利用隨機起點不斷劃分關聯性的非監督學習演算法,從而達到可以進行詞嵌入並且獲得詞關聯性的重要參數。
4.深度學習,使用的是用來處理頻率類數據的循環神經網路,再結合其變種長短記憶,可以讓即使使用沒有經過特徵工程處理的語料也可以得到高準確率的監督學習結果。
2.2.2創新點
1. 將普通話分詞方式引入到粵語分詞和英語分詞當中,並且克服了中英混合情況下的語言模糊的分詞難的問題。
2. 神經網路和K-Means的同時使用,為詞向量獲得了更多的數據維度,從而在匹配詞語關聯性上有了更多的可以參考數據,精確度上也得到了提升。
3. 不同於單純地使用傳統深度學習中的循環神經網路,本項目中大膽使用的長短記憶通過模擬人腦記憶的長短效應,讓機器學習到的語料情感更加接近實際情況。
4. 在詞庫方面,主流的停用詞在本次項目中得到了大量的充實,並且也收錄了大量的粵語辭彙和英文辭彙,使得兩文三語可以同時曬出大量的停用詞。餐飲業詞庫也得到了大量的總結,一個是在兩文三語方面大量辭彙被總結在一起,更主要的是餐飲類辭彙也被整合。
三、項目實施方案
3.1、系統設計
該系統由深度學習架構整合API介面導入語料統一構成。前端架構由JavaScript實現,並由jQuery實現交互部分,後端通過Java Spring實現MVC架構統一調取數據,並導入深度學習引擎中進行機器學習部分。
3.2、代碼編寫
核心的深度學習部分全部由python語言實現,通過三個模塊之間的互相依賴,實現分詞,預料清洗,以及最後的深度學習詞向量。
3.3、系統測試
系統測試的主要壓力在深度學習部分,通過對於分詞的反覆校驗和結果的反覆比對,可以非常高效地進行最後的數據測試。
推薦閱讀:
TAG:深度學習DeepLearning | 數據挖掘 | 機器學習 |