人工智慧入門：AI產品經理需要了解的五大語音交互評價指標

04-01

本文已獲得「AI產品經理大本營授權」，如何制定針對自然語言語音交互系統的評價體系？有沒有通用的標準？例如在車載環境中，站在用戶角度，從客觀，主觀角度的評價指標？@胡含、@我偏笑、@艷龍等朋友就分享了不少乾貨心得；最近幾天，在@飛艷同學的協助整理下，Hanniman又補充了一些信息，最終形成這篇文章，以饗大家。

本文，具體介紹了下面5大方面的行業實戰評價指標：

一、語音識別

二、自然語言處理

三、語音合成

四、對話系統

五、整體用戶數據指標

語音識別ASR

語音識別（Automatic Speech Recognition），一般簡稱ASR，是將聲音轉化為文字的過程，相當於人類的耳朵。

1、識別率

看純引擎的識別率，以及不同信噪比狀態下的識別率（信噪比模擬不同車速、車窗、空調狀態等），還有在線/離線識別的區別。

實際工作中，一般識別率的直接指標是「WER（詞錯誤率，Word Error Rate）」

定義：為了使識別出來的詞序列和標準的詞序列之間保持一致，需要進行替換、刪除或者插入某些詞，這些插入、替換或刪除的詞的總個數，除以標準的詞序列中詞的總個數的百分比，即為WER。

公式為：

Substitution——替換
Deletion——刪除
Insertion——插入
N——單詞數目

3點說明

1）WER可以分男女、快慢、口音、數字/英文/中文等情況，分別來看。

2）因為有插入詞，所以理論上WER有可能大於100%，但實際中、特別是大樣本量的時候，是不可能的，否則就太差了，不可能被商用。

3）站在純產品體驗角度，很多人會以為識別率應該等於「句子識別正確的個數/總的句子個數」，即「識別（正確）率等於96%」這種，實際工作中，這個應該指向「SER（句錯誤率，Sentence Error Rate）」，即「句子識別錯誤的個數/總的句子個數」。不過據說在實際工作中，一般句錯誤率是字錯誤率的2~3倍，所以可能就不怎麼看了。

2、語音喚醒相關的指標

先需要介紹下語音喚醒（Voice Trigger，VT）的相關信息。

A）語音喚醒的需求背景：近場識別時，比如使用語音輸入法時，用戶可以按住手機上siri的語音按鈕，直接說話（結束之後鬆開）；近場情況下信噪比（Signal to Noise Ratio, SNR）比較高，信號清晰，簡單演算法也能做到有效可靠。

但是在遠場識別時，比如在智能音箱場景，用戶不能用手接觸設備，需要進行語音喚醒，相當於叫這個AI（機器人）的名字，引起ta的注意，比如蘋果的「Hey Siri」，Google的「OK Google」，亞馬遜Echo的「Alexa」等。

B）語音喚醒的含義：簡單來說是「喊名字，引起聽者（AI）的注意」。如果語音喚醒判斷結果是正確的喚醒（激活）詞，那後續的語音就應該被識別；否則，不進行識別。

C）語音喚醒的相關指標

a）喚醒率。叫AI的時候，ta成功被喚醒的比率。

b）誤喚醒率。沒叫AI的時候，ta自己跳出來講話的比率。如果誤喚醒比較多，特別比如半夜時，智能音箱突然開始唱歌或講故事，會特別嚇人的……

c）喚醒詞的音節長度。一般技術上要求，最少3個音節，比如「OK Google」和「Alexa」有四個音節，「Hey Siri」有三個音節；國內的智能音箱，比如小雅，喚醒詞是「小雅小雅」，而不能用「小雅」——如果音節太短，一般誤喚醒率會比較高。

d）喚醒響應時間。之前看過傅盛的文章，說世界上所有的音箱，除了Echo和他們做的小雅智能音箱能達到1.5秒，其他的都在3秒以上。

e）功耗（要低）。看過報道，說iPhone 4s出現Siri，但直到iPhone 6s之後才允許不接電源的情況下直接喊「Hey Siri」進行語音喚醒；這是因為有6s上有一顆專門進行語音激活的低功耗晶元，當然演算法和硬體要進行配合，演算法也要進行優化。

以上a、b、d相對更重要。

D）其他

涉及AEC（語音自適應回聲消除，Automatic Echo Cancellation）的，還要考察WER相對改善情況。

自然語言處理NLP

自然語言處理（Natural Language Processing），一般簡稱NLP，通俗理解就是「讓計算機能夠理解和生成人類語言」。

1、準確率、召回率

附上之前文章《AI產品經理需要了解的數據標註工作入門》中，分享過的一段解釋：

準確率：識別為正確的樣本數/識別出來的樣本數

召回率：識別為正確的樣本數/所有樣本中正確的數

舉個栗子：全班一共30名男生、20名女生。需要機器識別出男生的數量。本次機器一共識別出20名目標對象，其中18名為男性，2名為女性。則

精確率=18/（18+2）=0.9
召回率=18/30=0.6

再補充一個圖來解釋：

2、F1值（精準率和召回率的調和平均數）

模型調優後追求F1值提升，準確率召回率單獨下降在一個小區間內，整體F1值的增量也是分區間看（F1值在60%內，與60%以上肯定是不一樣的，90%以上可能只追求1%的提升）。

P是精準率，R是召回率，Fa是在F1基礎上做了賦權處理：Fa=（a^2+1）PR/（a^2P+R）

語音合成TTS

語音合成（Text-To-Speech），一般簡稱TTS，是將文字轉化為聲音（朗讀出來），類比於人類的嘴巴。大家在Siri等各種語音助手中聽到的聲音，都是由TTS來生成的，並不是真人在說話。

主觀測試（自然度），以MOS為主：

1、MOS（Mean Opinion Scores），專家級評測（主觀）；1-5分，5分最好。

2、ABX，普通用戶評測（主觀）。讓用戶來視聽兩個TTS系統，進行對比，看哪個好。

客觀測試：

1、對聲學參數進行評估，一般是計算歐式距離等（RMSE，LSD）。

2、對工程上的測試：實時率（合成耗時/語音時長），流式分首包、尾包，非流式不考察首包；首包響應時間（用戶發出請求到用戶感知到的第一包到達時間）、內存佔用、CPU佔用、3*24小時crash率等。

對話系統

對話系統（Dialogue System），簡單可以理解為Siri或各種Chatbot所能支持的聊天對話體驗。

1、用戶任務達成率（表徵產品功能是否有用以及功能覆蓋度）

1）比如智能客服，如果這個Session最終是以接入人工為結束的，那基本就說明機器的回答有問題。或者重複提供給用戶相同答案等等。

2）分專項或分意圖的統計就更多了，不展開了。

2、對話交互效率，比如用戶完成一個任務的耗時、回復語對信息傳遞和動作引導的效率、用戶進行語音輸入的效率等（可能和打斷，One-shot等功能相關）；具體定義，各個產品自己決定。

3、根據對話系統的類型分類，有些區別。

1）閑聊型

A）CPS（Conversations Per Session，平均單次對話輪數）。這算是微軟小冰最早期提出的指標，並且是小冰內部的（唯一）最重要指標；

B）相關性和新穎性。與原話題要有一定的相關性，但又不能是非常相似的話；

C）話題終結者。如果機器說過這句話之後，通常用戶都不會繼續接了，那這句話就會給個負分。

2）任務型

A）留存率。雖然是傳統的指標，但是能夠發現用戶有沒有形成這樣的使用習慣；留存的計算甚至可以精確到每個功能，然後進一步根據功能區做歸類，看看用戶對哪類任務的接受程度較高，還可以從用戶的問句之中分析發出指令的習慣去針對性的優化解析和對話過程；到後面積累的特徵多了，評價機制建立起來了，就可以上強化學習；比如：之前百度高考，教考生填報志願，就是這麼弄的；

B）完成度（即，前文提過的「用戶任務達成率」）。由於任務型最後總要去調一個介面或者觸發什麼東西來完成任務，所以可以計算多少人進入了這個對話單元，其中有多少人最後調了介面；

C）相關的，還有（每個任務）平均slot填入輪數或填充完整度。即，完成一個任務，平均需要多少輪，平均填寫了百分之多少的槽位slot。對於槽位的基礎知識介紹，可詳見《填槽與多輪對話 | AI產品經理需要了解的AI技術概念》。

3）問答型

A）最終求助人工的比例（即，前文提過的「用戶任務達成率」相關）；

B）重複問同樣問題的比例；

C）「沒答案」之類的比例。

整體來說，行業一般PR宣傳時，會更多的提CPS。其他指標看起來可能相對太瑣碎或不夠高大上，但是，實際工作中，可能CPS更多是面向閑聊型對話系統，而其他的場景，可能更應該從「效果」出發。比如，如果小孩子哭了，機器人能夠「哭聲安慰」，沒必要對話那麼多輪次，反而應該越少越好。

4、語料自然度和人性化的程度

目前對於這類問題，一般是使用人工評估的方式進行。這裡的語料，通常不是單個句子，而是分為單輪的問答對或多輪的一個session。一般來講，評分範圍是1~5分：

1分或2分：完全答非所問，以及含有不友好內容或不適合語音播報的特殊內容；
3分：基本可用，問答邏輯正確；
4分：能解決用戶問題且足夠精鍊；
5分：在4分基礎上，能讓人感受到情感及人設。

另外，為了消除主觀偏差，採用多人標註、去掉極端值的方式，是當前普遍的做法。

整體用戶數據指標

常規互聯網產品，都會有整體的用戶指標；AI產品，一般也會有這個角度的考量。

1、DAU（Daily Active User，日活躍用戶數，簡稱「日活」）

在特殊場景會有變化，比如在車載場景，會統計「DAU佔比（占車機DAU的比例）」。

2、被使用的意圖豐富度（使用率>X%的意圖個數）。

3、可嘗試通過用戶語音的情緒信息和語義的情緒分類評估滿意度。

尤其對於生氣的情緒檢測，這些對話樣本是可以挑選出來分析的。比如，有公司會統計語音中有多少是罵人的，以此大概了解用戶情緒。還比如，在同花順手機客戶端中，拉到最底下，有個一站式問答功能，用戶對它說「怎麼登錄不上去」和說「怎麼老是登錄不上去」，返回結果是不一樣的——後者，系統檢測到負面情緒，會提示轉接人工。

結語

本篇分享，介紹了現在行業內對語音交互系統的常見評價指標，一方面，是提供給各位AI產品經理以最接地氣的相關信息；另一方面，也是希望大家基於這些指標，打造出更好的產品體驗效果。