機器學習原來這麼有趣！第六章：如何用深度學習進行語音識別？

01-27

作者：Adam Geitgey

原文：https://medium.com/@ageitgey/machine-learning-is-fun-part-6-how-to-do-speech-recognition-with-deep-learning-28293c162f7a#.42h1r63ev

譯者：巡洋艦科技——趙 95

校對：離線Offline——林沁

轉載請聯繫譯者。

語音識別正在「入侵」我們的生活。我們的手機、遊戲主機和智能手錶中都內置了語音識別的程序。它甚至在自動化我們的家園。只需 50 美元，你可以買到一個nAmazon Echo Dot，一個能夠讓你訂比薩、獲知天氣預報，甚至購買垃圾袋的魔術盒——只要你大聲說出你的需求：

Alexa，訂一個大號的比薩！

Echo Dotn機器人在這個假期（2016 年聖誕）太受歡迎了，以至於 Amazon 似乎都斷貨了！

然而語音識別明明已經出現幾十年了，為何直到現在才成為主流呢？那是因為深度學習終於將語音識別在非受控環境下的準確度提高到了一個足以投入實用的程度。

吳恩達教授[1]早有預言，當語音識別的準確度從 95％上升到 99％的時候，它將成為我們與計算機交互的主要方式。

這意味著，這 4％的精度差實際就是「太不靠譜」與「實用極了」之間的差別。多虧了深度學習，我們終於達到了頂峰。

讓我們了解一下如何用深度學習進行語音識別吧！

機器學習並不總是一個黑盒

如果你知道神經機器翻譯是如何工作的，那麼你可能會猜到，我們可以簡單地將聲音送入神經網路中，並訓練使之生成文本：

這就是用深度學習進行語音識別的核心所在，但目前我們還沒有完全掌握它（至少在我寫這篇文章的時候還沒有——我打賭，在未來的幾年我們可以做到）。

一個大問題是語速不同。一個人可能很快地說出「hello！」而另一個人可能會非常緩慢地說「heeeelllllllllllllooooo！」。這產生了一個更長的聲音文件，也產生了更多的數據。這兩個聲音文件都應該被識別為完全相同的文本「hello！」而事實證明，把各種長度的音頻文件自動對齊到一個固定長度的文本是很難的一件事情。

為了解決這個問題，我們必須使用一些特殊的技巧，並進行一些深度神經網路以外的特殊處理。讓我們看看它是如何工作的吧！

將聲音轉換成比特（Bit）

語音識別的第一步是很顯而易見的——我們需要將聲波輸入到計算機當中。

在第三章中，我們學習了如何把圖像視為一個數字序列，以便我們直接將其輸入進神經網路進行圖像識別：

圖像只是圖片中每個像素深度的數字編碼序列

但聲音是作為波（wave）的形式傳播的。我們如何將聲波轉換成數字呢？讓我們使用我說的「hello」這個聲音片段舉個例子：

我說「hello」的波形

聲波是一維的，它在每個時刻都有一個基於其高度的值[2]。讓我們把聲波的一小部分放大看看：

為了將這個聲波轉換成數字，我們只記錄聲波在等距點的高度：

給聲波採樣

這被稱為採樣（sampling）。我們每秒讀取數千次，並把聲波在該時間點的高度用一個數字記錄下來。這基本上就是一個未壓縮的 .wav 音頻文件。

「CD 音質」的音頻是以 44.1khz（每秒 44100 個讀數）進行採樣的。但對於語音識別，16khz（每秒 16000 個採樣）的採樣率就足以覆蓋人類語音的頻率範圍了。

讓我們把「Hello」的聲波每秒採樣 16000 次。這是前 100 個採樣：

每個數字表示聲波在一秒鐘的 16000 分之一處的振幅

數字採樣小助手

因為聲波採樣只是間歇性的讀取，你可能認為它只是對原始聲波進行粗略的近似估計。我們的讀數之間有間距，所以我們必然會丟失數據，對吧？

數字採樣能否完美重現原始聲波？那些間距怎麼辦？

但是，由於採樣定理（Nyquistntheorem），我們知道我們可以利用數學，從間隔的採樣中完美重建原始聲波——只要我們的採樣頻率比期望得到的最高頻率快至少兩倍就行。

我提這一點，是因為幾乎每個人都會犯這個錯誤，並誤認為使用更高的採樣率總是會獲得更好的音頻質量。其實並不是。

預處理我們的採樣聲音數據

我們現在有一個數列，其中每個數字代表 1/16000 秒的聲波振幅。

我們可以把這些數字輸入到神經網路中，但是試圖直接分析這些採樣來進行語音識別仍然很困難。相反，我們可以通過對音頻數據進行一些預處理來使問題變得更容易。

讓我們開始吧，首先將我們的採樣音頻分成每份 20 毫秒長的音頻塊。這是我們第一個n20 毫秒的音頻（即我們的前 320 個採樣）：

將這些數字繪製為簡單的折線圖，我們就得到了這 20 毫秒內原始聲波的大致形狀：

雖然這段錄音只有 1/50 秒的長度，但即使是這樣短暫的錄音，也是由不同頻率的聲音複雜地組合在一起的。其中有一些低音，一些中音，甚至有幾處高音。但總的來說，就是這些不同頻率的聲音混合在一起，才組成了人類的語音。

為了使這個數據更容易被神經網路處理，我們將把這個複雜的聲波分解成一個個組成部分。我們將分離低音部分，再分離下一個最低音的部分，以此類推。然後將（從低到高）每個頻段（frequency band）中的能量相加，我們就為各個類別的音頻片段創建了一個指紋（fingerprint）。

想像你有一段某人在鋼琴上演奏 C 大調和弦的錄音。這個聲音是由三個音符組合而成的：C、E 和 G。它們混合在一起組成了一個複雜的聲音。我們想把這個複雜的聲音分解成單獨的音符，以此來分辨 C、E 和 G。這和語音識別是一樣的道理。

我們需要傅里葉變換（FouriernTransform）來做到這一點。它將複雜的聲波分解為簡單的聲波。一旦我們有了這些單獨的聲波，我們就將每一份頻段所包含的能量加在一起。

最終得到的結果便是從低音（即低音音符）到高音，每個頻率範圍的重要程度。以每 50hz 為一個頻段的話，我們這n20 毫秒的音頻所含有的能量從低頻到高頻就可以表示為下面的列表：

列表中的每個數字表示那份 50Hz 的頻段所含的能量

不過，把它們畫成這樣的圖表會更加清晰：

你可以看到，在我們的 20 毫秒聲音片段中有很多低頻能量，然而在更高的頻率中並沒有太多的能量。這是典型「男性」的聲音。

如果我們對每 20 毫秒的音頻塊重複這個過程，我們最終會得到一個頻譜圖（每一列從左到右都是一個 20 毫秒的塊）：

「hello」聲音剪輯的完整聲譜

頻譜圖很酷，因為你可以在音頻數據中實實在在地看到音符和其他音高模式。對於神經網路來說，相比於原始聲波，從這種數據中尋找規律要容易得多。因此，這就是我們將要實際輸入到神經網路中去的數據表示方式。

從短聲音識別字元

現在我們有了格式易於處理的音頻，我們將把它輸入到深度神經網路中去。神經網路的輸入將會是 20 毫秒的音頻塊。對於每個小的音頻切片（audio slice），神經網路都將嘗試找出當前正在說的聲音所對應的字母。

我們將使用一個循環神經網路——即一個擁有記憶，能影響未來預測的神經網路。這是因為它預測的每個字母都應該能夠影響它對下一個字母的預測。例如，如果我們到目前為止已經說了「HEL」，那麼很有可能我們接下來會說「LO」來完成「Hello」。我們不太可能會說「XYZ」之類根本讀不出來的東西。因此，具有先前預測的記憶有助於神經網路對未來進行更準確的預測。

當通過神經網路跑完我們的整個音頻剪輯（一次一塊）之後，我們將最終得到一份映射（mapping），其中標明了每個音頻塊和其最有可能對應的字母。這是我說那句「Hello」所對應的映射的大致圖案：

我們的神經網路正在預測我說的那個詞很有可能是「HHHEE_LL_LLLOOO」。但它同時認為我說的也可能是「HHHUU_LL_LLLOOO」，或者甚至是「AAAUU_LL_LLLOOO」。

我們可以遵循一些步驟來整理這個輸出。首先，我們將用單個字元替換任何重複的字元：

· nHHHEE_LL_LLLOOO 變為 HE_L_LO

· nHHHUU_LL_LLLOOO 變為 HU_L_LO

· nAAAUU_LL_LLLOOO 變為 AU_L_LO

然後，我們將刪除所有空白：

· nHE_L_LO 變為 HELLO

· nHU_L_LO 變為 HULLO

· nAU_L_LO 變為 AULLO

這讓我們得到三種可能的轉寫——「Hello」、「Hullo」和「Aullo」。如果你大聲說出這些詞，所有這些聲音都類似於「Hello」。因為神經網路每次只預測一個字元，所以它會得出一些純粹表示發音的轉寫。例如，如果你說「He would not go」，它可能會給出一個「Henwud net go」的轉寫。

解決問題的訣竅是將這些基於發音的預測與基於書面文本（書籍、新聞文章等）大資料庫的可能性得分相結合。扔掉最不可能的結果，留下最實際的結果。

在我們可能的轉寫「Hello」、「Hullo」和「Aullo」中，顯然「Hello」將更頻繁地出現在文本資料庫中（更不用說在我們原始的基於音頻的訓練數據中了），因此它可能就是正解。所以我們會選擇「Hello」作為我們的最終結果，而不是其他的轉寫。搞定！

等一下！

你可能會想「但是如果有人說Hullo」怎麼辦？這個詞的確存在。也許「Hello」是錯誤的轉寫！

「Hullo！Who dis？」

當然可能有人實際上說的是「Hullo」而不是「Hello」。但是這樣的語音識別系統（基於美國英語訓練）基本上不會產生「Hullo」這樣的轉寫結果。用戶說「Hullo」，它總是會認為你在說「Hello」，無論你發「U」的聲音有多重。

試試看！如果你的手機被設置為美式英語，嘗試讓你的手機助手識別單詞「Hullo」。這不行！它掀桌子不幹了(╯‵□′)╯︵┻━┻！它總是會理解為「Hello」。

不識別「Hullo」是一個合理的行為，但有時你會碰到令人討厭的情況：你的手機就是不能理解你說的有效的語句。這就是為什麼這些語音識別模型總是處於再訓練狀態的原因，它們需要更多的數據來修復這些少數情況。

我能建立自己的語音識別系統嗎？

機器學習最酷炫的事情之一就是它有時看起來十分簡單。你得到一堆數據，把它輸入到機器學習演算法當中去，然後就能神奇地得到一個運行在你遊戲本顯卡上的世界級 AI 系統...對吧？

這在某些情況下是真實的，但對於語音識別並不成立。語音識別是一個困難的問題。你得克服幾乎無窮無盡的挑戰：劣質麥克風、背景噪音、混響和回聲、口音差異等等。你的訓練數據需要囊括這所有的一切，才能確保神經網路可以應對它們。

這裡有另外一個例子：你知不知道，當你在一個嘈雜的房間里說話時，你會不自覺地提高你的音調，來蓋過噪音。人類在什麼情況下都可以理解你，但神經網路需要訓練才能處理這種特殊情況。所以你需要人們在噪音中大聲講話的訓練數據！

要構建一個能在 Siri、Google Now! 或 Alexa 等平台上運行的語音識別系統，你將需要大量的訓練數據。如果你不雇上數百人為你錄製的話，它需要的訓練數據比你自己能夠獲得的數據要多得多。由於用戶對低質量語音識別系統的容忍度很低，因此你不能吝嗇。沒有人想要一個只有八成時間有效的語音識別系統。

對於像谷歌或亞馬遜這樣的公司，在現實生活中記錄的成千上萬小時的人聲語音就是黃金。這就是將他們世界級語音識別系統與你自己的系統拉開差距的地方。讓你免費使用 Google Now!或 Siri，或是只要 50 美元購買 Alexa 而沒有訂閱費的意義就是：讓你儘可能多地使用它們。你對這些系統所說的每一句話都會被永遠記錄下來，並用作未來版本語音識別演算法的訓練數據。這才是他們的真實目的！

不相信我？如果你有一部安裝了 Google Now! 的 Android 手機，請點擊這裡收聽你自己對它說過的每一句話：

你可以通過 Alexa 在 Amazon 上找到相同的東西。然而，不幸的是，蘋果並不讓你訪問你的 Siri 語音數據。

因此，如果你正在尋找一個創業的想法，我不建議你嘗試建立自己的語音識別系統來與 Google 競爭。相反，你應該想個辦法，讓人們把自己講了幾個小時的錄音交給你。這種數據可以是你的產品。

路在遠方……

這個用來處理不同長度音頻的演算法被稱為連接時序分類（Connectionist TemporalnClassification）或 CTC。你可以閱讀這篇 2006 年文章。

百度的亞當·科茨（Adam Coates）在灣區深度學習學校做了關於「深度學習語音識別」的精彩演講。你可以在 YouTube 上觀看這段視頻。強烈推薦。

1. n百度首席科學家，人工智慧和機器學習領域國際上最權威的學者之一，也是在線教育平台 Coursera 的聯合創始人

2. n譯者註：聲波其實是二維的，有時間，還有振幅（即這個基於高度的值）。