AssemblyAI 想讓人人都能做定製化語音識別，雖然他們只有三個人

01-28

從 Alexa、Google Home、Siri、Cortana、DuerOS 等語音交互系統的快速崛起中可看出，語音即將成為下一代人機交互技術，各家巨頭都在不遺餘力地搶佔語音技術市場。同時，我們也能發現，不少語音創業公司憑藉自身獨有的技術，在巨頭紛爭的語音市場頑強地前行，AssemblyAI 就是這樣的一家創業公司。

AssemblyAI 由矽谷著名創業孵化器 Y Combinator 投資，他們希望通過構建 API 讓每個開發者都能快速地開發出定製化的語音交互介面。AssemblyAI 的創始人 Dylan Fox 說：「我們正在構建用於定製化語音識別的 API，開發人員可以用我們的 API 將語音轉錄成文字或者創建自己的語音介面，而且他們不需要做任何數據上的挖掘和訓練，我們會為他們完成海量自定義字詞的識別。」

眾所周知，語音模型的訓練和語音數據的挖掘分析需要耗費大量的人力和資源，非資金雄厚的大公司不能承受，像 AssemblyAI 這樣只有三個人的創業公司要做這樣一件費時費力又不討好的事情，確實有點像天方夜譚。

作為前思科工程師，Fox 明白一個創業公司要建立一個定製化的語音識別系統需要面對不小的挑戰，但他表示，AI 的進步和機器學習的發展使得他們現在正在做的事情成為可能。

Fox 說，首先，他們需要大量的 GPU ，因為語音模型的訓練是計算密集型任務。相比於 CPU，GPU 具有並行度高，內存帶寬高，運行速度快等特點，所以 GPU 不僅僅用於圖像信息的計算，同時也用於大數據或者 AI 模型訓練等需要大量計算的工作。僅靠三人團隊的力量獲取足夠多的 GPU 陣列有些不現實，不過，好在 Y Combinator 給了他們足夠多的的幫助，用以構建 GPU 雲服務。

除了硬體上的支持，AssemblyAI 技術還需要大量的數據進行訓練。作為創業公司，AssemblyAI 無法像 Google 和 Amazon 那樣調用大量的用戶和數據資源，所以，他們開發了一款叫做 Harvest 的自主架構，用來在網路上收集音頻數據。

其實，Harvest 就是一款爬蟲軟體，它能夠在網路上尋找並標註可以用於訓練 AI 模型的數據。由於該架構的高準確性，使得 AssemblyAI 可以用高標準的數據來訓練模型，在幾個星期之內，AssemblyAI 已經收集了數百萬條高質量的音頻剪輯，用作其神經網路的訓練數據。

Fox 表示：「作為創業公司，我們必須開發大量的新技術來實現尖端的 AI 技術，在不久的將來我們還會貢獻更多新的想法和技術。」

另外，Fox 認為良好的用戶體驗也將是他們成功的關鍵，並且另外找了一個團隊專門做前端的開發和優化。「作為一家專註於語音識別技術的小公司，我們可以提供比大公司更好的用戶體驗，」對於大公司是否會搶佔 AssemblyAI 的市場，他是這樣回答的，「我們會提供更好的技術文檔、更簡單的集成方式，幫助開發者快速上手。」

到目前為止，AssemblyAI 的產品還處於測試階段，有幾家公司開始使用他們的 GPU 雲服務。有關 AssemblyAI 這家創業公司的最新動態，深圳灣將會持續關注。

主筆：孔令雙@深圳灣

原文：AssemblyAI 想讓人人都能做定製化語音識別，雖然他們只有三個人

● ● ●

深圳灣（微信公眾號 ID：shenzhenware）長期挖掘物聯網、人工智慧、機器人、無人機、智能駕駛、智能家居等領域的新銳產品和初創團隊，歡迎聯繫我們。微信私人客服：小炫（ID：warexx）。

轉載、約稿、投稿、團隊報道請聯繫微信公眾號：shenzhenware（回復關鍵字）