科技解放生產力之語音轉換文字

科技解放生產力之語音轉換文字

語音轉寫,顧名思義就是把語音轉換成文本

在實際的應用場景中,可以是講演轉文稿,可以是在IM工具交流,等等等等

可以說,這項技術的出現,極大的解放了生產力,提高了工作、溝通效率

今天這裡拿出一個實例,大家一起看一看在這個應用場景中語音轉文本所帶來的便利

對於記者朋友來說,一場發布會後整理出文字稿件永遠是第一主題

在以前,他需要在現場錄製音頻,回到單位後一句一句聽寫,純人工轉寫,隨後再一次形成報道

那麼現在,他可以在現場直接調用服務,實時把語音轉換為文字。回到辦公室,他可以根據文稿直接形成報道

也或者他依舊用錄音筆錄製了現場的錄音,在回辦公室的路上,他把音頻文件通過軟體轉換到了文本稿件,同樣的,回到辦公室,他只需要根據文稿形成報道

了解了這樣的案例,今天要介紹的主角就可以閃亮登場了

IBM Watson!

你可能以為它只是一個簡單的語音轉文本的服務(介面),其實,它是一個標準的計算機認知系統!

讓我們把時間退回到2011年,當時有這樣一則報道

「2011年,Watson 在美國最受歡迎的智力問答電視節目《危險邊緣》(Jeopardy)中亮相,一舉打敗了人類智力競賽冠軍。如今,Watson 已經發展為一個商業化、基於雲的認知系統,應用到各行各業中,逐漸讓我們的生活變得更美好。」

在這樣強大的基礎之上,今天我們需要用到的是它的語音識別服務Speech to Text

首先作為一般使用者,大家可能最基礎的使用環境就是剛剛案例中提到的那樣,那麼,IBM團隊已經為大家提供了一個免費的可以立即使用的web端語言轉文本程序

speech-to-text-demo.mybluemix.net

首先,大家可以看到輸入音頻的方式可以有兩種,一個是調用設備的麥克風現場錄製,一個是上傳一個音頻文件

在這裡需要注意都是,上傳的文件支持格式為.wav, .flac, .opus,這裡說一句題外話,我們建議大家把本地錄製的音頻轉碼為opus格式,因為在低碼率情況下,opus格式的音質會更強,這意味著你可以把你的音頻文件壓制的更加小巧而不會過多的損失音質更不會為此降低了IBM Watson的識別能力

其次大家在抓圖中可能已經注意到,有一個識別模式的下拉選項,當前顯示為英語。那麼除了英語,讓我們來看一下它還支持什麼語言

清晰、一目了然,高亮選選擇的就是大家的母語,普通話

那麼我們可以試一下剛剛提到的兩種錄入方式,其中之一是上傳已經錄製好的音頻文件

其次我們還可以直接實時錄製語言轉換為文字

這個語音轉文本的簡單演示大概就是這樣。當然,作為開發者,你一定不滿足於上邊的演示demo,你可以免費註冊Bluemix服務,在該服務中內嵌了Speech to Text 服務,你能夠輕鬆的通過強大的介面和完整的文檔來構建自己的應用,把Speech to Text部署到你自己的應用場景中

  • API Reference
  • Documentation
  • Fork on GitHub

好了,讓我們憧憬一下未來,更加便捷更加強大的服務在不斷的出現,今天的夢想,明天的日常。

文章首發於開源中國社區科技解放生產力之語音轉換文字 - qwerttaa


推薦閱讀:

語音也有DNA,智能語音合成(TTS)新領地:快速語音模仿技術 | 機器語音
語音識別之HMM-GMM識別系統
瀏覽器的語音識別功能
循環神經網路綜述-語音識別與自然語言處理的利器(下篇)
群雄崛起!科大訊飛AI「頭把交椅」易主?

TAG:人工智慧 | 語音識別 | IBM |