YouTube提供自動生成的英文字幕,為什麼國內沒有相關軟體?

字幕是聽寫下來的,有錯誤,但大部分是對的。


YouTube的自動字幕功能準確率確實非常高,當時看到這個功能的時候我非常高興,心想以後做視頻不用錄入字幕了,直接扔給Google識別去就行了。然而查找資料以後發現YouTube不支持中文的自動字幕,於是非常不爽。幾經周折以後,我發現了一個軟體叫AutoSub,原理是在本地對音頻大致的按停頓分割一下,然後對每一句用Google語音識別API進行識別。

圖1:

圖1是我用proxychains給AutoSub掛上代理以後生成的一段字幕,可以看到準確率非常高。畢竟語音識別API和YouTube的自動字幕都是谷歌的語言識別產品,估計使用的技術是一樣。可喜的是Google語音API支持的語言比YouTube多很多,中文也是可以的。於是我高高興興的輸入了一個中文的視頻,結果……

圖2:

於是我明白為什麼沒有提供中文自動字幕的網站了……(至於為什麼中文識別跟英文識別差這麼多,我個人認為主要原因是英文很少有同音的詞,而中文的同音字太多了,需要結合上下文才能準確判斷。)


因為優酷只有中國人看,而內容又大部分都是中文的,所以需求不大


國內的人也很為難啊,做出來說不定還要被人噴:還不是抄YouTube的…


本身Google的技術能力還是比較強的,所以自動生成,自動翻譯技術上不存在問題。另一方面,YouTube雖然在國內沒法使用,但是在世界範圍內受眾還是很廣的,比如日本、香港、台灣,所以它的受眾不光是英語系的人。而且從無障礙這個角度來說,任何視頻都是應該配上字幕的,方便聽力障礙的人群。

國內不是做不了,比如訊飛,對中文語音的識別準確率也是挺高的,只是沒有需求,如果中國互聯網視頻網站的用戶有一半有看字幕的需求,那國內這些互聯網上這個功能也不是什麼難事。所以做與不做不是技術層面的事情,是用戶需求層面的事。當然在這方面Google還是領先的。


國內也有這樣的軟體,不過要付費,我就沒付。也有免費的,叫Auto Sub,不過剛做出來就停止更新了,現在也用不成,只能標記出哪段時間到哪段時間內,人在說話,但是識別出的都是Recognition service error。估計可能是因為Google Speech API的地址,或者連接方式換了吧。去Github搜auto sub也能搜出別的類似的軟體,不過要麼是命令行,要麼看不懂怎麼用。沒耐心去找別的免費的了。


推薦閱讀:

飛鳥集精選 - 092
我接觸過的翻譯機構(1)
英語翻譯第四天
一句話翻譯分享(醫學類)(1)
乾貨│中譯英筆譯萬能四步法

TAG:YouTube | 英語翻譯 | 軟體 | 軟體開發 | 字幕 |