訊飛語音輸入法的方言識別準確率有多高?
如圖所示的21種方言。有沒有說這些方言的人測試過?請註明自己是否是母語者。
我母語贛語南昌話,準確率,不高.或者說,這裡的發音人是新派的.我在想他們開發的時候是否有人糾正發音.比如"逼迫",正常是"bit pet",但是我這樣念的時候,完全識別不了.於是我試了試猩猩話"pi?pho?",識別成功.然後"晨光"本來是"sirn guong",這樣念也無法識別,我改用猩猩話"cern guong",識別成功.還有陽入字幾乎全部無法正常識別,雖然說陽入有消失的跡象,這裡全把它整沒了算什麼卵事?!我說他新派都是誇獎這裡的發音人,他那些發音純粹就是照搬普通話,氣都氣死了.我建議現在要讓那些滿嘴猩猩話還自認為講著標準城裡話的弱智浸豬籠然後我再把他們的舌頭拔出來再安回去讓他們知道怎樣正確說南昌話.以下例子:字詞/老派/訊飛里的猩猩+野雞.
爪機打不了音標,這裡的拼音根據普通話改寫而來.懶得打規律,我直接打有代表性的例子.老派的f都是雙唇清擦
分手 firn xiu fern seru婚姻 firn in fern in彷彿 fong firt fong fu?主持 ju ci zu cii豬 ju zu原來 nyon lei nyen lai yen lai墨水 met sui mo? sui 陌生人 mak sen nin mo? sern lern伯父 bak fu bo? fu生活 sen uot sern fo?
森林 sen lin sern lin 層次 cen ci cern ci方言 fong nien fong ien首都 xiu du seru du足球 jiuk qiu zu? qiu失去 sirt qie sii? qie 解決 gai jyot gai jye?絕對 qyot dui jye? dui直接 cirt jiet zii? jie?雜亂 cat lon za? luorn
班級 ban qit ban ji?缺少 qyot seu qye? sau戰爭 zen zen/zang zan zern佔有 zen iu zan iu發展 fat zen fa? zan燒烤 seu kau sau kau酸菜 son cai suorn cai團員 ton yon tuorn yen算了 son lieu suorn ler確實 kok sirt qye? sii?
退卻 tui qiok tui qye?麻雀 ma qiok ma qye?歌曲 go qiuk go qyu培養 pi iong peri iong美麗 mi li meri li很好 hen hau hern hau鑒於某個大佬贊了一下之後突然帶來了一些贊,我再細緻描寫一下.但是我水平還蠻低的,見諒
上聲本調213,原來在陰平陽平陰去陰入前面會變調為13,在上聲陽去陽入前面變調24,現在大部分人都只有普通話的那種上聲上聲變調.少部分人殘存在陽平前變調13.
老派的變調,大部分中老年還有,但是年輕人認為那是鄉下口音陽入現在完全消失,除了一隻手數得出的零星幾個土詞.青年人現在說陽入時,一般是開玩笑嘲諷鄉下口音
還有所有猩猩都有的疑母脫落問題,評論里也有同志舉出,跟奶奶說語言「nyu nien」而奶奶聽不懂的問題
知三章弇音韻攝兩百年前,直到解放時,都一直是j組,甚至現在一些老年人口中也是.但是之後,就不斷的變化為z組.現在再說j組,反而會被譏諷為鄉下口音.而且南昌人極度瞧不起非城區口音,認為非城區口音土,十分之土而難聽。
入聲韻尾,本來有tk兩個,老年人和一部分中年人還保留.老年人的入聲韻十分齊整,中年人一般都變成了候塞,少了uen韻(耿,就這一個字)但是依舊能夠根據母音的位置區分tk,比如前後a的區別(八與百).青年人則完全相混。
對於古全濁聲母今讀塞音,塞擦音,不分平仄一律送氣這一贛語最重要的特點,在南昌話當中也在鬆動。新派基本上是舒聲送氣,而入不送氣。而且還有許多陽舒送氣字讀成陰舒不送氣。比如「腳步」我就聽過念成「jio? bu」的。再如「雜」「直」「拔」「奪」啦,等等這些字新派統統不送氣。但是依然還是有殘餘的,比如「讀」,新派也送氣,但是讀成陰入,其實我覺得這種殘餘很快也會消失,因為這是不符合語感的,至少我這樣覺得。因為南昌話送氣而普通話不送氣的字,在南昌話中一般都是陽調,而且調值還比較低,在未來會有越來越多以普通話為母語者的南昌人的前提下,他們會更依賴普通話來推導南昌話,這會導致這些不符合語感的字也很快被洗去。
再引用一段張燕娣的話"山攝合口洪音的知組、章組字,無論是陽聲韻還是入聲韻,中老年一般都讀為on ot,沒有介音,青年人由於受到普通話影響,現在一般讀為uon uot"其實現在大部分中年人也有u了.而且新派的on ot組不像老年人那樣是個標準反c,而是o中間一橫,為了省力,不過反c到n、t動程是挺大的.
止蟹開口三四等幫組,從前是bipimi,現在變成了beriperimeri
還有,原來的un韻,只是個單純天真的u+n,現在變了,現在猩猩們口中,z組+un變成了zyuern.yu是一個蘇州話裡面"如"zyu的母音,er舌位較高較前.un在其他組裡面,嘗嘗帶有一個流音,其實老年人也有這個流音,但是遠沒有中青年的重.ui韻同理.
日母字非常用字白讀幾乎完全消失.連"讓"都有許多人不認可鼻音讀法,覺得土.
梗攝白讀也消失了許多,但是沒有其他的變化嚴重
山咸兩攝開三知章組及日母文讀原來是en et ,現在變為an at 比如"然後" len heu變為"lan heu"
還有許多,我氣都要氣死了,就不能找個人來正音一下這些猩猩話嗎?簡直污染我的耳朵.
而且南昌的猩猩極度符合猩猩定律的描述,尤其是猩猩第二定律更可惡的是現在許多南昌人認為說南昌話是沒素質的行為、南昌話難聽,導致那些說南昌話的人也不短放棄方音特點,越來越官,我是認為現在年輕人口裡說的划進官話是完全沒問題了.新老派差異真大,而且新派變化方向還只有一種,就是官化,幾乎沒有自身特點的演變.南昌人母語意識還沒覺醒,這種經濟落後的地方思想也落後,跟這種南昌人同鄉真是恥辱.
南昌正在步南寧的後塵,而且速度非常快我來自問自答一個。我的方言屬於膠遼官話青萊片。
--------
先試了試上海話的。我不會講吳語,只學過蘇州話的音系。今天從維基上看了下上海話的音系,就模仿了幾句,音值肯定不準,聲調自由發揮。
句一:今朝是兩月三號。
識別結果:今朝12月3號。
句二:歡迎大家來上海白相。
識別結果:歡迎大家來上海白相。
句三:儂是勿是上海人?
識別結果:儂是勿是上海人?
句四:儂幫幫忙好不(/v??/)?
識別結果:儂幫幫忙好伐?
句五:長遠勿見我老想念儂。
識別結果:長遠勿見我老想念儂。
句六:勿要緊個,送儂到電梯口。
識別結果:勿要緊個送儂到電梯口。
句七:今朝碰到儂交關開心。
識別結果:今朝碰到儂交多開心。
句八:儂要吃茶還是咖啡?
識別結果:儂要吃茶還是咖啡?
--------------
再來試試山東話(濟南)。我處方言與濟南話(冀魯官話石濟片)屬不同片區,但音系相似。
句一:歡迎大家來山東。
句二:今天天氣不錯,出來玩吧。
句三:一二三四五六七八九十。
句四:來拉拉呱。
我用方言和普通話各讀了一遍。都識別出來了。
又讀了一個長片段,方言版《北風和太陽》。
內容:
有一回,北風和太陽在那兒爭論誰更厲害。爭來爭去就是分不出高低來。這時候路上來了個人兒,他身上穿著件兒棉襖。他們倆就說好了,誰能先叫這個人兒脫下他的棉襖,就算誰厲害。北風就使勁兒地刮起來了,不過不辦事啊,他颳得越厲害,乜人兒就把棉襖裹得越緊。後來北風沒法子治了,就住下了。過了一霎兒,太陽出來了。他熱乎乎地一曬,那個人兒頂霎霎兒就把那件棉襖脫下來了。這下兒北風只好承認,他們倆當中還是太陽更厲害。
識別結果:
有一回北風和太陽在那爭論誰更厲害。爭來爭去就是分不出高低來。到時候路上來了個人,他身上穿著見面哦。他們倆就說好了,最能先叫這個人拖著她的面哦,就算誰厲害。北風就使勁地刮起來了,不過不辦事啊,好瓜的越厲害,而就把棉襖過得越緊。後來北風沒法制止了,就住下了。過了衣裳,太陽出來了。他熱乎乎的一曬,有人頂上少就把那件棉襖脫下來了。這下北風只好承認,他們倆當中還是太陽更厲害。
-------
最後試了試對著普通話的說方言。
句一:一二三四五六七八九十。(我處「十」讀作/??42/。)
識別結果:1234567894.
句二:今天是三月十六號。(今天/t?ie?24t?ia?213/。)
識別結果:明天是三月十六號。
--------
2333,亂玩了一下。
Can you can a can as a canner can can a can?
作為客家語部分的開發參與者(非技術方面,早期提供拼音方案、字詞以及錄音和校正等),我來說說客家語部分的吧。
由於客家語內部也有多種口音,所以早期選用的是梅州惠州的口音作為標準(梅縣音、四縣音、惠陽音),但是出來的識別效果暫時並不是十分好。
對於數字以及偏書面化的詞句識別率還比較高,部分口語化詞句可以識別,但有時會出現「翻譯」情況,而不是用方言本字。很多客家話特有的用法,無法識別出來。
因為客家語內部尚未形成一個廣泛認同的「標準音」以及用字方案,所以對於提高識別率還是有不少的難度的。希望能夠通過人工校正和軟體的不斷優化,實現更高的識別率。
歡迎以客家語為母語的知友加入訊飛客家語語音輸入校正工作,訊飛還發工資的哦,qq群號:392558350
四川話識別省城音還行,但遇到方言特有的辭彙或者老派正音就經常識別錯。模仿了一下其它地方的四川話,發現容易識別錯。【輸入法】訊飛輸入法語音識別測試_四川話吧_百度貼吧
居然不用語言學分類而用某省某市話這種說法,有點不專業了。就算怕非專業人士看不懂,最起碼也都精確到市而不是省啊。
幸虧科大訊飛廠址就在合肥,否則估計會出現「安徽話、江蘇話」這種不明不白的分類了。
我的口音,不知道更像南京還是合肥。反正我在南京別人說我是合肥人,我在合肥別人說我是南京人。所以我沒法測試準確度。
老派南京話的兒化音,一得兒,一塊兒,我發不出。
合肥話的母音擦化、重鼻音我也發不好。
而且我漂泊在外這麼多年,不敢說代表哪一地的方言。我的方言就僅僅屬於我罷了。我老家那邊的大街上,現在連個喉塞式入聲都很難聽到了,要麼就是亂髮,該入的不入,不該入的入。所以現在如果讓我回老家我更願意用普通話。
方言這東西,變化起來比房價還快。
謝邀。用實驗說話。選取兩篇文本,按照下面的方式操作。
文本一(圖侵刪)
【粵語直讀書面語——連貫朗讀】
為什麼一線城市房屋租售比這麼低的情況下,投機資本並沒有急速撤離?
買房投資的人不會計希望越秀中獲利而是轉手倒賣獲利,簡單計算一下,已知,上海一套單價九萬面積100平,總價九百萬的房產,每月租金一萬,租售比1:900,2004年都2013年,上海房價年均增長,15%點九問題,假設這套房子五年來賣掉,五年之間的租金收益和房價買賣差價分別是多少,從今我們按年均增長10%計算,每年收益分別是十二萬,十三點二萬,十四點五二萬,十五點九七萬,十七點五七萬,五年租金收益總計出十三點二六萬,爾五年之後的放假咩,按之前嘅年均增長15%點九計算,900×11點159的4次方等於,1623點九六萬五年之間,租金收益73點二六萬,易買賣差價高達,723點九六萬,兩者相差六百多萬,自有房產的增值收益是租金收益的近十倍,所以誰會圖那可憐的,做咁,有人就要說了,未來五年上海房價還能保存延軍15%點九增長,未來誰都不好說,只是有這個預期,退幾步說,即便上海房價保持年關5%增長,增值收益也高於周金收益,所以在房價高漲預期下,買房倒賣獲利,絕對是理性決策。
【正常粵語口語表達——連貫講話】
點解一線城市房屋租售比咁低嘅情況之下,投機資本這並無急速撤離?
買屋投資人係唔會係凈係希望係收租王嚟嘅,又轉手倒賣獲利,簡單咁計算一下,已知上海一套單嘎九萬,面積100個方,總價九百萬嘅房產,每月租金一萬,租售比1:900,2004年都2013年,上海房價年均增長15%點九,問題係,假設呢度屋企五年之後賣左,五年之間嘅租金收益,同房噶買賣差價分別係幾多,租金我哋按年均增長10%計算,每年收益分別係十二萬,十三點二萬,十四點五二萬,十五點九七萬,十七點五七萬,五年租金收益中計,73點二六萬,今五年之後嘅房間嘞,按之前嘅年均增長15%點九既,九百,誠意一點一五九一四次方,等於,1623點九六萬,五年之間,租金收益73點二六萬,而買賣差價呢高達723點九六萬隻有房產嘅增值收益係租金收益嘅十倍多,所以呢邊個會貪嗰啲今日做咁啦,有人就要講啦,未來五年呢上海房價仲可以保持年均增長十五點九嘅增長,未來邊個都唔知,只係有咁嘅預期,退一步講啊即使上海房價保持年關5%增長,增值收益都高過,租金收益,所以房價高漲預期之下呢,買屋倒賣獲利這絕對系理性決策。
文本二(圖侵刪)
【粵語直讀書面語——逐句讀】
你在各大社交網站上關注的最有關注價值的人或者高質量信息輸出源是誰,他通常都發佈哪些類型的信息?
財經類財新網財經網,雪球,和訊網,新財富雜誌,新浪財經,陳嘉穎長投中集團,21世紀經濟報導,證券時報網,新京報,無中文網,東方財富網,華爾街日報中文網,商業周刊中文版科技類,新浪科技,36盒,創業邦,快利魚,泰媒體,唉鐵吉仔,和訊科技,雨果網,機器人,信息上的差距,在互聯網時代慢慢被抹平,現在一個普通的中國學生,通過互聯網,每天可以和矽谷精英獲得同樣多的資訊,過去幾百年,一個人記憶力更強,往往意味著學習能力更強,現在,衡量標準變了,在新的信息時代,怎麼過濾信息,怎麼進行信息搜集,分類,怎麼獲得數據,怎麼分析解讀數據,這成為一個人的核心競爭力。
【正常粵語口語表達——逐句講】
你係各大社交網站上關注嘅最有關注價值嘅人,或者高質量信息輸出源係邊個,佢通常都發報邊d類型嘅信息?
財經類,財新網,財經網,雪球,和訊網,新財富雜誌,新浪財經,無啊,投中集團,21世紀經濟報導,證券時報網,新京報,無中文網,東方財富網,華爾街日報中文網,商業周刊中文版科技類,新浪科技,三十六行,創業邦,快利魚,泰媒體,唉鐵吉仔,和訊科技,如果網,機器人,信息上嘅差距,係互聯網時代比慢慢咁樣抹平,宜家一個普通嘅中國學生,通過互聯網,每日可以同矽谷精英咁樣,獲得同樣多嘅資訊,過去幾百年一個人記憶力更加強,往往意味著學習能力更強,宜家,衡量標準變咗啦,係新嘅信息時代,點樣過濾信息,點樣進行信息搜集,分類,點樣獲取數據,點樣分析解讀數據,將成為一個人嘅核心競爭力。
【結論】
- 在粵語語流里,外語單詞不可識別,數字能識別,但有時輸出漢字有時輸出阿拉伯數字,非常混亂。
- 無法處理有小數點的百分數,數學公式也有些問題。
- 要求朗讀得很精準,語流中稍微有點偏差就會影響識別,慢讀比一氣呵成地讀,更準確。
- 粵語里的語法辭彙識別得比較準確。
- 估計有雲(離線語音輸入只有普通話,其他方言都是在線語音輸入),新辭彙識別還可以。
【利益相關】小熊頭像那個。
閩南語訊飛屬於基本聽不懂的狀態。
斷句是很坑爹的,我現在這個回答就是例子。某小說作者用語音輸入法,寫作,導致聽書,是最舒服的閱讀方式。中間這一段是純用語音輸入法,而又沒有修改過的,你可以看看有多坑。
還是挺有意思的,比搜狗的要好不少,但是輸入法也會抽風,還算新鮮吧
我而家用緊訊飛輸入法,講緊嘢,噉而家就睇下呢個輸入法究竟准唔準確啦,亦都唔系好差,但係硬係覺得有啲唔妥,呢個軟體絕對唔可以用嚟,比如話就,打文章啊即係嗰啲好專業嘅論文就絕對唔可以用啦,噉佢有時出現嘅時間都比較慢,如果真系要認真嘅打嘅話,同佢比呢個係好快自己選擇,佢哋傾計只可以用呢個表嗰啲自己嘅聲好難聽嘅話呢你就開緊唎個唎個誤會,踢畀人哋聽到你自己係乜聲,
用不太標準的強行濟南話和標準的廣北話(廣饒縣北和東營市區的方言,混了一大堆膠遼官話和章利片的特徵)試了下。
對鼻化原音能夠識別,但是對於少數an韻完全不鼻化,和家麻韻僅發音位置前後區別的情地區不能很好的識別。
山/沙 喊/喝 彎/挖an韻鼻化(濟南):山/傻 還/哈 晚/瓦an韻不鼻化(東營):傻/傻 哈/好 八/發意外地有考慮到對膠遼官話的適用性
清入歸平:接。郭。鋼鐵。毛筆。清入歸上:接。郭。鋼鐵。毛筆。「山東人」里「人」的讀音。ren:山東人yin:山東人len:山東人「家」、「下」等ia韻團音字輕聲時的變化
地下 人家 北部冀魯官話和石濟片常見模式dixie renjie地下 人家 可以識別滄惠片和膠遼官話青萊片常見模式diha renga 第一哈 人格 無法識別比較地域性的用詞
打不上 大不少 打不殺他「打不殺他」三次成功大舌頭 大舌頭 大廈「打殺他」就沒那麼容易了「這樣吧」的合音
zhiangba(濰坊):這樣吧zhabε(東營):罩杯 (什麼鬼)我估計可能音庫里就沒有「乜」這個音,兩種乜樣吧都掛了就不往上寫了宕江攝入聲字的韻母
歌戈:上學 吃樂 退居 唐說 蕭豪:上校 吃藥 腿腳 湯勺這個全跪了,像是直接按普通話來的,明顯沒有考慮到南部冀魯官話歸歌戈的特點。錢/鉗 精/京 心/欣
錢/錢 經/經 新/新尖團不分,不過濟南話確實是不分。一二三四五六七八九十
數字可以完美識別一二三四五六七八九十但是數字與「個」的合音表數量就全完了一貫聊騷色玩,留我貼8.92式罵了句舍友
見天多禍的那屋大場子里揚了翻天的你自家很松渙了人家不煩氣蠻訊飛:加太多會那麼長怎麼樣啊伐天第一次從我來這個爆發期了。。。發音人本身可能本身比較年輕,說的基本上是方言味的普通話,比如宕江攝入聲字那一塊,而且對於濟南以外的地方可能不那麼友好,東營濟南尚且同為冀魯官話,不互通之處已經很多了,膠遼官話和中原官話區用起來可能更麻煩(而且我估計這東西碰上登連片或者章利片能死信不信)。母語閩南語,識別率低到無法使用。
僅僅會說幾句簡單的粵語,試了下,識別率百分之百。所以應該不是技術問題。估摸了下幾個原因:
1、閩南語目前使用者偏老齡化,年輕人掌握度較低,日常口語尚且發音準確,但是讀字讀文章,發音基本亂來,慘不忍睹。此項目發音採集者估計以年輕人為主。2、粵語口語的書寫較為普及。而閩南語口語的書寫普及度接近0。本來勉強準確的口語發音,因為沒採用正字,而是採用意譯的方式來匹配,識別率再次暴跌。我說帶天朝味兒的英語,能認出來95左右的內容。有的時候一大段話都能正確的辨識出來。
我尚未使用此輸入法。
我有使用過谷歌粵語輸入法(Google Cantonese Input),效果很好。雖然本人母語贛語,但是用粵語輸入法輸入贛語和粵語一樣快,明顯會快過漢語拼音輸入法。
平時較多使用五筆。
推薦閱讀:
※有些影視作品會出現潮汕話,這是為什麼?
※吳語使用者如何區分送氣清輔音、不送氣清輔音和濁輔音?
※如果用中國方言給權利的遊戲七大王國配音,哪個方言配哪個王國?
※南京方言詞中有哪些有趣的故事或歷史淵源?
※你有哪些關於南京話的有趣記憶?