語音識別中如何提高同音異形字的識別準確率？

01-08

比如漢語中的「他」「她」「它」，詞性和上下文貌似也沒有什麼幫助。

同音異形詞的分辨，主要依靠語言模型，也就是說選擇讓上下文通順的那個。對於一般的語言來說，n-gram語言模型就夠用了。

某些語言中會有系統性的同音異形詞現象。例如，在法語中：

為了分辨這些同音異形詞，論文[1]就利用了n-gram以外的各種語言模型，其中一個重點就是要標註出每個詞的性、數、人稱。

同音異形詞雖然發音相同，但根據意思和在句中位置的不同，也可能具有不同的聲學特徵。論文[2]就從聲學角度來分辨法語中的 est（「是」）和 et（「和」）。

對於題主說到的中文的「他/她/它」，可能就需要在真的弄明白被指代對象的前提下才能分辨。這就需要用到自然語言處理中的co-reference resolution了。

[1] http://www.mirlab.org/conference_papers/International_Conference/Eurospeech%201999/PAPERS/S9P1/B034.PDF

[2] http://www.lrec-conf.org/proceedings/lrec2008/pdf/554_paper.pdf

根據前後文整體語義進行判斷。