有沒有好的中文髒話識別的解決方案？

01-18

謝邀。

髒話識別實際上是一個關鍵詞檢測或關鍵詞檢索問題。
對於文本，就採取建立倒排索引的方法匹配髒話就可以了。

對於語音，關鍵詞檢測(Spoken term detection / Keywords spotting)分為兩種情況：
一種是基於樣例的檢索(Query-by-example)，就是輸入語音樣例，然後在連續語音流中找出對應的語段，這一般採用的是模板匹配方法。

第二種是輸入文本關鍵詞，在連續語音流中找出對應的語段，返回關鍵詞的時間位置信息，這一般有兩種做法，一種是訓練補白模型（Filler model）,就是所有非關鍵詞當做雜訊，訓練一個關鍵詞和非關鍵詞的分類器，找出對應的關鍵詞，這種方法的缺點是，關鍵詞表一換，就得重新訓練模型，一般在家電等嵌入式設備的命令檢測可以用；另外就是基於大辭彙量連續語音識別系統的關鍵詞檢索，其前端是一個語音識別系統，識別出來的文本存儲為詞格(Lattice) 或者混淆網路(confusion networks)，然後把詞格或者混淆網路建立一個索引，在其中查詢關鍵詞。這種方法的好處是，更換詞表很容易，不需要重新訓練模型，不好的地方就是需要建立一個語音識別系統，資源消耗大，它一般用於語音檢索中。

以前寫的實驗小結：
語音關鍵詞檢索實驗小結 CSDN.NET

班門弄斧一下：判斷一句話是髒話，並不能只靠「關鍵詞」，還要結合上下文，「不出現髒字」的髒話或是命中「關鍵詞」而非髒話的情況很常見。（比如：「糧*先行」）也就是說，髒話有在詞語構成之外的高階信息，自然的想法就是利用神經網路吧？（特別是像GAN這種）

或者，索性就用人工神經網路——僱用管理員吧。

想起一個笑話：丈夫在外打工，手機裝了一個自動屏蔽髒話的軟體，收到家裡一條簡訊：孩子病已好轉，醫生說是到了更年期。

丈夫：？？？

原文：孩子他媽的病已好轉，醫生說是到了更年期。

把所有的"你"改成"我"

挺難的，人的創造力超過目前的任何方法，比如你看知乎怎麼都不能阻止那些粉絲提到他

學校門**作業

沒用，鍵盤俠早就不說髒話了，改直接嘲諷人了。

沒有，你看前些年那些網吧噴人的半大少年，一個小時都不重樣。

首先，你這個思想很危險，綠壩娘的思想啊。

其次，沒有，做不到。誰能給髒話一個準確界定？

最後，你這個任務想應付還是可以的，還是綠壩那樣，設個黑名單即可。