有沒有好的中文髒話識別的解決方案?


謝邀。

髒話識別實際上是一個關鍵詞檢測或關鍵詞檢索問題。
對於文本,就採取建立倒排索引的方法匹配髒話就可以了。

對於語音,關鍵詞檢測(Spoken term detection / Keywords spotting)分為兩種情況:
一種是基於樣例的檢索(Query-by-example),就是輸入語音樣例,然後在連續語音流中找出對應的語段,這一般採用的是模板匹配方法。

第二種是輸入文本關鍵詞,在連續語音流中找出對應的語段,返回關鍵詞的時間位置信息,這一般有兩種做法,一種是訓練補白模型(Filler model),就是所有非關鍵詞當做雜訊,訓練一個關鍵詞和非關鍵詞的分類器,找出對應的關鍵詞,這種方法的缺點是,關鍵詞表一換,就得重新訓練模型,一般在家電等嵌入式設備的命令檢測可以用;另外就是基於大辭彙量連續語音識別系統的關鍵詞檢索,其前端是一個語音識別系統,識別出來的文本存儲為詞格(Lattice) 或者混淆網路(confusion networks),然後把詞格或者混淆網路建立一個索引,在其中查詢關鍵詞。這種方法的好處是,更換詞表很容易,不需要重新訓練模型,不好的地方就是需要建立一個語音識別系統,資源消耗大,它一般用於語音檢索中。

以前寫的實驗小結:
語音關鍵詞檢索實驗小結 CSDN.NET


班門弄斧一下:判斷一句話是髒話,並不能只靠「關鍵詞」,還要結合上下文,「不出現髒字」的髒話或是命中「關鍵詞」而非髒話的情況很常見。(比如:「糧*先行」)也就是說,髒話有在詞語構成之外的高階信息,自然的想法就是利用神經網路吧?(特別是像GAN這種)

或者,索性就用人工神經網路——僱用管理員吧。


想起一個笑話:丈夫在外打工,手機裝了一個自動屏蔽髒話的軟體,收到家裡一條簡訊:孩子病已好轉,醫生說是到了更年期。

丈夫:???

原文:孩子他媽的病已好轉,醫生說是到了更年期。


把所有的"你"改成"我"


挺難的,人的創造力超過目前的任何方法,比如你看知乎怎麼都不能阻止那些粉絲提到他


學校門**作業


沒用,鍵盤俠早就不說髒話了,改直接嘲諷人了。


沒有,你看前些年那些網吧噴人的半大少年,一個小時都不重樣。


首先,你這個思想很危險,綠壩娘的思想啊。

其次,沒有,做不到。誰能給髒話一個準確界定?

最後,你這個任務想應付還是可以的,還是綠壩那樣,設個黑名單即可。


推薦閱讀:

小猿搜題用到了哪些牛逼技術?
廣告ctr預估有什麼值得推薦的論文?
北京大學機器學習有哪些不錯的博士生導師?
IBM Watson 的獲勝意味著什麼?
人工智慧機器翻譯的發展經歷了哪幾個重要階段?

TAG:自然語言處理 |