輸入法是怎麼第一時間收錄網路熱詞進詞庫的?

看到一條有意思的微博(http://weibo.com/3043581645/C8mWrFwqU),因此很想知道「互聯網+」之類的詞輸入法是怎麼第一時間收錄進詞庫的?


作為曾經在宇宙中心打過滾的輸入法代碼工人,一直匿藏於知乎的角落,沒想到竟然有這麼對口的問題,激動!

先回答第二個問題,怎麼可能是人工監控,搜狗不可能找那麼多「臨時工」。

好,玩笑不多說,下面是純乾貨。我來給大家分析分析搜狗輸入法是怎麼做到的?

既然不是人工,那肯定就是程序分析啦,不過究竟是什麼程序?據我所知,輸入法那邊其實也沒具體的叫法,但是原理其實都明白,我這裡根據用途杜撰了一個,姑且叫他熱詞挖掘系統,不知道是否準確,如果輸入法的同學看到,有更好的說法,請補充。

其實挖掘系統是為能夠及時發現網路新詞豐富詞庫而開發,所有的新詞主要有三個來源——搜索中的熱詞、社交媒體中的熱詞、用戶輸入頻率高的熱詞。一旦以上渠道的某個網路新詞的熱度達到一個預設的值,就會觸發熱詞挖掘系統,雲端詞庫將收錄該詞,然後push給用戶。這其實從另一個角度說明了一個問題,一個網路新詞火還是不火,有沒有被輸入法搜錄進詞庫其實也是標準之一。

下面我比較細的分析下熱詞挖掘系統,看他是怎樣工作的!

搜索

首先要說搜狗輸入法一個特別牛逼的地方:搜狗輸入法與搜狗搜索的數據其實是共享的。這樣的結果就是搜狗輸入法可以根據用戶的搜索次數發現各種詞到底火不火,一旦一個「關鍵詞」搜索頻率過高,搜狗輸入法就及時的將它與雲端詞庫進行對比,如果發現詞庫中沒有這個關鍵詞,當這個關鍵詞的搜索量達到一定量級後,就會觸發搜狗熱詞挖掘系統進行判定,判定為熱詞後就將它添加進詞庫。比如題主說的「互聯網+」這個詞,在原來的詞庫里是絕對沒有的,但是搜索這個詞的用戶多了,熱詞挖掘判定通過,詞庫就會有這個詞。

社交媒體

社交媒體是網路新詞的最主要誕生地,新浪微博公布的數據是每天發布的內容超過1億條(實際可能沒有這麼多,呵呵),這些微博內容從流行段子到心靈雞湯以及文藝青年的碎碎念,其實都是熱詞系統要爬要分析的內容,另外特別值得一說的是,據說熱詞挖掘系統還能獨家挖到微信公眾號的內容來分析。(有乾爹就是牛啊!)所以像「duang」之類的新詞一旦在社交媒體出現,熱詞挖掘系統就會根據他的提及率、閱讀量、含有新詞熱門微博的轉評數據進行分析,當對比後發現這些流行辭彙沒有收錄,然後系統就會更新到詞庫中,之後你就會發現輸入這個詞時他已經成了首選詞。

用戶體驗計劃

其實無論那一款軟體,都有會這樣的提醒,「加入XXX的用戶體驗計劃」,而搜狗輸入法的用戶體驗計劃最主要的用途就是詞庫的更新。新詞出現後,搜狗輸入法熱詞挖掘系統就會對這些用戶提供的新詞的熱度進行統計,一旦熱度超過一定的標準,搜狗輸入法也會將這些詞加入到需要更新的詞庫中去。

以上只是我的一些初步分析,但相信已經離真相不遠了。如果輸入法的同學能夠看到,有興趣的話不妨補充下。


不是搜狗的,但是也略有了解。

主要是兩方面:

1 網路搜集。

搜集目標主要是論壇,微博,新聞,百科,聊天。其中百科和新聞語料質量較好,垃圾少,但是對新詞的反應也比較慢;論壇,微博,聊天則相反,結果需要處理,甚至人工。

搜集的手段也有很多,寫爬蟲,購買數據,合作方提供,等等。

這裡的困難是爬蟲抓取速度有限,而購買數據和合作方提供往往時效性較差。像搜狗那樣自己有一個搜索引擎能提夠數據,確實是優勢。

2 用戶輸入。

輸入法會收集用戶的輸入(什麼用戶體驗計劃,雲拼音的請求記錄,備份的個人詞庫等等,名目多得很),用每天的統計結果和歷史結果相比,分析出近期頻率上升的。但是用戶量小的話這個數據就會很不科學。這裡搜狗也是有天然優勢····


這個要匿,曾經在某公司工作過,大概明白原理。

有專門的系統。叫什麼忘記了...

系統根據:

1.搜索引擎的排行

系統會根據搜索引擎排行,把熱詞自動添加都詞庫。

2.用戶習慣

大家都知道,有些時候有些特定的詞語,第一次輸入的話,需要分開輸入,但第二次輸入的時候就可以直接輸入。

人工已經是過去的用法了。


以搜狗輸入法為例。

說到這個問題,那要從智能輸入法之父--搜狗輸入法的誕生說起了。搜狗輸入法是首個融合互聯網大數據的輸入法產品,其詞庫的內容源於互聯網,體現了大部分人的輸入習慣。而互聯網的內容日新月異,所以輸入法自然也有隨之而變的需求。內容的改變有兩種,一種是詞庫的周期變化,每個版本的詞庫內容都會有更新,就體現了整體輸入趨勢的變化,每日的熱詞更新,則體現了更小周期內的輸入變化。

巧婦難為無米之炊,熱詞來源於大數據,那麼首先還是要從數據說起。都知道輸入法的大數據來源於搜索引擎,所以網頁內容自然是涵蓋在輸入法之內的,同時各個垂直領域的內容也會被收錄。同時,很多參加了用戶體驗計劃的用戶也在默默的為數據產生做貢獻。搜狗輸入法不但整合了搜狗搜索的索引,還引入了各個垂直領域的內容數據,如數以千萬的地圖POI數據等。熱門網站數據的索引,一般幾小時就會更新一次,不太熱門的網站,則需要一個星期甚至更久更新一次索引數據。類似「互聯網+」這樣的新詞,一般是第一時間曝光在門戶網站,這樣的詞條很快就會被搜索引擎收錄,自然輸入法也會收錄進來。

再說熱詞: 熱詞是指一段時間內突然流行起來的辭彙,這既可能是已有的詞條突然再次流行起來或者被重新定義,也可能是新產生的新詞。

通過對比不同時間段內的詞頻,就可以描繪出一個詞條的檢索熱度變化。詞頻的陡峭上升即表示一個熱詞的誕生,而下降的過程則是相對緩慢。檢索趨勢的變化,是搜索引擎的基本技能。例如「伊能靜」這個詞,最近檢索數量急劇上升,原因是其結婚傳聞。

熱詞收錄的門檻: 是不是發現的熱詞一定都會提供給用戶?

那還需要經歷幾道關口,首先發現的熱詞需要有一定的輸入量,輸入量少的詞條下發了會影響正常輸入。其次如果是已有的詞條,那麼發現的熱詞的詞頻方差應該比較大,這樣的詞條時間相關性強。另外還有詞條的一些屬性問題,比如色情詞需要特殊處理等等。

噪音濾除

數據中難免有些噪音,比如含有「著」「了」「過」的詞條。再比如說一個新詞誕生時,在尚未進入用戶的輸入法之前,用戶難免會有些錯誤的寫法,這些錯誤的寫法,也具有一定熱度,是應該被濾除掉的錯誤數據。但也會有個別例外,比如「漲姿勢」「妹紙」這種由於刻意錯輸造就的互聯網新詞。

當一系列機器處理完結之後,是人工的檢查校驗,來做最後的保障。

當然,機器不能解決一切問題,數據的收集和分析總有一定滯後性。個別詞條,尤其是可以預見的一定會火的,但才剛剛發生的事件,是通過運營同學的主觀定義,來決定是否下發給用戶。

互聯網時代,唯快不破。緊跟時代潮流,熱詞不過是大數據挖掘的一個小的體現。演算法是關鍵,但核心還在數據。


新詞發現,一個文本挖掘的topic,主要是通過詞頻,互信息,邊界墒之類的特徵確定一個詞是不是一個新出現的複合詞。簡單說,就是兩個片語合出現的頻率非常高,但和左、右邊的片語合又非常隨機,就認為是一個新的複合詞,一般要人工審核後加入詞表,也有一部分詞是直接人工添加的,如根據搜索的qv統計等第三方數據源直接加進去。


個人認為是兩部分一起結合。

1.輸入頻率

用戶輸入某一詞語達到一定的頻率或者次數的時候,系統會自動的甄別,然後添加。

2.根據熱詞火爆程度,人工添加

有些詞語是人工添加的吧(猜測),因為很多辭彙是網友自創,沒有邏輯性,或者只是小範圍的局限在微博傳播。所以人工吧這些詞語添加到詞庫。

應該逃不出這些範圍。


看了樓上幾位吹得那麼神不忍來吐槽下。。。

對於微博上這種傳播應該明顯能看出來這是營銷手段,既然是營銷手段那麼自然是人工的咯?

對於題主的問題解釋一下,大部分日常是來源於搜索、用戶輸入、微博熱門等等等等不存在於詞庫中的詞的爬取;但是這樣會出現一種什麼情況呢?像「XXX滾出娛樂圈」"你媽逼你穿秋褲了嗎"這種都會進入熱詞中,顯然,這是不合理的,因此除了機器之外需要人工處理,如果不加干預。。。呵呵呵。。。

對於網路熱門或者適合營銷炒作的,當然是人工添加啦。你認為有多少人會在兩會期間大量輸入「雙目標雙引擎雙結合」嘛!總結提煉加上整合進行營銷,告訴你我的產品跟得上潮流罷了,現在的輸入法大部分都能做到如此。

所以當你看到你特別感興趣的或者時下熱門的新詞基本都是由如下對話來的:

「誒,今天成龍挺火的啊,加個熱詞吧」

「好,可以順帶傳播一下,XX輸入法也能加特技了」

大部分你沒有發覺意識到的熱詞是機器爬取的。

你發現的基本都是為了迎合你的。


問題應該分成兩部分回答:雲詞庫和系統詞庫

雲詞庫是根據後台統計用戶上屏詞的次數收錄的,用戶聯網打字時才會出現,而系統詞庫是人工干預,挑選當天熱詞加入系統詞庫。要篩選出斷詞,錯詞,組詞,片語,熱點雲詞也要加入系統詞庫。


看到這麼多大神的評論 我也說說我自己的想法

第一肯定是通過熱詞搜索的頻率,不過這個熱詞搜索到什麼樣的數值這個就不知道了,我覺得應該是按照百分比之類或者是當天次詞語的出現頻率達到一定的程度的時候會智能添加到詞庫中,作為熱詞優先顯示,

第二 是通過爬蟲搜索當前下熱點社交平台的內容,出現某個熱點詞頻率較多時,會智能識別進行對比,當詞庫中沒有時會添加到詞庫中。這個正如前面一些大神所說的,搜狗擁有自己的搜索平台以及社交網路平台,這個方面具有很多的優勢。

第三,也會是有人工添加入口,不過這個所佔的比例我感覺一般回用於人工補漏或者一些特殊的需求,

還有我要補充的是,用戶搜索的時候也會根據同樣的搜索詞語進行優先順序的比較,當同樣的拼音可以拼出多個詞語的時候,會根據選擇的頻率進行優先順序的選擇,這個會根據單個的用戶以及資料庫中的數據進行比較

以上時我不成熟的見解。


之前也關注過這個問題,最近看到v站上 大家是如何擴充鼠須管輸入法的詞庫的? 的討論(原作者也參加了討論)。

--------------------------

感覺沒有比這講的更細緻了。


能獲取到熱詞的方法還是很多的,特別是對輸入法來說,1樓給的已經比較全面了,特別是搜狗的產品線還是很全的:搜索、用戶體驗、社交媒體、瀏覽器應該都能拿來為其所有,挖出來東西應該比較容易。

但噪音應該也很大,我做過搜索,對搜索來說大量的query是惡意刷的query、色情query等等,估計搜狗也會多方印證,機器+人工篩選的方式才能準確的把熱詞下發下去吧。

樓上說的營銷炒作的方式肯定也是有的,duang!


用的是百度輸入法,不解釋


新詞發現是自然語言處理領域的一個研究分支,具體請參見有哪些比較好的新詞發現方案? - 機器學習


同樣的組合出現多次的時候


那就是說,添加新詞,是在詞庫更新以後咯


完全是輸入習慣吧,第二次輸入的時候就會自動被記住。


都是根據量級來的,當某個詞語的使用率超過了一定的量級,就會被自動添加進去。


搜狗手機輸入法皮膚什麼樣的好看?大家喜歡什麼樣的捏~~


推薦閱讀:

有哪些移動應用是因為功能做的太多太雜而逐漸衰亡的?
產品經理如何寫好產品分析報告?
互聯網產品運營人員的日常工作內容是什麼?
如何從測試工程師發展成為產品經理?
項目經理需要具備有他所管理的技術能力么?

TAG:互聯網 | 產品經理 | 輸入法 | 搜狗 | 大數據 |