搜狗的深度學習業務在業界是什麼水平?

如題

可能會去搜索部門的rank組做DL,望知情人士告知。


感謝羅燦同學對我們搜狗網頁搜索Rank組較為客觀的評價!

作為羅燦同學提到的核心團隊里的一員,針對題主的疑惑,我可以簡單介紹一下搜狗網頁搜索Rank組在深度學習這一塊的簡單情況。

一年前,Rank組確實沒有把深度學習在網頁排序中的應用列為正式項目,當時受到人員和機器資源等的約束,我們還處於對DL進行前期初步調研的階段。

但是大半年前,隨著公司實力的增強(可以從公開的財報等數據看到),以及我們對深度學習技術的進一步認識,在網頁搜索排序這一塊,搜索事業部在Rank組正式成立了DL項目團隊,專門研究如何應用深度學習技術改進網頁排序的相關性效果。

目前,經過整個團隊的持續努力奮鬥,我們可以很自豪地說,DL團隊已經針對網頁排序成功地完成搜狗自己的深度神經網路(DNN)模型構建,並基於搜狗搜索的大規模用戶行為數據建立模型訓練集,開發出了衡量查詢和網頁相關性的語義匹配特徵,並將基於DNN的特徵成功應用到搜狗網頁搜索的LTR排序模型,最終取得了顯著的排序效果改進。這個改進不管是從線下的人工標註,還是從線上真實用戶的點擊情況來看,都是從項目成立以來,Rank組取得的最大相關性效果改進。網頁排序的DL項目團隊取得的成績也獲得了公司的認可,比如最近我們就獲得了整個搜索事業部的優秀團隊獎:)

當然我們也知道,深度學習技術在搜狗網頁排序這一塊,還有很大的改進空間,包括模型的改進和創新(比如目前正在研發的CNN已經取得階段性成果)、模型訓練集的產生、計算效率等等,我們還有不少的事情需要做。

雖然我們起步相對稍晚,但是我們的進展還是比較迅速的,而且值得高興的是,公司對這一塊也在逐漸加大人員和硬體設備的支持,我們熱烈歡迎像題主這樣關心深度學習技術的熱心有為青年能夠加入團隊,大家能夠一起做一件十分有意義有前途的事情。


搜索部門不知道什麼情況,反正語音組那邊不怎麼樣


上知乎這麼久了,第一次遇到能回答的正經的問題。

以下為正文

-------------------------分----------------割----------------------線-----------------------------

利益相關:正在搜狗網頁搜索rank組做DL的實習生,我說下我看到的情況吧。

Rank組是搜狗網頁搜索的核心技術組之一,主要做改善搜索引擎相關性排序的相關工作;一直以來都挺受重視的。在人員配備和資源分配上,感覺公司對我們組還是蠻大方的,最近申請機器、申請GPU什麼的,經費到位都非常快,這讓我們這些幹活的,真正的能感覺受到重視。

我現在所在的這個小組就是做深度學習DL相關工作的,帶上我一共有5個人在做這方面的研究,雖然人不是很多,不過整個組也就不到20人吧。但是感覺大家鬥志還是很昂揚的,因此每個人的產出也蠻多的,也能得到最全面的鍛煉和回報。

深度學習DL雖然是最近幾年最火最熱的技術,像百度,自己開一個研究院,專門負責學術理論研究。這樣當然是一條路子。但我感覺像搜狗這樣,從實際的應用需求出發,去研究相關的DL技術,並將其應用到線上系統中,比較符合類似於搜狗這種中型公司的利益。舉個例子吧,在我們組,如何把DL技術應用到相關性排序是我們研究的重點,我們會去follow大量的論文,通過大量的對比實驗,選出其中對相關性排序真正有效的DL技術,再將這些技術應用到線上系統中。在這個過程中,雖然每個人都有各自的分工,但同時又都是全程參與的,小組內及時的技術心得交流,也能夠使得大家的技術進步都比較快。現在,我們小組這邊已經成功的將深度學習技術應用到了線上排序中,這次改進,也取得了預期的效果,是相關性改進中效果最好的一個。

團隊氛圍方面,每周有一次的大組技術分享,組內同學會輪流介紹自己最近的相關工作。還有不定期會請公司其他部門牛人來開講座,開闊大家的技術視野。組內交流非常順暢,一般有啥事,都是直接過去就聊上了。想要點技術資料,數據啥的,大家也都比較熱心。在這種氛圍中,我個人成長也是比較快的。

總之一句話,大牛很多,只有你想不到的,沒有你學不到的。


本人恰巧一年前在搜狗網頁搜索的rank組做過一段時間的實習生。首先想感謝當時組裡許靜芳、陳煒鵬等人對我的指導,受益良多。以下就個人有限的視野談談看法,希望對題主有所幫助。

就該組客觀情況來看,十多個人,且主要工作內容自然是網頁搜索rank優化,至少在我離開前沒有開展DL方面的正式項目。

眾所周知,DL是一個耗資源的領域,要人、要數據、要機器、要時間。就國內來看,像百度這種業內領先的做法是成立獨立的研究院,專門研究DL理論和模型,再將模型在具體的業務部門部署使用。一個以具體業務為主要工作方向的小組,要做的DL應該是直接將常規方法在當前業務中進行技術應用,所以從DL學術水平的角度來看,應該不會太高。

但是,這個搜狗這個team是搜狗的核心技術team,人員配備,團隊氛圍都非常不錯,將技術轉化為成功項目的能力給我留下了深刻的影響。如果題主感興趣並不是DL的前沿研究,我認為不論是過去實習還是工作都是非常不錯的選擇。

以上看法均根據一年前本人在該組實習時的見聞得出,如一年內有巨大變化,望知情者指出。


非搜狗工人

感覺上沒帶頭人,深入的東西很難做。工程師做這種容易限於跑跑model,這個model沒跑好換個model接著跑。現在工具開源的很多,企業做這個的門檻不是特別高。


非常榮幸能夠加入搜狗網路排序相關性計算組從事深度學習的工作。以下純屬個人意見。DL在NLP領域並沒有統一的結構,所有的人都在不停地探索各種模型對於task的解決思路。搜狗的DL主要應用在query和搜索結果的匹配任務中,專註於一個小領域,而且確實華為在這個領域做的不錯給了我很多啟發。

DL的應用問題我想有兩點1.開發適合自己業務的DL結構 2.如何應用到線上甚至說在線學習或者應用到移動端上。我想這兩點的挑戰都不小甚至後者更大。總管國內DL4NLP的研究當屬華為,應用百度做的不錯因為人多業務多而且也是追最新的學術成果然後優化。相信搜狗專註與deep matching的業務需求認真攻克匹配關係建模和詞序的問題而不是單純的follow最新的paper,水平絕對業界靠前開發出自己的模型和平台。而現在來說應該國內大體處於同一水平線。


看見你們 所做的內容的方式等,和我研究演算法的思路是一樣的,當然我最終是要完成論文


推薦閱讀:

搜狗為什麼要聯合清華做人工智慧前沿研究?
如何評價谷歌瀏覽器主動推薦搜狗搜索?
在這個行業首次聚焦語音智能的主題峰會上,我們思考語音技術對智能硬體提出的新挑戰 | WARE 2017
哪些數據支撐搜狗估值30億美元?
哪種輸入法最好用?

TAG:搜索 | 搜狗 | 深度學習DeepLearning |