小猿搜題用到了哪些牛逼技術?

最近兩天,猿題庫推出的新產品「小猿搜題」在微博上很火,下載測試了一下,識別很准。除了OCR和NLP以外,主要用了哪些技術,以及核心技術門檻、關鍵點都有什麼?


作為利益相關人士,簡單回答一下這個問題。

小猿搜題的核心演算法是OCR和搜索技術,OCR技術主要針對的是一個叫Document Image Analysis 的領域,其實所涉及到的內容和@Express所提到的演算法差不多,簡單來說就是要解決兩個問題:

1. 有價值的信息在哪?(定位)

2. 有價值的信息是什麼?(識別)

對於第1個問題,常用的方法就是分割加版面分析,第二個問題主要是利用Deep learning的方法做識別。對於這兩類方法,學術界已經有大量的研究,但是實際上學術界的工作和實際應用還是有一定的差距,實際應用的場景和case要更為複雜

比方說,一個用戶拍出的照片存在較大的陰影,文字存在一定的模糊,用戶的紙張存在一定的不平整,或者照片是用戶手寫的比較潦草的題目,這些都為系統帶來了不小的挑戰。

所以我們所做的工作相對而言會更加深入複雜,同時也很強調演算法間的配合。


「小猿搜題」主要用到計算機視覺、OCR識別、搜索引擎和NLP等相關知識。

具體技術方面,計算機視覺方面需要用到版面分析、糾偏、去噪、文字定位、切分、增強現實等技術;OCR識別除了採用傳統的OCR技術之外,更多的用到目前如日中天的Deep Learning識別技術,通過採用性能卓越的GPU系統,能夠使得訓練能夠支撐千萬量級的訓練數據,同時線上預測也能快速完成。總體來說,計算機視覺和Deep Learning還是比較有門檻的,需要慢慢積累。識別過程中因為模糊或者其他一些因素導致某些字元無法識別,採用語言模型進行修正是個很不錯的方法。搜索引擎方面則是將識別出來的字元作為query從題庫中找出想要的題目,主要包括倒排索引和排序,這方面最大的坑在排序,採用Learning to Rank等技術也是非常自然之選。


內置了三個SB,隨時隨地在線觀看網路搞比利。


主要還是Deep Learning , 與傳統的OCR技術相比有很大進步。


便捷是便捷,同樣為現在的教育擔憂,畢竟學生的自覺性太低


推薦閱讀:

廣告ctr預估有什麼值得推薦的論文?
北京大學機器學習有哪些不錯的博士生導師?
IBM Watson 的獲勝意味著什麼?
人工智慧機器翻譯的發展經歷了哪幾個重要階段?
程序員如何利用知乎來找到合適的另一半?

TAG:程序員 | 自然語言處理 | 在線教育 | OCR光學字元識別 | 深度學習DeepLearning |