不少開發者開始將 OCR 整合進自己的生活類 App 用來方便用戶某一方面的日常生活,這些細分市場的潛力如何?

  • 幫老外實時翻譯中國菜名的 Waygo 在今年1月初發布了iOS應用,用戶只需拿著手機直接掃描菜單上的菜名,通過 OCR 技術,它就可以將其實時翻譯成英文,目前支持簡體和繁體中文的菜單。 via 讓老外看懂中國菜的Waygo獲90萬美元融資,將推出Android版本,向日、韓文擴展
  • Vivino 最近整合了 OCR(光學字元識別技術),據稱可將識別成功率提升至 86%。該應用同時還為葡萄酒愛好者提供了社交平台,讓他們能通過彼此的品酒筆記進行交流,同時也能將品酒筆記共享至其他社交平台。Vivino 稱現在每月已經有 200 萬的酒標識別操作,而去年 4 月份這個數字僅為 8 萬。 via 葡萄酒識別應用Vivino獲1030萬美元後續投資,拍酒標即可查詢相關信息

OCR是一門非常"古老"的技術。

從嚴格意義上講,學界使用OCR特指針對掃描文檔的光學字元識別,而針對自然場景中的文本識別則簡稱STR(Scene Text Recognition)。

作為模式識別理論最成功的應用之一,針對掃描文檔的OCR,無論是理論還是應用(ABBYY Omni等)都已經十分成熟。其主要研究的成果基本上都發表於上世紀50年代到90年代之間,目前的研究內容基本上集中在特種語言識別和手寫識別領域(或兩者相結合)。

而另一方面,STR的研究目前遇到了相當大的阻力。受制於自然場景中的多種圖像退化以及多變的字體和風格等因素,STR的識別率一直較低。目前STR領域主要的研究思路有兩種。其一是改進傳統OCR中的方法,沿用文本檢測-&>文本分割-&>字元識別這三個步驟來進行。其實際研究內容基本上集中在文本檢測與分割上。 另一種思路則是將場景文本視為一種特殊的"物體,通過引入object recognition領域的方法來進行場景文本的識別,這一思路的主要問題是模型複雜,計算量大。目前來看STR還處於實驗室階段,

雖然在研究領域的突破尚需時日,相關的應用目前還是比較豐富的。但是要注意的是,STR技術通常是為某一應用提供輔助信息(歷史文檔分析這種特殊應用除外)。我所了解的一些應用包括在智能導航/導遊中識別路標、監控中識別車牌、輔助圖像檢索以及視頻分割等等。此外,卡梅隆quality of life學院研發中的智能機器人以及前段時間比較火的google glass都將STR作為系統的一部分。

總之,STR是一個有著很多潛在應用的技術,我認為將來出現更多整合STR技術的應用是可以肯定的。當然,大多數情況下STR都只是作為系統中一個人機交互介面,而非系統的核心。


現在OCR本身技術還不算成熟,特別是中文OCR。所以中文OCR的發展我感覺還沒到市場細分的地步。我能想到的應用也就只有常規印刷文本的掃描了,比如名片書本之類的,而且一般需要人工的後期糾錯。AppStore有不少App是基於OCR的,我自己也寫過一個翻譯軟體,效果差強人意。

當前中文OCR能成熟應用的話需要
1:光照均勻
2:字體為常規印刷字體
3:攝像頭足夠清晰
4:最好背景為單色

==================以下為題外話=====================
中文OCR不成熟的原因:

1: 英文字母就26個,中文字常用的就好幾千,形近字多,並且字體也千差萬別。導致的結果就是中文的OCR的識別率不高,並且需要的語言包特別大。有興趣的IT童鞋可以對比下開源項目Tesseract-OCR的中英文的語言包以及識別效果

tesseract-ocr -

An OCR Engine that was developed at HP Labs between 1985 and 1995... and now at Google.

另外市面上已經有商業的付費OCR解決方案,我沒有用過,無法評論。

2: 更大的難點是在進行識別之前,對圖片的二值化預處理,即將圖片變成非黑即白的二值圖。這又需要智能的數字圖像處理的演算法來兼容各種光照環境下的演算法處理。

本人邏輯混亂,見諒。


沒啥潛力,因為大眾需要的,不是OCR這個技術

OCR僅且僅能針對文字進行識別,而這在日常生活中是完全不足夠的
以前有道加入英文識別的時候,我玩了好一陣,直到某個女同學看著我說我像個傻瓜一樣用手機在那裡拍書……

雖然我們生活中充滿了各種各樣的文本,但是那些文本信息大部分都是為了方便人們來辨識才存在的,而OCR在這一領域的應用和這些文本信息的出發點剛好是相同的。
除了異國文字這種特殊的情況,我真心不覺得還有什麼地方可以在生活類App中用到這個技術。
當然,我相信開發者肯定能通過OCR技術創造無限可能,但是就像我前面說的那樣,文字寫在那裡,就是方便人們識別的,一個本來就是幫助人的道具為什麼還需要另外一個道具來增強理解……

個人覺得OCR技術,排除翻譯和轉換信息載體(錄入書籍文本)的應用之外,很受局限
但是OCR的衍生技術,也就是雖然算在OCR之後,但是比OCR高級了不知道多少倍的圖片識別技術,在未來肯定會有很大的發展
因為圖片識別可以很好的將圖片信息轉換成表意清晰的文字信息,這比OCR的單純轉換信息載體要高級很多倍了……

總結來看,現在OCR只能作為一個輔助功能,沒有辦法開拓一個細分的市場,因為有過高的局限性
但是如果僅將OCR視為一個圖片識別的過渡或者輔助技術,相關市場還是很有潛力的

=======體內酒精含量:0.4%=======
iOS上面的一個OCR項目:gali8/Tesseract-OCR-iOS
實際上……也就那樣吧……對於中文識別需要做很多工作,雖然找到竅門了最後結果還是不錯的


本質上來看,OCR是一種記錄和信息錄入的方式,只要是有記錄和信息錄入行為的場景,OCR都可以改變和優化傳統的方式。所以,隨著移動互聯和移動終端的普及,移動端的OCR技術會進入我們工作和生活的各個方面,提高我們記錄信息的效率。


推薦閱讀:

新版手機 QQ 的氣泡設計會挽回用戶的心嗎?

TAG:移動應用 | OCR(光學字元識別) |