光學字元識別（OCR）類產品分析

03-03

緣起

為什麼突然想起來研究一下OCR類產品了呢？主要原因是自己在18年的一個目標是提升知識的轉化率。那麼為什麼要提升轉化率呢？想來還是怕韓寒的那句名言「懂得很多道理，卻依然過不好這一生」在自己身上應驗。

當然，做大數據行業的都知道轉化漏斗，設置並分析轉化漏斗的前提是優化漏斗入口的來源渠道，這樣才能從源頭提升漏斗的轉化價值。我自己在之前的17年逐漸形成了幾種知識的來源：書籍、得到付費專欄及課程、知乎Live、一小時及電子書等。其中電子平台的第一層轉化都很自然，同步到Evernote等筆記工具的效率都還過得去，但是問題來了，紙質書的筆記、劃線等如何高效地同步到Evernote中？

對於這個問題，可能有同學會刨根問底，紙質書的筆記為什麼一定要同步到電腦中？我給出的答案主要有兩層：一、高級版筆記類工具基本都提供全局的筆記內容搜索，這樣平時在使用這些知識的時候，只要想起一絲線索，在筆記工具中一搜，完整的觀點就能出來，效率是非常高的，畢竟沒法走到哪兒都帶著厚厚的紙質書。再加上Mac電腦系統級的全局文件內搜索功能，電子版的知識就可以做到按需快速提取了。二、單純地拍照片存儲為圖片，恐怕也不夠用。雖然Evernote的最高級版可以對支持圖片內文字的搜索，對知識的查找、提取來說，夠用了，也就是說存儲為圖片只能滿足知識轉化的Extract這一步，難以高效地進行更深層次轉化，如寫專欄時，把知識複製出來等。

因此，基於以上個人的一些原因，OCR類APP便可以滿足需求：拍攝書籍照片——掃描出文字——同步到Evernote，三步即可完成知識的第一層轉化。但是OCR類APP一般都是付費的，對於我這樣的窮人來說，需要仔細研究一下，選擇其中一款。因此我準備先採用產品分析的經典框架——產品畫布，來分析一下，如果我自己設計一款OCR類APP，需要考慮哪些因素。

概念

引用維基百科的概念，光學字元識別（Optical Character Recognition, OCR），是指對文本資料的圖像文件進行分析識別處理，獲取文字及版面信息的過程。

仔細一看，發現這項技術的核心，在1929年就被發明了，不過從產品的角度看，作為一個人人都能用的工具，真正發展起來應該還取決於兩個條件，其一是智能手機和移動互聯網的普及，在這一波快要過去的技術浪潮中，催生出了大量優秀產品，也給了很多個人開發者在江湖中揚名立萬的機會；其二是在百度開放了OCR相關介面之後，最核心的技術由百度來提供，小團隊和個人開發者便可以將心思用在產品體驗上，因此極大的提升了OCR產品的目標用戶掃描紙質文件的效率。

產品畫布

產品畫布的基本概念和分析方法，在本文就不再贅述了，有時間的話，另寫一篇文章探討基於產品畫布的產品分析方法論，屆時會舉出更多的實戰分析例子，在這裡先放出自己從其他的產品方法論課程中學到的產品畫布基本框架：

產品畫布的基本框架&產品工作流

市面上主流的產品畫布框架基本都源自於《精益創業》這本書：https://book.douban.com/subject/10945606/，有興趣的同學可以找來看看。

成本分析

對於市場上的幾款主流與小眾的OCR APP（後面會做詳細對比），其成本構成大致趨同，主要包含以下幾點：

必要的軟體開發、維護、迭代升級的成本，當然具體的開發工作量得視開發的平台（IOS、Android，平台不同，自然其編程語言、兼容性設計等具體工作量會有所不同）、產品設計的複雜度等因素而定；
使用百度API的花費，百度採用了以API調用量級為梯度的收費模式，如下圖（基本的通用文字識別功能）所示。顯然，想要做一款識別率高的APP，要付出的成本要更高些：

百度通用文字識別API收費價格表

需求痛點

對於需求痛點的分析往往要與「用戶細分or分群」和場景分析放在一起，每一類潛在用戶的使用場景可能都有所不同，痛點也可能有區別，但是對於一個MVP產品來說的話，抓住用戶最核心的使用場景，解決核心用戶群體的1~3個痛點問題，就已經足夠。經過一番分析與思考，我概括出了如下核心場景和痛點問題：

核心場景：需要將紙質文件內容轉化成可復用電子版文件
痛點問題：

傳統的手寫錄入方式，效率太低；
掃描儀不夠方便（體積大，應用場景有限）且價格較貴；
掃描的內容通常無法復用（文字無法直接複製粘貼）。

實現方案

針對上述幾個關鍵的痛點問題，可以從以下幾個方面構建出一個初步的OCR APP實現方案。

首先是針對需求痛點的功能方案：

核心功能：快速識別圖像中的文字，主要解決的是第一個也是最主要的痛點，就是效率低的問題；
輔助功能：可選擇識別後的文字進行後續處理（複製粘貼、轉發、同步筆記等），解決的也是效率問題，但是更進一步，解決的是掃描出文字後的處理和復用效率問題，可以說是縱向的效率，或者串列工作的效率；
輔助功能：批量的圖片文件識別，與前兩點相同，解決的還是效率問題，但批量的圖片文件處理，可以理解為並行工作效率或者橫向的效率。

其次還需要考慮的是實現這些功能，會有外部約束或者依賴：

外部API：對於個人開發者或者小團隊來說，OCR的核心掃描功能基本要靠百度API來實現了，因此閱讀百度API文檔，與之進行聯調測試等工作是難以避免的。
操作系統照片查詢API：原生的手機操作系統，通常很難向Web插件或擴展那樣，在滑鼠右鍵菜單等交互上增加功能選項，如選擇系統里的一張照片 -> 長按 -> 選擇或點擊icon跳轉到掃描APP，類似於這樣從被掃描文件的源頭開始進行掃描動作的交互，很難實現（當然不排除如鎚子科技的Smartisan OS做了「一步」這樣的應用，解決了很多從源頭進行的交互問題，但畢竟Smartisan OS並不算主流）。基於這樣的原因，OCR APP就需要調用系統的照片查詢API，讀出一張照片/圖片列表，然後在自己的APP內部實現「選擇照片 -> 掃描」的完整交互。
掃描識別性能優化：基於前面的需求痛點和功能方案的分析，產品最核心的問題就是焦慮，因此還需要考慮對掃描及識別的效率、準確率等指標的優化；另外由於核心的掃描與識別功能是調用百度API來實現的，那麼對網路性能的優化也需要考慮在內。

關鍵指標

任何一個互聯網產品在設計的時候，還需要考慮如何評價這個產品做的好不好，即評價該產品的關鍵指標有哪些。對於OCR產品來說，其關鍵指標比較清楚，主要有以下兩點：

掃描速度
識別準確率

得出這兩個關鍵指標，其實不難，基於前面的需求痛點等分析，用戶使用OCR產品，最核心的需求就是提升處理圖片中文字的效率。掃描速度快，可以提升掃描本身的效率，識別準確率高，可以減少識別後二次整理的成本。

收益分析

基於前面的成本分析，市場上個人開發者的產品和小團隊做的產品，其收費模式基本與百度API的收費模式趨同，會對免費用戶限制其一天內的掃描次數（基本等同於API的調用次數），而付費的高級用戶則沒有任何限制。當然，還有一些創業團隊做的產品，會基於文字識別這一工具化的功能去拓展其社交屬性，如讀書筆記分享，讀書社區等。通過社交功能的擴展，其商業模式也會愈發多樣化，這個問題本質是工具類互聯網產品如何轉向其他方向或如何變現的問題，暫時先不在本文中展開討論了。

用戶細分

對於OCR產品的用戶細分，列舉了以下幾種典型的用戶和場景：

門檻優勢

構築一個產品門檻優勢的核心在於，如何低成本高效率地提升評價產品的關鍵指標。

對於個人開發者和小團隊來說，識別準確率這個關鍵指標的提升基本取決於百度API，開發者能做的是提升圖片讀取的質量，也就是對前文實現方案中提到的操作系統圖片獲取API調用方式的優化，這樣相當於提升了調用百度識別API的輸入，進而也可以提升API返回的結果準確率。

對於掃描速度指標，產品本身可以做的優化是蠻多的，比如優化批量識別的並發性等。

總之，對於OCR類產品，能否真正構建起門檻優勢，很大程度上取決於開發者的技術能力。當然，基於我對於產品畫布中「門檻優勢」這一分析項的理解，單純的OCR類產品似乎很難構建出絕對的門檻優勢，即競品完全達不到，或者需要花費極大成本才能達到的門檻。除非可以開發出比百度API識別率更準確，掃描速度更快的核心技術，這些對個人開發者或小團隊來說成本過高，不是單一一款OCR產品的收益能否覆蓋的。因此在這個板塊，我只分析了可以構築的相對優勢點。

渠道

對於2c產品的運營推廣渠道方面，本人並沒有太多經驗，在這裡就不展開分析了。

產品亮點

產品的功能亮點往往是基於產品或團隊的門檻優勢去設計的。還是回歸到個人開發者或小團隊的OCR產品上來，很重要的一個產品亮點就是交互體驗的流暢性，這點會在後面的典型產品對比中進行詳細介紹。

典型產品對比

寫作本文之初，原本想對自己在挑選OCR產品過程中看過的產品都進行一下競品分析，奈何自己的第一篇專欄文章拖得太久，因此在這裡僅對自己最終選擇的產品——白描做一些概述。

白描

我用OCR產品的需求主要是想將讀紙質書過程中的筆記高效等同步到Evernote等電子工具中，而選擇白描這款產品的原因主要在於對比了幾款同類產品之後，認為白描的批量識別、識別後可選文字等功能非常符合我的需求。

其特色功能的介紹，有興趣的同學可以參考少數派的幾篇文章：

https://sspai.com/post/40735sspai.com

批量識別、翻譯、表格識別，白描又進了一大步批量識別、翻譯、表格識別，白描又進了一大步sspai.com

在 Android 上高效準確的進行 OCR 識別，白描幫你實現sspai.com

另外，之前最能符合自己需求的產品叫做塗書筆記，百度出品，但不幸的是，已經停止維護了。其他類似掃描寶、瓣讀、蘿蔔書摘、掃描全能王等產品各有各的特色及市場定位，有興趣的同學可以自己下載體驗，由於前述的原因，在這裡就不一一介紹了。

結語

正如緣起一節所述，自己18年的目標是要提升知識的轉化率，而將不同來源的知識儲存成電子版的筆記只是轉化的第一層。知識轉化成能力還需要其他更深層的努力，我認為寫作就是這種深層，或者說第二層轉化的一種形式，因此雖然拖了好久，但是自己的第一篇專欄還是即將完成。

文章的開頭也描述了，產品畫布是非常經典的產品分析框架。剛好在18年初的時候，在公司里對自己負責的產品也做了產品畫布分析，碰巧又因為自己的需求調研了OCR產品。因此便產生了本文，用產品畫布分析方法來分析OCR產品的想法。正好也可以作為自己對所學的檢驗吧。