為了幫助盲人，這個團隊開發了一個新演算法，並推出資料庫

03-29

對於計算機來說，最困難的任務之一是「如何回答視覺問題」，也就是回答關於圖像的問題。這不是理論上的腦筋急轉彎：這些技能對於盲人的日常生活是至關重要的。

盲人可以使用照相軟體來拍照，並附上問題，比如，「這件襯衫什麼顏色？」或者「牛奶什麼時候過期？」然後請志願者提供答案。這些圖像往往由於聚焦不準，變得很模糊，使志願者無法作答。

計算機視覺系統可以幫助他們，比如，如果拍攝的照片不合適，這個系統將會提示照相者重新拍攝。但目前機器還不能做到這一點，部分原因是沒有大量的真實圖像數據可以用來訓練它們。

德克薩斯大學-奧斯汀分校的Danna Gurari和幾位同事近日推出了包含31000張圖片的資料庫，以及有關這些圖片的問題和答案。

同時，Gurari和同事給機器視覺界帶來一個挑戰：使用他們的數據集訓練機器，解決現實問題，使機器成為盲人日常生活中一個有效的助手。

該數據集來自現有的名為VizWiz的應用程序，該應用程序由匹茲堡卡內基梅隆大學的Jeff Bigham及其同事開發，目的是幫助盲人。 Bigham也是研究小組的成員。

盲人可以使用這個APP來拍攝照片，並且附上要問的問題，然後發送給志願者團隊，由他們回答這些問題。但是這個APP也有缺點。比如，志願者因為某些原因無法作答，或圖像本身沒有顯示答案。

為了找到更好的方法，Gurari和同事分析了70000張照片，這些照片來自VizWiz用戶的分享。這個團隊刪除了包含信用卡信息、地址等個人詳細信息的照片，只留下了大約31000張照片及其相關錄音。

然後他們向亞馬遜Mechanical Turk眾包服務中心的工作人員展示了這些圖片和問題，要求每個工作人員提供一個由短句組成的答案。他們為每個圖像收集10個答案以確保答案準確。

這31000張圖片、問題和答案構成了新的VizWiz資料庫，Gurari和他的同事正在公開發布這個資料庫，同時，還對數據進行了初步分析，對機器視覺在提供幫助方面面臨的挑戰提供了獨特的見解。

只有2%的盲人願意機器以「是」或「否」來回答，低於2%的盲人願意機器只回複數字。

問題有時候很簡單，但並不總是這樣。許多問題只能籠統地概括為「這是什麼？」而且還有其他意想不到的問題。事實表明，雖然大多數問題都以「what」開頭，但有大約四分之一的問題通常以一個非常突兀的詞開始。這可能是在記錄過程中因為剪輯問題而導致的，但有些問題仍然是可以作答的。例如，記錄的問題是「賣出或使用此牛奶的日期」，如果圖像提供了正確的信息，就可以直接回答。

經過研究小組的分析，超過四分之一的圖像無法提供答案，因為這些圖像不清楚或不包含相關的信息。能夠快速發現這些問題，對於機器視覺演算法來說將是一個好的開端。

這也是機器視覺社區所面臨的挑戰。Gurari及其他研究人員說：「我們引入這個數據集，是為了鼓勵更大的社區開發更多的能夠幫助盲人的通用演算法。改進VizWiz演算法可以同時讓更多的人了解盲人的技術需求，同時為研究人員開發幫助盲人消除障礙的輔助技術，提供了一個令人興奮的新機會。」

這無疑是個值得追求的目標。

來源：MIT科技評論
智能觀編譯

—完—

親愛的朋友：
是的，這無疑是個值得追求的目標。相信有一天，讓技術真正惠及每個人，終將成為現實。
近安！
智能觀一米
2018-3-11 於北京中關村

想知道AI加教育領域有哪些最新研究成果？
想要AI領域更多的乾貨？
想了解更多專家的「智能觀」？
請在對話界面點擊「找找看」，去獲取你想要的內容吧。

聲明：
編譯文章旨在幫助讀者了解行業新思想、新觀點及新動態，為原作者觀點，不代表智能觀觀點。