為了幫助盲人,這個團隊開發了一個新演算法,並推出資料庫

對於計算機來說,最困難的任務之一是「如何回答視覺問題」,也就是回答關於圖像的問題。這不是理論上的腦筋急轉彎:這些技能對於盲人的日常生活是至關重要的。

盲人可以使用照相軟體來拍照,並附上問題,比如,「這件襯衫什麼顏色?」或者「牛奶什麼時候過期?」然後請志願者提供答案。這些圖像往往由於聚焦不準,變得很模糊,使志願者無法作答。

計算機視覺系統可以幫助他們,比如,如果拍攝的照片不合適,這個系統將會提示照相者重新拍攝。但目前機器還不能做到這一點,部分原因是沒有大量的真實圖像數據可以用來訓練它們。

德克薩斯大學-奧斯汀分校的Danna Gurari和幾位同事近日推出了包含31000張圖片的資料庫,以及有關這些圖片的問題和答案。

同時,Gurari和同事給機器視覺界帶來一個挑戰:使用他們的數據集訓練機器,解決現實問題,使機器成為盲人日常生活中一個有效的助手。

該數據集來自現有的名為VizWiz的應用程序,該應用程序由匹茲堡卡內基梅隆大學的Jeff Bigham及其同事開發,目的是幫助盲人。 Bigham也是研究小組的成員。

盲人可以使用這個APP來拍攝照片,並且附上要問的問題,然後發送給志願者團隊,由他們回答這些問題。但是這個APP也有缺點。比如,志願者因為某些原因無法作答,或圖像本身沒有顯示答案。

為了找到更好的方法,Gurari和同事分析了70000張照片,這些照片來自VizWiz用戶的分享。這個團隊刪除了包含信用卡信息、地址等個人詳細信息的照片,只留下了大約31000張照片及其相關錄音。

然後他們向亞馬遜Mechanical Turk眾包服務中心的工作人員展示了這些圖片和問題,要求每個工作人員提供一個由短句組成的答案。他們為每個圖像收集10個答案以確保答案準確。

這31000張圖片、問題和答案構成了新的VizWiz資料庫,Gurari和他的同事正在公開發布這個資料庫,同時,還對數據進行了初步分析,對機器視覺在提供幫助方面面臨的挑戰提供了獨特的見解。

只有2%的盲人願意機器以「是」或「否」來回答,低於2%的盲人願意機器只回複數字。

問題有時候很簡單,但並不總是這樣。許多問題只能籠統地概括為「這是什麼?」而且還有其他意想不到的問題。事實表明,雖然大多數問題都以「what」開頭,但有大約四分之一的問題通常以一個非常突兀的詞開始。這可能是在記錄過程中因為剪輯問題而導致的,但有些問題仍然是可以作答的。例如,記錄的問題是「賣出或使用此牛奶的日期」,如果圖像提供了正確的信息,就可以直接回答。

經過研究小組的分析,超過四分之一的圖像無法提供答案,因為這些圖像不清楚或不包含相關的信息。能夠快速發現這些問題,對於機器視覺演算法來說將是一個好的開端。

這也是機器視覺社區所面臨的挑戰。Gurari及其他研究人員說:「我們引入這個數據集,是為了鼓勵更大的社區開發更多的能夠幫助盲人的通用演算法。改進VizWiz演算法可以同時讓更多的人了解盲人的技術需求,同時為研究人員開發幫助盲人消除障礙的輔助技術,提供了一個令人興奮的新機會。」

這無疑是個值得追求的目標。

來源:MIT科技評論

智能觀 編譯

—完—

親愛的朋友:

是的,這無疑是個值得追求的目標。相信有一天,讓技術真正惠及每個人,終將成為現實。

近安!

智能觀 一米

2018-3-11 於北京中關村

想知道AI加教育領域有哪些最新研究成果?

想要AI領域更多的乾貨?

想了解更多專家的「智能觀」?

請在對話界面點擊「找找看」,去獲取你想要的內容吧。

聲明:

編譯文章旨在幫助讀者了解行業新思想、新觀點及新動態,為原作者觀點,不代表智能觀觀點。


推薦閱讀:

fibo數列第n項
替換空格
今日頭條演算法原理(全)
015 3Sum[M]

TAG:人工智慧 | 演算法 | 盲人 |