人臉辨識技術也存在膚色和性別歧視?

高層速讀

1.關鍵事件:MIT和斯坦褔大學合作研究了三個商用程序,發表了關於面部辨識技術存在性別和膚色歧視的論文,並提出了一種更準確的新方法來評估這種機器學習系統的性能;

2.關鍵數據:在面部辨識系統的辯識表現上,女性的錯誤率比男性的高,而膚色較深受試者的錯誤率比膚色較淺受試者的高。

MIT和斯坦褔大學合作的研究團隊針對三種不同的面部辨識技術進行研究,發現它們顯示出了性別和種族歧視。論文全文將會在本月稍後舉行的 公平、責任和透明度會議(Conference on Fairness, Accountability, and Transparency)發布。

在研究人員的實驗中,這三個程序在確定淺膚色男性性別方面的誤差率從未超過0.8%。然而,對於膚色較深的女性,誤差率較高——在一個軟體中超過20%,在另兩個軟體中超過34%。

這一發現引發了人們的疑問:通過在龐大的數據集中尋找模型來學習執行計算任務,如今的神經網路是如何訓練和評估的?根據這篇論文,美國一家技術公司的研究人員聲稱,他們設計的人臉辨識系統準確率超過97%,但是用來評估其性能的數據集中,男性人數超過77%,白人超過83%。

「這裡真正重要的是方法,以及該方法如何應用於其他應用程序,」麻省理工學院媒體實驗室(MIT Media Lab)的公民媒體組(Civic Media Group)研究員、論文的第一作者Joy Buolamwin說,「這種以數據為中心的技術,可以用來確定某人的性別,也可以識別人臉,從而幫助尋找犯罪嫌疑人,或者解鎖的手機。這不僅僅關於計算機視覺,我真的希望能有更多研究工作來關注這個問題。」

偶然的發現

Buolamwini和Gebru研究的三個程序是一種通用的面部辨識系統,可以用來匹配不同照片中的人臉,也可以用來評估性別,年齡和心情特徵。這三個系統都將性別分類視為一個二元決策——男性還是女性——這使得他們在這項任務上的表現在統計上特別容易評估。

事實上,正是通過其中一個程序發現了面部跟蹤中的明顯歧視,才促使 Buolamwini的調查展開。

幾年前,作為媒體實驗室的研究生,Buolamwini正在開發一個名為「樂觀牆」(Upbeat Walls)的系統,這是一種互動式的多媒體藝術裝置,允許用戶通過移動頭部控制投射到反射面上的彩色圖案。為了跟蹤用戶的動作,該系統使用了一個商用面部分析程序.

Buolamwini組建的團隊在種族構成上是多種多樣的,但是研究人員發現,當該裝置面向公眾的時候,他們要依賴一群淺膚色的團隊成員去演示。該系統似乎無法可靠地與膚色較深的用戶一起工作。

出於好奇,黑人Buolamwini開始將自己的照片提交給商用面部識別程序。在一些情況下,這些程序完全無法從照片上識別出人類面孔。當他們這麼做的時候,他們一直錯誤地識別了Buolamwini的性別。

定量化標準

為了系統地調查那三個程序的歧視問題,Buolamwini首先收集了一組圖像,其中女性和深色皮膚的人的表現比用於評估面部分析系統的數據集中的要好得多。最終的數據集包含1,200多個圖像。

接下來,她和一位皮膚科醫生合作,根據皮膚色調的Fitzpatrick分型(將皮膚顏色根據對日光照射後的灼傷或晒黑的反應特點,分為 I-VI 型)來編碼這些圖像。

然後,她將技術公司的三個商業面部分析系統應用到了她新構建的數據集上。在這三個系統中,性別分類的錯誤率是一致的。女性的錯誤率比男性的高,而膚色較深受試者的錯誤率比膚色較淺受試者的高。

具體來說,三個面部辨識系統對於深膚色女性的辨識率,分別高達20.8%, 34.5 %和34.7%。其中兩個系統對於分類為最深膚色的女性面孔的辨識率更是高達46.5%和46.8%。所以從本質上看,這和系統丟硬幣隨機選擇沒什麼兩樣了。

一個被簡化為二進位分類的任務,如果在三個商用系統中都有1/3的誤差率,你必須要問,這在一個不同的亞群體中是允許的嗎?」Buolamwini說,」另一大教訓是關於我們的基準,我們衡量成功的標準,它們可能給我們一種錯誤的進步感。

信息來源:Science Daily


微信搜索【AI商業報道】,獲取行業最新資訊!

推薦閱讀:

從《攻殼機動隊》看未來人類發展,人人都將成為智能終端?
人工智慧浪潮襲來,人才儲備卻成致命短板
不忘初心,牢記使命!
科幻電影中的人工智慧
互聯網之後下一個爆發市場是物聯網嗎?

TAG:人工智慧 | 種族歧視 | 人臉識別 |