從數據科學的角度,看斯坦福神經網路檢測性取向的研究

選自 fast.ai

作者:Jeremy Howard

機器之心編譯

參與:蔣思源、路雪、劉曉坤

除非過去這幾天你離開了地球,不然你肯定聽說了斯坦福的論文《Deep Neural Networks Can Detect Sexual Orientation From Faces(深度神經網路從人臉圖片檢測性取向)》。該預印本論文引起了很大反響,比如歐柏林的社會學教授 Greggor Mattson,他用一句話總結了他的看法: AI Can』t Tell if You』re Gay… But it Can Tell if You』re a Walking Stereotype.(AI 無法判斷你是不是 gay,但它可以判斷你是不是一個持有刻板印象的人。)

引言

當我第一次看到這項研究時,我感到很沮喪。這個話題引起了我個人的強烈興趣。Rachel Thomas 和我當初創立 fast.ai 的目的就是為了讓深度學習領域(包括這項研究中使用的深度神經網路)變得更加多樣化,我們甚至以個人的名義向各種學生提供獎學金,其中就包括了 LGBTQ 學生。此外,我們還想支持深度學習在更廣泛的領域中得到運用。因為我們相信,深度學習對很多人的生活產生了積極和消極的影響,因此我們想向人們展示如何適當和正確地利用技術。和很多評論家一樣,我對這項研究有很多關心的問題。它到底應不應該被設計出來?數據收集過程侵犯隱私嗎?參與這項研究的人合適並反映真實分布嗎?對研究結果的交流周到體貼、富有同理心嗎?這些問題都很重要,而且沒有任何個人能夠回答。因為深度學習做到了這件之前不可能做到的事情,我們需要在更多的領域中考察這些問題將如何發展。因此,我們需要考察更多由跨學科團隊做的跨學科研究。在這個案例中,研究員是數據科學家和心理學家,但是論文涉及的論題(以及結論的推演過程)覆蓋了從社會學到生物學的範圍。

那麼,這篇論文到底向我們展示了什麼?神經網路能不能如其所稱能做到很多事情?我們將作為數據科學家,通過考察數據,去分析這個問題。

摘要

論文(《Deep neural networks can detect sexual orientation from faces》,深度神經網路從人臉圖片檢測性取向)和回應(AI 無法分辨同性戀)二者的關鍵結論都未得到該研究的支持。得到研究支持的是一個更弱的聲明:在某些情況下,深度神經網路可以從交友網站異性戀用戶的照片中辨認出同性戀用戶的照片。我們確實不能說」AI 無法分辨同性戀」,但是這樣說也是不負責任的:該論文至少表明「同性戀是可以識別的」,以及這種技術可以被任何政府和組織輕鬆獲取和使用。

該論文的高級研究者 Michael Kosinski 曾經成功地提醒過我們類似的問題:他的論文《Private traits and attributes are predictable from digital records of human behavior》是引用量最多的論文之一,這篇論文至少對 Facebook 改變默認公開點贊記錄的策略有部分貢獻。如果這項新研究的關鍵結果是正確的,那麼我們應該討論它對策略會產生什麼影響。如果你住在一個同性戀要被判處死刑的國家,你必須面對這種可能性:你可能因為自己的社交媒體照片接受額外的監控。如果你無法公開自己性取向,那麼你應該警醒,機器學習推薦系統可能會(或許偶然性更強)向你推薦適用於同性戀人群的商品。

但是,該論文引出了其他結論,這些結論與關鍵問題不直接相關,沒有得到該研究的明確支持,且被誇大和未得到良好溝通。尤其是,該論文稱這項研究支持」廣泛接受」的產前激素理論(prenatal hormone theory,PHT),即」同性戀傾向來源於男性胎兒對決定性取向的雄性激素的暴露(exposure)不足或女性胎兒對雄性激素的暴露過度」。論文中對該理論的支持並不嚴謹,是不確定的。另外,社會學家 Greggor Mattson 說,該理論並未被廣泛接受,而且該理論」只是該領域 10 年綜述的第一句『Public perceptions of the effect of testosterone on 『manly』 behavior are inaccurate』(公眾對睾丸素對」男性化」行為的影響的認知並不準確)」。

研究是如何進行的?

文中提到了幾個研究,但關鍵的還是「study 1a」。在這項研究中,研究員從數據網站上下載了 70,000 個人的照片,平均每個人五張。雖然幾乎所有的程序員都可以複製這些數據(實際上很多開發者之前都創建過類似的數據集),目前也還無法獲得研究中收集的數據。由於研究中關注的是從面部特徵識別性取向,他們將照片中面部區域以外的部分都修掉了。他們還將有多個人、面部模糊以及從照片上看起來不像異性戀的人的照片刪除。由於應用了軟體 Face++,從技術角度上來說這項研究是很可靠的。

然後他們根據一群非專業工作人員的判定刪去了未成年或者非高加索人(使用 Amazon 的 Machanical Turk 系統)的照片。他們這麼做的原因尚未清楚,最有可能是因為他們認為太多類型的照片會使得模型的訓練更加困難。需要注意的是,幾乎所有的數據科學研究中,將數據集進行篩選的步驟都是很有必要的,不過,如果數據集很完美而且數據集中的缺陷一般並不會對研究的精確性的理解產生影響,就不太需要這麼做了。評估過程的關鍵在於確定最後的度量報告評估是否適當。再稍微提一點,他們是根據每一份數據文件中列出的性偏好標記一個人是不是 gay。

研究員接下來使用一個深度神經網路(VGG-Face)創建特徵。具體來說,每一張照片都被轉換成 4096 個元素的一維特徵向量,所有的元素都經由牛津大學的研究員訓練過以使照片中的人臉儘可能的清晰可辨。他們使用一種簡單的統計技術 SVD 將 4096 個特徵壓縮成 500 個,然後他們使用一種簡單的回歸模型將 500 個特徵映射到標記(是不是 gay)上,回歸過程重複了十個 epoch。每一次他們都使用數據的 90% 作為訓練集,然後用剩下的 10% 測試模型(即所謂的交叉驗證)。這十個模型使用 AUC 標準(一種評估分類模型的標準方法)進行評分。在這個數據集中,將男性標記為同性戀的 AUC 得分是 0.91。

該模型有多準確?

研究者這樣描述他們的模型:「準確度達到 91%」。這個結果來自於 0.91 的 AUC 分數。但是,使用「accuracy」(準確度)來形容 AUC 並不常見,且有一定的誤導性。研究者澄清道,該模型的實際準確度是:如果選擇研究中 10% 的在該模型上取得最高分的人,那麼根據收集的標籤,一半就是同性戀。如果男同性戀實際比例是 7%,則這表明該模型比隨機要好得多。但是,這與大多數人認為的」91% 的準確度」並不一樣。

我們還需要注意,根據該研究(研究 1a),我們可以說,該模型可以從成年白人(非專家標註)的交友網站上辨認出同性戀的交友資料,但無法在普遍意義上通過照片辨認同性戀。該模型很可能具備泛化至其他類似人群的能力,但是我們從這項研究中無從得知那些人群與訓練樣本的相似度到底是多少,以及該模型在類似人群中的準確度是多少。

研究者創造了新技術嗎?

該研究使用的方案確實是我們在入門級深度學習課程中講授的第一項技術。我們的課程不需要高等數學功底,高中數學水平就足夠了。因此這裡使用的方法確實是任何一個掌握高中數學、進行過一個小時的免費在線學習、具備編程基礎知識的人就可以做的。

用這種方式訓練的模型在商品伺服器上(0.90 美元/小時就可租用)運行只需不到 20 秒,因此不需要任何特殊或昂貴的資源。任何具備基礎編程技術的人都可以從交友網站輕鬆下載數據。

研究者說他們的研究提出了一個潛在的隱私問題。由於他們使用的技術很容易獲取,如果你認為該研究展現的能力值得關心,那麼這個說法似乎是合理的。

我們或許可以合理地假設,很多組織已經完成了類似的項目,但還沒有在學術文獻上發表。他們的論文展示了很容易就可以做到的事,並沒有創建新的技術。營銷人員使用社交媒體數據推銷自己的產品變得越來越普遍;在這些案例中,模型只是尋找產品銷量與獲取的社交媒體數據之間的關係。那麼在這個案例中,模型清晰地揭示某些照片和面向同性戀市場的產品之間的關係是非常容易的,開發者甚至沒有意識到這種關聯。實際上,我們已經見到過類似的事情,比如《How Target Figured Out A Teen Girl Was Pregnant Before Her Father Did》中的案例。

該模型展示出同性戀的臉在生理上存在哪些不同嗎?

在研究 1b 中,研究者掩蓋每個圖像的不同部分,來看哪個部分引起預測的變化。這是理解輸入的不同部分對神經網路的不同重要性的常見技術。

該分析結果在論文中的這張圖片中顯示:

紅色區域對模型的重要性比藍色區域大。但是,該分析沒有顯示更重要的程度,或者紅色區域更重要的原因或方式。

在研究 1c 中,研究者嘗試為每個男性、女性、同性戀、異性戀創建一個」平均臉」。這部分研究缺少嚴謹分析,完全依賴於對圖像的直觀感知。從數據科學的角度來看,這部分無法獲取任何額外信息。

研究者稱,這些研究結果支持產前激素理論(prenatal hormone theory)。但是,該研究中沒有數據可以證明該理論如何支持該理論或提供了何種水平的支持,也沒有就觀察結果調查可能的替代性理論。

模型真的比人類準確嗎?

研究者在摘要的第一句中說:「人臉包含了許多關於性取向的信息,這些信息比人類大腦能夠感知和解釋的更多。」他們在研究 4 研究基礎上聲明了這一點,他們在研究 4 中請人類對 study 1a 中的數據集圖像進行分類。然而該研究並沒有提供充分的方法論來支持這一聲稱。

斯坦福研究員 Andrej Karpathy(現在在特斯拉)曾經展示了一個相當嚴謹的方法來確定人類進行圖像分類如何和神經網路相比較。該方法的關鍵是需要給人類同樣的機會研究計算機訓練時所使用的訓練數據。這意味著讓每個人類判斷者在進行面部識別前,先研究數據集中眾多面部圖像及其標註。

由於沒有提供這種「人類訓練」的過程,人類和電腦對需要完成的任務掌握的信息非常不對等。那麼即使方法論更好,但除了他們在隨論文公開的強硬和無支持的聲明外,仍然有許多可能的解釋。

通常來說,學術聲明應該是嚴謹且深思熟慮的,特別是當我們在論文中表述一個聲明,尤其是在這麼敏感的領域,且該領域超出了研究人員的專業範疇。

除了訓練提供的圖片外,分類器是否有效?

簡而言之:我們並不能知道。論文中的研究 5 中提到這一點,但是並沒有為這種說法提供強力的支持,而是以費解的方式提出這一點。研究 5 中使用的方法是:從一些同性戀 Facebook 用戶處尋找圖片,選擇的標準是列出同性伴侶,至少有兩頁的「Manhunt」和「I love being gay」話語。然後他們試圖訓練一個分類器以分離這些圖片和其他異性戀約會網站上的圖片。研究者稱該分類器的準確度為 74%,但 74% 的確切意義並沒有詳細指出來。如果它意味著 AUC 為 0.74(研究者在論文前面提到過 AUC),但這並不是一個令人信服的結果。而且他們對比不同的數據集(facebook 和約會網站數據集),使用特定類型的 Facebook 個人資料進行測試。

研究者表明他們並沒有比較異性戀資料圖片,因為他們不知道如何找到它們。

他們的研究支持最後的結論嗎?

在一般性討論部分,研究者得出了一些結論。所有的結論都比從研究結果可以得出的結果更強。但是,我們至少可以說某些照片中性取向識別情況要比隨機選定的情況好一些,前提是假定他們的數據分析已經正確完成,但由於無法獲取他們的數據或代碼,我們並不能驗證這一前提是否存在。

他們總結到他們的模型並不是簡單地發現兩組數據之間的表現差異,而是實際展示了基礎的面部結構差異。該聲明部分基於這種主張:他們使用的 VGG-Face 模型被訓練識別非瞬時面部特徵。然而,簡單的數據分析就能表明這種聲明是不正確的。維多利亞大學的研究者 Tom White 分享了他對人臉數據的分析,他的模型可以從無表情人臉圖像中以高達 0.92 的 AUC 識別快樂圖像(而且從悲傷的人臉圖像中識別快樂圖像的表現更好,得到了 0.96 的 AUC 分數),這要比這篇論文中的模型性能強大得多。

該論文是否混淆了因果和相關性?

每當社會科學家的論文引起計算機科學家的關注(例如在代碼平台上共享時),不可避免地會聽到「相關性並不是因果關係」。這一問題也在這篇論文上。

相關性是指對兩個事件同時發生的必然聯繫,比如說冰淇淋買的多的時候防晒霜也買的多。很多時候會將它誤認為是因果關係。事件 x(買冰淇淋)和事件 y(買防晒霜)之間的相關性主要有 3 種情況,如下所述:

1.x 引起 y

2.y 引起 x

3. 其他事件引起 x 和 y(可能不是直接影響)

4. 純粹偶然(我們可以評估這種事發生的概率,而在這項研究中幾乎沒有提到這個。)

在上面的案例中,當然是大熱天造成了購買冰淇淋和防晒霜的需求上漲。許多社會科學涉及到這個問題,這些領域的研究者經常需要在許多混合因素的情況下研究得出結論。這是一項比較複雜且具有挑戰性的任務,並且經常導致不那麼好的結果。對於計算機科學家和數學家來說,社會科學的成果看起來沒有堅實的基礎。在數學上聲明一項陳述,那麼我們就需要尋找所有的可能來證明該聲明的成立性,證明前提是充分還是必要條件。但在社會科學中,這種結果不太可能實現,所以我們必須努力權衡證據和我們對結果的先驗期望。

如上所述,斯坦福的這篇論文嘗試通過各種研究分離因果關係和相關性,不過他們做的並不是很好。簡單地聲明「相關性並不是因果關係」是草率的回應。我們需要提供替代性理論,最好加上證據:我們是否能聲明 y 引起了 x,或者其它事件引起了 x 和 y,我們論文中的研究是否支持該替代性理論?

我們應該擔憂隱私問題嗎?

該論文以警告的方式總結道,很多政府已經可以使用複雜巧妙的技術去推斷居民的私密特徵,而只有通過的這樣的研究,我們才能猜測他們已經擁有了什麼樣的能力。他們聲明:

推遲或者放棄發布這些研究結果將剝奪個人採取預防措施的權利和政策制定者立法保護人們的能力。此外,除了強調他們工作的倫理含義,這項研究並沒有為那些正在開發或部署分類演算法的人們提供任何好處。我們只是使用了普遍易得的工具、公開的數據,以及計算機視覺從業者熟悉的方法。我們並沒有創造一個侵犯隱私的工具,應該說,我們的工作展示了那些被廣泛應用的基本方法嚴重威脅個人隱私。

這些擔憂都是真誠的,了解那些可用於威脅個人隱私的工具對我們來說也確實是一件好事。但很遺憾的是,那些誇張的聲明、弱交叉學科研究和方法論問題掩蓋了這個重要的議題。

原文鏈接:fast.ai/2017/09/13/kosi


推薦閱讀:

請問我這是 lithromantic的性取向還是迴避型依戀人格啥的??該怎麼辦啊求助QAQ?
性取向正常的女孩被gay蜜從後環抱並抹胸是一種怎樣的想法和感受?
南唐後主李煜的性取向有人做過研究考證嗎?
INTP群體之間的相互吸引和性取向問題?

TAG:人脸识别 | 斯坦福大学StanfordUniversity | 性取向 |