CNN:果蠅視覺理解能力幾何?

大數據文摘出品

編譯:毅航、王念、雲舟

眾所周知,黑腹果蠅(Drosophila melanogaster)生活在神秘的社交性的觸覺和氣味世界中,但他們能夠在多大程度上感知和整合靜態視覺信息是一個備受爭議的熱門話題。一些研究人員指出黑腹果蠅光學系統的解析度是有限的,但是其他研究人員則注意到在黑腹果蠅看似相同的外表下,有證據表明他們實際上擁有驚人的個體識別和視覺學習能力。

在本篇文章中,我們將利用機器學習從理論上證明每個黑腹果蠅在視覺上是不同的。我們還將使用果蠅的視覺系統與當前卷積神經網路的驚人相似性來研究黑腹果蠅的視覺理解能力。我們發現,儘管它們的光學解析度有限,但是黑腹果蠅的神經元結構能夠提取和編碼豐富的特徵集,允許蠅類以驚人的準確度重新識別同種個體。這些實驗證明了黑腹果蠅生活在遠超人們預期的更加複雜的視覺世界中。

介紹

有越來越多的證據表明黑腹果蠅生活在一個令人驚訝的豐富和複雜的世界中,這個世界包括群體行為,社區學習以及攻擊行為認知。這些社會行為通常被認為是與視覺識別無關的,因為黑腹果蠅的複眼被認為視力不足,以至於不能在這些行為中發揮作用。果蠅的複眼有大約有850個鏡頭單元(小眼),每個都能在空間中捕獲一個點,所以這樣眼睛的解析度肯定很低。此外,傳統上認為由小眼肌間角度決定的細節水平使得除了運動或規則模式之外的任何東西都無法被黑腹果蠅辨別(圖 1B)。

圖1. 黑腹果蠅的理論視力。

代表了各種理論壓縮後的果蠅圖片。A:雌性黑腹果蠅的圖片通過32×32壓縮重新調整大小。 B:相同的圖片,但是使用AcuityView調整了3個體長的觀察距離,使用4.8°的肌間角。C:相同的圖片和距離,但使用由Juusola等人確定的有效視力的保守估計約1.5°。

然而,最近的生理實驗表明,只要它們以特定的速度呈現(對於一個被拴住的蠅類),黑腹果蠅對細節的反應可以達到1.16°。 這些速度恰好與黑腹果蠅的自然掃視步態一致,這強烈表明自然行為下的黑腹果蠅具有比4.8°的肌間角更精細的解析度。這種超敏銳度是在感光器水平下發現的(由於橫紋肌運動改變了光接收的角度),這意味著它將允許大部分視覺網路用於信息處理。在這種超敏銳度和果蠅社交所需的視覺距離下,小眼的數量而非小眼肌間角度成為了限制因素(圖1)。這種敏銳度可能會使它們與意蜂(Apis mellifera)處於相同的視覺等級(儘管解析度較低),並賦予他們結合其它的視覺特徵來識別出人類的面孔的能力。

這種時空編碼和增加的視敏度可能解釋了最近的研究,這些研究表明黑腹果蠅不僅可以理解其它蠅類,還可以使用視覺解碼社會意義(例如雌性果蠅選擇雄性果蠅表型和果蠅主動暴露於寄生蜂)。綜合起來,這些結論大大提升了果蠅在物體識別中更大程度地利用視覺的可能性,甚至可能使用它來區分物種或性別(用於補充其它已知的傳達此類信息的嗅覺線索)。

即使使用黑腹果蠅的超敏銳度光感受器,所接收的圖像也僅為約29×29單位(或像素,圖1)。我們想知道這個低解析度圖像中是否包含足夠的絕對信息來識別彼此之間的個體。一種方法是對深層卷積網路(DCN)進行工程化以區分單個黑腹果蠅,因為DCN被設計為學習、提取和使用圖像中發現的任何有用特徵,如果高度工程化後的DCN有足夠的個體水平差別,我們就會想要研究黑腹果蠅是否也能利用這種低解析度圖像並從中提取有意義的信息。如果每個個體果蠅看起來都是獨特的,並且黑腹果蠅的視覺網路具有足夠的能力,視覺可能還在識別物種或性別以外的過程中發揮作用,這或許有助於確定社交場合中熟悉或不熟悉的同種生物。

果蠅視覺系統的高度結構化和分層組織(圖2C)表明了蠅類的視覺系統是如何從低解析度圖像中提取信息的。在輸入處,小眼被逐個包裝,但是它們單獨調節的光感受器在空間上被布置成穿過感受區域的六單元卷繞的濾波器。反過來,這個光感受濾波器的輸出是連接到幾個「列」光感受器輸出的下游髓質神經元的輸入。這種濾波器卷積與使用來自一個濾波器的輸出作為另一層的「特徵映射」相結合,是當今主導計算機視覺的DCN的工程化架構的標誌(圖2A中展示出了一個這樣的DCN)。正如DCN可以採用低級圖像表示並將它們編碼為語義表示一樣,黑腹果蠅的視覺系統似乎非常適合揭示圖像中的語義。

圖2. 我們的蠅眼融合了工程和生物架構。

「標準」卷積網路的示意圖,我們的蠅眼模型和果蠅的簡化視覺連接組。A:Zeiler和Fergus的體系結構,接收個體黑腹果蠅的原始181×181像素圖像。 B:我們的蠅眼模型,接收個體果蠅的29×29縮小圖像,並顯示特徵圖之間的連接。最初的三個特徵圖是定製的6像素卷積濾波器(R1-R6,黑色路徑)和兩個1×1卷積濾波器(R7和R8,紅色路徑)。所有其他卷積都是本地連接的濾波器。有關完整的連接圖,請參見S1 Table。C:飛行視覺迴路的簡化圖,其接收另一個黑腹果蠅的相同比例縮小的圖像。我們模型中實現的神經元之間的連接被展示出來,其表明層之內和層之間的連接和聯繫。

在這項工作中,我們考察了黑腹果蠅是否可以在理論上分類和識別其複雜的視覺環境。為了確定在黑腹果蠅的社會行為中可以獲得多少絕對潛在的視覺差異,我們研究了人類和人類啟發的深度卷積模型在多天內重新識別單個黑腹果蠅的能力。

為了研究黑腹果蠅是否能夠在蠅類之間使用這種個體水平的視覺差異,我們在一個同種重新識別範式中研究了果蠅視覺系統的模型。本研究建立在超敏銳視力的同種信息和生理證據的行為結果的基礎上,並提供了一個原則證據,以消除一個經常被吹捧的論點,即黑腹果蠅的視覺能力僅限於低級物體和模式檢測。在這裡,我們將提出證據表明黑腹果蠅可能會看到並生活在比過去人們所意識到的更豐富的社會環境中。

材料和方法

簡化的黑腹果蠅眼睛模型

我們使用標準深度學習庫(Keras)實現了虛擬飛行視覺系統。我們的項目使用大約25,000個人工神經元,而果蠅在每個視覺半球中有大約60,000個神經元。我們故意沒有模擬在結構上暗示出對運動反應的神經元,因此我們能夠聚焦在整個髓質的「模塊化」神經元(具有1個神經元/柱)上。神經元類型之間的聯繫是從已發表的連接組中提取的。我們在模型上強加了人為的層次結構,消除了神經元「子類型」之間的自我連接(即L1和L1之間沒有連接,或L1和L2),雖然我們允許初始層進入多個下游層,但我們消除了「上游」連接。最後的小葉狀人工神經元模仿Wu等人的研究成果,小葉狀人工神經元的層次根據其軸突穿透深入系統進行排序。我們對果蠅視覺系統進行建模的能力進一步局限於連接性,忽略了信號(興奮性或抑制性)以及神經元的內在膜特性。一旦這些特性被發現並將其集成到連接組中,連接組就能創建更豐富的生物模擬。除了從生物學獲得靈感,該模型在圖2B中展示了其它靈感來源(圖2C)。S1 Table描述了完整的連接圖和層次結構,S2表展示了該模型在傳統圖像分類數據集上的比較性能。S1 Methond中提供了其他詳細信息。

蠅類數據獲取

黑腹果蠅在25-12℃的12h-12h亮-暗循環中飼養。羽化後1-4小時收集10隻雄性和10隻雌性並分別飼養。在第三天,將羽化後的蠅單獨地吸入到圓形丙烯酸培養皿(直徑60mm,高2mm)中。用標準頂置LED燈照明這些蠅,用GRAS-20S4M以灰度拍攝15分鐘,每秒16幀。連續三天重複這一過程,每隻蠅產生14,400×3張圖片。每次拍攝都在ZT 8的2小時內完成。收集了20隻蠅的三個獨立數據集。

果蠅數據處理

數據集中的每個視頻都使用CTRAX進行跟蹤,跟蹤結果中的位置和朝向信息都會用來對圖片進行校正。所以每個圖片中的果蠅都處於中心位置,並且頭朝上。所以這些圖片包含了果蠅在採集場景中的各種角度的信息,背部的、腹面的和側面的都有。訓練集合中包括了第一天和第二天等量的數據,包括每隻果蠅前75%的數據(12240幀)。驗證集合是最後的15%的數據(2160幀)。測試數據集是第三天採集的所有數據。所有的數據需要進行標準化操作,也就是用原始數據減去所有數據的均值再除以標準差。對於ResNet18、Zeiler和Fergus模型,輸入的181*181的數據需要做適配,適配方法包括:(1)降低成33*33,中心剪裁成29*28,然後整體擴大成224*224大小;(2)擴大成256*256,中心剪裁為224*224(有效利用中心的158*158的像素)。

人類的表現

為了驗證人類的表現,這裡用Matlab設計了一個GUI圖形程序,程序中展示了人類觀察者對於果蠅的三個角度的影像,分別是背部、腹部和側方向。然後要求觀察者從第3天獲得的20幅圖像(20隻果蠅)中選擇其中一幅屬於實例果蠅(S3和S4圖)。注意這個過程其實是一個比較/匹配的設定(compare/match setup)而不是一個學習和泛化的過程。這些圖片會隨機的被變成29×29。

結果

在本文的工作中,我們想知道各種結構(無論是否植根於生物學)是否能夠檢測果蠅在若干天之間的差異(這顯然是一個非人工任務)。我們獲得了三輪的數據,每輪中都有10隻公的和10隻母的果蠅,觀察了連續3天的時間。我們知道年齡和經驗會對果蠅的識別產生細微的影響,所以我們在第一天和第二天的時候對網路模型進行訓練,然後在第三天的時候對他們進行識別。我們使用ResNet18來驗證系統的有效性,它達到了人類識別的水平(Zeiler 和 Fergus)。這些結果展示在表格1中(Table 1)。

表格1. 黑腹果蠅模型識別性能

作為基準,我們使用了ResNet18的結構(請見S1 Fig)。這是實驗中能夠獲得最高性能的網路結構,它能夠得到0.94的F1-score(使用三個數據集)。雖然平均性能良好,但我們注意到實驗中存在個別比較特殊的果蠅,這些果蠅在幾天內會變得很難識別(例如,在樣本集2中,果蠅10在第3天的準確率為37%,而其他兩個果蠅S4表之間的混淆程度相等)。迫使圖像通過瓶頸(bottleneck,這種操作保證所處理的信息內容和fly-eye模型使用的降解析度的信息類似)操作會讓ResNet18的F1-score降低0.11。但是Zeiler和Fergus結構對於bottleneck操作魯棒性很高,在這種結構下F1-score只降低了0.08,但是達不到ResNet18的高精度。

Fly-eye模型獲得了一個相對來說較高的F1-score=0.75,這個結果沒有比複雜的ResNet18(在低解析度情況下)精度低很多。為了消除Fly-eye模型測量絕對大小和形狀以及強制提取相對特徵的能力,我們隨機地將圖像(訓練和測試)大小重新調整了多達25%,而不保留比例(參見S2 Fig示例)。我們的fly-eye系統能夠達到超過人類的性能,即便是在沒有進行絕對大小測量的情況下也是如此。在圖片的識別工作中,它能得到0.55 F1-score的性能。我們還發現,fly-eye模型幾乎不會錯誤的將公的果蠅識別成母的(在S5-S7表格中,當重新識別ID在性別上崩潰時,F1-score超過了0.99)。

為了得到人類識別的性能基線,我們找了一些志願者來識別果蠅(S3和S4)。這是一個別具挑戰的任務,因為果蠅生活在一個固定的空間中,而人能夠通過各個角度的信息進行判斷。因為這項任務不是一般的物體識別,我們找的志願者都是一些很有經驗的fly-pushing科學家。人類識別的效果並不好,但是波動不大,平均的F1-score=0.11(當像素縮小到29×29的時候F1-score=0.08,如果將原圖給出的話,F1-score=0.08)。

討論

我們的結果表明果蠅有從視覺環境中提取語義信息的先天能力。雖然我們目前還在研究它們究竟是怎麼對這個世界編碼並認識世界的,但我們也不應該忽視它的視覺理解能力。

從低解析度的圖像中理解其意義並不是什麼新鮮的想法,例如在32×32的CIFAR10數據集上CNNs能成功進行識別,也能在其他的數據集上成功應用。我們還注意到,我們的fly-eye模型在一個這樣的分類任務(CIFAR10上的F1得分是0.54,見S2表)上的表現比較差,這個任務包含對象的大範圍比例和位置變化。

對無法應對規模和大小的可變性的一個解釋是,與其他結構不同,黑腹大蠊的視覺系統能夠維持輸入的維度(柱狀髓質神經元)。DCN通過匯聚層和跨步卷積之類的小技巧來降低維度。這就給低級特徵檢測器帶來了更大的位置不變性。如果沒有它們,我們的果蠅眼模型只有當物體的距離固定時才能表現的不錯。因此,人類傾向於假定,每個人都有先天的依賴經驗的距離,在這個距離的前提下,視覺信息能夠被優先理解。並且這可能是社交距離和交互距離的決定性因素之一。

從該模型自身和它強大的編碼能力(不止是對於簡單的「looming」和「movement「的編碼)中,我們可以預測出,最高等級的特徵圖(feature maps)可以對應於視覺系統中的豐富的語義含義。然後這些小葉神經元會將複雜事物的識別進行編碼,然後會刺激他們產生不止是簡單的避免對象(object-avoidance)行為。

雖然一些小葉柱狀神經元(如LC11)似乎專門用於高敏感度的小物體運動檢測,但是其他神經元似乎在編碼更複雜的信息。這些其他LC神經元(如LC17)在受到刺激時似乎會引發社會背景依賴行為。

我們也了解了其他使用DCNs對昆蟲種類分類的研究。但是其中最相關的研究(關於生物體識別)僅在1分種內就完成了(IDTracker2.0)。在此研究之前,DCN僅對時間上非常接近的圖像有效。我們觀察到特定果蠅的反常精度損失,一些果蠅的準確度低於40%(S4表)。

這種在幾天內重新識別果蠅的能力開啟了實驗的可能性,特別是考慮到這種性能是通過靜態圖像來評估的(16fps產生大約1000個ID/min的估值)。這與人類重新識別果蠅的能力形成鮮明的對比,後者在低解析度下幾乎沒有成功的概率。

很顯然,所有的模型都可以在一定程度上學會識別果蠅,並強調果蠅的個體水平差異。對於DCN而言,重新識別果蠅實際上比CIFAR10更容易(至少對於在相同距離處獲得的果蠅的居中圖像的情況下)。即使是在某種意義上和人類的表現能媲美的模型也比人類的表現好上10倍。人類無法將果蠅分辨開的原因還是個迷。

無論區分個體果蠅是否具有進化上的好處,人類確實具有令人難以置信的模式識別能力。這可能只是因為缺乏經驗(雖然我們嘗試通過僅適用經驗豐富的果蠅研究人員作為志願者來標記解決這個問題)或者是因為更加神秘的模式識別盲點造成的。在任何一種情況下,這些研究結果都會促進新的實驗,以進一步了解人類視覺和經驗的機制以及它們為何會在這種情況下失敗。

機器學習的從業者不斷地推動深度網路,現在他們也更多地使用一些由生物學啟發的設計和訓練演算法。隨著他們變得更具有生物學的現實性,神經生物學家可以使用這些模型來生成視覺系統中信息處理方式的假設。

我們認為本文的研究非常適合將兩個領域的研究聯合起來,以繼續解開進化論對於視覺處理的解決方案。這個新領域提供了一個簡單的,基因和實驗易處理的機制。通過它我們可以觀察到視覺系統的運作,這無疑將揭示果蠅以及我們所有人觀察這個世界的秘密。

結論

這些結果有助於解釋最近傳統意義上比較有爭議的發現,即果蠅可以解決相對詳細的視覺意義(雌性選擇雄性和寄生蜂的暴露)。我們在文中展示了每個果蠅具有視覺上可區分的特徵,這些特徵會持續數天。這一事實,加上他們的超敏銳度和他們的視覺網路的理論能力,是反對果蠅只能看到模糊的運動的傳統觀念的堅實論據。事實上,在某些情況下,果蠅可能有能力看到和區分一個更為多樣性的視覺世界,甚至可能比我們看到的還要精彩。

相關報道:

journals.plos.org/ploso


推薦閱讀:

TAG:視覺 | 幾何學 | 理解能力 |