為什麼在一堆字母「T」里找「I」比在一堆字母「I」里找「T」要難?

TTTTTTTTTTTTTTTTTTTTTTTTTTTTTT
TTTTTTTTTTTTTTTTTTTTTTTTTTTTT
TTTTTTTTTTTITTTTTTTTTTTTTTTTT
TTTTTTTTTTTTTTTTTTTTTTTTTTTTTT
TTTTTTTTTTTTTTTTTTTTTTTTTTTT

I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I
I I I I I I I I I I I I I I I I I I I I I I I I I I I ITI I I I I I I I I
I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I I
I I I I I I I I I I I I I I I I I I I I I I I I I I I I II I I I I I I I I I
I I I I I I I I I I I I I I I I I I I I I I I I I I


12月30日更新:好多讀者留言說各種情況都很簡單,沒什麼特別難的,也沒感受到搜索的不對稱性。我只有在這裡先貼結果了。

結果來自Shen Reingold, 2001,是比較有代表性的結果。
我想說明的是:不同的條件下面,如果我把各位拉進實驗室測試,反應時的差距也就是個200~300ms的差別,再加上你一個不小心可能碰巧看到了這種可能性,這個差距可能更小。所以你們看圖的時候沒感覺到什麼差異,或者覺得兩個都挺簡單的,那是很正常的——然而這並不代表沒有差異的,希望以後有機會能夠寫一個網路app讓大家玩一下。

第三版更新:答主已經放棄治療了。搞了好幾個例子都還是有人說沒有感覺,都是一樣樣的。但是答主沒有辦法把你們拖進實驗室做實驗,現在又沒有完整的網路版實驗,你們可以善良地感受一下嘛……我現在重新整理一下所有的任務——要記得,這個不對稱性在實驗室測量也就是幾十毫秒級別的,各位不要期待有那種有幾秒鐘的差別。

Task 1:找Q和O
再次更新:大家都說O和Q那個沒什麼感覺,那就再來幾個例子,大家找找看咯
Task 1:找Q或者找O,你覺得哪個更容易
Level 1

Level 2

Level 3

這些例子應該是由難到易的,Q應該是一目了然,你想不看到都不行。但是要找到O你是要花點功夫的。
有些人提到熟悉性,但是O和Q你可能是差不多程度熟悉的。當然,熟悉性的確是在搜索的不對稱中有作用,比如
Task 2 左右兩邊,有一個目標是鏡像的字母

這個東西只有能懂漢字的中國人才能有搜索不對稱性。外國人,對於『舌』和鏡像的『舌』都不熟悉,所以外國人並不會出現搜索的不對稱性。但是中國人,由於非常熟悉『舌』,但是不熟悉鏡面的『舌』,所以搜索起來難度不一樣。

Task 3

理論:
根據現在的視覺搜索(Visual Search)理論來說,你所提到的是一種非常有趣的現象,叫做視覺搜索的不對稱性(Visual Search Asymmetry)。
想知道更過的關於視覺搜索,請圍觀下面這篇文章。雖然再某一個問題上面我們倆可能有不同的理解。
眾里尋她千百度,那人卻——突然一下就跑到你眼前了,這個是怎麼回事兒呢? - 通往心靈中央的旅程 - 知乎專欄

關於不對稱性
從Anna Treisman開始到現在,大家比較接受的原因是:

對於一對刺激,如果A比A"多一些feature,那麼在A"中的搜索A相對容易,而在A中的搜索A"相對困難。


這裡要說明的是,Treisman的視覺搜索理論是認為:物體是由特徵組成的,特徵是視覺表徵的基本單位。如果兩個物體只在某一個特徵上有差別,比如Q比O多了一個撇,那麼這個特徵在視覺搜索中會pop-out出來。『萬綠叢中一點紅』也是同樣的道理。但是如果不同的物體之間分享多個特徵,又有多個特徵不同,視覺搜索過程中就需要focal attention來遍歷不同的空間位置,把不同個feature整合起來,然後看整合之後的結果是不是目標物體。因為要用到attention,所以時間就,慢了。

比如說:T比I多一個feature——上面的橫杠,所以在I中找T相對容易,而在T中找I相對困難。
類似的還有在O中找Q相對容易,而在Q中找O就相對困難,這裡Q比O多了一個撇。以及,在O中找C相對容易,在C中找O相對困難,這裡C比O多了個缺。

(26日更新: 關於C比O多個缺,還是O比C多個弧。你會覺得這兩個都對。但是正是因為我們並不知道哪一種假設是對的,我們才做了一個實驗(Treisman 80年代做的)結果就是發現:C在O中就很容易,O在C中就很難。然後根據上面的理論,我們分析數據,1) C在O中容易找,2)多一個feature的在少一個feature的東西中容易找,然後邏輯推理就是C比O多一個缺。說白了,這個看法是根據實驗結果推理出來的,在兩個假設中更有可能性,所以我們暫時不說O比C多個弧。)

很快的,人們發現在N中找鏡像的N相對容易,在鏡像的N中找N就很難(Wang and Cavanaugh, 1994)。隨後,Shen和Reingold(2001)用好幾個字母數字做了實驗,都發現這種鏡面反射會導致一對刺激(N和鏡像的N,F和鏡像的F等)出現搜索不對稱性。很快,一系列的實驗開始認為『新穎性』是一個特殊的feature。

於此同時,實驗還發現,在 | 和 — 之中搜索 / 或者 ,也就是在水平豎直線中搜索斜線相對容易,而在斜線中搜索水平豎直的線相對困難。有很多人試圖解釋這樣一個現象,當然,你也可以猜到,根據最前面給出的黑體字,一個解釋就是:斜線比水平豎直線多了一個feature,具體而言:就是豎直線 + 『向左傾斜』這樣一個feature。Jeremy Wolf的Guided Search理論中就包含了這樣的假設和解釋。

關於視覺搜索的不對稱性,可以從以下這篇paper入手,然後閱讀它的引用文獻來了解截止到2001年的研究進展。至於最近嘛……似乎沒什麼進展。
Wolfe, J. (2001) Asymmetries in visual search: An introduction, Perception Psychophysics, 63 (3), 381-389

最後,雖然大家對這個理論的接受很強,但是我個人認為這個理論沒有說到根本。但是根本原因是什麼,我也不知道,因為我還在設計實驗研究這個。


@Feitong Yang的回答很好,不過人類研究因為實驗手段的限制,在神經元層面的實現機制上可能還是沒有多少頭緒。補充一個相關的動物實驗吧。

為什麼在熟悉的圖案中找不熟悉的圖案,比在陌生的圖案中找例外要更容易?對於視覺搜索的不對稱性,視覺心理學中有一種理論是新穎的刺激更容易搜索。那麼這一理論有沒有生理學上的證據支持呢?

最近恰好看到一篇文章用貓頭鷹研究這一現象 [1]。

上圖是實驗的主要發現。A: 貓頭鷹看到的圖像,第一排數字是圖像出現的順序,紅圈表示B中神經元的感受野(RF)。B: 視頂蓋(Optic tectum, 類似於人腦中的上丘/Superior Colliculus) 的神經元活動。第一行藍色部分為當RF內是不常見刺激(oddball/target,豎線)時神經元的放電信號,紅色則是常見刺激(distractor, 橫線)時。虛線為刺激出現的時間。可以看到當不常見的刺激出現時,神經元的活動顯著增加。這一增加的前提是該區域有「觀看」常見刺激的歷史。

作者提出的演算法是這樣的:

我們的眼睛時刻都在進行微小的運動(快速眼動,saccade),在眼睛一次快速運動的過程中,視網膜的每個區域都報告「現在的影像「和「剛才的影像」之間的區別。而與常見的刺激越不同的刺激,能夠引起越大的區別。這是由於stimulus-specific adaptation (SSA): 視覺細胞對不同刺激的適應(多次接受相同刺激後,對刺激反應的減少)程度不同。通過把注意力分配給報告最大區別的區域,就可以快速找到大量重複圖案中的異常了(因為只有oddball所在的區域才會造成這種差異 - 當然每一個oddball會在兩個地方造成變化)。

也就是說,在第一個任務中,所有看到T的區域,在看到I時就會報告一個變化。而又看到T時則不會。在第二個任務中,則是僅在看到T時報告與I不同。這就把[比較空間中很多不同位置的圖像]這一問題轉化為[在空間中許多個位置比較先後兩個圖像],也就是以空間換時間(CS的同學應該很熟悉,這就是演算法的memory/time tradeoff)。

那麼不同任務之間的難易差別是來自哪裡呢? 也許對於熟悉的刺激,SSA會更有效——即使是單次刺激,對觀看者來說是常見的刺激也已經可以引起SSA,從而幫助更快找到熟悉圖案中的oddball。

這是我作為純粹外行的一個猜想,歡迎業內人士的批評。不論如何,從Optic Tectum 到人類視覺經驗的推斷是否合理似乎無從可知,但是在演算法層面是說得通的。

[1] Dutta, A., Wagner, H., Gutfreund, Y. (2016). Responses to Pop-Out Stimuli in the Barn Owl』s Optic Tectum Can Emerge through Stimulus-Specific Adaptation. Journal of Neuroscience, 36(17), 4876–4887.


因為我們視覺系統中的「特徵覺察器」的存在。

對於上面的一堆T來說,原始特徵可看做I和–,而I作為其組成元素之一,被埋沒在裡面,找出來自然就難了。

而對於下面的一堆I來說,原始特徵可看做「I」,而T的出現,由於T上面多了一條「–」,這在一堆I當中本來是沒有的元素,因此T增加了新的元素。

可以理解為上面一堆T中搜尋I,元素是混在一起的,所以難找;下面一堆I和T的搜尋,T與一堆I的不同是發生在元素水平,即增加了新的元素,所以容易。

我們的視覺加工系統中,有種東西叫「特徵覺察器」。它的存在,能讓處在元素水平的差異自動跳出來,即讓下面一堆I中的T自動「跳出來」,也就是最高票答案所說的"pop out",從而不必搜尋它,它本身自動會引起你的注意。這其實是特徵覺察器的功勞。

從我們看到圖片,到識別出不同,具體步驟: 刺激→人眼視網膜中的視錐細胞→雙極細胞→神經節細胞(匯聚)→丘腦的外側膝狀體細胞→最終到達大腦皮層的枕葉紋狀區,這是視覺加工的最高部位。而從刺激傳入視錐細胞開始,也就是從第二個環節開始,特徵覺察器就開始起作用了。也就是說我們意識到「這堆字母有一個特別的」,甚至可能早於認出「這堆究竟是什麼字母」。


心理學上屬於知覺加工方式問題。
有的人找的慢有的人找得快這個也要看每個人加工方式的不同。
隨便舉幾個。
1.自下而上加工:由外部刺激開始的加工,先對較小的知覺單位進行分析,然後再轉向較大的知覺單元,經過一系列連續階段的加工而達到對感覺刺激的解釋。相對的是自上而下加工。似乎是同時進行,也不排除時間上有先後。
2.整體加工和局部加工:對於一個客體,是先知覺各部分還是先知覺整體。
模式識別的話。
1.模板說:模板與外部模式一一對應,當刺激作用於人的感官的時候刺激信息得到編碼並與已經貯存的各種模板進行比較,然後做出決定,看哪一個模板與刺激有最佳匹配。
2.原型說。懶得打字了……
3.特徵說:模式分解為各種特徵。


謝邀, @劉柯
感覺一樓說的很好,想補充一個點。視覺系統的 腦補能力。


要祭出神圖了,那張 不存在的三角形。又是上課時候講的……

人類的視覺系統會有比較強的腦補能力,明明一個完整的三角形都沒有,你卻能看到倆……一個實心的白色三角形,一個空心的黑色三角形邊框。(如果你看不到,請私信我……我們有一些測試可以給你做做,開玩笑的,大部分人應該都可以看得到)

還有一個類似的,你如果把斷掉的棍子的斷裂處被什麼東西蓋住,大腦會認為這根棍子是完好的。

老師提到這個 Preception 的時候,跟我們語重心長的講進化……說我們還是獵人和採集者的時候……我們需要處理這種不完整的信息,需要根據殘缺的信息補出整個物體,這對我們的生存至關重要……畢竟捕食者和食物大部分情況下都是不完整的,被什麼蓋住的……慢慢地,我們訓練出了這個特性。

回到 T 和 I, 在 T 中找 I, 少的一個『橫』,很容易被大腦腦補上,別說是那個 I 了,看的快的時候,我看『T』都是一橫排……

所以,這個跟我們的腦補能力有關。是不是腦洞越大越難找呢?不清楚……

然後還有一樓 @Feitong Yang 提到的 C 和 O, 稍微聽過 我們所 陳霖院士的一些報告, 他提出了一種 大範圍首先理論……還提出了 人的視覺搜索中 拓撲性質可能是很重要的一個 feature,C和 O, 雖然就差一個『弧』,但是在拓撲中是很大的不同。只是提出一個可能的思路。

給一樓點贊。另希望大家多多指教,先行謝過!


因為T里有I,I里沒有一。


  • 因為人視力範圍其實很小,處於焦點能看清,周圍幾乎都是半模糊化的。

比如這句話,你在看「中間」這兩個字的時候,其實能注意到「你在看」和「這兩個」就很勉強了。周圍的字是模糊的,不過是你通過腦補才感覺能看懂一大段話-你的頭腦將模糊的圖像也識別了。

一行T模糊化如果是50%的灰度茫茫一片,中間出現一個I,在你視覺降噪的過程中可能依然認為是一片50%灰度的茫茫一片。

一行I可能你認為是30%灰度的一大片,出現一個T就感覺是出現一個50%灰度的躁點一般,自然容易發現了。

I I I I I I I I I I I
I I I I I T I I I I I
I I I I I I I I I I I

同樣換一個密度,一樣是這種效果,不過是躁點從更深變為了更淺,如下:

IIIIIIIIIIIIIIIIIIIII
IIIITIIIIIIIIIIIIIII
IIIIIIIIIIIIIIIIIIIII

同樣,如果將I變為III,是不是也變得好發現了許多?

TTTTIIITTTTT
TTTTTTTTTT
TTTTTTTTTT


其實說實話,對我來說這兩個看起來都不吃力,很容易會發現不同--哪怕你不告訴我有不同,我沒有做心理準備。因為每個人的「解析度」不同,感受自然就不一樣。不過我能理解不好察覺不同是什麼體驗,因為更精細的區別我發現起來也比較吃力。

如果能恰好讓人模糊視覺時感受不到躁點,那麼自然就不好發現異常了。

這也是在-里找/容易,/里找-也容易,/里找|就不太容易的原因。
像這種類型的「找不同」,其實主要是在找模糊視覺中的躁點。

那麼接下來再變形一下:

在O中有幾個C?
OOOOOOCOOOCOOOO
OOOOCOOOOOOOOOO
OOOOOOOOOOOOOOO

在C中有幾個O?
CCCCCCCOCCCOCCCC
CCCCCCCCCCCCCCCC
CCCCCCCCCCOCCCCC

這回呢?
OOOCOOCO
OOOOCOOO
OOOOOOOO

CCCOCCOC
CCCCOCCC
CCCCCCCC


這回呢?
O O O C O O C O
O O O O C O O O
O O O O O O O O

C C C O C C O C
C C C C O C C C
C C C C C C C C

這回呢?
O O O C O O C O
O O O O C O O O
O O O O O O O O

C C C O C C O C
C C C C O C C C
C C C C C C C C

這回呢?
MMMMMM
MMIIIMMM
MMMMMM

IIIIIIIIIIIIIIIIII
IIIIIIMIIIIIIIII
IIIIIIIIIIIIIIIIII

這回呢?
VVVVVVWVVV
VVVVVVVVVV
VVVVVVVVVV

WWWWVWWW
WWWWWWW
WWWWWWW

這回呢?
IVIIVIIVIIVIIVIIVI
IVIIVIIVIIVIIVIIVI
IVIIVIIVIMIVIIVI

  • 當然還有第二個原因,我們會將簡單、熟悉的東西形成專門的處理模塊。

最簡單的:3個點,4個點,我們看到的時候是[不需要數]的。所以麻將的7餅我們能快速知道是7,但是散亂的7個點我們第一眼很難認出這是7個點。
但是如果像這樣,不僅7個點很容易識別,11個點也不在話下:
... ... ... ..
如果是這樣
...........
很難認出來吧

這也就是所謂的「熟練度」影響「識別度」

這個有時間再多介紹。


T相對於I增加了Y方向的頻率成分,頻域上多了個峰。

其他幾個高票答案中的例子似乎可以看作信道帶寬的香農公式的推論,或者CDMA DSSS載波同步過程的二維版本:與已知特徵信號越匹配的信號信噪比越高、碼搜索越快。

用圖像識別程序做一下實驗應該有比動物實驗明確得多的結果,尤其是深度學習神經網路的架構更接近視皮層。


特徵整合理論,從一堆無某個特徵的東西里找一個有特徵的東西,比從一堆有特徵的東西里找一個無特徵的東西,要更簡單


人群中突出的容易被發現,可要是殘缺就不那麼容易發現了


嗯 在一群都是勃起狀態的男性中找一個不勃起的肯定很難啊


你不覺得完全是間距的問題嗎?


不覺得


難道不是因為間距么?


很簡單。

一堆 T T T I T ,實際上黑色部分還是少數面積,多數面積還是白色的,因為有白色的背景。
反之 I I I T I ,由於黑色的部分其實比較少,白色的部分佔得更多,所以能夠襯托單一的黑色更加突出。

第一種黑白色的比例,相比於第二種,更加接近於50%,所以也更難辨認。

那麼如果不是黑白純色的情況呢?如果是下面的情況,一群I中的T就不那麼一目了然了:

當然這種情況一群T中的I也不是一目了然的,但二者不會有太過顯著的主觀感受差異。

另一個原因是,我們大腦的感受趨向於連貫性地看東西。比如上圖你會看到黑色方塊之間並不是純粹的顏色,有一定的髒兮兮的黑影。但如果你仔細看,會發現黑色方塊之間其實就是純色的。

我們會把

看做

而不會把

看做

以上。


這應該是大腦的模式識別問題

鏡像識別的試驗體現了:
第一種模式下:人類進化的認知過程是從已知中尋找或推演未知的過程(也適用於從顯而易見的共性中擅長找多了什麼的I中找T,O中找Q的識別),一個熟悉的環境有利於人腦識別找到熟悉的模式進而更容易發現不符合模式的事物。這其實歸咎於動物對於熟悉的事物當中發現特異的東西的生存需求發展出來的生物本能。這個本能,也體現在動物更擅長巡視領地,並在自己領地內巡視過程中體現的比較輕鬆自如,更加自信堅決。而進入陌生的別人領地時,神經比較緊繃,缺乏自信,容易退縮。

第二種模式下:面對大量陌生的東西中隱藏的熟悉事物則更多體現為茫然。因為大腦需要首先從陌生中建立全新的識別模式,這個過程當然比匹配一個熟悉的識別模式費時費力。
進而導致,大腦高負荷工作中,在新模式新刺激環境下,大腦本能的對於隱藏其中的熟悉事物容易忽視不見(體現為不太擅長找少了什麼。用於Q中找O和T中找I試驗則可以解釋為:大多數被觀察體讓大腦覺得那個更複雜的結構才是共性並就此建立了識別模型,因為識別體中隱藏的較為簡單個體是之前建立共性模型的一個組成部分,從而容易被忽略)——這是為了提高大腦整體工作效率,更快的熟悉新環境而進化出的另一種生物本能。

所以:
1.在自己不熟悉的語言環境下,比如外國人認中文,全部是新東西中找不同,大腦一直工作在第二種模式下,所以體現不出差異。
2.更善於歸納總結識別模式的人,差異較小(較快速的從第二模式進入第一模式)


難道不是特瑞斯曼的特徵理論可以解釋嗎……


大概是因為視覺系統 探測水平方向的感受器比垂直方向更敏感。


這關係到大腦識別速度的問題,圖像越複雜或者接觸越少識別速度越差,我們大腦採取了一系列的策略去處理圖像,但是最終環節到本質上還是提取圖像與目標圖像對比,因此在複雜圖像內找簡單圖像要慢一點,因為要一直提取識別速度差的複雜圖像,所有的在識別速度慢的圖像裡面找識別速度快的圖像都要比反過來的要慢。


高級生命視覺更容易發現複雜的特殊的形狀,這是生物進化出的本能,是生存的需要。其實聽覺觸覺都有這個特性。 作用機理就是複雜的感覺會拉升感覺的閾限值,導致相對簡單的感覺不容易被發現。 這個實驗中,複雜的形狀其實就相當於一個強刺激了。 不過,對於你的實驗,我倒是有一個建議。你可以設計一個脫敏實驗。讓被試不斷觀察c,過一段時間後,你再重複o和c的實驗,看看結果有什麼不同。 另外,也建議你用左右斜線試驗一下。先讓其畫斜線,看看他是習慣畫左斜線還是右斜線。。。


推薦閱讀:

機器學習、數據挖掘 如何進階成為大神?
去美國讀CS博士,方向是機器人導航,視覺方面,推薦一下相關編程方面準備?還有相關演算法需要學習哪些?
可否通過編程為《秘密花園》填充出和諧的顏色?
為什麼香港中文大學研發的人臉識別演算法能夠擊敗人類?

TAG:心理學 | 視覺 | 機器視覺 |