不同音軌合併後還可聽出各音軌的聲音(如任何音樂),但不同顏色的光線合併後就變成別的顏色了?

【鏡像問題】聲音的音調、響度、音色相當於光波的哪些特點? - 物理學

最近想到一個問題請哪位物理大咖解釋一下:為什麼不同音軌合併以後,還可以聽出各音軌的聲音(比如人聲和樂器聲),但不同顏色的光線合併以後就變成別的顏色了?起因是想到耳機是一個極其簡單但有效的工具。顯然在任何一個時點,一個耳機只有一個振動狀態,但卻能讓人聽出各種不同的音色,這好像有些不可思議。


本質上是生理問題好吧……視網膜只有幾種不同的感測器,每一種感測器只對特定頻段敏感,而內耳有覆蓋整個頻段的感測器陣列。不搞生理就不胡亂科普了......回來給你貼兩個教科書圖。

更新:視覺的部分 @內務人民委員 已經說得不錯了,聽覺卻沒人提到......耳蝸那麼長你以為是幹嘛的,裡面就是一長排不同頻段的感測器好吧......(你們這樣子是不行的!)

心累,匿了

(補充:該答案寫於問題早期,現在已經有人提到聽覺的內容,我就不管了...)

(圖 Henry Vandyke Carter - Henry Gray (1918) Anatomy of the Human Body)


耳蝸對聲音進行物理傅立葉變換的結構決定了人對聲音的識別是在frequency domain,換句話說不同頻率的聲音信號在一開始就是由不同神經傳導的,人類對聲音的理解本身就是基於音調(頻率)的。

而人類對圖像的感知則主要是基於二維投影的光線強度分布,對電磁波頻率的區分只是使用三套不同頻率範圍的光線強度感受器,而顏色只是由三種不同感受器的不同輸出匹配產生的感覺。

有些時候這能讓你很容易感受到波長的組合,例如紅色加藍色產生的品紅色,自然界中並不存在單一這種顏色的波長,你卻能通過顏色理解這一存在。而更多時候這種字典模式則很難區分波長的組合,例如紅色加綠色產生的黃色,和單一黃色信號對三種顏色感受器的刺激差別並不很大,所以你也很難區分其中的區別。

大概如此。


因為人眼的辨色功能來源於視網膜上的三種視錐細胞,分別對應紅色,綠色和藍色。但每種細胞不是只響應一種波長,而是對一定頻譜範圍內的光都有響應,只是對特定波長的響應更強烈。每種細胞的響應信號就是一個單純的電信號,反映一個頻譜範圍內的光強度,不包含更複雜的偏振啊之類的信息。那麼三種細胞給出的實際上就是一組三個標量信號(R,G,B)。

對於大腦來說,用這一組信號能夠解算出的獨立物理量也就是三個。包括一個總的光強度I,也就是灰度,以及一組色坐標(u,v),也就是人眼能分辨的顏色。那麼不管進入肉眼的光是什麼波長的混合物,只要它觸發的視錐細胞響應信號對應同一組色坐標,人眼感受到的顏色就是一樣的。這可以類比於一個比較低檔的單點觸摸屏,你用幾個指頭碰它,它也只能解算出來一個觸碰點。

所以下來的問題是,如何讓人眼能夠分辨混合色中的不同波長成分。答案自然就是,進化出至少四種或者更多的視錐細胞,分別響應不同的波長。反過來說,如果悲劇的只有兩種視錐細胞,那麼分辨的顏色就是一組補色,具體是什麼顏色,取決於這個倒霉蛋剩下的是哪兩種視錐細胞。

更進一步說,如果只剩一種感光細胞,那就徹底沒有顏色之分了,只能看到灰度。其實人眼視網膜的大部分區域就是這樣。上面說的三種視錐細胞集中在視網膜的中央黃斑處。而在黃斑之外,大部分視網膜上覆蓋的是一種視桿細胞。所以人眼其實只在正前方視線聚焦處能夠看到顏色,餘光部分看到的其實都是灰度圖。餘光的顏色感受是大腦在圖像處理過程中渲染進去的,不是實際看到的顏色。

視桿細胞的優勢在於對弱光的感受比視錐細胞敏感得多。所以在黑暗中觀察周圍,看到的其實都是灰度圖,沒有顏色感,就是因為視錐細胞在弱光下無法工作,只有視桿細胞能響應。如果想要在黑暗中看清物體,一個竅門是轉開視線,用眼角的餘光去看,也是因為視桿細胞在視網膜周圍比在中央黃斑處更多。


我來分析一下聲音和圖像信號在經過人耳和人眼處理前後的形態,希望可以澄清二者的不當類比帶來的疑惑。為了不引入額外的複雜性,只討論單耳聽覺單眼視覺

聲音信號在進入人耳之前,就是一個隨時間變化的氣壓。它可以看成一個定義域是一維、值域也是一維的函數,定義域是時間,值域是壓強。注意這裡面不涉及空間,因為鼓膜的大小相對於聲波的波長來說,可以看成一個點,人耳並沒有空間分辨能力。

聲音信號中會有變化快和變化慢的成分。變化特別慢的部分(20Hz以下),人耳會感覺它確實是隨時間變化的。變化稍快的部分(20Hz ~ 20kHz),人耳的時域分辨能力就跟不上了。然而,這個頻率範圍內的信號會被耳蝸進行傅里葉分析,被鋪展到頻域上來。因此,經過人耳處理後的信號,定義域變成了二維:時間頻率;值域仍然是一維的,只有強度(相位被丟棄了)。變化更快的部分(20kHz以上),就全部丟失了。

圖像信號到達視網膜上的時候,就已經是一個定義域是三維的信號了。它包括一維時間兩維空間,與聽覺不同,人眼具有足夠高的空間解析度。值域是電磁波的場強,考慮到光是橫波,視網膜上任一點接收到的光可以認為是從固定方向傳來的,這個值域可以認為是二維(可能不對,但不重要)。

圖像信號中,變化慢的部分(大約10Hz以下),人眼仍認為它是隨時間變化的,表現為漸變或閃爍。變化稍快的部分,會被視覺暫留作用濾掉,這也就是人眼時域分辨力的極限。變化極快的部分中,可見光頻段(430 ~ 790 THz,這個T可是表示10^12哦!)會被感受為顏色。與聽覺不同的是,人眼並不會得到這個頻段內的完整頻譜,而只能得到頻譜與三種視錐細胞敏感度曲線的內積。所以一般不認為圖像信號經過人眼處理後定義域多了一維頻率,而是認為值域變成了一個三維空間,這個空間可以稱為色域

總結一下:

  • 聲音信號被人耳處理前:一維時間 =&> 一維壓強;
  • 聲音信號被人耳處理後:一維時間 + 一維頻率 =&> 一維強度;
  • 圖像信號被人眼處理前:一維時間 + 二維空間 =&> 二維電磁波場強;
  • 圖像信號被人眼處理後:一維時間 + 二維空間 =&> 三維顏色。

如果要類比經過人耳和人眼處理後的聲音與圖像信號,那麼我們發現:聲音信號中「頻率」的地位,跟圖像信號中「空間」的地位是相同的。於是下面幾種信號可以類比:

  • 平穩信號,即不隨時間變化的信號,在聽覺中表現為一個聲音的拉長,在視覺中表現為一幅靜止的畫面。注意,這裡討論的都是經過人的感官處理後的信號,「不隨時間變化」只表示原始信號中沒有變化慢的成分。
  • 隨時間有規律變化的信號,在聽覺中表現為節奏,在視覺中表現為閃爍
  • 不隨頻率變化的聽覺信號表現為白雜訊;不隨空間變化的視覺信號表現為純色畫面
  • 隨頻率有規律變化的聽覺信號表現為樂音;隨空間有規律變化的視覺信號表現為花紋

現在終於可以解答題主的問題了:

音樂中的各個音軌,都是隨時間、頻率都有規律變化的信號——表現為有節奏的樂音。當它們疊加的時候,在同一個時頻單元處的強度確實是加起來了(實際上相位會在這裡起作用,但先忽略),無法分辨。但是,「有節奏的樂音」具有稀疏性連續性——稀疏性說的是,同一個音軌中會有很多時頻單元處的強度接近零;連續性說的是,同一個音軌中強度不接近零的那些時頻單元,會在時間和頻率組成的二維空間內連成線,線上各點的強度連續變化。

上面是一首歌的語譜圖,橫軸為時間,縱軸為頻率,顏色表示強度。它可以看成是由歌聲伴奏兩個音軌混合而成的。組成歌聲的那些線一般是彎的,因為人聲的頻率很難保持穩定,有時候還會故意使用顫音;組成伴奏的那些線一般都是水平的直線。人腦主要就是依據稀疏性和連續性,在時間和頻率組成的二維空間里,把混合信號分解成一條條「線」,再把走向相似的線重新組合成音軌的。

而題主說的「不同顏色的光線合併」,這描寫的是兩個不隨時間變化的圖像信號——即靜止的純色畫面——的混合。這樣的混合當然是分不開的,因為圖像信號定義域的三個維度——一維時間和兩維空間——都沒有被利用起來。

如果要把人腦分辨音軌的功能類比到圖像上,就需要圖像信號至少在定義域的兩個維度有規律地變化,且具有稀疏性連續性。具有這種性質的最典型的圖像是手寫的文字——它在兩個空間維度上有規律地變化,畫面上大部分地方是空白的,筆畫是連續的。當兩幅手寫的文字重疊在一起的時候,人腦在大部分情況下也可以分辨出兩幅字分別寫的是什麼;當兩幅字的字體不同,或者文種不同(比如一幅中文一幅英文)的時候,分辨起來就更容易了。

另外一個例子是,在路上有一排螞蟻在相向而行。螞蟻的分布在一個空間維度一個時間維度上有規律地變化,且具有稀疏性連續性,於是人腦可以輕鬆分辨出哪些螞蟻在向左爬,哪些螞蟻在向右爬。如果只拍攝一幅靜止的畫面,分辨起來就困難了許多,這是因為只剩下一個有規律變化的維度了。


其實,音樂也沒有題主說的那麼分得開。
題主可以試著把兩條單音旋律想像成兩條線
那麼,一首正常的歌曲,這兩條線應當是不同步彎折的。
尤其是對於八度和五度的距離,連一小點的同步運動都是要防止出現的,因為這就會出現不同音軌合併後聽不出各個音軌單獨的聲音的情況。

如果你用軟體把自己的歌聲調高8度(或者隨便幾度,八度最明顯)
然後把兩軌完全重疊起來,一點時間差都沒有的重疊,那麼,你是分不出這是兩個聲音的。

在演奏方面呢,尤其是當節奏、細節同步率特別高的情況下,就很難分辨出來了,比如金屬吉他上的強力和弦,就讓人聽不出是和弦,而是一串聲音強硬的旋律。但實際上,他是三條完全同步的旋律線,但最後聽起來就融合成一個了~

但只要是兩條不同的旋律,相當於他們分別帶著不同的信息,那麼兩個聲部中的音符就很容易被人耳區分開了。

但為什麼兩個樂器,比如小提琴和鋼琴,一起演奏同樣的旋律人還是能分得清呢?那是因為鋼琴音頭明顯,延音逐漸減弱(踩踏板也還是逐漸減弱)小提琴則是連續的細節上音量卻又有些時大時小的。我們聽曲子的時候,兩種聲音就會有很大的區別,就容易被區分開,而大提琴和小提琴同時演奏同樣的音符,甚至差著八度五度的演奏,都會出現聲部丟失的現象。

而哪怕是鋼琴和小提琴這種音色差別比較大的兩個樂器,如果我們選取某一瞬間的兩個樂器的震動,把這一瞬間拿出來並不斷重複,人就很難聽出這是兩個樂器了。
至此,證明了聽覺上,其實並沒有很強的「分辨音軌」的能力。

下面呢,我來證明一下視覺上其實是有一定分辨能力的。

如圖,我在一個照片上疊加一個漸變色的圖層。人腦就有能力把兩個信息分別讀取出來
如圖(答案被舉報了,這次換成了一張鸛的圖片)

我們就能夠看出這是五個人在游泳,上面又疊加了一個從綠色到青色的漸變圖層。

我們試著更複雜一點的組合,你看,一副照片是只狸貓,另一副則是猿猴,人是能夠分出來的甚至能夠分別腦補出兩副照片來~

這些例子還只是靜止的,如果像音樂那樣放在時間中流動呢?如果我們把一段視頻做成半透明的疊加在另一段視頻上,這樣的特效在影視作品中也很常見的,顯然我們是能夠分別出來。

綜上,我們人耳並不是真的有把兩個聲音分別聽出來的能力,而是這兩個聲音所包含的信息讓我們人腦習慣性的把他們拆分來對待。

但如果真的只取某一瞬間兩個聲音的頻譜,加以延長,那聲音也會像題主說的顏色一樣完全融合起來。

答案被因為提及某人導致被和諧,現已修改答案並將圖片置換為了鸛、狸、猿。望通過審核


因為對於聲音,我們能感受到各種頻率的振動模式;而對於顏色,我們的視錐細胞只能感受到三種振動模式。


題主的問題其實問的很好,在這一點上,其實聲和光本身是基本相同的,之所以導致聽和看的結果不一樣,問題其實出在人身上
眼鏡對光顏色的感覺是通過「三原色」的方法進行的,人眼有紅綠藍三種感光細胞,通過入射光在三種細胞中得到的相對強度,人眼推測出原先的頻率。
比如,某種頻率的黃光入射人眼後,紅色和綠色的感光細胞各感受到一個單位的光強,而藍色感光細胞則幾乎收不到信號。人腦內看到這光是黃色的,就把紅:綠=1:1記為黃色。
但是後來,有兩個調皮的led,一個發紅光,一個發強度相同的綠光,人眼一看,紅:綠=1:1,好,這是黃的。但其實如果對這束光分析,其實會發現它和黃光完全不同,在頻譜里,它表現為紅和綠兩個峰,而黃光只有兩者之間的一個峰。也就是說,這束光和黃光完全不同,只是人眼看到的相同罷了。
而人耳對聲音的感受則不同,人耳對聲音的感知基本相當於自帶傅立葉變換,也就是說可以比較準確地獲得各個頻率的信息,但是有一點,人耳聽出的「音高」只有基頻部分。
一個某音高的樂音,不可能是一個頻率恰巧為該音高的正弦波,因此對其做頻譜分析,一定會在其音高兩倍、三倍、四倍……頻率的位置能找到信號,而人耳聽到的音高只有一倍頻,其結果就是,大部分情況下,不同音高可以分辨,但是如果B音的音高恰好比A音高八度,B音就會處在A音的兩倍頻處,人耳將其認為是A音的一部分,聽上去兩個音就融合了。


我覺得題主這個類比不太準確。
一邊是音樂,一邊是顏色?
要準確點的話,應該一邊是音樂,一邊是視頻。
要麼一邊是單頻率的聲音,一邊是顏色。

前者,比如拿兩個視頻重疊,前景50%透明度,你還是能看出來兩個視頻里的物體和劇情。就像兩首音樂同時放一樣。

後者,比如你拿一個200hz的正弦波聲音和一個1000hz的正弦波聲音合成,要是我不告訴你我這是合成的音頻你一般是聽不出來的。就像你很難說清楚一種顏色的光線是怎麼合成的。


因為人耳人眼都無法識別波形而只能回傳頻譜,同一種細胞只能獲得固定頻段的振幅信息,人眼的視覺反饋是2維場,聽覺反饋是1維「場」,但眼和耳神經細胞傳輸信息量是不會有維度級的差距的,聽覺細胞不需要分辨音源位置,所以不同的聽覺細胞可以獲取不同頻段的信息,而視覺細胞因為要區分二維位置所以無法同時獲得不同頻段的信息而只能識別紅綠藍三種有限頻段,因此不考慮泛音,任意兩種頻率的聲波重疊,人是可以區分的,但是任意兩種顏色疊加卻無法區分,但因為人腦會對頻譜進行處理,加上雙耳效應和雙眼視差,人還能感知到視覺上的三維位置和聽覺上的三維聲場。簡而言之,一共就那麼多細胞的位置,視覺選擇了位置而聽覺選擇了頻率,原因大概是聲音的衍射遠大於光所以不利於定位,而光幾乎沿直線傳播所以隨後進化選擇就成了這個樣子……


音樂的頻譜隨時間變化,光線的頻譜基本不變。變化的東西總是「顯眼」一些。


是大腦把你看到不同顏色合併了,然後起了別的名字


我覺得這個問題對光來說是不公平的,想一想人接受信息的方式:


聲音傳遞信息(如語言)是通過頻率,大小,音色隨時間的變化,
而光傳遞信息(如文字)是通過光的顏色,亮度在同一時刻不同位置的變化,
所以幾個不同音色的聲音混在一起播放你也能聽出每一個聲音,類比到光對應的應該是---不同顏色的字重疊在一起,你也能辨別出每個字寫的是什麼,這樣才是同類的對比。

所以,人能聽出來不同的聲音有一部分原因是聲音隨時間變化的特性,我猜想比如如果音樂突然卡住了,只能聽到一個不變的長音,應該也很難分辨出裡面有什麼樂器或者人聲吧?


這題比我想像的難答,還是放棄認真答題了……
問題的重點應該在於人耳為什麼能分辨出不同的音色,人的眼睛卻不能分辨出混合色中是由哪些顏色的光混合的,屬於生理類問題。物理上對聲波光波的處理是類似的,波的疊加、波的干涉、輻射能量等等,不同的是聲是縱波,光是橫波。耳朵和眼睛對這些信息的處理方式是不同的。
另外音色和顏色在物理上沒有可比性,聲譜(即由哪些聲音頻率組成、這些頻率之間的比例)和時間結構組成了我們所說的音色,人耳能夠分辨出不同人聲不同樂器,就是因為這些因素的不同。但顏色只是光的頻率(通常說是波長)的反應。物理上它們並不是對應的概念,因此想要分清楚哪些情況可以對比,還是挺麻煩的,問題的表述其實比較模糊。
不過我也不是專業人士,看專業人士怎麼說吧,純當拋磚引玉。


這個對比是不公平的,兩個單音合在一起,沒有絕對音感是分不出來的。同理兩個單色何在一起,正常人眼也是會看到第三種顏色。
但是,兩個音軌合併播放應該對等於兩幅圖片疊加顯示。這個信息亢余度非常高,是完全可以同時得到兩個部分信息的。


人只有3種顏色感測器,對於人複合的顏色在光譜下其實還仍然是隔離的譜線。


感覺好多回答都莫名其妙的,完全沒懂題主問的是什麼啊。不是兩個圖片疊加,而是兩個波長疊加啊。問題其實就是問為什麼光可以合成與分解。
問題也就是,一束黃光,可能是紅色(660nm)和綠色(550nm)混合成的,也可能本來就是是570nm的。這個我們可以用分光計測出來,但在人眼看來都是黃光,作用效果都是相同的。彩電就是RGB混合出其他顏色的,拋開調色色域什麼的來說,跟自然反射陽光顯示出該波長的顏色沒區別。為什麼沒區別?
這方面的問題要討論的是人的識別能力,而非光的特性。光的特性包括:頻率/波長、振幅/能量、相位、時間/空間相干性。我們可以發現,從最基本的光的特性來看,光並不能疊加,或者說作為非相干光並沒有理論可以提供給它疊加的本領。那麼我們只能判斷,是接收處——人眼讓它們互相作用,形成了一個疊加效果。所以這是個生物問題,而非物理問題。
好了,作為某個雜食性專業的學生,有幸接觸到了光度學與色度學這門課,就學了一點人眼的問題,正好借這個機會複習下這門課。下面是物理系學生答生物問題啦,有錯誤的還希望大家多多指教。(我講的不好,詳細請查顏色視覺之類,都比較淺顯)
Q:人為什麼能看到光?
A:人有錐狀細胞和桿狀細胞。錐狀細胞主管亮視覺和顏色、細節;桿狀細胞主管暗視覺、提供單色視覺。
結論:人能看到顏色,是錐狀細胞接收信號導致的。
Q:那為什麼沒法把紅光和綠光混合的黃光分開。
A:因為錐狀細胞只有三種(αβγ細胞)……分辨親紅,親綠,親藍。也就是說人眼其實就認識這三種顏色,傳回大腦的信號就是接收的紅綠藍三色的多少。也就是傳說中的RGB,也就是那三原色,然後才有了CIE標準…(這裡我採用的三色理論思想,四色的我都忘了)…啊,扯遠了。來看看我百度的曲線。

這裡會發現啊,細胞對光譜的敏感不是一個尖峰,而是有坡度的,這就保證可見光譜上所有光它都接受得到了。(這裡跑個題,正因為吸收率不同,所以人對不同光的敏感程度不同,詳見視覺響應函數曲線)
前面也都說了,傳回大腦的信號就是接收的紅綠藍三色的多少,所以不是沒拆開,而是錐狀細胞把所有波長的光都拆了,然後不管你原來是不是拆的,拆和沒拆都在大腦里統一被組裝起來了。
因此,如果向一個像素上投射紅光與綠光,該像素被視網膜對應像素區親紅、親綠錐狀細胞識別,同時把紅、綠信號傳回大腦,大腦沒有識別能力自行疊加。如果向一個像素上投黃光,對應視網膜會把黃光拆成綠、紅,把綠、紅信號傳回大腦,大腦又疊加回黃。所以作用效果相同。

好啦,啰嗦完了,劃重點啦!
1、光的合成分解是人生理的問題,不是物理原理。
2、人看東西靠的是錐狀細胞和桿狀細胞,錐狀才能識別顏色。
3、錐狀細胞分αβγ三種,只能識別RGB三色。
4、什麼光攝入人眼都會被拆成RGB三色。
5、大腦有不顧一切把同像素上不同色信號合成的習慣。

結論:光沒有被合成,只是人眼看起來被合成。
(這裡第一個結論是我認為的,剛剛還跟舍友爭論了下。他說是物理現象,我說沒有改變光的性質應該不算光的問題範疇。第四個是生物、心理的,貌似還是假說階段,怎麼合成的我上課走神了……)

聲音這方面不熟,也沒法評價什麼。看各位的評論,貌似按理來說聲音也可以疊加的?


我覺得這個問題本身有問題
音軌合併後的東西是波+時域
如果要用光來類比,怎麼說也應該是波+時域吧?
有規律的光來組成的波+時域……那不就是視頻么?
於是人類也不是可以很愉快的欣賞視頻么……


因為你只有三種感光細胞,你看到的不是電磁波,是電磁波在一個三維空間的投影,你無法感受到RGB組合的色彩和單一頻率電磁波的區別

不是波疊加規律不一樣,是你自己的感受器有問題。


Good Question. 我用手機來拋個磚。
有一些答案已經描述了一些聽覺和視覺系統的不同。我說兩點:
1. 如何分辨音色
2. 測量範圍的意義

1. 音色
你拿鋼琴彈一個C和用小提琴拉一個C,理論上頻率應該是一樣的,聽起來為什麼不同?(我不是學音樂的,請忽略一些細節)我們分辨音色一般都利用泛音(高次諧波)的不同來區分的~諧波的倍率和強度不同讓我們可以區別各種樂器。即使把他們混在一起也可以分的出(事實上做到這一點需要一些專業訓練)。

2. 測量範圍
由於要分辨高次諧波,我們需要在很大的頻率範圍內都能聽到聲音,人耳一般可以聽到20Hz-20kHz的聲音,橫跨3個數量級,這對分辨諧波來說太有用了。而人類可見光的波長範圍400nm-670nm(原諒我沒有換成頻率,頻率實在是太高了),基本上就沒有諧波什麼事了。

其他的原理可以參考其他的答案,視覺系統為什麼分不清黃色和紅色+綠色這兩種本質不同但看起來一模一樣的光可以參考知乎上的其他問題。


因為你的眼睛只有三種分辨顏色的細胞,所以你的眼睛只能感知這三種顏色極其組合色的強度。而你的耳朵可以分辨聲波的頻率和強度。簡單的說你的眼睛是功率計,你的耳朵是頻譜儀。


推薦閱讀:

有沒有什麼高效的起床鈴聲?
一首歌怎麼樣才能算是另一首歌的第二個版本?
如何從聽覺上理解聲音的相位?
恐聲症(聽覺過敏)的癥狀和表現是什麼?
為什麼有些歌曲聽了很多遍,但是從沒去認真理解歌詞的意義,這是歌詞的原因還是聽眾忽略的原因?

TAG:視覺 | 物理學 | 光學 | 聲學 | 聽覺 |