多人一起喊口號為什麼聲音會放大？

01-04

明明每個人的音色音調相位等等都不同，為什麼我們聽起來聲音依然變大了呢？

很多人一起喊話相當於多個非相干聲源發聲。

先看看MATLAB代碼

n1 = 3*randn(10240,1); n2 = 4*randn(10240,1); [var(n1);var(n2);var(n1+n2)] ans =

8.982471219715123 15.951897448002246 25.577401599040254

大概就是 3*3 + 4*4 = 5*5 的結果

雖然說波形滿足疊加原理，但是耳朵感受到的是能量，因此實際感受到的兩個波形疊加的能量為

$left( a+b ight)^2=a^2+b^2+2abcos( heta)$

這裡將聲音抽象為高維向量，由於是非相干聲音，因此夾角 $heta$ 是遍歷 $[0,2pi]$ 的，因此 $cos( heta)$ 的期望是0，因此

$mean[{left( a+b ight)^2}]=a^2+b^2>max(a^2,b^2)$

當然大了。

一般多個獨立聲源我們都是這樣簡單粗暴處理的：

$Eleft(sum_k X_k(t) ight)^2 = sum_kE(X_k^2(t)) + sum_{i e j} E(X_i(t) X_j(t)) = sum_kE(X_k^2(t))$

如果你問為什麼 $E(X_i(t) X_j(t)) = 0$ ，它要是不等於0就不叫獨立聲源了嘛……

我來翻譯一下高票英語答案：

Let"s simplify this problem by considering the sum of $n$ monochromatic wave with identical frequency and amplitude but random phases.

The amplitude of the overall effect is the magnitude of the sum of $n$ unit vector with random directions on a plane. The expectation equals $sqrt{n}$ .

我們先簡化一下問題：只考慮n個頻率振幅相等、但是相位隨機的單色（簡諧？）波之疊加。

疊加和的振幅相當於n個帶隨機方向的單位向量之和的模長。這個模長的數學期望是 $sqrt{n}$ 。

現在沒有語言障礙了吧；下面我要問幾個比「閱讀英語答案」更可怕的問題：為什麼疊加和的振幅相當於隨機單位向量之和的模長？為什麼它的數學期望是 $sqrt{n}$ ?在回答這兩個問題之前，先回答一個更基本的問題：這些隨機向量服從的是什麼（聯合）分布？

高票答案的評論區只有兩三個人在認真討論這些問題，其他大部分人大概是既沒看懂英語又沒看懂其中的數學，就在那跟風噴，可以說是非常沒有幫助的評論了。

聲音的大小是用聲波的能量來衡量的。而非相干波疊加的時候，疊加波的能量就是各個疊加分量的能量的和。無論聲源是否單頻、是否等幅度，只要他們是非相干的（數學上講就是聲源中每個頻率分量的相位和其他所有聲源中這個頻率分量的相位之間統計獨立），這個結論就成立。我記得一般大學物理教材光學部分會講到這個東西，聲音也是一樣的原理。

證明並不難，單頻波只是兩個隨機相位的sin函數，平方和展開，求個期望，交叉相乘項就沒了。多個波、複合頻率波的證明原理相同，只不過寫出來符號比較多會複雜一些。

英文哥的結論只是上述一般結論的一個特例，因為正弦波的能量正比於幅度的平方，所以n個非相干的單位幅度正弦波互相疊加，疊加波的能量就是原來的n倍，因此幅度是之前的sqrt(n)倍。

Good question.

Let"s simplify this problem by considering the sum of $n$ monochromatic wave with identical frequency and amplitude but random phases.

The amplitude of the overall effect is the magnitude of the sum of $n$ unit vector with random directions on a plane. The expectation equals $sqrt{n}$ .

下面第3行有一個筆誤，後面應該是u2，不是u1.

剛看到知乎的公示編輯終於好用一點了，以前害得我每次想寫個小文章什麼的都要先寫好再截圖

實在看不下去了，這種問題有必要解釋那麼複雜么？不是每個看知乎的人都懂聲學啊。

兩個人喊話，能量加倍，所以總音量+3dB。

四個人喊話，能量再加倍，總音量+3dB。

八個人喊話，能量再加倍，總音量+3dB。

余此類推。

總之，能量加倍，+3dB。

結束。

因為

你看振幅是不是變大了

只要別是有人故意錯半個相位去喊，振幅都會變大

圖好像掛了

人們聲音之間的疊加應該屬於非相干疊加，所以搜索非相干疊加相關的物理知識可得。以下為鏈接，雖然是光的，但在這個問題上應該與聲波類似。5.2 相干疊加與非相干疊加疊加條件

反對能量相加的答案，如果針對錄音機，其所錄製的聲音強度的確可能是能量疊加的，但在人耳接收後，其在大腦中產生的聲音疊加則近似是波形疊加的，其強度遠遠超出你們的答案。

這裡的聲音完全不能採用不相關假設，恰恰相反，一起喊口號時，人耳所首聽到的不同聲源的聲音是強相關的（儘管未必相干——頻率可能不嚴格相同，但是ρ絕對不是0）。而人對於聲音大小的主觀認識，依賴人耳對目標聲音/背景雜訊（能量信噪比）的感知。經過人耳的濾波，多個信號幅度直接疊加，能量成倍增加，同時降低了背景雜訊，造成了巨大的信噪比增益。

以下是更詳細的解釋：

多人喊口號時，明明不同的人音調，音色都不同，完全不符合相干波的疊加效應，但為什麼我們聽到的聲音會變大呢。原來，身為人類的聲音接收器，人耳並不單純是一個簡單的幅度接收器，在漫長的進化過程中，人耳不但具備了接受聲音幅度的功能，還具備了一定的信號處理能力。例如，在一個安靜的環境中，一根針掉到地上都能被聽到，但同樣的響聲在交響音樂會上，一般人就聽不到了。

一開始科學家認為這種聽不到是注意不到，只要像喂狗狗一樣多訓練幾遍（怎麼訓練？參看電影《風聲》），人類就能聽得到。但是，經過漫長的測試，科學家發現這種聽不到並不是說還存在但不明顯，而是實實在在的「消失」了，這就是大名鼎鼎的「掩蔽效應」

1、掩蔽效應

而掩蔽效應這個概念，也是多樣的。其主要包括以下幾個效應：

T1：一個強純音會掩蔽在其附近同時發聲的弱純音，這種特性稱為頻域掩蔽，也稱同時掩蔽(simultaneousmasking)。

這是什麼意思呢？簡單來說，如果我在250hz聽到一個很強的聲音，在251hz 聽到一個較弱的聲音。在這種情況下，251hz這個聲音對我就不存在。如果學過信號處理的同學，可以理解為一個頻帶極窄的帶通濾波器加上一個頻帶較寬的帶阻濾波器（幅頻特性曲線如圖）。沒學過的同學也不要緊，你們要做的就是相信我……

人耳濾波器的近似幅頻響應（matlab濾波器實現見附錄）：

T2：除了同時發出的聲音之間有掩蔽現象之外，在時間上相鄰的聲音之間也有掩蔽現象，並且稱為時域掩蔽。

這是什麼意思呢，可以理解為，如果我聽到了一聲巨響，在一段時間內我的耳朵裡面都會嗡嗡的，這個效應的來源主要是大腦對聲音的處理時間。因此，幅度大的聲音可以壓制短期範圍內幅度小的聲音。

除了掩蔽效應之外，我們還要了解人耳對聲音的判斷。

2、響度

人耳對於聲音的判斷並不直接和波形大小相關，而更類似於所接收到聲音的信噪比。用通俗的話來解釋就是，當處在安靜的環境中，你會感覺某些極為微弱的聲音變大，比如呼吸的聲音，心跳的聲音。相反，當你處在一個嘈雜的環境中，很多原本並不小的聲音就會顯得很小。尤其是，當你問同桌問題時忘記摘掉耳機的情況下。

換句話說，一個人的聲音，不但要考慮自己的大小，還要考慮到所處的背景。說到背景，那背景又是如何確定的呢？這主要來源於高頻低頻中那些沒有被掩蔽掉的部分（即帶阻的高低頻），而背景雜訊是一直存在的。

當我們處在嘈雜的野外（白雜訊），有的時候我們往往察覺不到吵鬧，此時的雜訊是獨立的。而我們處在吵鬧的自習室中，即便分貝相同，我們也會覺得比野外更加令人心煩。因為此時的雜訊來源主要是人聲，雜訊變為窄帶雜訊。我們直觀上能感覺出來其與背景雜訊（寬頻白雜訊）的區別，令我們覺得厭惡。

3、強相關的信號

多人喊口號不同於多個基站傳播信號，絕對不能認為是獨立/非相關的，恰恰相反，多人喊同一個口號的信號正是強相關。

很多答主認為，不同的信號如果頻率不同、音色不同、音調不同就應當是獨立的。這就要涉及到通信中擴頻的部分概念了。

首先，我們考察頻率，儘管頻率不同，然而多人喊口號的頻率範圍大體是一致的。我們考察下人類中頻域最寬闊的藝術家，其頻域範圍為：

男低音82～392Hz，男高音164～698Hz；女低音82～392Hz，女高音220～1100HZ

相比較演唱藝術，喊口號所需要的表現力並不會那麼誇張，頻域大概在100hz~500hz左右。

而人類的聽力範圍是多少呢？正常人的聽力範圍約在20hz~20000hz之間。

不難看出，相較於人類的聽力範圍，人類說話的聲音本身被限制在了2.5%的頻域範圍內。這個範圍內的聲音，已經不能稱之為獨立信號了。即便其內容毫不相關，發聲器材也毫不相關，其最多也只能被認為是窄帶高斯雜訊，而不可能是完全獨立的白雜訊。

其次，我們考察相位。從相位而言，多人喊口號絕不可能是毫不相關（均勻）的，相反，多人一起喊口號其相位分布應當是一個σ極小的高斯分布才對。否則，不同人發出的聲音絕不可能被認為是一起的。

第三，我們考察音調和音色。當不同的人喊口號的時候，我們往往是一個字一個字的喊（而且主要頻率是其母音部分），這個過程是強周期性的，且周期很長。相較於母音的周期，音調的周期要小很多。由於頻域的掩蔽效應。當對口號濾波時，高頻音調分量將被直接濾掉。

下圖為漢語中兩個音節的能量圖，白線為音節開始，藍線為音節結束。中間頻率快的部分波動是基音（音調）造成的[1]。可以看出，如果對口號（內容）進行濾波，能量極低的基音將很容易被濾除。

而音色則主要是主頻附近的旁瓣效應，在人們日常交流中主要用於確認身份。當人耳在聽口號的時候，由於不同的人聲相互混雜，聲音主瓣被加強，而不同的旁瓣則會相互抑制。因此音色在此也不起到作用。即便有些影響，進行一次濾波也足以濾除相關雜音。

因此，我們完全可以認為當一起喊口號時，只要口號夠齊信號甚至不但是強相關的，連相干都有可能做到。而即便是強相關的信號，當不同的聲音匯成一句話，其波形將會直接疊加，與此同時，背景噪音因為萬眾一致則下降，由此產生的信噪比增益是指數級別的增加。當然，由於空間多樣性的影響，信噪比不會高到無限大，但也足以產生震耳欲聾的效果。

4、被降低的雜訊

有的答主可能會質疑能量的來源。首先，濾波器本身就改變信號的能量，其次，聲音的響度並不直接取決於聲音的大小（超過痛域除外），而是取決於聲音的信噪比。一個高強度的純頻點甚至會造成對於遠超其頻點周圍的高/低頻聲音的壓制，即，某種意義上，其甚至降低了背景雜訊，更何況，人耳的聽力靈敏度在不同的頻點是不同的，語音頻點本身就是人耳最靈敏的幾個頻點之一，因此才會出現極高的信噪比。單純從能量看是無法理解這麼高的信噪比的。

PS：寫完對這個答案很不滿意，寫的太快，裡面有不少不嚴謹的地方，文字也絲毫無法和各位高票答主相比，回頭還要學習各位的文采，歡迎大家對答案的通俗性和科學性提出批評。

[1] 語音信號處理之（二）基音周期估計（Pitch Detection）,zouxy09的專欄 - CSDN博客http://blog.csdn.net/zouxy09

[2]分享matlab程序之--濾波器（帶通，帶阻）_殘翅天使_新浪博客

附錄A，人耳近似濾波器實現

想要嘗試模擬的同學可以採用兩個切比雪夫濾波器[3]（一個帶通，一個帶阻）並聯得到，考慮到總歸是近似，我這裡直接取了max。

matlab近似的代碼如下

fB1=300;fB3=350;%通帶截止頻率上下限 fBsl=250;fBsh=400;%阻帶截止頻率上下限 rp=0.1;rs=30;%通帶邊衰減DB值和阻帶邊衰減DB值 Fs=4000;%採樣率


wp1=2*pi*fB1/Fs;

wp3=2*pi*fB3/Fs;

wsl=2*pi*fBsl/Fs;

wsh=2*pi*fBsh/Fs;

wp=[wp1 wp3];

ws=[wsl wsh];
% 切比雪夫帶通濾波器；

[n,wn]=cheb1ord(ws/pi,wp/pi,rp,rs);

[bz1,az1]=cheby1(n,rp,wp/pi);

%查看帶通濾波器的曲線

[h,w]=freqz(bz1,az1,256,Fs);

h=20*log10(abs(h));

figure;plot(w,h);title("帶通濾波器的通帶曲線");

grid on;
f1=250;f3=400;%阻帶截止頻率上下限

fsl=200;fsh=450;%通帶截止頻率上下限
wp1=2*pi*f1/Fs;

wp3=2*pi*f3/Fs;

wsl=2*pi*fsl/Fs;

wsh=2*pi*fsh/Fs;

wp=[wp1 wp3];

ws=[wsl wsh];
% 切比雪夫濾波器；

[n,wn]=cheb1ord(ws/pi,wp/pi,rp,rs);

[bz1,az1]=cheby1(n,rp,wp/pi,"stop");

%查看帶阻濾波器的曲線

[h2,w]=freqz(bz1,az1,256,Fs);

h2=20*log10(abs(h2));

figure;plot(w,h2);title("帶阻濾波器的通帶曲線");

grid on;

% 總體濾波器曲線 h0 = max(h,h2); figure;plot(w,h0);title("近似濾波器的通帶曲線"); grid on;

也許可以從能量的角度回答一下。

每個發聲的人相當於一個波源，每個聽眾的耳朵相當一一個接受器，接受器同時接受幾份能量的和肯定大於接受的一份能量。

人聲成分複雜，並且只在短時內穩定（源於發聲器官的慣性運動），隨機性很強，干涉並不容易產生規律性的峰谷疊加或抵消。

再說一點跑題的。

人越多，能量越大，聽越來越響，但之間並不是線性關係。

史蒂文斯冪法則可以描述這種關係。Stevens"s power law神奇之處在於不僅可以描述對於聲音強度的感知，還可以描述對溫度、甜咸、重量、電擊等等的感知。

以下摘自維基百科 Stevens"s power law

Stevens"s power law is a proposed relationship between the magnitude of a physical stimulus and its perceived intensity or strength.

The general form of the law is

$psi (I)=kI^{a}$

where I is the magnitude of the physical stimulus, ψ(I) is the subjective magnitude of the sensation evoked by the stimulus, a is an exponent that depends on the type of stimulation, and k is a proportionality constant that depends on the units used.

由聲波的線性疊加原理，接收點（耳朵）的聲壓p（t）等於各人獨自發聲時的聲壓之和。聲壓級則是有效值（方均根，rms）的對數值，由於各個聲源之間不相干，總聲壓rms的平方等於各聲源rms的平方和，然後再計算聲壓級。

聲學專業課程里，耳熟能詳的例子就是：兩個rms相同的不相干聲疊加，聲壓級增大3分貝。兩個完全相同的聲疊加（此時rms也相同），聲壓級增大6分貝。

喊話者可認為是不相干、等rms的聲源，一起喊話聲壓級會加上去。相比一個人，2個人加3分貝，4個加6分貝，8個加9分貝，這樣類推。

雖然物理上不相干，但其內容卻可以一樣，可以人耳被理解，所以總體上聽到了放大的聲音。

應該從相干波的疊加來解釋，類似光的干涉。

沒從這個角度解釋的都是誤人子弟。

人多吃飯也多，口號再喊不響。飯真白吃了。

首先，說聲音大肯定是指耳朵聽到的聲音在大腦里反饋的音量大。這裡就有一個大腦反饋的延續時間，這個時間長度肯定不會是零。

然後，一群人發聲肯定不是指每個人隨機個時間點發出一聲然後就閉嘴，剩下就靠聲音自己傳播了。如果是這種情況，大腦接受的聲音強度不一定大。當然你也可以考慮在一個房間里還有牆壁反射的那一點，但應該影響不大。

實際上，是這群人在每個隨機時間點開始，在一段時間內持續發聲，這個時候在大腦反饋聲音強度那個時間段還沒結束前會一直持續不斷接受到每個人的聲音，所以肯定疊加變大。

抖個機靈

讓你一個人去大街上喊句我是傻X是不是害羞，礙於臉面喊的不賣力呢？

換成100個人上了大街喊的時候，你的內心肯定是這樣的，大家都是傻X，有什麼好害羞的，喊就喊唄

不一定，經常帶隊的比下面一個排的喊得都響

剛剛看到的。。。。

這個答案後面有好多人在噴答主

然後下面

233333333

聲音的大小，不是有音色音調決定的，是由響度決定的。

響度（loudness）：人主觀上感覺聲音的大小（俗稱音量），由「振幅」（amplitude）和人離聲源的距離決定，振幅越大響度越大，人和聲源的距離越小，響度越大。（單位：分貝dB）

上面是百度百科關於響度的解釋。響度是由振幅決定的，在波里，振幅是可以疊加的。

因此，同時說話，振幅一致疊加，因此聲音會變大。

即使不是同時說話，各種吵雜的聲波，也會雜亂地疊加，就像教室里的噪音一樣。