現在的音響技術可以人工合成人頭錄音效果嗎？

12-03

遊戲早就普及了人工合成5.1聲道，但是不僅遊戲里沒有出現過即時合成的人頭錄音效果，連專業影音的混音也沒有出現過這樣的效果。我見過的人頭錄音的唱片全是真的用人頭模型錄下來的。
按理說以現在計算機的運算能力，應該可以在虛擬空間還原整套模型了啊，不就是一個人頭模型嗎，反射衍射都算上能有多少計算量？
當然，耳機聽音樂的市場不大，但是自動化處理應該也沒多少成本吧？而且技術成熟後在遊戲和電影領域會非常有用。

像題主所說的，遊戲領域實現了5.1甚至7.1的人工合成聲道，但人頭錄音需要解決的是更大數據計算量，每一個音軌，每類聲音的遠近，一旦處理不好，聲音就會相互干擾。

人們聽到的聲音和空間中實際發出的聲音其實是不同的，聲音在傳到鼓膜之前會受到人頭部以及頭部上各種結構以及材質的干擾，而些干擾可以被大腦察覺並且成為空間判斷的依據，這就是為什麼人可以分辨聲音方向與距離的原因。

HRTF (人頭傳遞函數) 可以理解為這些干擾的統稱，它從實現方式上可以分為數字HRTF和自然HRTF。Oculus Rift和很多遊戲中採用的就是數字HRTF，而自然HRTF是基於雙耳錄音(Binaural recording)的實現方式，但是因為實現方式不能像數字HRTF那樣自由，所以主要應用在影視以及音樂製作中。目前數字HRTF由於各種限制，還無法達到自然HRTF的真實效果。

目前，市面上能解決VR音頻的技術方案各有各的優勢，主要包括以下幾張實現方式：

一、4向採集---聲場還原---數字HRTF模擬---全景回放，包括SoundField Digital Surround Sound Microphone Systems、Core Sound TetraMic等。這種解決方案的最大優點在於體積小方便攜帶，但缺點是方向信息是通過模擬產生，與實際聲場有很大區別，通過後期數字HRTF加工，來還原出音源方向。

二、立體8向採集---聲場還原---數字HRTF模擬---全景回放，目前只有NOKIA、OZO使用這種技術方式，主要採用數字HRTF方案。NOKIA使用了按照等邊多邊形方式擺放的8個聲音感測器來收集數據，然後通過聲場還原出360度各個方位的聲音信息，再通過數字HRTF運算來加工為人可以感受的VR音頻。不足之處在於，將所有的聲場運算與HRTF運算全部在終端設備中完成，這個運算量對使用手機設備作為終端的VR設備來說，壓力巨大，且價格較高，約6萬美元。

三、自然HRTF採集---聲場優化---全景回放，包括3dio、Omnia(OculusVR音頻技術合作商)以及森聲科技Scenes的VR音頻採集設備。這種解決方案由雙耳錄音(Binaural recording)技術發展而來，採用自然HRTF而非數字HRTF，在聲音的逼真度上較高，用戶可以清楚的辨認出方位和距離，對於要求較高的VR拍攝團隊或企業來說，性價比較高。

@殘痕的答案很專業，我從應用上做點分析。

人頭錄音原理很簡單，降低音質要求的話錄製成本也可以很低（可搜索鬥魚等直播上的ASMR感受下），但問題出在它的傳聲特性：
普通錄音方式可以兼容音箱和耳機，而人頭錄音就只能適用於耳機。

總結起來要實現的話有兩個難點：

1. 不具有普適性，對高品質音樂體驗不佳。

因為HRTF這個人頭函數目前不具有普適性，較真起來每個人的耳廓耳道都有不同的HRTF，實際上用耳機聽人頭錄音也會覺得有點怪，人類敏銳的聽覺系統會覺得這與以往的聽音習慣不太一樣，因為那個HRTF信息是來自硅膠人頭，不是你的。

而用人頭錄音製作出來的音源通過音箱播放後會明顯劣化：聲場定位混亂、音染嚴重、頻響不準等等。最終到達人們聽覺神經的是包含了硅膠人頭HRTF信息的聲音+你本身頭部HRTF信息的聲音。

2. 巨大的數據處理量沒有軟體廠商願意承擔。

如果將來這一技術可以研究出具有普適性的辦法，肯定會出現將傳統錄音通道加入數字化HRTF信息的方式，不考慮計算量的情況下，只需要在軟體內增加一個切換按鈕即可實現。

不過目前如果這麼做，原理上難度是不大，但音頻通道即時處理的計算量肯定會非常大，因為它要把一個聲音所有可感知的各種頭部反射都單獨處理成一軌音頻，併疊加混音輸出，而能夠提升的用戶體驗遠不如視覺和功能上的直觀，所以，哪怕是播放器目前都不願意研究這個功能。

——————— 開腦洞補充下 ———————

在未來，有需要的玩家可以去專業聲學機構檢測自己的HRTF數據，在需要使用人頭錄音的場景下將數據文件導入設備，就可以任意切換音箱和耳機模式了。也可以和發燒友交換數據感受一下。

做耳機的人頭混音還是很容易的，HRTF是線性函數，非常簡單，實時計算也不算什麼難點，FFT做8K點現在也跟玩似得。

但是，做音箱陣列的人頭錄音效果要困難得多得多。主要問題是聲場環境的問題。除非把用戶的聽音環境和錄音室一樣，否則沒法還原。

DTS Headphone X理論上已經實現了模擬的11.1聲道，和人頭錄音已經更接近了。

人頭錄音適用範圍不廣，只是近距離的時候才暫時無法替代，距離遠了是可以模擬出來的

成本太高。從業者的角度人頭錄音增加了製作成本，從消費著的角度你願意花費19.99刀買一個耳機專用版的《變形金剛》嗎？

我也想問。我了解下來好像人頭錄音是通過模擬人頭來達到頭部相關傳輸函數，這個演算法似乎相當複雜，目前都沒有確切的可以模擬的方法，不只是反射衍射的。
單單只是一個固定不動維度的人頭錄音模擬合成就相當困難，如果合成了的話那VR的全景聲要保證多個維度的全景聲那個計算量也是非常恐怖的了

見過某部av里就用上了

因為做人頭錄音並不費多少事基本每個專業團隊都常備各種麥