當深度學習邂逅高能物理
來自專欄物理學與機器學習12 人贊了文章
首先說明,這裡的高能物理,指的是以實驗為導向的數據分析和模型鑒別,暫時還不存在深度學習活活學出拉格朗日量的協變形式這麼厲害的。目前在高能領域,深度學習作為一種新興的數據分析工具而存在。一個有趣的事實是,Kaggle的創始人做過高能物理。
文章最開始,我們探討兩個問題:
- 這裡專門提到了是「深度學習」,而不是其它的理論更完善的機器學習方法,為什麼?
- 正因為深度學習可解釋性弱,在實驗上還敢用它來分析數據嗎?
根據我讀過的文獻和聽過的報告,可以初步回答這兩個問題:
第一,為什麼恰恰是深度學習?
這需要先提一下高能物理實驗的細節了。高能物理實驗一般怎麼做的?碰撞。幾個(一般是兩個)好端端的粒子給撞得稀碎,射出碰撞的殘餘物。殘餘物中有一些我們我們想要的東西(稱為「信號」,比如說理論預言的新粒子),剩下就是一些副產物(稱為「背景」)。四周布有排列整齊的探測器(能量沉積器calorimeter, 時間投影室TPC??等等),用來收集和分析碰撞殘餘物。信號粒子一般並不會成熟穩重優雅端莊的飛到布好的探測器中,而是會進一步衰變別的粒子,偽裝成「背景」,而實驗學家需要從收集的數據中分辨「信號」和「背景」,通過數據來判斷自己有沒有搞出個大新聞。
總結一下,三點中心(廢話這麼多,喂!):
- 排列整齊的探測器,展開後,就是一幅二維圖像。如果探測器能探測粒子多個性質,那麼就是一幅三維圖像。深度學習最喜歡上圖像了嘿嘿嘿~
- 真實發生的物理過程極為複雜。比如,熟悉QCD的朋友可能知道,膠子和膠子相互作用會產生新的膠子,新的膠子可以和所有其它膠子作用(包括剛剛產生它的膠子,太亂!)。深度學習雖然複雜,但一般還是有層次的架構(除了DenseNet, Reservoir等工作)。從這點上看,深度網路相比物理來說還是小透明~用它做ansatz是簡化了物理,而不是複雜化了物理!
- 高能碰撞產生的數據是極為大量的,這好符合深度學習「數據饑渴」的特徵。
至於其它的機器學習演算法,在高能領域用得比較少,其實是因為???高能領域的不少唯象模型和數值方法天然的運用了機器學習的一些精髓(我知道的,核子密度模型用了KDE, 而QCD中從傳播子反推譜函數和Hydro flow分析會用到PCA),只是大家可能都不太屑於寫文章自稱「機器學習」罷了;而Deep Learning著實火了一波,大家又覺得這熱度不蹭白不蹭,萬一真做出有價值的工作了呢(嗯,其實還不少,真的)。
第二,為什麼敢用深度學習?
高能物理中好些唯象模型有大量的可變參數,在理論上每套參數都可行,只能依靠分析實驗數據。
同樣,實驗也一樣,大量的實驗數據出來了,往往是實驗學家手動設計觀測量(統計量observable),可想而知這些統計量的局限性比較大。如果機器能自動決定統計量的形式,那不是很妙嗎?
再者,高能領域不同的實驗有不同的精確度。有的數據做出來誤差棒都100%了,我用一個95%準確率的分類器似乎也沒什麼毛病吧。
總結一下,深度學習為高能物理的數據分析提供了新的可能。鑒於深度學習在計算機視覺、自然語言處理等領域擁有如此好的效果,我們有理由相信深度學習能同樣應用於解決物理問題(嗯!)。
最後還是得上點乾貨,介紹幾篇 深度學習♂×高能物理♀ 的文章,看看這個領域人們的腦洞是怎麼樣的~按照物理主題的分類,依次介紹Jet和Hydro。
JET
背景介紹
類似於字面上「飛機尾流」的解釋,Jet指的是高能量的、具有方向性的粒子束,為什麼是粒子束而不是粒子,因為會有複雜的相互作用產生很多奇奇怪怪的粒子。
Jet的產生:高能粒子流對撞,噴射出新的粒子束。見下圖。
Jet physics的主要任務,是通過探測到的Jet, 來判斷碰撞之後、相互作用之前曾經存在過哪些粒子,給這些神秘粒子以標籤(tagging). 最簡單的,作為一個二分類問題,判斷這個Jet是W Boson產生的,還是背景QCD(膠子)產生的。直觀上,大家可以看看真實的實驗數據:
後來實驗學家們又發現了fat jet, 主要來源於極端相對論中「前燈」效應,如圖所示:
也就是說,本來看起來只是一個fat Jet, 其實是三個Jet, 每個Jet都有子結構。這又出現了如何辨別子結構的問題,這裡只是提提,不再多談(主要是我不太會555)。
Jet產生的物理圖像,就是一顆樹的分枝過程。從碰撞剛產生的粒子開始分叉,粒子每行進一段距離就分裂成兩個,兩個接著行進又繼續分裂……在這種物理圖像的引導下,人們發明了各種演算法對各種Jet來進行重構,大概想法就是逆著時間線倒推,小粒子兩兩合併形成中粒子,中粒子繼續合併形成大粒子……
好了,背景差不多介紹完了……
如何讓深度學習摻和進Jet Physics呢?我看到的有五種比較有意思的想法,和大家分享:
- 暴力用CNN做圖像分類問題,一般標題中出現「某某粒子+tagging」的都是這類。一般預處理很重要,預處理後兩類圖像往往就已經出現肉眼可辨的差別 :)比如:信號有三個亮斑、背景只有兩個亮斑;再比如,信號圖像的下方明顯比背景更亮一些,等等。然而,這類工作對自動分類還是有很大意義的,儘管創新型不強。這方面文獻太多,深度學習×高能物理中一半以上都是這種。所以我就不貼鏈接了,免得給人一種欽點的感覺。
- 用RNN/LSTM等架構。其實我一直好奇為什麼用RNN/LSTM,比CNN好在哪呢?直到我給一位作者寫了郵件,他說僅僅是因為粒子數不定………我又問粒子的輸入順序怎麼弄呢,輸入順序顯然影響結果叭?他說你就隨便拿個指標排序吧(比如橫動量Pt從大往小了排)……行吧,大體也make sense
- 用樹來表示Jet.受到Jet 生成樹的啟發,設計出了ReCNN的架構。創新是:對於不同的事件,樹的架構是不一樣的(樹的結構還是通過跑傳統演算法得到的),但是「合併兩個粒子「這個操作對所有節點一樣、且可以學習。相比較而言,傳統辦法是線性相加兩個粒子的特徵,現在改成帶參數的非線性激活,因此表達能力上明顯增強。
- 用圖來表示Jet. 所謂的MPNN(Message Passing Neural Network), 會考慮不同粒子之間的距離因素。不過到現在都沒覺得make sense, 但用於分類的效果非常棒呀(99%準確率)。
- GAN做Jet圖像的生成。個人看法:沒什麼卵用。你生成些和實驗圖像長得像的假圖像有啥用啊,實驗上數據已經那麼多了,你還生成數據來添亂?仔細想想,唯一可能的用處是:把訓練好的GAN的辨別器單獨拿出來,用來異常檢測。生成器只是在訓練階段提供負面樣本的,訓完就沒啥用了。
2-5文章/slides鏈接順次貼上來:
DeepJet[1702.00748] QCD-Aware Recursive Neural Networks for Jet PhysicsMPNNSimulating 3D High Energy Particle Showers in Multi-Layer Electromagnetic Calorimeters with Generative Adversarial NetworksHydro
(我們組正在做……)
背景介紹
Jet的產生是較高能的粒子碰撞產生的,產生的粒子因為速度大來不及達到熱平衡就已經脫離碰撞體系了,表現出十足的粒子性。
如果能量稍微低一點呢?典型的重離子碰撞,碰撞能把核子撞散成好多夸克,但是強相互作用讓夸克不能單獨飛出去,系統呈現出很強的集體行為。
基本物理圖像如上圖所示:重離子碰撞完畢後,在非常短的時間內, 夸克膠子湯(QGP, Quark Gluon Plasma) 達到熱平衡(thermalization), 之後體系遵循相對論性流體方程向外界(真空)擴散。由於強相互作用的」禁閉「作用,體系不會擴張得太快,處處能達到局域的熱平衡, 因此在局域可以利用平衡態統計來計算各種物理量。隨著QGP向外膨脹,溫度逐漸降低;當溫度降低到相變溫度 時,QGP從流體經過強子化(hadronization)相變變為粒子出射。產生的粒子繼續飛行(和其它粒子可能存在散射),直到被探測器接收。
關鍵的演化步驟是拿相對論性的流體方程模擬的,所以稱為Hydro(dynamics).
深度學習在重離子碰撞這一塊才剛起步……主要有兩篇比較有名的文章
一篇是做狀態方程的鑒別,相變有一級相變和連續相變,我們不清楚QGP到底經歷了哪種相變,兩種相變各跑一堆simulated data出來,最後訓練一個CNN來做一個二分類問題。只要實驗做出來了,固定模型其它超參的情況下,拿這個網路一預測,就能知道QGP到底經歷了哪種相變。
[1612.04262] An equation-of-state-meter of QCD transition from deep learning另一篇是組裡的工作(捂臉),用的Stacked-Unet架構來學習相對論流體的演化,說明了相對論性流體的演化也是可以被卷積所刻畫的。
[1807.05728] Applications of deep learning to relativistic hydrodynamics我一直以來有一個疑問:非線性方程(尤其是N-S方程)到底是怎麼能被只有卷積的網路刻畫的啊?也沒有過擬合,如果不是數據多樣性太低的話,這真是一件神奇的事情。
推薦閱讀:
※「電話號碼必須通過驗證」iPhone 盜號的新手段?
※扎克伯格等科技富豪的億萬豪宅
※來自天頂星 適馬黑科技dp1Quattro試用|適馬|dp1Quattro
※雷軍發微博:高通驍龍845發布會 我是唯一手機廠商代表 你怎麼看?
※App Store 十周年:繁與簡
TAG:深度學習DeepLearning | 粒子物理學 | 科技 |