計算化學領域中有哪些技術可以被稱為是當前的黑科技?

從電子結構計算方法到介觀尺度的粗粒化(Coarse-grained)力場方法等,有哪些黑科技或者是令人目瞪口呆的trick?


謝謝邀請。這裡專家好多,我離開專業時間已經很長了,就寫個科普的吧。另外也歡迎關注微信公眾號MadData,講述機器學習,人工智慧和背後瘋狂的數據科學家的故事

更新:發現喜歡的人還挺多的,歡迎轉載。請註明一下出處好啦。希望有更多的科學家出現,也希望有更多類似D.E.Shaw這樣的土豪科學家用黑科技摧枯拉朽地帶動科學前進。

歡迎留言,我會將你們知道的更多的細節整合到我的帖子當中去,讓這個故事更加真實、豐滿和有趣。感謝知友Anony mous提供Anton論文全文,感謝知友王洋提供關於DESRES的更多故事。
-------------------------------------------科普開始------------------------------------------------
黑科技,還是要提D.E.Shaw Research這個奇異的存在。

要講這個黑科技,我們可能要扯遠一點,先講講D.E. Shaw這個人是怎麼學術賺錢通吃,成為徹底的人贏的

D.E.Shaw是個學霸,是PhD們的偶像:斯坦福大學計算機專業的博士, 30歲不到就進入哥倫比亞大學做教授,專門研究超大規模並行計算。這已經是優秀的學術人生了。

但是Shaw覺得無聊。哥倫比亞大學地處紐約,遍地暴發的對沖基金男各種花天酒地,游嬉於各種model之間,作為一個同樣聰明的教授,卻只能坐在冷板凳上寫計算機model。雖然在科學家眼裡,後者甚至還要更性感一些,但是時間長了也……扯遠了,總之,Shaw不幹了。

於是他1986年放棄了鑽牛角尖的教授生涯,進入華爾街著名投行摩根斯坦利做quant trading(可以通俗地理解為用計算機自動炒股、債和外匯)。果然, 呆博士不是搞政治鬥爭的料子,在摩根斯坦利這種錢多是非多、政治鬥爭和技術鬥爭同樣激烈的地方,僅僅2年之後他就在政治鬥爭中失敗,被迫離開摩根斯坦利(歡迎quant trading方面的達人來八卦補全這一段故事)。但是這廝本來就不是池中物,同年,他就開辦了自己的對沖基金D.E. Shaw Co. LP.,專註quant trading,利用高速計算機網路和市場瞬間的有效性缺陷來進行高頻統計套利。

和今天高頻交易人滿為患的情況不同:當時計算機很破,內存上兆的就是中型伺服器了,計算機語言和組件也比較晦澀,不像今天這麼普及和豐富,不會冒出來個12歲少年就能寫一個網站編一個遊戲,然後對著80後的老頭子們說你們不行之類的。因此,能掌握高速網路編程和大型並行計算的人,除了能算彈道和模擬核爆之外,還能成為第一批做高頻交易的人,乾的事情基本就是無風險套利——利用市場無效性,剪市場的羊毛,賺錢的速度僅僅取決於你能剪多快。

作為專門研究超大規模並行計算的頂級專家的Shaw,率先殺入高頻交易,完全是流氓會武術,誰也擋不住,剪羊毛速度世界一流,很快人生進入了新的高峰。到2015年,他的個人凈值已經41億美元(David Shaw - Forbes),殺入全球財富榜前500.

說了這麼多,怎麼還沒有談到計算化學?你別走,我現在就要說這事了。

David Shaw大叔40出頭財務自由,依照常人的想法,自然可以不再寫model,而一頭扎進紐約的花天酒地,去約會真的model了。但是,正如網路上著名的牛頓生平文章《牛逼頓》所說:

出乎世俗想像的是,科學其實遠比任何娘們兒都風騷,玩科學比玩女人爽得多,得到一個成果所獲得的高潮強烈而持久,不僅有快感,更有巨大的自我認同感,遠勝於那幾秒寒顫之後無邊的空虛與落寞。所以陳景潤其實是沉溺於美色不能自拔,身體弱架不住高潮過度被爽死了。

Geek的基因在身體深處搖撼Shaw大爺功成名就之後的空虛神經。他一個回馬槍殺回了科學世界,脫下西裝,露出了Geek的本色:

和屌絲geek Sheldon不一樣,這是一個破壞力驚人的土豪geek。Shaw現在再也不用跪舔NIH,NSF的官員,去討一點可憐的科研經費了。他想幹什麼就幹什麼;他覺得什麼是前沿什麼就是前沿。他拿出大規模並行計算的大砍刀,想找一個最需要計算但現今最不給力的領域一刀砍下去。

這裡有個背景:計算化學發展了很多年,都處在有點尷尬的位置,說得直白點——計算機還太弱,計算化學用於實際問題中算不準,精度還不如做實驗。因此,無論在化學還是生物領域,做計算化學的不管是教授還是PhD,要麼選擇和實驗的組合作,活在鄙視鏈的下游,要麼躲到角落裡小富即安地畫圈圈。

因此,Shaw的大砍刀就落到了萎靡的計算化學上:他想製造一台專門用於做計算化學的超級計算機,比現有的超級計算機強大幾千倍幾萬倍。

很多人可能要問,現在超級計算機動輒就是幾十萬個cpu核心什麼的,運算能力很強大啊,為什麼還要造計算化學的超級計算機呢?

答案是,一般的計算機是很聰明,但是不適合干計算化學這行。學術一點說,是general purpose computing不能高效地來做分子動力學模擬。

打個比方,現在的電腦就彷彿是個全能的機器人,你可以讓他去割麥子,做飯,踢球等等。讓他去干很多事情,他什麼都能幹,幹得也比人快,確實也很聰明。這就是所謂的通用計算機(general purpose computing):一個機器,寫不同的軟體,實現各種功能。

但是在割麥子這件事情上,這個全能機器人的速度很難超越專業的大型聯合收割機。因為大型聯合收割機雖然笨,但是完全為割麥子而生,因此硬體上量身定製,極度優化。這就是所謂的特種計算機(special purpose computing):專業定製機器,軟體也是專門定製的,只實現一個功能,但是兇殘而高效。

Shaw就是要造一台計算化學中的「大型聯合收割機」。這台收割機,叫做Anton。

它很貴很貴,但這正是Shaw的優勢,反正他不泡妞不包二奶,錢花不完。況且,科研人員其實很便宜。

這裡有一個好笑又辛酸的事情:和大眾的認識恰好相反,在美國,純理科博士畢業之後大多數都找不到工作,雖然智商大都不低,但是如果想堅持科研,做博士後的薪水只能勉強維持生活。

而David Shaw橫空出世,成為了紐約的孟嘗君。他招了一群找不到工作的博士——這些人在經濟上可以說是純粹的屌絲——開出了10萬美元一年的工資。

10萬美元一年是什麼概念呢?這就是投資銀行21、2歲小分析員的入門工資+獎金,在華爾街上就是底層,外面穿著西裝,裡面穿的可是開襠褲。但是對於這幫年屆三十的科學屌絲來說,這是他們能找到研究崗位工資的2-3倍,是個做夢都想不到的包養價。

於是一時間最頂尖的計算化學、生物物理、電子工程博士趨之若鶩,求David Shaw包養。

從2004年前後開始(請知情人指正),Shaw成立的DE Shaw Research(DESRES)開始正式運營。在David Shaw的精心包養下,30多個失業的博士屌絲們什麼也沒幹,在優雅的環境里,足足讀了一年半的論文,搞出了Anton的草圖。之後,更多的屌絲加入,全身心專註於Anton的研發。

2007年,比預期還早了快一年,來自五湖四海的屌絲和geek們發布了Anton的第一代。計算化學的最大黑科技誕生了:它比一般的超級計算機快約10,000倍。比最好的超算也快1,000倍。

對的。變態的10,000倍,四個零,四個數量級。

10000倍是什麼意思呢?計算化學裡面,模擬分子運動軌跡的持續時間的長短是非常重要的。用模擬網球比賽來做類比:以前「超級計算機」算了一個月,我們只能模擬出擊球的1秒鐘的瞬間,而現在Anton出世,我們同樣花一個月,就可以模擬整場球賽中網球的軌跡了。

這是前所未有的超算能力,變態的「大型聯合收割機」,等於開了上帝視角啊親。


從2007年起,D.E. Shaw的團隊聲名鵲起,用這個收割機每年在國際頂尖的學術雜誌《自然》和《科學》上灌水,學術聲譽不可阻擋。Anton在手,高枕無憂,彷彿別人在地面用捲尺畫地圖,他們在天上航拍做地圖。現在他們又出了Anton2,繼續吊打「過去8年中取得了長足發展的」超級計算機。

也許純學術派對這種硬拼計算能力的方法表示不屑,但D.E. Shaw和他包養的geek們正用變態的Anton計算機把分子動力學模擬大跨步地推向實用。

有錢就是任性。

以上文字來自知乎 @Zheng Sullivan , 原文鏈接:計算化學領域中有哪些技術可以被稱為是當前的黑科技? - 知乎用戶的回答 ( http://www.zhihu.com/question/30454088/answer/49284633 )


網站:
D. E. Shaw Research

關注微信公眾號MadData,二維碼連接如下:
http://note.youdao.com/share/?id=0d8ce21aabd965b38400c5125e509fcatype=note

---------------科普結束--------------
關於Anton設計上的一些細節,參見doi: 10.1145/1273440.1250664。 關於Anton為什麼能算這麼快的一些細節,全部在下面這幾段話里,總結一下就是:整個MD simulation的硬體計算被拆分成了硬體直接計算和可編程計算兩部分,兩者都是硬體實現的,速度比軟體實現要快萬倍。各個node之間通訊也是特殊設計的超高速低延遲網路,不是一般的網路。

To simulate a millisecond within a couple of months,
we must complete a time step every few microseconds, or
every few thousand clock ticks. The sequential dependence
of successive time steps in an MD simulation makes speculation
across time steps extremely difficult. Fortunately,
specialization offers unique opportunities to accelerate an
individual time step using a combination of architectural
features that reduce both computational latency and communication
latency.

For example, we reduced computational latency
by designing:

  • Dedicated, specialized hardware datapaths and control
    logic to evaluate the range-limited interactions and to
    perform charge spreading and force interpolation. In
    addition to packing much more computational logic
    on a chip than is typical of general-purpose architectures,
    these pipelines use customized precision for
    each operation.
  • Specialized, yet programmable, processors to compute
    bond forces and the FFT and to perform integration.
    The instruction set architecture (ISA) of these processors
    is tailored to the calculations they perform. Their
    programmability provides flexibility to accommodate
    various force fields and integration algorithms.
  • Dedicated support in the memory subsystem to accumulate
    forces for each particle.

We reduced communication latency by designing:

  • A low-latency, high-bandwidth network, both within an
    ASIC and between ASICs, that includes specialized
    routing support for common MD communication patterns
    such as multicast and compressed transfers of
    sparse data structures.
  • Support for choreographed 「push」-based communication.
    Producers send results to consumers without the
    consumers having to request the data beforehand.
  • A set of autonomous direct memory access (DMA)
    engines that offload communication tasks from the
    computational units, allowing greater overlap of communication
    and computation.
    l Admission control features that prioritize packets carrying
    certain algorithm-specific data types.

謝邀。說一下metadynamics吧。其實metadynamics算不上黑科技,但是符合題主說的「令人目瞪口呆的trick」。

在分子模擬領域,目前最大的瓶頸或許就是sampling efficiency。由於人們感興趣的化學/生物體系通常有成千上萬個自由度,勢能面更是複雜得無法形容,因此要達到ergodicity(只有這樣,模擬得出的各種統計力學量才有意義)非常困難。解決辦法呢?首先是要定義一個或幾個自由度為反應坐標(化學家一般用reaction coordinate,物理學家貌似更喜歡說collective variable,一個意思),然後主要關注體系在這一個或幾個自由度下的行為,比如可以通過掃描得到勢能面在這些自由度上的投影,也可以通過模擬得到系統在這些自由度上的potential of mean force。

這看起來很不錯,是嗎?可是,這還遠遠不夠...原因就是系綜里各能態之間的配分要遵循玻爾茲曼分布。能量越高的狀態,能被sample到的概率就以指數降低。你會說系統還有無規則熱運動呢。沒錯,可是室溫下一個kT才0.6 kcal/mol,一般的化學反應能壘都在幾十kcal/mol量級,構象翻轉也要好幾個kcal/mol,只靠kT完全帶不動啊,需要的時間太長了。為了讓廣大PhD畢業前能夠順利跑完simulation,很多的enhanced sampling technique於是被發明了出來。最常用的主要有umbrella sampling, replica exchange/parallel tempering, 以及我們的主角--metadynamics。其實另外幾種方法也很好用,只不過個人覺得mtd看起來最fancy~

關於mtd的原理,有一個很貼切的比喻:「往坑裡填沙子」。設想一個簡單的一維體系(手畫,見諒...):

在真實情況下(或者說小球開了上帝視角),小球會更傾向於呆在右邊那個能量更低的local minimum,但是如果從圖上所示的位置開始做一個un-biased MD/MC模擬,在勢壘顯著大於kT的情況下,小球很可能會一直呆在左邊晃來晃去很長時間,於是這個模擬就無法正確地描述體系的特性,和實際不符。在mtd里,小球每在一個點出現,系統就會以那個點為中心加一個小的bias potential,比如一個開口向下的Gaussian。這樣,在小球一直在左邊晃蕩的同時,左邊的「坑」已經漸漸被「沙子」填滿:

在真實情況下(或者說小球開了上帝視角),小球會更傾向於呆在右邊那個能量更低的local minimum,但是如果從圖上所示的位置開始做一個un-biased MD/MC模擬,在勢壘顯著大於kT的情況下,小球很可能會一直呆在左邊晃來晃去很長時間,於是這個模擬就無法正確地描述體系的特性,和實際不符。在mtd里,小球每在一個點出現,系統就會以那個點為中心加一個小的bias potential,比如一個開口向下的Gaussian。這樣,在小球一直在左邊晃蕩的同時,左邊的「坑」已經漸漸被「沙子」填滿:

在這個狀態下,小球就很容易跨過勢壘跑到右邊。隨著模擬的繼續進行,右邊慢慢也被填滿了(之前兩張圖裡勢能面的兩邊畫得不夠全,應該如下圖所示):

在這個狀態下,小球就很容易跨過勢壘跑到右邊。隨著模擬的繼續進行,右邊慢慢也被填滿了(之前兩張圖裡勢能面的兩邊畫得不夠全,應該如下圖所示):

現在小球已經是在一個近似flat的勢能面上運動了,那麼我們應當從小球的軌跡中觀察到它在各個點出現的概率接近相等。這時,我們可以近似地認為模擬已經converge。下面,最fancy最「目瞪口呆」的一步到了:

現在小球已經是在一個近似flat的勢能面上運動了,那麼我們應當從小球的軌跡中觀察到它在各個點出現的概率接近相等。這時,我們可以近似地認為模擬已經converge。下面,最fancy最「目瞪口呆」的一步到了:

我們把之前所有的bias potential加起來,得到一個能量對坐標的函數E(q),再用0減去E(q)(為了簡便,這裡假設最後坑被填得完全是平的)就是體系應有的自由能面(即上圖藍色部分的下邊界)。

我們把之前所有的bias potential加起來,得到一個能量對坐標的函數E(q),再用0減去E(q)(為了簡便,這裡假設最後坑被填得完全是平的)就是體系應有的自由能面(即上圖藍色部分的下邊界)。

當然,具體實現的時候有不少改進版本,比如well-tempered mtd等等,筆者不是做這個方向的所以並不清楚具體細節。 @肖石燕 是這方面專家,可以展開說一下~

最後順便提一下,mtd最早是Parrinello等人提出的,這個Parrinello是個大神級人物,他的另一項貢獻或許更為人熟知,那便是Car-Parrinello Molecular Dynamics (CPMD)...


最近對量子蒙特卡洛(QMC)感興趣正在學習,談不上黑科技,不過很驚艷。想在這裡做個筆記。先上文獻,以下內容基本是照著下面這篇綜述搬運的:
Reviews of Modern Physics Vol. 73, Pg. 33 Quantum Monte Carlo Simulations of Solids

目前來說,QMC主要分成兩種方法: Variational Monte Carlo (VMC)和Diffusion Monte Carlo (DMC),其中VMC比較簡單,也比較直接,但是效果並不好。真正在想法上比較有意思的是DMC,精度比較高的也是DMC。但是DMC需要用固定節點近似(fixed nodes approximation),而這個固定節點的位置往往用VMC來求。所以真正用的時候一般是VMC/DMC聯用。下面我們直接從DMC的基本想法開始。

首先描述一下問題,所有電子結構方法的根本目的在於求解定態薛定諤方程,也就是如下哈密頓量的本徵函數:
hat{H}Phi = EPhi (1)
hat{H}=-frac{1}{2}sum_{i}
abla_i^2+V(vec{R}) (2)
其中,方程2包含電子動能項和勢能項,勢能項取決於各個電子的空間坐標(一個3N維的矢量):vec{R}={vec{r}_i},波函數也是電子坐標的函數Phi=Phi(vec{R})

我們暫時把注意力從定態薛定諤方程中拿開,看一看含時薛定諤方程:
ifrac{partialPhi}{partial t}=hat{H}Phi (3)
如果我們把這個方程中的時間從實數替換成虛數(t
ightarrow -it),就可以拿到所謂的Imaginary-time Schrodinger Equation:
-frac{partialPhi}{partial t}=hat{H}Phi (4)
方程(3)的解我們很熟悉,就是一連串本徵函數的線性組合,每個本徵函數項前面有一個和能量相關的相因子(e^{-iE_it}),那麼在方程(4)中,把這些項因子中的時間替換成虛數,我們可以發現這些相因子都對應著一個指數項(e^{-E_it})。本徵函數的能量越高,在方程(4)的解中隨時間衰減的越快(或者增長的越慢,如果能量是負數的話)。這就意味著,我們從一個隨機的波函數Phi_0出發,用方程(4)作動力方程去evolve這個Phi_0,那麼演化的最終結果是,只要Phi_0中包含基態的成分,那麼能量最低的基態在整個波函數中所佔的比重將越來越大,在t
ightarrow infty的極限下,將完全收斂到基態上。當然,如果只看方程(4),基態作為領頭項,本身也有一個指數因子(e^{-E_0t}),這使得波函數整體可能會坍縮到0或者變成無窮大。在實際操作中我們顯然不希望和這樣的函數打交道,所以我們稍微修正一下(4):
-frac{partialPhi}{partial t}=(hat{H}-E_T)Phi (5)
那麼這個方程的解是:
Phi(t)=sum_i e^{-(E_i-E_T)t}Psi_i (6)
其中E_T是一個我們猜測的基態能量。可以看出來,如果我們低估E_T<E_0,那麼波函數整體會趨向0,如果我們高估E_T>E_0,那麼波函數會趨向infty。當E_T=E_0,波函數會完美地收斂到基態上。所以,在實際操作中,我們從Phi(vec{R},0)和一個猜測的E_T出發,然後用方程(5)演進Phi(vec{R},t)。根據Phi(vec{R},t)的歸一化條件不斷調整E_T,最後拿到一個finite的基態波函數和基態能量E_T。DMC的基本做法,就是用Monte Carlo (MC)去求解方程(5)描述的動力過程。

接下來我們重點看方程(5),我們暫時先假定波函數Phi(vec{R},t)是實函數(這個對於只含靜電項的非相對論哈密頓量都是成立的)且沒有節點結構,也就是說這個波函數沒有正負相位變化,處處為正。那麼我們可以把Phi(vec{R},t)想像成一個密度函數(注意不是真實的電子密度,真實的電子密度是Phi(vec{R},t)^2),代表著某種粒子在3N維空間中的分布密度。如果我們暫時不考慮方程(2)中的勢能項和E_T那麼方程(5)可以寫成:
-frac{partialPhi}{partial t}=-frac{1}{2}sum_i
abla_i^2Phi (7)
熟悉的人可以看出,就是一個典型的自由擴散方程(diffusion equation)。也就是說,如果某種粒子的分布密度是Phi,這種粒子在空間中做擴散係數為1/2的布朗運動。那麼規定該粒子分布密度隨時間的演化的diffusion equation在數學上和Imaginary-time Schrodinger Equation是完全一樣的!DMC名字中的diffusion就來源於此。也就說,要求解方程(7),我們只需要在相空間里按Phi規定的密度去灑一堆sample point({vec{R}_i}),然後讓這些點按照布朗運動的方式做隨機運動,我們就能拿到Phi(vec{R},t)
具體而言,對於每一個sample point,假定其初始位置在vec{R},經過時間	au後,其出現在另一點vec{R}的概率實際上是方程(7)的格林函數G,就是一個高斯分布:
G(vec{R},vec{R} (8)
所以在真正做MC的時候,對每一個sample point,只需要按照(8)中的概率去隨機產生下一個時間點的位置就可以了。

那麼,當加上V(vec{R})E_T之後,規定單個sample point運動的格林函數變得更加複雜,在長時間尺度下無法精確求解。不過在很短的時間間隔	au下,可以很好地近似成如下形式(推導參見文獻):

G(vec{R},vec{R} (9)
和(8)比起來,可以看出多了一個weighing factor:
P=exp[-	au[V(vec{R})+V(vec{R} (10)
注意方程(8)中擴散方程的格林函數是滿足歸一化的,也就是說,一個sample point在擴散完之後儘管可能出現在不同的位置,不過總體上仍然還是一個sample point,粒子數是守恆的。而方程(9)中的格林函數則非如此。也就意味著按照(9),粒子數是可能隨時間變化的。這就引出了DMC中sample point的空間移動外的另一種MC move:粒子數的隨機漲落。具體來說,如果P&<1,則按照(1-P)的概率刪除該點,如果P&>1,則按照P-1的概率在相同位置插入新的sample point。在這個過程中總的sample point數量不斷變化,而我們不斷調整E_T的值,使得sample point的總數維持在一個穩定的統計平均值上。這就是整個DMC的過程,可以用以下這張圖表示(來源於開頭的文獻):

從上到下,每一條橫線代表一個時間截面,每一個黑點代表一個sample point。可以清晰地看到每一個sample point的移動,生長和死亡過程。在大量的採樣下,最終sample point的分布將趨向基態波函數。

從上到下,每一條橫線代表一個時間截面,每一個黑點代表一個sample point。可以清晰地看到每一個sample point的移動,生長和死亡過程。在大量的採樣下,最終sample point的分布將趨向基態波函數。

這就是DMC的基本思路。注意到我們用了一個很重要的假設,就是波函數沒有結點結構。而多數情況下,費米子的基態波函數是有結點的。在這種情況下,Phi的值在每一個結點兩側正負相反。這種有正有負的函數不能簡單地對應到擴散方程上。因此對於稍微複雜一點的情況,我們就不能直接使用上述方法。這就是所謂的Fermion sign problem。為解決這個問題,必須使用固定結點近似(fixed-node approximation)。

固定結點近似的大意是說,假定我們知道結點的位置。也就是說,假定我們知道在什麼地方Phi(vec{R})=0。比如說對於一維勢井的第一激發態,我們很清楚地知道在x=1/2處有一個結點(如下圖a)。

那麼我們考慮在0~1/2這個區域內的波函數應該滿足什麼方程呢?首先當然是薛定諤方程:

那麼我們考慮在0~1/2這個區域內的波函數應該滿足什麼方程呢?首先當然是薛定諤方程:
hat{H}Phi = EPhi (11)
然後是邊條件:
Phi(0)=0(12)
還有結點條件:
Phi(1/2)=0(13)
然後我們知道在這裡面波函數沒有結點。
我們再考慮,如果有一個0~1/2範圍內的無限深勢井,這個勢井內的本徵函數應該滿足什麼方程呢?我們發現和(11)-(13)是完全一樣的。完全相同的方程和邊值條件意味著完全相同的解。也就是說在0~1/2範圍內我們完全可以用DMC解一個一半長的無限深勢井,拿到波函數的一半。同時在1/2~1這段如法炮製,拿到另一半。在盒子兩邊的DMC過程只通過享有共同的能量E_T相互交流。
更一般地,只要我們知道結點信息,我們就可以通過結點把整個3N維空間分割成數個相對獨立的子區域,然後在結點上加上一個無限高的能壘。對於每個子區域,我們使用上述DMC過程進行採樣,不同子區域之間僅僅通過共同的E_T進行交流。我們選取E_T,使得總的sample point數保持穩定。這就是固定結點近似的做法。當然前提條件是我們必須事先知道準確的結點位置和結構,這往往是不容易的。就像開頭提到的,一般而言會先通過VMC確定結點位置。而最終DMC的精度也取決於結點位置的精度。

到了這裡DMC的最基本的思路就講完了,稍微抒一下情。DMC的優雅之處在於它是如此的簡單(至少第一眼看上去是如此的簡單)。回想一下在各種CI,CC等方法中我們尋找重要的configuration,尋找重要的correlation時是何等地蛋疼,以之相比,在DMC里我們幾乎不需要對波函數有非常多的理解,因為不是從HF出發的微擾方法,DMC完全包含了correlation作用。當兩個電子靠的過近時,V(vec{R})會升高,P會減小,該sample point會被自動刪除,所以困擾HF這樣的平均場理論和DFT這樣的半經驗性理論的Coulomb hole的問題不復存在。另外感慨以下波函數的全部信息(比如spin configuration之類)都包含在了結點結構中,可見結點結構是何等的包羅萬象!DMC演算法極度簡單,容易實現,完全不涉及大規模的矩陣運算。不同的sample point和sample region之間僅僅通過E_T交流,沒有communication的問題,幾乎是完美的並行演算法。最後,個人覺得DMC的思路本身就十分優雅。通過量子體系和某些經典力學體系在數學上的相似性而建立聯繫,從而使得我們處理經典力學的一套方法可以移植到量子體系中來,像Path-integral Monte Carlo這樣的演算法也頗有這樣的神韻。


要說真正的黑科技,那得是對最難問題的解答。計算化學乃至整個理論化學界最難的問題,是徐光憲所稱的「第一難題」,或者「化學的第一根本規律」:關於化學反應的含時多體量子理論和統計理論。基於這個理論,才能更加容易地預測分子間能否發生反應,生成何種產物,如何催化,如何控制反應速率。
不過,這一難題太黑,距離解決還很遠。


我覺得蒙特卡洛方法就是最大的黑科技
蒙特卡洛方法令人目瞪口呆並不是因為它多track或者多巧妙,它在數學上和其他方法一樣嚴謹;純粹只是因為愚蠢的人類難以理解概率而已。想想三門問題,人類把握概率能力的虛弱是天生的。


黑科技?Many Body Theory裡面Second Quantization的自動公式推倒和代碼生成算不算?就是用計算機軟體來生成量子化學代碼。

我了解的相關項目有:

  • SMITH3 SMITH 系列軟體 from Shiozaki Group (SMITH是黑客帝國里的角色)
  • Tensor Contraction Engine from Hirata Group (UIUC)
  • 以及我參與的一個Mathematica小項目SeQuant(代碼生成功能正在準備中,我太懶了。。。)

這些項目都是科研style代碼,非常不容易維護和使用。。。。


向大家介紹另外一個黑科技:foldit. 由University of Washington的David Baker開發。它主要的idea是把Protein structure simulation變成一個遊戲,用人來選擇和改變結構。foldit創造了一篇有史以來作者人數最多的Nature paper。
A 2010 paper in science journal Nature credited Foldit"s 57,000 players with providing useful results that matched or outperformed algorithmically computed solutions.
還解了一個晶體結構:
In 2011, players of Foldit helped to decipher the crystal structure of the Mason-Pfizer monkey virus (M-PMV) retroviralprotease, an AIDS-causing monkey virus. While the puzzle was available to play for a period of three weeks, players produced an accurate 3D model of the enzyme in just ten days. The problem of how to configure the structure of the enzyme had been an unaccomplished goal of scientists for 15 years.
說到了foldit,不得不說David Baker的另外一個黑科技:Rosetta@home. Rosetta@home的idea就是利用空閑的個人電腦資源來做計算,把一個複雜的模擬問題分布到成千上萬的個人電腦上去。它的計算速度達到了160 TFLOPS。


建議大家去看一個叫DIIS的讓HF快速收斂的技術。


那個把動力學代碼直接做成集成電路的,又自己投資了幾個億生產出來,然後他的每篇paper的模擬時間都比別人長几個量級的,應該算夠黑的了。


我不信只有我一個人看成了計算機領域...
_(:_」∠)_


又看了一遍高票答案...原來是用計算機來擼化學...授教了...難怪我當計算機領域看了半天毫無違和感..只是心裡在默念著TM也是黑科技?(的確不懂,以為很簡單)
而我關注的兩個計算機領域的大V都點了贊..這直接誤導了我當作計算機領域戳了進來...


DMRG(Density Matrix Renormalization Group:DMRG在描述強關聯電子體系的時候,可以解決一些傳統量子化學計算方法很難解決的問題。尤其是准一維的強關聯分子,可以用不大的計算量獲得接近於Full CI的精確結果,對於包含過渡金屬的體系和遠離平衡結構的體系,是一種很好的方法。


並沒有什麼卵用,太理想,不夠general的計算對實驗來真是只有輔助作用,算的也不準;除非你有錢如Shaw,自己找人建體系咯~要不然就是近似近似,忽略忽略,otherwise it will take forever!


SITS?最近在看師兄師姐的文章,有空回來填坑。。。


應該主要是材料化學吧,門外漢,隨便說兩句


眼睛決定


推薦閱讀:

TAG:化學 | 計算化學 | 黑科技 |