如何看待用機器學習已經可以根據化學分子的特點預測它的氣味?

來自《科學》上的文章 「Predicting human olfactory perception from chemical features of odor molecules」

首先為我男神Luca因此文章可能受到的學術壓力默哀三分鐘。

這項研究是IBM聯合IFF以及重多高校嗅覺實驗室聯合完成的。 根據49人對476種化學分子的心理物理數據進行深度學習,產出的模型可以預測分子在人嗅覺感知的強度,歡喜度,甚至是語義形容類別(蒜,魚,花,甜,焦等等)。更重要的是,文章指出模型可以根據歡喜度逆向工程出受大眾歡迎的新的氣味分子。各位調香師,香水發燒友們,對深度學習意圖影響氣味產業未來這個事兒,你們怎麼看?


這篇文章我囫圇吞棗看了一下。

大概是用統計學方法,收集信息,構建模型,預測特定分子的整體香味特徵?

這是個很新穎的角度。

以往化學家的主要關注點在計算機輔助分子設計和模擬,比如說根據根據特定的官能團、結構設計藥物。香味也是分子性質的一部分,香料巨頭在研發新香料的同時,也用這種計算機模擬的方法,根據碳架結構、氫鍵、分子量、親輸水等性質,高效篩選特定香味的化合物。

我認為這篇論文提到的模型,可以對計算機分子設計模擬進行一個補足,好像人們只關注下游,而這篇文章給出了一個上游話題——在研究性質與結構方面,能否效率更高?

哪些特徵的分子才有共同的某類感官特徵呢?什麼樣的結構具有焦烤香?什麼樣的結構具有涼味?這些需要熟練的化學家長期的總結,才可以提煉出來。現在,這個模型似乎提供了可以不靠經驗和靈感的一種途徑和啟發。

一定程度上可以在合成香料研發前期提高效率。


很正常,有許多從事合成香料的前輩都有這項技能。


並不是要寫回答,但好像大家會對這篇研究有細節上的興趣。我專業素質不夠,但不自量力寫一個Paper digest,希望能引發更多深入的討論。如果表述不清楚,不準確甚至錯誤的地方,請不吝指教。

全文鏈接:Predicting human olfactory perception from chemical features of odor molecules

文章的目的:

預測單一化學分子的氣味。

文章的背景:

雖然香精工業的內部努力作為外界難以評估,但是可以肯定的說,根據分子特徵來預測分子氣味,學術界的嘗試並不多也非常不成功。困難歸功於嗅覺本身的困境:視覺和聽覺的對象是可見光和聲音,它們都是連續變化的頻率波;哪一波段的信號預測人類哪種感知幾乎無困難,比如波長在780 to 622 nm的光,大部分人都能感知到是紅色。而化學分子就比較麻煩了,雖然有些功能集團有很特定的嗅覺感受,比如硫化氫臭雞蛋味兒,但大部分情況下嗅覺感受貌似不能根據功能集團一個指標來預測,分子的大小,極性,蒸氣壓以及各種指標的某種綜合似乎都有影響。在化學資料庫里,一個分子可以拆分為上千個指標,要從上千個指標來歸類總結嗅覺感知規律,需要高強度的演算法。

研究的材料和流程:

a 心理物理數據

要預測人類的感受要先有人群的嗅覺描述數據。來自洛克菲勒大學的Leslie Vosshall科研組收集了49個人關於476化學分子的嗅覺描述(所謂的心理物理數據physophisical data),描述的內容是21個任務,即對強度(intensity),歡喜度(pleasantness)以及十九個歸類性描述--比如花,酸,甜,木,魚,焦--進行從0到100的打分。如圖1

b 分子特徵數據

c 流程

DREAM Challenge 形式

Leslie組把他們收集的數據分為三組,前兩組公開,接受來自全世界的建模組來挑戰(即DREAM Challenge):一組338個分子數據用於建模,一組69個分子用於建模後評估。最後一組未公開的69個分子,用於各個建模組提交模型後檢測預測的精準度。如圖3

結果 (我選擇性放入,並非全部)

預測單一個人的嗅覺感知

總體上,所有的挑戰組在預測氣味強度,歡喜度,以及蒜,甜,水果,香辛料,焦味這七個描述上比較成功。甚至,表現最好的模型,在某些測試個人身上,預測值的相關性可以達到0.8 (r=0.8)。這個值已經很高了,因為哪怕是同一個分子,重複提供給一個人也會難免產生描述差異,根據這些描述差異可以來計算相關性的理論最高值。0.8基本就是天花板的高值了。圖4

預測群體的嗅覺感知

跟單一個人預測排序差異不大,氣味強度,歡喜度,以及蒜,甜,水果,香辛料,焦味這七個描述上比較成功。 圖5

預測所需的分子特徵數目

這個問題是研究嗅覺分子本身很受爭議的一個問題。根據模型看來,雖然達到最大表現需要的分子特徵數目不小,但是達到最大表現值的百分之八十,需要的分子特徵並不多。也就是說,根據分子特徵來得到囫圇吞棗的預測,技術上不應該很難。圖6

逆向工程設計化學分子

選擇理想的嗅覺感知素描(olfactory profile), 通過模型來查找出滿足此嗅覺感知的分子。本研究發表的例子有點偷換概念,並不是真正的逆向工程,而只是從測試組裡找出可以滿足此嗅覺感知的分子。但我個人覺得這個結果還是值得一提的,因為只有提高逆行工程的可行性,高精度的分子嗅覺預測才有了廣泛的工業應用前景。圖7

結論

我不知道各位香氣老饕們是不是覺得這些魚啊蒜的歸類太粗糙了。確實,在文章結論作者也提出了,目前是檢測預測氣味的可行性。但是氣味圖譜是無比廣闊,對應需要加入很多很多的更細節心理物理描述類別,比如檀木,檸檬,茉莉等等。不考慮實際試驗設計和收集的難度,如果這個心理物理數據擴大幾個等級,比如找5000個人,描述200個歸類性任務,理論上應該產出精度更好更有應用價值的分子氣味預測模型。

旁記(side note)

嗅覺研究是一個比較奇怪的領域,確實如同Luca Turin尖刻的指出,大多實驗室的重點,或是嗅覺各級神經連接的發育性問題,或是嗅覺信號在各級神經的編碼和轉換問題,而沒有(其實應該說很少)實驗室真正針對氣味分子本身,即是什麼特徵決定了氣味本身。誠然,嗅覺感受器的反應素描,荷爾蒙分子指導和干預行為能力的特殊神經通路,都是回答這一問題的重要考慮因素。但是學術界大規模的採集分子的嗅覺感知數據,上一次是1985年。本研究的第一作者,Andrea Keller是推動此次研究的人。有趣的是,他所在實驗室的老闆,Leslie Vosshall,連著幾篇文章都有狠狠打臉Luca Turin 量子震動理論的趨勢。本文提交科學雜誌的時間點,又恰巧是Luca 再次停筆他香水博客的時間 (我的腦洞)。我本人非常讚賞Luca對香水文化的宣傳和傳播,但不得不說, Leslie做的工作,是Luca曾指出但他自己也沒有太多突破的工作。結合Leslie本人在驅蚊機制上的參與和專註,我感覺她是嗅覺科研領域為數不多對實際應用問題非常有參與感的科學家。推薦關注。

補充:

真正把文章看完,我發現我提問的一個錯誤。這個模型可以說是機器學習,但不是深度學習的應用。但是如果放飛腦洞,不考慮實際限制,我們收集上百個調香師對香水的心理物理描述,掌握一定數量香水的調香手法,我們實時反饋一些消費群體的興趣轉變,深度學習是否可以自己成為一個偉大的調香師?反正我覺得理論上是可以達到的。


現在機器學習所滲透的行業比較多,不僅僅停留在CS領域,以後也會向更寬廣的領域進軍!

好了,說說本題個人膚淺的見解…

對化學領域不是太了解,但可以根據機器學習的特點來說一下,這裡面最重要的就是能夠弄成機器學習訓練所需要的數據特點,一旦數據滿足了機器學習的訓練要求,其他的事都不是事,只需要給模型喂足夠多的數據訓練就行了,這也正是機器學習簡單粗暴能夠迅速被各大領域所應用的特點之一。


本身就是機器學習能做的事,主要是數據輸入比較難整,需要給出能夠足夠支撐建模的設計。
其實一般交叉學科都相對來說比較容易發論文,因為cs已經玩剩下的,在別的領域有滯後。


推薦閱讀:

占星,算命等可否理解為一種神經網路演算法?
有大神講講深度學習在語音分離的應用嗎?

TAG:化學 | 嗅覺 | 香水行業 | 預測模型 | 深度學習DeepLearning |