生物信息學領域有哪些正在進行或將要進行的重要計算？

01-12

以前做過相關的ppt，既然第一次被邀請，那就分享出來吧。

NGS的測序儀和相關技術時間軸

NGS相關資料庫和項目時間軸：

其他人說得差不多了，基本上最大的就是TCGA, 腦計劃， ENCODE和UK 10K。我再補充兩個剛在American Society of Human Genetics（ASHG, 美國遺傳學年會）上看到的稍小但很有意思的項目：

1. IBM Waston: Waston本身只是IBM開發的人工智慧程序的總稱，但在ASHG 2014上IBM用Waston來做了一個很有特點的項目：系統性地機器學習人類現存所有腫瘤醫學的教科書和文獻，從而給癌症病人給出自動診斷。醫生只需把病歷，檢查結果以及基因組測序結果輸入Waston, 程序就可以自動給出最可能的病因，預後，甚至開出藥方和給出FDA正在進行的相關預床實驗的項目組聯繫方式。

2. PheWAS, 全稱Phenome-Wide Association Study (全性狀組關聯分析）。從命名就可以看出是山寨全基因組關聯分析的。目的是針對所有人類的基因組差別序列，預測其對健康的影響。最終願景是在測任何一個人的序列以後，概率地預測其所有未來性狀。個人感覺目前還是全性狀組關聯分析換一個角度進行而已，但是未來有更多的性狀數據以後可能會有發展。

最後給兩個鏈接，有興趣的同學可以研究下：

Watson Oncology

PheWAS

謝邀~

樓主說生物信息學領域的重要計算，我理解為生物大數據分析。樓上說了幾個國際上啟動的生命科學領域內的大的projects，當然這些projects都需要生物計算，樓主可以作為參考。

生物大數據分析肯定是基於測序等實驗手段得到的數據，根據數據的特點分類進行研究，比如樓上也答道的TCGA，根據腫瘤類型對mutation等進行分析計算。最近了解到了幾個國內的生物計算項目：中科院微生物所最近承接的863項目「微生物數字化信息系統集成關鍵技術項目」的，是對微生物大數據分析；另外一個是首都醫科大學附屬北京安貞醫院和輝瑞投資有限公司共同簽署的國內首個心血管醫療大數據中心項目。

不知道能不能回答樓主的問題。

十萬微生物大概也能算

英國要搞10萬人基因組計劃，預計2017年完成，為此還專門購入了illumina的X Ten 測序儀。不過我估計購入一套是不夠的，至少要兩套。

題主是做生信的么？想找大項目讀博？這個項目是目前最大的人基因組計劃，但不知道英國有沒有這麼雄厚的財力。畢竟，按照目前的測序成本計算，10萬人基因組光測序就要一億美元，後續的數據分析成本還沒算進去。。。

謝邀。

人類基因組拼接和蛋白質組識別技術。

不清楚題主的大是到什麼程度，本人孤陋，只了解了國內的一些項目和蛋白質組方向：

認真回答

首先是十二五 863計劃生物和醫藥技術領域第一欄就是生物大數據開發與利用關鍵技術研究。

按照往年的慣例的話，這個盤子基本上都是生物信息和生物計算領域的菜。

1.1 生物大數據開發與利用關鍵技術研究
下設5個研究方向。
1.1.1 生物大數據標準化和集成、融合技術
研究組學數據、醫療數據和健康數據集成融合關鍵技術，研究開發組學、醫療和健康數據信息模型與集成引擎，研究基於國內外標準規範的消息、文檔等介面實現技術，基於下一代互聯網技術網路安全技術和高吞吐量傳輸技術。
1.1.2 生物大數據表述索引、搜索與存儲訪問技術
重點突破生物大數據資源描述和並行訪問技術，構建生物大數據高效索引和可靠可擴展存儲管理系統，基於語義的生物大數據資源檢索、生物醫療數據關聯搜索等關鍵技術，建立生物大數據資源搜索與獲取服務系統。
1.1.3 心血管疾病和腫瘤疾病大數據處理分析與應用研究

分別針對心血管疾病和腫瘤疾病，集成電子病歷、圖像影像、臨床檢驗數據等多類型數據（覆蓋50萬以上個體人群，總數據量50TB），開展醫療大數據的處理、存儲、分析、應用研究，為提高重大疾病的診治水平提供大數據支撐。
1.1.4 基於區域醫療與健康大數據處理分析與應用研究
選擇覆蓋100萬以上個體人群，總數據量不少於100TB的區域醫療與健康數據，通過處理、存儲、分析、整合，構建面向健康服務的知識庫及支撐平台，並提供應用服務。
1.1.5 組學大數據中心和知識庫構建與服務技術
集成包括基因組、蛋白質組等組學數據，總數據量不少於100TB，至少60%以上的數據提供對外訪問，重點突破個人基因組可視化技術，組學注釋與疾病風險評估技術，建立組學大數據知識庫及搜索引擎、數據挖掘和可視化分析平台。

然後就是最近很火熱的CNHPP，中國人類蛋白質組計劃。中國全面啟動人類蛋白質組計劃。這個也是最近我了解的大項目。

然後國際上的項目和其他領域，比如基因組，轉錄組的項目，我沒有怎麼了解，可以參考其他人的回答。

謝邀。

現在大部分能公開接觸到數據的項目都還是處於數據產出的階段，除了上述提到的很多基因組和功能組的資料庫外，還可以關注下NCI的SEER資料庫，裡面有幾個重大癌症的臨床數據。至於正在或者將要進行的重要計算，每個科學家應該都覺得自己做的是非常重要的，如果沒有算出什麼成果，一般都不會公布吧。

對於基因序列的生物信息學的分析需要比較龐大的計算能力，這個在一般的科研領域都有配備相應的機房進行分析。

另外針對序列的分析國內或者國外已經產生了很多專做生物信息分析的雲計算平台。

pan genome

第三代測序數據處理技術

encode也沒算結束吧？

TCGA pan cancer 也算吧。

怎麼感覺樓上酸酸的，回答個問題蠻奇怪的。

大數據時代好多東西都需要挖掘，這可是座大金山呀！

1 大問題就是說你不通過你們組或者你導師（大牛）的實力，但從你個人很難接觸到的，當然就是基因組project了。但是並不代表你不能撿剩的，比如網上可以下到的數據，你要是想研究，數據鋪天蓋地，也夠了。

2 小問題，關心的問題，類似於encoding啊，基因開關啊，基因相關性之類的，反正從基因還是蛋白質入手，或是別的，就靠個人天賦了。當然了，你如果發現能從基因上解釋（並定位相關基因），解釋同性戀啊，腫瘤啊之類的，這些大家還是關注度很高的，好的話，直接science，nature，不用考慮別的雜誌。

大project 就美歐的腦計劃。嚴格來說這是wet人和搞mri，sensing，cognitive建模，模擬的人的fund，與生物信息沒太大直接關係，只是也許wet人會僱傭個別生信崗位。

呵呵最近blue brain 還被人diao，看看那個epfl的瑞士人運氣好不好吧。

小的個別說什麼英國測n人基因組計劃？估計fund也不會太多。

兲朝就蛋白組計劃，fund夠大，但是不是給一線勞力吃的。你會comp proteomics 即高通量質譜數據分析院士也許願意賞口飯吃。