大數據時代是一把雙刃劍嗎?

大數據與生物信息學的應用研究與實踐

摘要:2月20日,青島大學數據科學與軟體工程學院教授、博士、副院長李勁華在CIO時代APP微講座欄目作了題為《大數據與生物信息學的應用研究與實踐》的主題分享,他從大數據領域背景和有關科研工作(大數據在生物信息學方面的教學和研究工作)兩大方面展開敘述。

關鍵詞:CIO時代APP微講座

大數據時代是一把雙刃劍嗎

  2月20日,青島大學數據科學與軟體工程學院教授、博士、副院長李勁華在CIO時代APP微講座欄目作了題為《大數據與生物信息學的應用研究與實踐》的主題分享,他從大數據領域背景和有關科研工作(大數據在生物信息學方面的教學和研究工作)兩大方面展開敘述。

大數據時代是一把雙刃劍嗎

  一、相關背景

  (一)生物信息學產生背景

  眾所周知,生物信息學是八十年代末隨著人類基因組計劃的啟動而興起的一門畸形交叉學科,通過對生物學實驗數據的獲取、加工、存儲、檢索與分析,進而達到解釋數據所蘊含的生物學意義的目的。當前生物信息學發展的主要推動力來自於分子生物學,生物信息學的研究主要集中於核苷酸和氨基酸序列的存儲、分類、檢索和分析等方面。因此,目前的生物信息學可以狹義的定義為將計算機科學和數學應用於生物大分子信息的獲取、加工、存儲、分類、檢索與分析,以達到理解這些生物大分子信息的生物學意義的交叉學科,實質是理論概念與實踐應用並重的學科。

  生物信息學的產生與發展已有三十多年,美國人類基因組計劃中對基因組信息學的定義是一門學科領域,包含著基因學組信息的獲取、處理、存儲、分配、分析和解釋的所有方面。自1990年美國啟動人類基因組計劃以來,人與模式生物基因組的測試工作發展極為迅速,提前完成了約四十多種生物的全基因測試與工作。截止到目前,僅登錄在美國GeneBank的DNA系列總量便超過70億鹼基因對。此外,迄今為止,已有一萬多種蛋白質的空間結構以不同的解析度被測定。基於cDNA序列測試所建立起來的EST資料庫已超過數百萬條,在這些數據基礎上派生、整理出來的資料庫已達5000多個。

  這一切構成了一個生物學數據的海洋。這種科學數據的極速和海量積累在科學發展史上是空前的,但數據並不等於信息和知識,當然,它是信息和知識的源泉,關鍵在於如何從中對其進行挖掘。與正在以指數方式增長的生物學數據相比,人類相關知識的增長卻十分緩慢。一方面是巨量的數據,另一方面是我們在醫學、藥物、農業與環境等方面對新知識的渴求,這些新知識將幫助人們改善其生存環境和提高生活質量。這就構成了一個極大的矛盾。這個矛盾就催生了一門新興的交叉科學,這就是生物信息學。

  信息學大數據研究工作主要以分析海量多元組學數據為目標,組學大數據為生命科學帶來了前所未有的機遇,在研究基因功能、疾病機理、精準醫學等方面具有重要意義。大數據的規模性、多樣性、高速性等這些特徵為生物信息學帶來了新的挑戰,在數據計算方面,亟需解決中小實驗室對計算資源的彈性需求;在數據分析方面,亟需多組學整合分析體系解決生物學問題。缺乏相應的生物學工具是大數據時代生命科學領域面臨的主要瓶頸。

  (二)青島大學生物信息學研究背景

  1.2009年,位於武漢大學的國家軟體工程重點實驗室在青島舉辦暑期學校,首次聽到西方學者提到計算機以生物學跨學科研究,主要包括基因測序、生物大數據可視化等。

  2.2011年起,青島大學與深圳華大基因研究院聯合創立青島大學華大基因創新班,培養大數據時代生物基因組學、生物信息學領域拔尖創新人才。在大學生入校後一個月的時間內,從全校九千多名不同專業學生中擇優挑選30人,按照厚基礎、寬口徑、綜合式、國際化的要求,在學科基礎課和專業課程階段設有兩個選課模塊,一個是醫學檢驗,一個是信息處理。

  3.2016年,與青島大學醫學部教授合作,共同申報獲批了生物信息學二級學科的碩士點,研究方向主要是:序列和基因組學的分析、藥物研發、生物學網路整合、數據挖掘和數據分析(主要是在生物學應用領域)、生物信息學軟體方法學的研究。

  二、生物信息學研究的主要內容、主要問題和關鍵技術

  (一)生物信息學研究的主要內容

  1.基因組學研究

  基因組學包含了構成和維持一個生活有機體所必備的基本信息,由細胞內進行的多種分子生物學反應將這些信息轉換為真正的生命現象。基因組的一部分編碼蛋白質和RNA,其他部分調控這些大分子的表達。表達的蛋白質及RNA摺疊為高度專一的三維結構,在體內的特定位置上實現這些功能,這些過程的大量細節都是在分子生物學研究的實驗室里揭示出來的,形成大量數據,存儲於資料庫中。生物信息學試圖從這些數據中提取新的生物學信息和知識,是一門植根於全面深入的實驗事實和數據的理論生物學。

  2.生物信息的收集、存儲、管理與提供。

  包括建立國際基本生物信息庫和生物信息傳輸的國際網路系統;建立生物信息數據質量的評估與檢測系統;生物信息的在線服務;生物信息可視化和專家系統。

  3.基因組序列信息的提取和分析。

  包括基因的發現與鑒定,如利用國際EST資料庫和各自實驗室測定的相應數據,經過大規模並行計算髮現新基因和新SNPs以及各種功能位點;基因組中非編碼區的信息結構分析,提出理論模型,闡明這些區域的重要生物學功能;進行模式生物完整基因組的信息結構分析和比較研究;利用生物信息研究遺傳密碼起源、基因組結構的演化、基因組空間結構與DNA摺疊的關係以及基因組信息與生物進化關係等生物學的重大問題。

  4.生物信息分析的技術與方法研究。

  包括發展有效的能支持大尺度作圖與測序需要的軟體、資料庫以及若干資料庫工具,如電子網格等遠程通訊工具;改進現有的理論分析方法,如統計方法、模式識別方法、隱馬爾科夫過程方法、神經網路方法、複雜性分析方法、密碼學方法、多序列比較方法等;創建一切適用於基因組分析的新方法、新技術。包括引入複雜系統分析技術、信息系統分析技術等;

  5.應用與發展研究。

  彙集與疾病相關的人類基因信息,發展患者樣品序列信息檢測技術和基於序列信息選擇表達載體、引物的技術,建立與動植物良種繁育相關的資料庫以及與大分子設計和藥物設計相關的資料庫。

  (二)研究問題

  1.生物大數據的存儲與管理

  包括生物大數據的存儲結構、存儲標準、管理技術等,生物大數據數量大、結構複雜、存儲標準多樣,存在非結構化數據、半結構化數據和結構化數據等多種數據結構,如何選擇分散式文件系統、分散式數據組合、分散式並行資料庫系統也是生物大數據存儲與管理技術的主要問題之一

  2.生物大數據可視化

  生物大數據由於數量巨大,具有普遍生物意義,合理的可視化可以幫助生物學家快速理解和分析生物數據。

  3.生物大數據的分析與處理

  整合多組學數據進行計算分析已解決實際的生物問題。

  (三)關鍵技術

  生物大數據領域中的關鍵技術有:

  1.生物大數據標準化和集成、融合技術

  研究組學數據、醫療數據和健康數據集成融合關鍵技術,研究開發組學、醫療和健康數據信息模型與集成引擎,研究基於國內外標準規範的消息、文檔等介面實現技術,基於下一代互聯網技術網路安全技術和高吞吐量傳輸技術。

  2.生物大數據表述索引、搜索與存儲訪問技術

  重點突破生物大數據資源描述和並行訪問技術,構建生物大數據高效索引和可靠可擴展存儲管理系統,基於語義的生物大數據資源檢索、生物醫療數據關聯搜索等關鍵技術,建立生物大數據資源搜索與獲取服務系統。

  3.心血管疾病和腫瘤疾病大數據處理分析與應用研究

  分別針對心血管疾病和腫瘤疾病,集成電子病歷、圖像影像、臨床檢驗數據等多類型數據(覆蓋50萬以上個體人群,總數據量50TB),開展醫療大數據的處理、存儲、分析、應用研究,為提高重大疾病的診治水平提供大數據支撐。

  4.基於區域醫療與健康大數據處理分析與應用研究

  選擇覆蓋100萬以上個體人群,總數據量不少於100TB的區域醫療與健康數據,通過處理、存儲、分析、整合,構建面向健康服務的知識庫及支撐平台,並提供應用服務。

  5.組學大數據中心和知識庫構建與服務技術

  集成包括基因組、蛋白質組等組學數據,總數據量不少於100TB,至少60%以上的數據提供對外訪問,重點突破個人基因組可視化技術,組學注釋與疾病風險評估技術,建立組學大數據知識庫及搜索引擎、數據挖掘和可視化分析平台。



一、維克托·邁爾—舍恩伯格——開大數據系統研究之先河

《經濟學人》說,在大數據領域,他是最受人尊敬的權威發言人之一;《科學》說,若要發起一場關於這個問題的深入探討,沒有比他更好的發起者了。他是歐盟互聯網官方政策背後的重要制定者與參與者;他是最早洞見大數據時代發展趨勢的數據科學家之一;他就是維克托·邁爾—舍恩伯格。

他說,世界的本質就是數據,大數據將開啟一次重大的時代轉型;

他說,大數據發展的核心動力來源於人類測量、記錄和分析世界的渴望;

他說,從因果關係到相關關係的思維變革才是大數據的關鍵,建立在相關關係分析法基礎上的預測才是大數據的核心。

二、顛覆商業傳統——海量數據後的相關關係

維克托·邁爾—恩伯格與時俱進地提出了在大數據時代的諸多變革,首先是分析思維的變革,而伴隨這種變革會帶來行動變革,而這種變革會發生在社會的方方面面,諸如商業領域、公共衛生、諮詢決策以及國家政策等各個領域。最終會影響我們的生活方式與社會產業結構。

?

大數據時代的變革,其動力來自於技術的進步與獲取數據的方便性與低廉性。而這恰恰為顛覆傳統時代由於各種限制而採取抽樣技術而獲取有用信息的途徑提供了可能。現在技術成熟了,人們在獲取信息時考慮的是儘可能多的樣本數據,且可以是樣本等於全體。同時在分析數據時更多的關注的是相關關係而非因果關係,知道是什麼就已經足夠了,沒有必要去探究為什麼。在商業領域是什麼比為什麼更加重要,而我覺得根據相關關係也可以去推論因果關係,這對於學術領域應該是極具有價值的。相關關係是大數據時代最重要的思維變革,而通過計算機對諸多數據的雲計算與處理可以幫助我們發現這些相關關係,而這也廣泛地應用於商業領域,世界上最大的零售商沃爾瑪在颶風來臨時把蛋撻和颶風用品擺放在一起,能獲得大賣。蛋撻和颶風之間有什麼因果關係嗎?沒有,因果在此刻沒有任何意義,相關才是重要的。

大數據時代是一把雙刃劍嗎

更有趣的是零售商們通過獲取和分析女人們的消費數據,可以發現哪些消費者是即將要懷孕的。因為許多女人在懷孕後的三個月會在消費習慣上發生變化,(例如她會使用無香化妝品)而且是夫妻生活的分水嶺,在此之後他們會關注他們以前沒有關注過的品牌,並且建立對品牌的忠誠。之後公司會不定期向她們發放和贈送一些商品優惠券,比如嬰兒床、奶粉等。這樣地就有助於提高商家的銷售額,帶來很大的經濟利益。

大數據時代是一把雙刃劍嗎

三、大數據時代——人類社會變革的雙刃劍

大數據時代也有其寬容的一面,它允許誤差的存在,不要求數據有多精確,因為海量數據會削弱誤差的影響,但是更加追求效率。以上就是我們在大數據時代最重要的三項變革,而這種變革蘊藏著巨大的機會,我們的經濟模式會發生巨大的變化,市場導向更加明顯,重點消費對象一覽無餘,而這就是所謂的「反饋經濟」。

大數據時代是一把雙刃劍嗎

在大數據時代我們每一個人都有機會去施展才華,但大數據也會讓我們變得「透明」。因為我們本身就是一個資料庫,我們的位置信息、消費方式、人際交往以及許多數據,都在被他者有意無意的搜集,而且我們自身卻一無所知。我們的行為可以被預測,我們沒有隱私。這是大數據所帶來的道德問題與社會困擾。我們的世界被赤裸裸的數字包圍,而或許更需要靈魂的滋潤與豐滿。人類的自由意志與諸神之下的尊嚴是否會在這條道路上異化,我不得而知,而我只想在這個時代做一個麥田裡的守望者與思考者,幸福地生活才不會辜負時代與生命。



推薦閱讀:

不用乾瞪眼,《進擊的巨人2》全新上架配置要求不高
戰地1有哪些物品道具?
斗破蒼穹2有什麼樣的遊戲背景?
刀塔傳奇不朽屍王技能怎麼樣?
王者農藥打野位置怎麼gank對面?

TAG:遊戲 | 大數據 | 網路遊戲 | 互聯網 | 數據分析 |