怎麼用別人的數據,發表自己的文章?

現在學習基因大數據分析,想利用別人已經發表的測序數據,通過自己的發掘、整理然後發表文章,而且能夠解決一定的生物學問題,以前從來么有這麼做過,再加上自己是小白,周圍也沒有朋友可以諮詢,所以在知乎提問各位專業人士,這種純分析的文章是怎麼練就的?有哪些需要注意的地方?有沒有這方面的經典的文獻?謝謝!


沒有任何經驗或者專業方向的話,最簡單的是,找一個特定領域,整理下常用工具,根據思想演算法歸歸類,用模擬數據以及參考數據集,跑些benchmark,然後評價下特定演算法在哪些場景下的優劣勢。這種benchmark類文章灌灌水,用來熟悉領域練練手是可行性最高的。


謝邀。

我們同學那一批人都是這麼做的呀,我的博士和博後工作都用的是別人的數據。

論文是要有創新點的,新問題、新方法、新數據、新結果,新數據只是其中之一。最重要也是最容易的突破是在問題方面的創新,多讀多想多收集,找到突破是可能的。

還有一篇論文不能所有方面都是新的,新問題、新方法和舊數據的搭配可能更好呢!


最需要注意的地方就是數據版權的問題。國外研究生多少會有一門必修但不含學分的課程對「如何進行科學研究以及其倫理道德規範」進行講解,其中包含各項科研不規範的定義以及大量案例。所以在使用數據,即使是公開數據時,一定要注意對方的版權要求和說明。我記得曾經也有一起關於基因領域搶發文章最後因為版權而被撤稿的案例。


我是做計算生物學的。我覺得彷彿我看的做演算法/方法的文章,大部分都是符合你的描述的。用的公開的資料庫,來驗證自己的方法的有效性。

「別人已經發表的測序數據」:

常用的「別人已經發表的測序數據」舉例:

(1) 1000 genomes (A Deep Catalog of Human Genetic Variation)

(2)NCBI資料庫(National Center for Biotechnology Information)。

(3)ENCODE (ENCODE Project) 裡面有比如CHIP-SEQ, DNASE-SEQ這些。

「自己的發掘」 : 以我比較熟悉的舉例

(1)DeepSEA (New job)和Basset (davek44/Basset):都是用的ENCODE里的DNASE-SEQ的數據,他們做的方法。 然後也恰好是所講的「大數據」

(2)我老闆的一篇挺有意思的文章:(Identifying personal genomes by surname inference.) 論證說,就算是資料庫里匿名的基因序列,也可以通過一些手段找到真人。 數據用的1000 genomes project的數據,當時真的在facebook上找到了匿名序列的主人。

但是你的問題有點抽象,範圍有點大,不知道你到底做什麼方向的。很難給你找到對應的綜述。


基因組研究不多,蛋白組可以推薦一篇 http://www.nature.com/nature/journal/v509/n7502/full/nature13319.html

Mass-spectrometry-based draft of the human proteome

通過收集數據,分析發表的文章。

前提:

數據量大,分析透徹,新穎性足夠


當然可以,生物信息領域很多人是這樣搞的,不過最好有一部分自己的數據,再結合資料庫中的數據進行複雜分析,不過單純使用別人的數據的話,最好要想好你的故事怎麼來講^_^


你可以關注我,我們私聊下


樓主要當開普勒么


有類似想法的人非常多,但是要求你要不眼界高,要不計算資源多,要不兩者皆有。否則做不出什麼高分文章。小文章應付畢業到是可以。


推薦閱讀:

生物信息學博士可以從事互聯網數據挖掘分析嗎,兩者差距有多大呢?
Coursera.org 這樣的 MOOC 網站的數據挖掘前景在哪裡?
數據分析中會常犯哪些錯誤,如何解決?

TAG:數據挖掘 | 數據分析 | 生物信息學 | 泛生物信息 |