標籤:

生物信息神奇網站系列(十二):機器學習數據集

生物信息神奇網站系列(十二):機器學習數據集

來自專欄 基因學院

編者按

天天都被媒體的大數據,機器學習,人工智慧忽悠,但是常言道「巧婦難為無米之炊」,要實現這些,數據才是重點;有時候想測試一些演算法,手頭沒有現成的測試數據也比較麻煩。不過,加州大學歐文分校提供了一個機器學習的數據集,可以從中下載大量數據,用於機器學習研究。

十二:加州大學歐文分校機器學習數據集

archive.ics.uci.edu/ml/

1、登錄網站,可以看到「Welcome to the UC Irvine Machine Learning Repository!」。下面是對網站的一些介紹,目前收入418個數據集。

2、這些數據集可以根據多個維度進行分類,例如分析類型,數據類型,研究領域,屬性,文件類型等,並且每個分類數據的數量。

3、我們可以使用Life Science分類下的數據,目前已經收錄97個數據集。

4、這其中乳腺癌的數據集Breast比較常用,在多個利用機器學習進行診斷的案例中都會用到。點擊Breast的連接就會看到這個數據集相關的內容。包括數據介紹以及FTP下載目錄。

archive.ics.uci.edu/ml/

5、頁面中會給出頁面詳細的介紹。

6、點擊Download: Data Folder,鏈接到數據下載ftp頁面,直接點擊文件就可以下載了。

7、也可以滑鼠右鍵點擊,直接複製下載鏈接,直接在程序中進行下載,例如在R中,直接利用read.table()函數下載即可。


推薦閱讀:

生物信息神奇網站系列(一):R繪圖Gallery
生物信息神奇網站系列(二):Python繪圖Gallery
生物信息神奇網站系列(十九):已發表動物基因組列表
生物信息神奇網站系列(四):Biostars

TAG:基因組學 |