Tidy data----從零開始學會大數據分析課程第4課-課後作業1-part2

01-28

本文是@猴子的公開課《從零學數據分析》第4課複雜數據處理與分析的課後作業第一部分。該公開課具體內容，可關注@猴子了解。本次作業的內容是翻譯R語言大神Hadley wickham的一篇文章。

Hadley Wickham是Rstudio的首席科學家，同時是University of Auckland, Stanford University, 以及Rice University的統計學教授。R語言中常用的ggplot2、dplyr、tidyr、stringr以及readr、readxl包等，都是由他編寫的，題圖就是他的一幅畫像。本文摘譯自Hadley Wickham發表在《Journal of Statistical Software》雜誌上的《Tidy Data》，以下為正文第3節：

Tidy Data

Hadley Wickham

3 整理混亂的數據集

現實中的數據集，通常完全不符合tidy data中的任意一條。當然，有時候某一個數據集比較整潔，可以拿來就分析，但這只是特例。這一節介紹混亂數據集中最常見的5個問題以及相應的解決辦法。

?列頭是數值，而不是變數名
多個變數儲存在同一列中
在行和列中都有變數
同一個表格中儲存了多種類型的觀察單位
一種觀察單位儲存在多個表格中

以上以及的以及其他的混亂數據集中的問題，都可以通過幾個簡單的工具進行整理，這些工具包括：melting，string splitting，casting。以下會通過實例來解釋上面提到的5個問題。所有的數據和R程序，都可以在這裡下載：hadley/tidy-data。

3.1 列頭是數值，而不是變數名的情況

一種常見的混亂數據集是我們在彙報或者是報告中常用的表格類數據，這種數據中數值混亂分布在行和列中，而且列名是數值而不是變數名。表4是一個典型的例子。

該表格有三個變數：宗教信仰、收入、頻率。要整理這個表，我們需要「Melt（融合）」melt的結果是把列中的數據都變成變數。melt前後如圖5所示：表5a中已經有一個由變數組成的列（第一列，這種列叫做colvars，即由column和variables的首字母組成的），轉換後該列得到保留，另外生成了兩個新列：由原來的列名組成的「column」，以及由來表格中的數值組成的「value」。

現在回到表4，表4也有一個colvar，即宗教信仰。其餘數據經轉換後，原本的收入分類變為單獨一列，頻率變為單獨一列（表6）。這個形式的數據更整齊，因為一方面每一列代表一個變數，每一行代表一個觀察。而且，每一個人口統計學單位對應一個宗教信仰和收入的組合。

3.2 多個變數儲存在同一列中

表9是由聯合國衛生組織統計的世界各國的肺結核情況，分為國家、統計年、男性0-14歲、男性15-24歲等等多個組。實際上我們可以看出，這個數據包括國家、年、性別、年齡和病例數等多個變數，其中性別和年齡被合併在一起了。因此，melt後在進行split，得到的表格就更清爽了。

3.3 在行和列中都有變數

表11是一組氣象記錄數據。它記錄了墨西哥某一地點的氣象數據。該表格中有單獨成列的變數，如ID，年，月。也有分布在幾個列中的變數如天（d1代表每月的1日，d2、d3以此類推）。還有貫穿所有行的變數tmin，tmax（最低溫和最高溫）。element這一列並不是變數，而是儲存著變數的名字。

要整理這個表格，首先melt，生成含有id，date，element以及value四個變數的表格（表12a），同時去掉了缺失的數據。還需要進行一步操作，以便將tmin和tmax分開，這部操作就是cast，cast有點像melt的反向操作。將element這一列重新轉換為兩個單獨的列。這樣得到的就是tidy data了（表12b）