Tidy data(整理數據)---Hadley Wickham
說道數據分析不得不提到大神--Hadley Wickham。
Hadley Wickham 是 RStudio 的首席科學家以及 Rice University 統計系的助理教授。他是著名圖形可視化軟體包 ggplot2 的開發者,以及其他許多被廣泛使用的軟體包的作者,代表作品如 plyr、reshape2 等。
一個多產的R開發者。Wickham樂於給那些喜歡擺弄數據的人提供力量和支持。他解釋說:「通過數據從根本上了解世界真的是一件非常,非常酷的事情。讓我感到興奮的分析不是谷歌爬取了1TB的網路廣告數據來優化收入, [而是]那些有著絕對熱情的生物學家,現在他們可以使用,並理解R了。」
下面我們就翻譯和學習他的一篇文章-----Tidy data(整理數據) 翻譯不恰當之處望指正!
直接看原文:http://courses.had.co.nz/12-rice-bdsi/slides/07-tidy-data.pdf by Hadley Wickham
整理數據
1.整理數據是什麼?
2.造成混亂的五個常見原因。
3整理混亂的數據(x5)
整理數據是什麼?
在清理數據數據的過程中,可以很容易地對數據進行建模、可視化和聚合(也就是說有效的使用lm,ggplot, and ddply)變數,在行中進行觀察,在每個數據集中使用一種類型。
這個數據集有三個變數。
他們是什麼?
混亂的原因
?列標題是價值,而不是變數的名字
?多個變數存儲在一列
?變數存儲在兩行和列
?多種類型的實驗單元中存儲相同的表
?一種類型的實驗單元中存儲多個表
列標題值,而不是變數名
美國宗教團體的收入分配調查數據調查了皮尤宗教與公共生活論壇收集的收入與宗教信仰之間的關係http://pewforum.org/Income-Distribution-Within-US-Religious-Groups.aspx
這個數據集的變數是什麼?
和你的鄰居討論一分鐘
多個變數在一列
這個數據集的變數是什麼?
和你的鄰居討論一分鐘
輪到你了
用同樣的方式使用融化宗教收入數據獲取所有變數列。
想想你如何區分「可變」變數到年齡和性別。
變數行和列
這個數據集的變數是什麼?
和你的鄰居討論一分鐘
該你了!
將數據、乾淨的變數和重新排序行和列。
下一步你需要做什麼?
同一表中的多個類型
該你了!
實踐你所學到的一切
billboard.csv整潔。
(您可能想要偷看一下billboardencoding.r.r)
標準化
關於一首歌的每一個事實都是重複的
很多次了。表示多種類型的
實驗單元存儲在相同的表。我們可以儲存更多的數據有效地將其分成不同的每一種單元的表。
需要把歌曲和排名分開表。
多表的一種類型
翻譯後的小感:
首先感謝你能看到這裡,希望這篇文章會對你有所幫助!
經過幾個小時查詢和翻譯終於英譯漢了Tidy data---Hadley Wickham這篇文章,通過這次翻譯和學習,有3點感悟:
1.其實英譯漢對於英語最近不怎麼接觸的我好難啊,可是只要你想做,願為此花些時間,你就可以做的到。
2.對Hadley Wickham有了更多的的了解,我也學到了很多關於整理數據的知識。
3.感覺自己目前掌握的英語已不夠使用,需要好好學習英語了,英語學得好,以後學習就更高效了!好好學英語!好好學英語!好好學英語!
推薦閱讀:
※東易日盛:技術與數據,驅動傳統家裝行業效率和用戶體驗提升
※關於數據分析學習筆記的計劃(以及目錄)
※如何搭建一個指標體系
※你被套路了嗎?預防分析失誤的必看指南