Hadley Wickham:R學習者的偶像
Hadley Wickham在R語言數據科學領域是個鼎鼎有名的大人物,被稱為「一個改變了R的人」。他是一位卓越的 R 包開發者,有ggplot2、plyr、reshape2等諸多深受歡迎的作品。
翻譯、學習大師的文字,相比於單純的閱讀教科書而言,會收穫更多。從大師個人主頁原汁原味的文章中,不但可以學習到數據科學思維,也能感受到其中精妙的表述方法,可謂是事半功倍。
http://hadley.nz/是Hadley Wickham的個人主頁,其中的很多學習資料體現了Hadley Wickham的思想精華,為了提升數據科學思維水平,我計劃分多個階段將其中的一些文章進行翻譯學習。作為第一次翻譯,就選取首頁上的他的一個簡短的介紹。
Hi! Im Hadley Wickham, Chief Scientist at RStudio, and an Adjunct Professor of Statistics at the University of Auckland, Stanford University, and Rice University. I build tools (computational and cognitive) that make data science easier, faster, and more fun. I』m from New Zealand but I currently live in Houston, TX with my partner and two dogs.
Hi,大家好!我是哈德利·威克姆,在RStudio任首席科學家,同時也是奧克蘭大學、斯坦福大學、萊斯大學的統計系客座教授。我做了一些能夠使數據科學更容易、更快、更有趣的工具。我的家鄉在紐西蘭,目前我和我的伴侶以及兩隻狗狗生活在休斯頓。
TEACHING
If you』d like to learn more about what I do, and how to use R effectively, I』d recommend starting with one of my books:
- R for Data Science, with Garrett Grolemund, introduces the key tools for doing data science with R.
- ggplot2: elegant graphics for data analysis shows you how to use ggplot2 to create graphics that help you understand your data.
- Advanced R helps you master R as a programming language, teaching you what makes R tick.
- R packages teaches good software engineering practices for R, using packages for bundling, documenting, and testing your code.
- I also teach in person workshops from time-to-time; see the RStudio workshops page for more details.
教學
如果你想更多地了解我做的事情以及如何高效地使用R,我建議從我的這本書開始:
- 《R for Data Science》,介紹了一些使用R做數據科學的核心工具。
- 《ggplot2:elegant graphics for data analysis》展現了如何使用ggplot2創建圖形,從而更 好地理解數據。
- 《Advanced R》可以幫助你更好的掌握R編程語言,並告訴你R的運行機制。
- 《R packages》講授好的R的軟體工程實踐,並使用包打包、記錄和測試代碼。
我有時也在我個人工作坊中進行講授,請在 RStudio workshops page 中查看更多的細節。
CODE
Most of my work is in the form of open source R code, which you can find on my github. You can roughly divide my work into three categories: tools for data science, tools for data import, and software engineering tools.
DATA SCIENCE
- ggplot2 for visualising data.
- dplyr for manipulating data.
- tidyr for tidying data.
- stringr for working with strings.
- lubridate for working with date/times.
DATA IMPORT
- readr for reading .csv and fwf files.
- readxl for reading .xls and .xlsx files.
- haven for SAS, SPSS, and Stata files.
- httr for talking to web APIs.
- rvest for scraping websites.
- xml2 for importing XML files.
SOFTWARE ENGINEERING
- devtools for general package development.
- roxygen2 for in-line documentation.
- testthat for unit testing
代碼
我的大部分工作是開源R代碼,你可以在我的github(gitHub是一個面向開源及私有軟體項目的託管平台,因為只支持git 作為唯一的版本庫格式進行託管,故名gitHub)上找到。我的工作可大致分為三類:數據科學工具、數據導入工具和軟體工程工具。
數據科學工具:
- ggplot2:數據可視化
- dplyr:數據處理
- tidyr:數據整理
- stringr:字元串處理
- lubridate:日期/時間格式數據處理
數據導入工具:
- readr:導入csv格式文件和FWF文件
- readxl:導入xls(EXCEL97-2003)和xlsx(EXCEL)格式文件
- haven:導入SAS軟體、SPSS軟體和Stata軟體所用格式的文件
- httr:網路API介面
- rvest:網路爬蟲
- xml2:導入XML文件
軟體工程工具:
- devtools:擴展包開發
- roxygen2:在線文檔
- testthat:單元測試
PERSONAL
Outside of work, I love to bake and make cocktails. You might enjoy trying some of the recipes from my family recipes website.
My sister Charlotte is a Assistant Professor of Statistics at Oregon State University.
個人情況
工作之餘,我喜歡烘焙和調製雞尾酒。如果感興趣的話可以嘗試一下從我的 family recipes website網站上的食譜。
還有,我的妹妹 Charlotte 是俄勒岡州立大學統計系的助理教授。
推薦閱讀:
※基於Python的信用評分卡模型分析
※Data Art Online(一) :數據分析師轉職攻略
※Python學習(二)
※我想扯一點淡
※用python做數據分析-我的數據分析學習計劃
TAG:數據分析 |