標籤:

Hadley Wickham:R學習者的偶像

Hadley Wickham在R語言數據科學領域是個鼎鼎有名的大人物,被稱為「一個改變了R的人」。他是一位卓越的 R 包開發者,有ggplot2、plyr、reshape2等諸多深受歡迎的作品。

翻譯、學習大師的文字,相比於單純的閱讀教科書而言,會收穫更多。從大師個人主頁原汁原味的文章中,不但可以學習到數據科學思維,也能感受到其中精妙的表述方法,可謂是事半功倍。

hadley.nz/是Hadley Wickham的個人主頁,其中的很多學習資料體現了Hadley Wickham的思想精華,為了提升數據科學思維水平,我計劃分多個階段將其中的一些文章進行翻譯學習。作為第一次翻譯,就選取首頁上的他的一個簡短的介紹。

Hi! Im Hadley Wickham, Chief Scientist at RStudio, and an Adjunct Professor of Statistics at the University of Auckland, Stanford University, and Rice University. I build tools (computational and cognitive) that make data science easier, faster, and more fun. I』m from New Zealand but I currently live in Houston, TX with my partner and two dogs.

Hi,大家好!我是哈德利·威克姆,在RStudio任首席科學家,同時也是奧克蘭大學、斯坦福大學、萊斯大學的統計系客座教授。我做了一些能夠使數據科學更容易、更快、更有趣的工具。我的家鄉在紐西蘭,目前我和我的伴侶以及兩隻狗狗生活在休斯頓。

TEACHING

If you』d like to learn more about what I do, and how to use R effectively, I』d recommend starting with one of my books:

  • R for Data Science, with Garrett Grolemund, introduces the key tools for doing data science with R.
  • ggplot2: elegant graphics for data analysis shows you how to use ggplot2 to create graphics that help you understand your data.
  • Advanced R helps you master R as a programming language, teaching you what makes R tick.
  • R packages teaches good software engineering practices for R, using packages for bundling, documenting, and testing your code.
  • I also teach in person workshops from time-to-time; see the RStudio workshops page for more details.

教學

如果你想更多地了解我做的事情以及如何高效地使用R,我建議從我的這本書開始:

  • 《R for Data Science》,介紹了一些使用R做數據科學的核心工具。
  • 《ggplot2:elegant graphics for data analysis》展現了如何使用ggplot2創建圖形,從而更 好地理解數據。
  • 《Advanced R》可以幫助你更好的掌握R編程語言,並告訴你R的運行機制。
  • 《R packages》講授好的R的軟體工程實踐,並使用包打包、記錄和測試代碼。

我有時也在我個人工作坊中進行講授,請在 RStudio workshops page 中查看更多的細節。

CODE

Most of my work is in the form of open source R code, which you can find on my github. You can roughly divide my work into three categories: tools for data science, tools for data import, and software engineering tools.

DATA SCIENCE

  • ggplot2 for visualising data.
  • dplyr for manipulating data.
  • tidyr for tidying data.
  • stringr for working with strings.
  • lubridate for working with date/times.

DATA IMPORT

  • readr for reading .csv and fwf files.
  • readxl for reading .xls and .xlsx files.
  • haven for SAS, SPSS, and Stata files.
  • httr for talking to web APIs.
  • rvest for scraping websites.
  • xml2 for importing XML files.

SOFTWARE ENGINEERING

  • devtools for general package development.
  • roxygen2 for in-line documentation.
  • testthat for unit testing

代碼

我的大部分工作是開源R代碼,你可以在我的github(gitHub是一個面向開源及私有軟體項目的託管平台,因為只支持git 作為唯一的版本庫格式進行託管,故名gitHub)上找到。我的工作可大致分為三類:數據科學工具、數據導入工具和軟體工程工具。

數據科學工具:

  • ggplot2:數據可視化
  • dplyr:數據處理
  • tidyr:數據整理
  • stringr:字元串處理
  • lubridate:日期/時間格式數據處理

數據導入工具:

  • readr:導入csv格式文件和FWF文件
  • readxl:導入xls(EXCEL97-2003)和xlsx(EXCEL)格式文件
  • haven:導入SAS軟體、SPSS軟體和Stata軟體所用格式的文件
  • httr:網路API介面
  • rvest:網路爬蟲
  • xml2:導入XML文件

軟體工程工具:

  • devtools:擴展包開發
  • roxygen2:在線文檔
  • testthat:單元測試

PERSONAL

Outside of work, I love to bake and make cocktails. You might enjoy trying some of the recipes from my family recipes website.

My sister Charlotte is a Assistant Professor of Statistics at Oregon State University.

個人情況

工作之餘,我喜歡烘焙和調製雞尾酒。如果感興趣的話可以嘗試一下從我的 family recipes website網站上的食譜。

還有,我的妹妹 Charlotte 是俄勒岡州立大學統計系的助理教授。


推薦閱讀:

基於Python的信用評分卡模型分析
Data Art Online(一) :數據分析師轉職攻略
Python學習(二)
我想扯一點淡
用python做數據分析-我的數據分析學習計劃

TAG:數據分析 |