[原] 深入對比數據科學工具箱: SparkR vs Sparklyr
背景介紹
SparkR 和 Sparklyr 是兩個基於Spark的R語言介面,通過簡單的語法深度集成到R語言生態中。SparkR 由 Spark 社區維護,通過源碼級別更新SparkR的最新功能,最初從2016年夏天的1.5版本開始支持,從使用上非常像Spark Native
。Sparklyr 由 RStudio 社區維護,通過深度集成 RStudio 的方式,提供更易於擴展和使用的方法,更強調統計特性與機器學習,實現本地與分散式代碼的一致性,通常會比SparkR延遲1-2個版本,從使用上看接近於dplyr
。
整體對比特性
深度對比
文檔
兩者文檔相對來說 Sparklyr 更加豐富一些,其中包含了業界/學界大量案例,但以中文版較少。SparkR 由第三方提供了中文版文檔。
SparkR 文檔:http://spark.apachecn.org/doc...
Sparklyr 文檔:https://spark.rstudio.com安裝便利性
SparkR: 從官網下載,支持最新2.3版本。
Sparklyr:sparklyr::install_spark()
,不依賴於Spark版本,spark 2.X 完美兼容1.X。截止2018年3月18日,目前暫不支持2.3版本。
Spark初始化
SparkR:
Sys.setenv("SPARKR_SUBMIT_ARGS"="--master yarn-client sparkr-shell")sc <- SparkR::sparkR.session(enableHiveSupport = T, sparkHome = "/data/FinanceR/Spark")
Sparklyr:
sc <- sparklyr::spark_connect(master = "yarn-client", spark_home = "/data/FinanceR/Spark", version = "2.2.0", config = sparklyr::spark_config())
數據IO
以寫Parquet文件為例
SparkR:
df <- SparkR::as.DataFrame(faithful) SparkR::write.parquet(df,path= "/user/FinanceR",mode="overwrite",partition_by = "dt")
Sparklyr:
df <- sparklyr::copy_to(sc,faithful,"df")sparklyr::spark_write_parquet(df,path="/user/FinanceR",mode="overwrite",partition_by = "dt")
數據清洗
以統計計數為例:
SparkR
library(SparkR)library(magrittr)df %>%mutate(a = df$b + 2) %>%filter("a > 2")%>%group_by("key")%>%count()%>%withColumn("count","cnt")%>%orderBy("cnt",decrease = F)%>%dropna() ->pipelinepipeline %>% persist("MEM_AND_DISK") # 大數據集 緩存在集群上pipeline %>% head() # 小數據 載入到本地
Sparklyr
library(sparklyr)library(dplyr)# 在 mutate 中支持 Hive UDFdf %>%mutate(a = b+2) %>%filter(a > 2)%>%group_by(key)%>%summarize(count = n())%>%select(cnt = count)%>% order_by(cnt)%>%arrange(desc(cnt))%>%na.omit() ->pipelinepipeline %>% sdf_persist() # 大數據集 緩存在集群上pipeline %>% head() %>% collect() # 小數據 載入到本地
SQL
SparkR
df <- SparkR::sql(SELECT * FROM financer_tbl WHERE dt = "20180318")
Sparklyr
所有操作幾乎和MySQL完全一樣,學習成本≈0
df <- sc %>% dplyr::tbl(dplyr::sql(SELECT * FROM financer_tbl WHERE dt = "20180318"))sc %>% DBI::dbGetQuery(SELECT * FROM financer_tbl WHERE dt = "20180318" limit 10) # 直接將數據 collect 到本地, 與操作MySQL完全一樣 df %>% dbplyr::sql_render() # 將 pipeline 自動翻譯為 SQL# SELECT * FROM financer_tbl WHERE dt = "20180318"
分發R代碼
SparkR
#SparkR::dapply/SparkR::gapply/SparkR::lapplyfunc <- function(x){x + runif(1) } # 原生R代碼SparkR::gapplyCollect(x = df, func = func,group = "key")
Sparklyr:
func <- function(x){x + runif(1) } # 原生 R代碼sparklyr::spark_apply(x = df,packages=T,name = c("key","value"),func =func,group = "key")
SparkR 手動通過 spark.addFile
載入本地依賴,Sparklyr 自動將本地依賴分發到集群上
流式計算
SparkR
stream <- SparkR::read.stream(source = "kafka", "kafka.bootstrap.servers" = "a1.financer.com:9092,a2.financer.com:9092", "subscribe" = "binlog.financer.financer")stream %>% SparkR::selectExpr( "CAST(key AS STRING)", "CAST(value AS STRING)") %>% SparkR::selectExpr("get_json_object(value,$.data) as data") %>% SparkR::selectExpr("get_json_object(data,$.ORDERID) as orderid" ,"get_json_object(data,$.USERID) as userid" ,"get_json_object(data,$.TS) as ts" ) %>% SparkR::withWatermark("ts", "5 minutes") %>% SparkR::createOrReplaceTempView("financer")" select userid,window.start as ts,count(1) as cnt from financer group by userid, window(ts, 5 seconds)" %>% SparkR::sql() %>% SparkR::write.stream("console",outputMode = "complete") -> query
Sparklyr 暫時不支持流式計算,功能開發中
圖計算
SparkR 不直接支持 Graph Mining,具體實現通過GraphX來實現
Sparklyr 通過拓展程序,graphframes
實現圖挖掘,比如Pagerank、LPA等library(graphframes)# copy highschool dataset to sparkhighschool_tbl <- copy_to(sc, ggraph::highschool, "highschool")# create a table with unique vertices using dplyrvertices_tbl <- sdf_bind_rows( highschool_tbl %>% distinct(from) %>% transmute(id = from), highschool_tbl %>% distinct(to) %>% transmute(id = to))# create a table with <source, destination> edgesedges_tbl <- highschool_tbl %>% transmute(src = from, dst = to)gf_graphframe(vertices_tbl, edges_tbl) %>% gf_pagerank(reset_prob = 0.15, max_iter = 10L, source_id = "1")
深度學習
SparkR 不直接支持 Deep Learning
Sparklyr 通過拓展程序 Rsparkling 實現深度學習,比如 Anto-Encoder總結
目前,SparkR 僅在實時計算上領先於 Sparklyr,在圖計算、機器學習、深度學習等領域已經被拉開差距,在大多數場景下,Sparklyr將是一個更好的選擇,在不久的將來,Sparklyr也將集成Streaming模塊,屆時將全面覆蓋SparkR功能。
相比於 pandas 和 pyspark,R 和 SparkR 的差異更小,並且如果你已經掌握了 dplyr 操作 mysql 的方法,學習 Sparklyr 將變得十分容易,因為他們共用同一套數據處理的語法,使用spark幾乎只有參數配置的學習成本, 更多 Sparklyr教程可見 http://spark.rstudio.com 以及 Sparklyr 使用手冊:https://github.com/rstudio/cheatsheets/raw/master/sparklyr.pdf 。
參考資料
- https://eddjberry.netlify.com...
- https://github.com/rstudio/sp...
- https://databricks.com/sessio...
- https://github.com/kevinykuo/...
- http://docs.h2o.ai/h2o/latest...
- https://github.com/rstudio/gr...
原文地址
人類身份驗證 - SegmentFault
推薦閱讀: