精選 | 2018年1月R新包推薦

作者:Joseph Rickert

譯者:黃小偉,先後從事遊戲、社交及金融數據研究及應用相關工作,目前就職網易杭州,期待多交流

2018年1月份,CRAN收錄了200個R新包,本文節選了40個R包做以簡單功能介紹,其餘包可登錄CRAN自行查看,包括類別:數據、數據科學、科學、統計學、時間序列、工具和可視化等。目前,CRAN正在成為一個實用的、來之不易的科學知識庫。(ps:部分包在CRAN收錄後會存在下架的可能,大家在使用時可以稍加註意)

一. 數據

1. cancensus : 使用CensusMapper API 為加拿大人口普查和地理數據提供訪問介面。

2. elevatr : 提供多個針對海拔數據服務的訪問許可權,並且返回空間點數據框(SpatialPointsDataFrame)或者柵格對象。目前支持訪問Mapzen Elevation Service, Mapzen Terrain Service, Amazon Web Services Terrain Tiles和 USGS Elevation Point Query Service等服務商。

3. fabricatr : 提供模擬分層和相關數據的函數。

4. getTBinR : 支持世界衛生組織結核病數據的快速導入,並為探索性數據分析提供可視化功能。

5. homologene : 美國國家生物技術信息中心為同源基因資料庫提供了一個包裝,允許跨物種搜索基因同系物。

6. photobiologyFilters : 純數據包,包含頻譜「透射率」數據,用於頻繁使用的過濾器和材料,包括塑料片、薄膜、光學玻璃和普通玻璃以及一些實驗室器皿。

7. tfdatasets : 為TensorFlow數據集提供訪問介面,支持從簡單的、可重用塊構建複雜的輸入管道。

8. washdata : 支持獲取城市供水和衛生調查數據,該數據由城市貧民清潔水處理聯盟機構(WSUP)提供。

二. 數據科學

1. CRPClustering : 提供一種使用中國餐館過程Pitman(1995)的聚類方法,該方法不需要事先確定聚類數量,同時提供相關函數計算類的模糊性作為熵值Yngvason (1999)。

2. kerasformula : 為Keras神經網路提供一個高級數據介面。

3. multiROC : 通過微觀和宏觀平均計算ROC曲線下面積,提供工具來解決多個類別的分類問題。

4.reinforcelearn : 實現強化學習環境和演算法 Sutton&Barto(1998)。

5. stranger : 提供一個解決框架,針對無監督異常檢測問題。

6. tidypredict : 提供函數用於解析R模型對象,並返回一個SQL查詢結果。

三. 科學

1. annovarR : 提供功能和資料庫資源,為基因組、轉錄組數據中的遺傳變異注釋提供整合框架,該包裝函數統一了許多已發布的注釋工具的介面,如VEP, ANNOVAR, vcfanno, 和 AnnotationDbi等。

2. pubh : 提供一個工具箱,使流行病學和公共衛生相關學科的學生和專業人員更容易使用R功能。

3. trajr : 提供一個工具箱,用於對二維動物軌跡進行統計分析。

四. 統計

1. dalmatian : 提供一個有效的功能,藉助JAGS自動擬合GLM模型。

2. dirichletprocess : 允許創建Dirichlet過程對象,這些對象可以用作無限混合模型。包括密度估計、泊松過程強度推理、分層建模和聚類等。

3. detpack : 提供部分功能,用於對大數據集進行密度估計,同時使用分布元素樹生成條件/無條件隨機數。

4. gnorm : 提供獲得廣義正態/指數功率分布概率、分位數、密度和隨機偏差的函數。

5. IROmiss : 提供一種通用演算法,即插值正則化優化(IRO)演算法,用於處理高維缺失數據問題。

6. KRIG : 提供Kriging模型和空間統計的各種方法的功能,包括使用再生核希爾伯特空間的多元敏感性分析和Sobol指數的計算。

7. natural : 在高維線性模型中,實現兩種誤差方差估計方法。

8. OpVar : 使用最大似然估計和貝葉斯方法,提供用於針對操作風險建模的函數。

9. netrankr : 實施網路中心性相關分析的方法,主要是通過由鄰域包含或位置優勢獲得的部分排名進行評估。

10. palmtree : 實現PALM樹演算法,這是MOB演算法(partykit包)的擴展,其中一些參數在所有組中都是固定的。

11. PMCMRplus : 提供函數來計算許多不同類型的成對多重比較測試。

12. seminr : 實施用於構建PLS結構方程模型的領域特定語言,兼顧一致性PLS的最新估算方法Dijkstra & Henseler (2015)、交互調整Henseler & Chin (2010)等內容。

五. 時間序列

1. santaR : 為短時間序列分析提供了一個圖形化的自動化流水線功能,旨在適應非同步時間採樣、個體間變異性、雜訊測量和變數較多等問題。

2. TSrepr : 提供時間序列的表示方法(如:降維、預處理、特徵提取等)。

3. TSstudio : 提供一組互動式可視化工具,支持ts、mts、zoo和xts對象的時間序列分析,包括用於預測模型性能、時間序列互動式圖表和季節性圖表的可視化函數等。

六. 工具

1. arrangements : 為排列、組合和分區提供快速生成器和迭代器,使用戶能夠以節省內存的方式生成排列。

2. fs : 在libuv C庫之上,實現文件系統操作的跨平台介面。

3. googlePolylines : 提供使用Google折線編碼演算法對簡單要素(sf)對象和坐標進行編碼的功能。

4. prrd : 對於給定的R包,提供反向排隊函數,支持多個工作人員進行並行測試。

5. rquery : 基於Edgar F. Codd的關係代數和運算符名稱實現查詢生成器,其目的在於增強在大數據量級下使用「SQL」的體驗。

6. tsibble : 提供一個tbl_ts類,用於存儲和管理以數據為中心格式的時間維度數據。

七. 可視化

1. breakDown : 實現分解圖,顯示模型中的每個變數的貢獻。

2. sigmaNet : 藉助Sigma.js,提供創建互動式圖形可視化的功能。

說明:限於個人水平,錯誤之處,懇請批評指正,歡迎多交流~

原文地址:rviews.rstudio.com/2018

往期精彩內容整理合集

2017年R語言發展報告(國內)?

mp.weixin.qq.com圖標R語言中文社區歷史文章整理(作者篇)?

mp.weixin.qq.com圖標R語言中文社區歷史文章整理(類型篇)?

mp.weixin.qq.com圖標
推薦閱讀:

機器學習的學習筆記(0)
Netflix與推薦系統
R語言實戰—02-創建數據集
用Python做數據分析

TAG:R編程語言 | 數據分析 | 數據挖掘 |