精選 | 2018年3月R新包推薦
來自專欄 R語言中文社區
作者:Joseph Rickert
翻譯:黃小偉,先後從事遊戲、社交及金融數據研究及應用,目前就職網易杭州
2018年3月份,共有約200個R新包收錄於CRAN,本文選摘了其中40個新包加以功能簡述,主要包括:計算方法、數據、數據科學、科學、統計、時間序列、工具和可視化等。希望有助於大家的學習!
一. 計算方法
1. dynprog: 提供將遞歸快速轉換為動態編程演算法的工具。
2. fmlogcondens: 實現了多元對數凹函數族最大似然估計的快速求解。
3. knor: 提供對knor的訪問,用於計算k-means演算法。
二. 數據
1. daymetr: 提供Daymet氣候數據的編程介面,並支持相關分析。
2. NOAAWeather: 提供從所有NOAA站點檢索實時天氣數據的功能,並支持繪製時間序列、箱線圖、熱圖和地理空間圖等圖形。
3. ppitables: 提供部分國家的相關數據,以確定基於其PPI(貧困概率指數)的貧困家庭可能性,同時提供了創新扶貧行動的相關資料。
4. usfertilizer: 提供了美國各個縣在1945年至2012年,所使用肥料、氮和磷的統計數據。
三. 數據科學
1. greybox: 基於偏相關性的信息標準,實現模型選擇和組合的工具。
2. h2o4gpu: 實現H2O4GPU的介面,這是一組用於機器學習演算法的GPU解算器。
3. iml: 提供了部分具備可解釋性的方法,用於分析機器學習模型的行為和預測結果。包括特徵重要性、局部依賴圖、Shapley值和樹替代模型等。
4. iTOP: 提供函數來推斷不同數據集之間的拓撲結構關係,該方法是基於RV係數的擴展。
5. onnx: 實現了ONNX的介面(the Open Neural Network Exchange),為機器學習模型提供了一種開源的格式。
6. rcqp: 實現基於CWB軟體的語料庫查詢協議功能,這是一組用於管理和查詢大型文本語料庫的開源工具。
四. 政治科學
1. coalitions: 根據調查結果數據,利用MCMC方法計算聯盟大多數的概率。
五. 科學
1. diagmeta: 採用Steinhauser等人2016年提出的方法,對診斷精度研究進行薈萃分析。
2. NetworkExtinction: 提供了模擬食物鏈中物種滅絕的功能,並分析了Dunne等人所描述的連鎖效應。
3. foreSIGHT: 提供工具來創建水文氣候場景、壓力測試、可視化等系統,用於氣候變化影響的評估。
4. PINSPlus: 根據Nguyen等人2017年提出的方法,提供了一種擾動聚類方法,將疾病的數據和分類整合到不同亞型。
六. 統計
1. chandwich: 根據Chandler和Bate在2007年提出的方法,提供了使用參數協方差矩陣的穩健三明治估計量,調整獨立對數似然函數。
2. ciuupi: 當存在不確定的先驗信息時,提供函數來計算具有iid正態誤差和已知方差的線性回歸參數組合的置信區間。
3. CoxPhLb: 利用Cox模型用於分析右截斷、長度偏差數據。包括模型擬合和檢驗、平穩性假設檢驗等。
4. cutpointr: 提供函數來估計、優化二進位分類任務中指定度量標準的切點,並使用自助法來驗證性能。
5. fcr: 提供了部分函數,用於功能並發回歸中的動態預測問題,並對函數:pffr()進行了擴展。
6. ggdag: 基於DAGitty web工具,提供對有序的非循環圖的整理、分析和繪圖功能。
7. hdme: 對於廣義線性模型的誤差度量提供了部分函數,包括套索(L1懲罰)、廣義矩陣不確定性選擇器等。
8. joineRmeta: 擴展了Henderson等人2000年提出的聯合模型,包括多元研究、元分析案例等。
9. rare: 藉助Yan和Bien在2018年提出的交替方向法,構建了基於樹的套索正則化的線性模型。
七. 時間序列
1. rMEA: 提供讀取、可視化和輸出雙變數運動能量時間序列的工具。
2. tsfknn: 提供使用最近鄰回歸預測時間序列的功能。
3. spGARCH: 提供了部分功能,用於分析空間和時空自回歸條件異位、空間ARCH類型過程的模擬、spARCH模型參數的准極大似然估計等問題。
八. 工具
1. base2grob: 提供了一個函數將基礎繪圖函數對象轉化為grob對象,並與grid系統兼容。
2. cranly: 提供用於清理、組織、總結和可視化CRAN包信息的功能,以及構建包指示網路(依賴、導入、建議、增強)和協作網路的功能。
3. osrmr: 對OSRM(Open Source Routing Machine)API實現了封裝。
4. fasterize: 對raster包的函數:rasterize()提供了一個快速的簡單替換,它採用sf類型對象和Wylie等人在1967年提出的掃描線演算法(scan line algorithm)。
5. jsr223: 提供了一個高質量的集成,使得在R中方便的調用Java對象,同時提供了統一的介面,可以在R中方便的調用其他編程語言,諸如Groovy、JS、Ruby等。
九. 可視化
1. clustree: 隨著解析度的增加,提供函數來生成聚類樹可視化展示。
2. datamaps: 在RStudio、Shiny app等環境中,創建具有氣泡和圓弧的互動式輪廓圖,其中坐標和區域名稱可由用戶自主設定。
3. funnelR: 提供為比例數據創建漏斗圖的功能,並支持用戶定義的基準、置信範圍和估計方法。
4. nVennR: 為Perez-Silva等人2018年提出的nVenn演算法提供一個調用介面。
5. smovie: 使用rpanel包創建互動式動畫,幫助學生理解統計概念。
說明:限於個人水平,錯誤在所難免,歡迎批評指正,多交流學習!
推薦閱讀:
※從聚合轉移的統一視角淺談卷積神經網路架構設計 | Paper Reading 第二季第三期
※《大演算:機器學習的終極演演算法將如何改變我們的未來,創造新紀元的文明》
※第二章:機器學習對配電網健康指數分析
※Hulu機器學習問題與解答系列 | 十六:經典優化演算法
※簡單邏輯回歸