大數據即服務（BDaaS）：大數據行業的下一個熱門丨數據工匠簡報（6.20）

01-29

大數據即服務（BDaaS）：大數據行業的下一個熱門

大數據指的是那些我們正在創造與存儲的、日益增長的信息，還有對這些數據的分析與使用。按照商業意識的概念，大數據特別指代從分析中收集洞見，然後將這些見解應用在實際中以推動業務成長的做法。

在這個時候，BDaaS是一個有些模糊的術語，經常用於描述種種將大數據功能外包到雲端的做法，範圍從提供數據，到提供用於查詢數據的分析工具（經常藉助web面板或者控制面板來實現），再到執行實際分析並提供報告。某些BDaaS提供商也會在提供的BDaaS服務中包括諮詢與顧問服務。

因此，在許多方面，BDaaS包含被稱為軟體即服務、平台即服務、數據即服務等等各方面的元素，並將這些元素用於解決大數據中的問題。

百度地圖的工程師都是如何利用Apache Kylin處理數據的

百度地圖開放平台業務部數據智能組主要負責百度地圖內部相關業務的大數據計算分析，處理日常百億級規模數據，為不同業務提供單條SQL毫秒級響應的OLAP多維分析查詢服務。

對於Apache Kylin在實際生產環境中的應用，在國內，百度地圖數據智能組是最早的一批實踐者之一。Apache Kylin在2014年11月開源，當時，我們團隊正需要搭建一套完整的大數據OLAP分析計算平台，用來提供百億行級數據單條SQL毫秒到秒級的多維分析查詢服務，在技術選型過程中，我們參考了Apache Drill、Presto、Impala、Spark SQL、Apache Kylin等。對於Apache Drill和Presto因生產環境案例較少，考慮到後期遇到問題難以交互討論，且Apache Drill整體發展不夠成熟。對於Impala和Spark SQL，主要基於內存計算，對機器資源要求較高，單條SQL能夠滿足秒級動態查詢響應，但交互頁面通常含有多條SQL查詢請求，在超大規模數據規模下，動態計算亦難以滿足要求。後來，我們關注到了基於MapReduce預計算生成Cube並提供低延遲查詢的Apache Kylin解決方案，並於2015年2月左右在生產環境完成了Apache Kylin的首次完整部署。

Apache Kylin是一個開源的分散式分析引擎，提供Hadoop之上的SQL查詢介面及多維分析(OLAP)能力以支持超大規模數據，最初由eBay Inc. 開發並貢獻至開源社區，並於2015年11月正式畢業成為Apache頂級項目。

tidyr包更新的三個新特性

對於一個數據分析師來說，很可能80%的時間都花在了數據清洗和數據準備上。tidyr包可以很容易的幫助我們「整理」數據，它是reshape2包的進化版。tidyr包目前已更新至0.5.0版本，關於tidyr包的基礎用法可以參考我們網站的文章reshape2包的進化版—tidyr包。接下來我將簡要介紹0.5.0版本中三個有用的新特性。

以上簡訊由數據工匠提供，感興趣的小夥伴可以通過掃描簡報後的二維碼鏈接原文，更多數據科學資訊盡在數據工匠，掃碼關注Datartisan數據工匠公眾號！如果你看到什麼與「數據科學」有關的好文或者信息科技優質的文章，可以隨手轉發給我們，讓更多熱愛數據科學的小夥伴一起成長！