計算機論文精選-20180725
來自專欄計算機論文精選5 人贊了文章
HopsFS: Scaling Hierarchical File System Metadata Using NewSQL Databases【FAST 17】
分散式文件系統大規模並行處理系統的重要組件,現在PB級的大規模數據存儲已經非常普遍,層次化的文件系統的元數據管理成為了文件系統的瓶頸。現在主流的分散式文件系統通常都是講元數據的管理存儲在單個節點或者存在共享的網路磁碟文件系統,如HDFS,GFS等。也有一些系統靜態地將命名空間分片到不同的節點達到擴展元數據的目的,但是這種靜態的分片對於一些操作如move等很不友好,而且隨著命名空間的增多,需要管理員手動的重新調整元數據和命名空間的映射。
本文提出了一種使用NewSQL保存元數據方法,解決HDFS元數據管理的瓶頸。HopsFS使用的MySQL Cluster(一個In-memory的shared-nothing分散式事務資料庫)保存HDFS的inode,block,replica等信息,設計了元數據信息存儲的表結構和partion方法,提供高效的訪問樹形目錄結構的方式,並且設計了一套並發訪問的方案。相比沒有修改的HDFS,元數據的存儲容量提高了至少37倍,在Spotify的真實負載下,吞吐相比HDFS提高了16~37倍。
本文充分利用現在新興的NewSQL資料庫的特性,重新設計了HDFS,大大地提高了其存儲能力,同時也為分散式層次化文件系統的設計提拱了一個新的思路。
更多內容請關注微信公眾號「論文精選」以及微信小程序「SkimPaper」,每天準時為您推薦體系結構、分散式系統、人工智慧等相關領域優秀論文解讀。同時也歡迎大家積極投稿,分享您讀到的優秀論文。
推薦閱讀:
※TiDB 2.0 GA Release Notes
※關於MongoDB安全事件的一些思考
※TiDB 源碼閱讀系列文章(十三)索引範圍計算簡介
※性能測試工具的 Coordinated Omission 問題
※SequoiaDB版本在線升級介紹說明