第十三章:HDFS的數據流
來自專欄 大數據技術之Hadoop
第十三章:HDFS的數據流
(作者:memories)
一、HDFS寫數據流程
1、剖析文件寫入
1)客戶端通過Distributed FileSystem模塊向NameNode請求上傳文件,NameNode檢查目標文件是否已存在,父目錄是否存在。
2)NameNode返回是否可以上傳。
3)客戶端請求第一個 block上傳到哪幾個datanode伺服器上。
4)NameNode返回3個datanode節點,分別為dn1、dn2、dn3。
5)客戶端通過FSDataOutputStream模塊請求dn1上傳數據,dn1收到請求會繼續調用dn2,然後dn2調用dn3,將這個通信管道建立完成。
6)dn1、dn2、dn3逐級應答客戶端。
7)客戶端開始往dn1上傳第一個block(先從磁碟讀取數據放到一個本地內存緩存),以packet為單位,dn1收到一個packet就會傳給dn2,dn2傳給dn3;dn1每傳一個packet會放入一個應答隊列等待應答。
8)當一個block傳輸完成之後,客戶端再次請求NameNode上傳第二個block的伺服器。(重複執行3-7步)。
2、網路拓撲概念
在本地網路中,兩個節點被稱為「彼此近鄰」是什麼意思?在海量數據處理中,其主要限制因素是節點之間數據的傳輸速率——帶寬很稀缺。這裡的想法是將兩個節點間的帶寬作為距離的衡量標準。
節點距離:兩個節點到達最近的共同祖先的距離總和。
例如,假設有數據中心d1機架r1中的節點n1。該節點可以表示為/d1/r1/n1。利用這種標記,這裡給出四種距離描述。
大家算一算每兩個節點之間的距離。
3、機架感知(副本節點選擇)
1)官方ip地址:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/RackAwareness.html
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html#Data_Replication
2)低版本Hadoop副本節點選擇
第一個副本在Client所處的節點上。如果客戶端在集群外,隨機選一個。
第二個副本和第一個副本位於不相同機架的隨機節點上。
第三個副本和第二個副本位於相同機架,節點隨機。
3)Hadoop2.7.2副本節點選擇
第一個副本在Client所處的節點上。如果客戶端在集群外,隨機選一個。
第二個副本和第一個副本位於相同機架,隨機節點。
第三個副本位於不同機架,隨機節點。
二、HDFS讀數據流程
1)客戶端通過Distributed FileSystem向NameNode請求下載文件,NameNode通過查詢元數據,找到文件塊所在的DataNode地址。
2)挑選一台DataNode(就近原則,然後隨機)伺服器,請求讀取數據。
3)DataNode開始傳輸數據給客戶端(從磁碟裡面讀取數據輸入流,以packet為單位來做校驗)。
4)客戶端以packet為單位接收,先在本地緩存,然後寫入目標文件。
推薦閱讀:
※Rust 重構 Spark 框架需要做哪些準備工作?
※邏輯回歸演算法原理及Spark MLlib調用
※如何在 Spark 機器學習中應用 scikit-learn?
※Scala快速入門系列:聲明變數、控制結構與函數、常用數組操作
※Spark Streaming:大規模流式數據處理的新貴