面試要記住的問題

06-07

面試要記住的問題

2.項目部分至少要有做過的一些業務需求，比方說、產品分析報表需求，月度地區收入分析需求等業務方面的描述。對自己做的項目和業務部分要很清楚

3.hive要會幾條優化的方案，比方說數據傾斜怎麼處理，map端關聯怎麼做，hive要明確知道分區表和分桶表的作用以及代碼實現，熟練正確回答 order sort distribute cluster四個by的區別，知道hivevar的用法，知道hive腳本的寫法和執行方法。要知道hive表數據載入的幾種方式，hive常用的函數列舉

4.spark rdd寬依賴，窄依賴

共享變數：累加器和廣播變數的用法

cache的作用和應用場景

map和mappartition的區別

reduce fold aggragate的區別

spark程序的執行過程

run on yarn的spark程序執行過程

spark的優化

spark處理數據傾斜

spark sql的dataframe和dataset的區別，要使用sparksql的代碼模式

sparkstreaming dstream的概念，它和rdd的區別

窗口計算和累計狀態計算方法的使用

對接kafka的方法

數據丟失和重複問題

5.hbase的rowkey設計

spark怎麼操作hbase

hbase的hregionserver和hmaster的作用

了解二級索引

6.zookeeper的特點，kafka的特點

kafka消費組的概念

7.對hadoop中hdfs的理解和對mr的理解

flume採集agent的source監聽在網路埠，爬蟲程序爬到數據解析好，把流計算需要的數據解析出來，發送到flume監聽的埠，這樣完成爬蟲和flume的對接

github 下載別人的代碼