標籤:

面試要記住的問題

面試要記住的問題

2.項目部分至少要有做過的一些業務需求,比方說、產品分析報表需求,月度地區收入分析需求等業務方面的描述。對自己做的項目和業務部分要很清楚

3.hive要會幾條優化的方案,比方說數據傾斜怎麼處理,map端關聯怎麼做,hive要明確知道分區表和分桶表的作用以及代碼實現,熟練正確回答 order sort distribute cluster四個by的區別,知道hivevar的用法,知道hive腳本的寫法和執行方法。要知道hive表數據載入的幾種方式,hive常用的函數列舉

4.spark rdd寬依賴,窄依賴

共享變數:累加器和廣播變數的用法

cache的作用和應用場景

map和mappartition的區別

reduce fold aggragate的區別

spark程序的執行過程

run on yarn的spark程序執行過程

spark的優化

spark處理數據傾斜

spark sql的dataframe和dataset的區別,要使用sparksql的代碼模式

sparkstreaming dstream的概念,它和rdd的區別

窗口計算和累計狀態計算方法的使用

對接kafka的方法

數據丟失和重複問題

5.hbase的rowkey設計

spark怎麼操作hbase

hbase的hregionserver和hmaster的作用

了解二級索引

6.zookeeper的特點,kafka的特點

kafka消費組的概念

7.對hadoop中hdfs的理解和對mr的理解

flume採集agent的source監聽在網路埠,爬蟲程序爬到數據解析好,把流計算需要的數據解析出來,發送到flume監聽的埠,這樣完成爬蟲和flume的對接

github 下載別人的代碼


推薦閱讀:

大數據解讀2017-2018澳洲移民新政策
ALLUXIO在攜程大數據平台中的應用與實踐
農業真正的農業掌握在AI手中
今日數據行業日報(2017.01.11)
Tesseract-OCR 字元識別---樣本訓練

TAG:大數據 |