面試要記住的問題
2.項目部分至少要有做過的一些業務需求,比方說、產品分析報表需求,月度地區收入分析需求等業務方面的描述。對自己做的項目和業務部分要很清楚
3.hive要會幾條優化的方案,比方說數據傾斜怎麼處理,map端關聯怎麼做,hive要明確知道分區表和分桶表的作用以及代碼實現,熟練正確回答 order sort distribute cluster四個by的區別,知道hivevar的用法,知道hive腳本的寫法和執行方法。要知道hive表數據載入的幾種方式,hive常用的函數列舉
4.spark rdd寬依賴,窄依賴
共享變數:累加器和廣播變數的用法
cache的作用和應用場景
map和mappartition的區別
reduce fold aggragate的區別
spark程序的執行過程
run on yarn的spark程序執行過程
spark的優化
spark處理數據傾斜
spark sql的dataframe和dataset的區別,要使用sparksql的代碼模式
sparkstreaming dstream的概念,它和rdd的區別
窗口計算和累計狀態計算方法的使用
對接kafka的方法
數據丟失和重複問題
5.hbase的rowkey設計
spark怎麼操作hbase
hbase的hregionserver和hmaster的作用
了解二級索引
6.zookeeper的特點,kafka的特點
kafka消費組的概念
7.對hadoop中hdfs的理解和對mr的理解
flume採集agent的source監聽在網路埠,爬蟲程序爬到數據解析好,把流計算需要的數據解析出來,發送到flume監聽的埠,這樣完成爬蟲和flume的對接
github 下載別人的代碼
推薦閱讀:
※大數據解讀2017-2018澳洲移民新政策
※ALLUXIO在攜程大數據平台中的應用與實踐
※農業真正的農業掌握在AI手中
※今日數據行業日報(2017.01.11)
※Tesseract-OCR 字元識別---樣本訓練
TAG:大數據 |