標籤:

談一本書《Spark快速大數據分析》

團隊的負責大數據這塊的同事有事出差了,所以他的工作各種原因最後落在了我的手中。

雖然說it技術更新迭代速度很快,但是本人在各種學習渠道中喜歡的還是讀書的方式。Big Data這部分涉及的技術對於我來說比較新(之前只是在網上看過相關文章和相關概念,項目中使用過hbase),心裡也是有點畏懼心理,而且邊工作邊學習的方式還真考驗人,畢竟在學習的過程中很容易鑽牛角尖,或者一深入探究就很容易耽誤工作的進度。帶著擔心工作進度的心理去看書卻很難看得進去,不說了,這種心態真折磨人。

在網上搜索學習spark的書籍,除了官網貌似很多前輩推薦了這本書:Learning Spark:Lightning-fast Data Analysis,中文名稱也就是題目所說的。看了第一章和第三章了,不得不說,好書就是開卷有益,看完第一,二,三章,對spark已經沒有畏懼感,而且對spark也產生了興趣。一些原先晦澀難以理解的概念也漸漸可以理解。因為只看了幾章,所以暫時這麼多(需要本書免費pdf的可私信).

果然,一工作起來就沒心思寫文章了,年前忙著這個大數據模塊。說說後來這部分模塊的情況,結果就是我怕未能按時完成(這塊確實不熟悉,不是我怕責任問題,時間上我也覺得不合理),向領導說明情況後,領導讓另一個高級RD幫忙弄了。這個RD有十年工作經驗了,然而他也不是弄大數據的,所以很多東西他也 是摸著過河弄,很多東西他也是不熟悉,但是畢竟有資深經驗嗎,眼界畢竟不一樣,起碼比我知道哪裡設計不合理,哪裡設計合理,最終就是我給他打下手了,最後勉強完成(說實話,時間有點緊,而且我倆又不熟悉,感覺坑還有不少),那個資深RD還是自信滿滿的,哈哈,這是好事,值得學習,畢竟大神嗎,不都從坑過來的嗎。

再來講講技術層面的問題,hbase的客戶端phoenix對很多複雜sql的不支持真的令人煩,因為這個折騰了好久,而且數據量真的大(當時測試是幾十w條,實際生產應該更多),所以也涉及到一個性能問題,一開始查詢一條sql需要10幾20秒,最後不斷拆表才變成了4,5秒這樣子(還真不知道有沒有問題)。spark sql也被我們棄用了,那位資深RD也沒用過spark,怕出問題吧。不過對於我來說,還是學到了很多東西,感謝.

推薦閱讀:

2018年春季美國互聯網界數據科學家崗位職場動態 (Part 0 - 背景)
AI時代:聊聊大數據中的MapReduce
平安產險數據建模大賽,不可不知的N個理由
Hadoop如何處理?如何增強Hadoop 安全?
大數據時代來了,你準備好了嗎?

TAG:大數據 |