矽谷之路13:從Storm到Heron的Twitter實時大數據之路

Twitter從閃電變成了美麗的蒼鷺

Twitter的需求

  • 實時趨勢發現:疫苗問題

  • 實時討論:蘋果發布會

  • 實時推薦:廣告

  • 實時搜索:地震

Storm

如何統計單詞的出現次數?

如何加速統計單詞的出現次數?

Storm的架構是什麼?

worker是什麼?

Worker的數據流是什麼?

集群的上限是多少?

什麼是瓶頸? Zooper做的事太多了!!!

  • kafka數據:2s

  • 心跳:3s

怎麼破心跳風暴? 獨立的心跳進程

資源如何分配?

上游數據過快怎麼辦?

  • 下游隨即丟失(worker收到數據太多,為了防止雪崩)

  • 上游重發

  • 無法細粒度控制

內存成為瓶頸會如何?

  • 20%-30%的CPU利用率

  • 沒有CPU和內存的細粒度隔離和調度

數據很多會發生什麼?

  • 一個一個處理

  • 缺乏批量處理能力

Heron的設計目標

Stream Manager是如何傳輸的?

參考文獻:Twitter Heron: Streaming at Scale

完整視頻查看: BitTiger

更多精彩內容, 請掃描下面二維碼,關注微信公眾賬號「論碼農的自我修養」


推薦閱讀:

TAG:Twitter | 实时操作系统 | 大数据 | ApacheStorm |