矽谷之路13:從Storm到Heron的Twitter實時大數據之路
01-25
Twitter從閃電變成了美麗的蒼鷺
Twitter的需求
- 實時趨勢發現:疫苗問題
- 實時討論:蘋果發布會
- 實時推薦:廣告
- 實時搜索:地震
Storm
如何統計單詞的出現次數?
如何加速統計單詞的出現次數?Storm的架構是什麼?
worker是什麼?
Worker的數據流是什麼?
集群的上限是多少? 什麼是瓶頸? Zooper做的事太多了!!!
- kafka數據:2s
- 心跳:3s
怎麼破心跳風暴? 獨立的心跳進程
資源如何分配?
上游數據過快怎麼辦?
- 下游隨即丟失(worker收到數據太多,為了防止雪崩)
- 上游重發
- 無法細粒度控制
內存成為瓶頸會如何?
- 20%-30%的CPU利用率
- 沒有CPU和內存的細粒度隔離和調度
數據很多會發生什麼?
- 一個一個處理
- 缺乏批量處理能力
Heron的設計目標
Stream Manager是如何傳輸的?參考文獻:Twitter Heron: Streaming at Scale
完整視頻查看: BitTiger
更多精彩內容, 請掃描下面二維碼,關注微信公眾賬號「論碼農的自我修養」
推薦閱讀:
TAG:Twitter | 实时操作系统 | 大数据 | ApacheStorm |