標籤：

ApacheStorm Twitter 大数据實時操作系統

矽谷之路13:從Storm到Heron的Twitter實時大數據之路

01-25

Twitter從閃電變成了美麗的蒼鷺

Twitter的需求

實時趨勢發現：疫苗問題
實時討論：蘋果發布會
實時推薦：廣告
實時搜索：地震

Storm

如何統計單詞的出現次數？

如何加速統計單詞的出現次數？

Storm的架構是什麼？

worker是什麼？

Worker的數據流是什麼?

集群的上限是多少？

什麼是瓶頸？ Zooper做的事太多了！！！

kafka數據：2s
心跳：3s

怎麼破心跳風暴？獨立的心跳進程

資源如何分配？

上游數據過快怎麼辦？

下游隨即丟失（worker收到數據太多，為了防止雪崩）
上游重發
無法細粒度控制

內存成為瓶頸會如何？

20%-30%的CPU利用率
沒有CPU和內存的細粒度隔離和調度

數據很多會發生什麼？

一個一個處理
缺乏批量處理能力

Heron的設計目標

Stream Manager是如何傳輸的？

參考文獻：Twitter Heron: Streaming at Scale

完整視頻查看： BitTiger

更多精彩內容，請掃描下面二維碼，關注微信公眾賬號「論碼農的自我修養」

推薦閱讀：

TAG:Twitter | 实时操作系统 | 大数据 | ApacheStorm |