爬蟲架構 | 隊列應用場景及RocketMQ、Kafka對比

爬蟲架構 | 隊列應用場景及RocketMQ、Kafka對比

消息隊列中間件是分散式系統中重要的組件,主要實現非同步消息,應用解耦,流量削峰及消息通訊等功能。

下面舉例說明在實際應用中消息隊列是如何使用的。

一、消息隊列應用場景

1.1、非同步處理

以用戶註冊,並且需要註冊郵件和簡訊為例。

用戶註冊後,需要發送註冊郵件和註冊簡訊。傳統的做法有兩種:串列和並行方式。如下圖所示:

串列和並行方式

1)串列方式:將註冊信息寫入資料庫成功後,發送註冊郵件,再發送註冊簡訊。以上三個任務全部完成後,返回給客戶端。

2)並行方式:將註冊信息寫入資料庫成功後,發送註冊郵件的同時,發送註冊簡訊。以上三個任務完成後,返回給客戶端。與串列的差別是,並行的方式可以提高處理的時間。

假設三個業務節點每個使用50毫秒鐘,不考慮網路等其他開銷,則串列方式的時間是150毫秒,並行的時間可能是100毫秒。

因為CPU在單位時間內處理的請求數是一定的,假設CPU1秒內吞吐量是100次。則串列方式1秒內CPU可處理的請求量是7次(1000ms/150ms),並行方式處理的請求量是10次(1000ms/100ms)

小結:如以上案例描述,傳統的方式系統的性能(並發量,吞吐量,響應時間)會有瓶頸。如何解決這個問題呢?

引入消息隊列,將不是必須的業務邏輯,非同步處理。改造後的架構如下:

引入消息隊列方式

按照以上約定,用戶的響應時間相當於是註冊信息寫入資料庫的時間,也就是50毫秒。註冊郵件,發送簡訊寫入消息隊列後,直接返回,因此寫入消息隊列的速度很快,基本可以忽略,因此用戶的響應時間可能是50毫秒。因此架構改變後,系統的吞吐量提高到每秒20 QPS。比串列提高了3倍,比並行提高了兩倍。

1.2、應用解耦

以用戶下單購買業務為例。

用戶下單後,訂單系統需要通知庫存系統。傳統的做法是,訂單系統調用庫存系統的介面。如下圖

應用耦和

傳統模式的缺點:

1)假如庫存系統無法訪問,則訂單減庫存將失敗,從而導致訂單失敗。

2)訂單系統與庫存系統耦合。

如何解決以上問題呢?引入應用消息隊列後的方案,如下圖:

應用解耦

1)訂單系統:用戶下單後,訂單系統完成持久化處理,將消息寫入消息隊列,返回用戶訂單下單成功。

2)庫存系統:訂閱下單的消息,採用拉/推的方式,獲取下單信息,庫存系統根據下單信息,進行庫存操作。

假如:在下單時庫存系統不能正常使用。也不影響正常下單,因為下單後,訂單系統寫入消息隊列就不再關心其他的後續操作了。實現訂單系統與庫存系統的應用解耦。

1.3、流量削峰

流量削峰也是消息隊列中的常用場景,一般在秒殺或團搶活動中使用廣泛。

秒殺活動,一般會因為流量過大,導致流量暴增,應用掛掉。為解決這個問題,需要在應用前端加入消息隊列。

1)可以控制活動的人數。

2)可以緩解短時間內高流量壓垮應用。

流量削峰

1)用戶的請求,伺服器接收後,首先寫入消息隊列。假如消息隊列長度超過最大數量,則直接拋棄用戶請求或跳轉到錯誤頁面。

2)秒殺業務根據消息隊列中的請求信息,再做後續處理。

1.4、消息通訊

消息通訊是指,消息隊列一般都內置了高效的通信機制,因此也可以用作消息通訊。比如實現點對點消息隊列,或者聊天室等。

消息通訊

以上實際是消息隊列的兩種消息模式,點對點或發布訂閱模式。

二、常用消息隊列(ActiveMQ、RabbitMQ、RocketMQ、Kafka)比較

  • 生產者消費者模式(Producer-Consumer)

    ActiveMQ-支持,RabbitMQ-支持,RocketMQ-支持,Kafka-支持。
  • 發布訂閱模式(Publish-Subscribe)

    ActiveMQ-支持,RabbitMQ-支持,RocketMQ-支持,Kafka-支持。
  • 請求回應模型(Request-Reply)

    ActiveMQ-支持,RabbitMQ-支持,RocketMQ-不支持,Kafka-不支持。
  • API完備性

    ActiveMQ-高,RabbitMQ-高,RocketMQ-高,Kafka-高。
  • 多語言支持

    ActiveMQ-支持,RabbitMQ-支持,RocketMQ-只支持JAVA,Kafka-支持。
  • 單機吞吐量

    ActiveMQ-萬級,RabbitMQ-萬級,RocketMQ-萬級,Kafka-十萬級。
  • 消息延遲

    ActiveMQ-無,RabbitMQ-微秒級,RocketMQ-毫秒級,Kafka-毫秒級。

  • 可用性

    ActiveMQ-高(主從),RabbitMQ-高(主從),RocketMQ-非常高(分散式),Kafka-非常高(分散式)。
  • 消息丟失

    ActiveMQ-低,RabbitMQ-低,RocketMQ-理論上不會丟失,Kafka-理論上不會丟失。
  • 文檔的完備性

    ActiveMQ-高,RabbitMQ-高,RocketMQ-高,Kafka-高。
  • 提供快速入門

    ActiveMQ-有,RabbitMQ-有,RocketMQ-有,Kafka-有。
  • 社區活躍度

    ActiveMQ-高,RabbitMQ-高,RocketMQ-中,Kafka-高。
  • 商業支持

    ActiveMQ-無,RabbitMQ-無,RocketMQ-阿里雲,Kafka-阿里雲。

總體來說:

  • ActiveMQ

    歷史悠久的開源項目,已經在很多產品中得到應用,實現了JMS1.1規範,可以和spring-jms輕鬆融合,實現了多種協議,不夠輕巧(源代碼比RocketMQ多),支持持久化到資料庫,對隊列數較多的情況支持不好。
  • RabbitMQ

    它比Kafka成熟,支持AMQP事務處理,在可靠性上,RabbitMQ超過Kafka,在性能方面超過ActiveMQ。
  • RocketMQ

    RocketMQ是阿里開源的消息中間件,目前在Apache孵化,使用純Java開發,具有高吞吐量、高可用性、適合大規模分散式系統應用的特點。RocketMQ思路起源於Kafka,但並不是簡單的複製,它對消息的可靠傳輸及事務性做了優化,目前在阿里集團被廣泛應用於交易、充值、流計算、消息推送、日誌流式處理、binglog分發等場景,支撐了阿里多次雙十一活動。

    因為是阿里內部從實踐到產品的產物,因此裡面很多介面、API並不是很普遍適用。其可靠性毋庸置疑,而且與Kafka一脈相承(甚至更優),性能強勁,支持海量堆積。
  • Kafka

    Kafka設計的初衷就是處理日誌的,不支持AMQP事務處理,可以看做是一個日誌系統,針對性很強,所以它並沒有具備一個成熟MQ應該具備的特性。Kafka的性能(吞吐量、tps)比RabbitMQ要強,如果用來做大數據量的快速處理是比RabbitMQ有優勢的。

推薦閱讀:

kafka 0.9.0.0 __consumer_offsets日誌清理問題?
淺談分散式消息技術 Kafka
消息隊列中吞吐量和處理速度這兩個指標的困惑?
阿里雲正式推出消息隊列Kafka:全面融合開源生態
kafka只能用命令來創建topic么?

TAG:爬蟲計算機網路 | 消息隊列 | Kafka |