基於Go技術棧的微服務構建

01-31

在大型系統的微服務化構建中，一個系統會被拆分成許多模塊。這些模塊負責不同的功能，組合成系統，最終可以提供豐富的功能。在這種構建形式中，開發者一般會聚焦於最大程度解耦模塊的功能以減少模塊間耦合帶來的額外開發成本。同時，微服務面臨著如何部署這些大量的服務系統、如何運維這些系統等新問題。

本文的素材來源於我們在開發中的一些最佳實踐案例，從開發、監控、日誌等角度介紹了一些我們基於Go技術棧的微服務構建經驗。

開發

微服務的開發過程中，不同模塊由不同的開發者負責，明確定義的介面有助於確定開發者的工作任務。最終的系統中，一個業務請求可能會涉及到多次介面調用，如何準確清晰的調用遠端介面，這也是一大挑戰。對於這些問題，我們使用了gRPC來負責協議的制訂和調用。

傳統的微服務通常基於http協議來進行模塊間的調用，而在我們的微服務構建中，選用了Google推出的gRPC框架來進行調用。下面這張簡表比較了http rpc框架與gRPC的特性：

gRPC的介面需要使用Protobuf3定義，通過靜態編譯後才能成功調用。這一特性減少了由於介面改變帶來的溝通成本。如果使用http rpc，介面改變就需要先改介面文檔，然後周知到調用者，如果調用者沒有及時修改，很可能會到服務運行時才能發現錯誤。而gRPC的這種模式，介面變動引起的錯誤保證在編譯時期就能消除。

在性能方面，gRPC相比傳統的http rpc協議有非常大的改善（根據這個評測，gRPC要快10倍）。gRPC使用http 2協議進行傳輸，相比較http 1.1, http 2復用tcp連接，減少了每次請求建立tcp連接的開銷。需要指出的是，如果單純追求性能，之前業界一般會選用構建在tcp協議上的rpc協議(thrift等)，但四層協議無法方便的做一些傳輸控制。相比而言，gRPC可以在http header中放入控制欄位，配合nginx等代理伺服器，可以很方便的實現轉發/灰度等功能。

接下來著重談談我們在實踐中如何使用gRPC的一些特性來簡化相關開發流程。

1. 使用context來控制請求的生命周期

在gRPC的go語言實現中，每個rpc請求的第一個參數都是context。http2協議會將context放在HEADER中，隨著鏈路傳遞下去，因此可以為每個請求設置過期時間，一旦遇到超時的情況，發起方就會結束等待，返回錯誤。

ctx := context.Background() // blank contextnctx, cancel = context.WithTimeout(ctx, 5*time.Second)ndefer cancel( )ngrpc.CallServiveX(ctx, arg1)n

上述這段代碼，發起方設置了大約5s的等待時間，只要遠端的調用在５s內沒有返回，發起方就會報錯。

除了能加入超時時間，context還能加入其他內容，下文我們還會見到context的另一個妙用。

2.使用TLS實現訪問許可權控制

gRPC集成了TLS證書功能，為我們提供了很完善的許可權控制方案。在實踐中，假設我們的系統中存在服務Ａ，由於它負責操作用戶的敏感內容，因此需要保證Ａ不被系統內的其他服務濫用。為了避免濫用，我們設計了一套自簽名的二級證書系統，服務Ａ掌握了自簽名的根證書，同時為每個調用Ａ的服務頒發一個二級證書。這樣，所有調用Ａ的服務必須經過Ａ的授權，Ａ也可以鑒別每個請求的調用方，這樣可以很方便的做一些記錄日誌、流量控制等操作。

3. 使用trace在線追蹤請求

gRPC內置了一套追蹤請求的trace系統，既可以追蹤最近10個請求的詳細日誌信息，也可以記錄所有請求的統計信息。

當我們為請求加入了trace日誌後，trace系統會為我們記錄下最近１０個請求的日誌,下圖中所示的例子就是在trace日誌中加入了對業務數據的追蹤。

在宏觀上，trace系統為我們記錄下請求的統計信息，比如請求數目、按照不同請求時間統計的分布等。

需要說明的是，這套系統暴露了一個http服務，我們可以通過debug開關在運行時按需打開或者關閉，以減少資源消耗。

監控

1.確定監控指標

在接到為整個系統搭建監控系統這個任務時，我們面對的第一個問題是要監控什麼內容。針對這個問題，GoogleSRE這本書提供了很詳細的回答，我們可以監控四大黃金指標，分別是延時、流量、錯誤和飽和度。

延時衡量了請求花費的時間。需要注意的，考慮到長尾效應，使用平均延時作為延時方面的單一指標是遠遠不夠的。相應的，我們需要延時的中位數90%、95%、99%值來幫助我們了解延時的分布，有一種更好的辦法是使用直方圖來統計延時分布。
流量衡量了服務面臨的請求壓力。針對每個API的流量統計能讓我們知道系統的熱點路徑，幫助優化。
錯誤監控是指對錯誤的請求結果的統計。同樣的，每個請求有不同的錯誤碼，我們需要針對不同的錯誤碼進行統計。配合上告警系統，這類監控能讓我們儘早感知錯誤，進行干預。
飽和度主要指對系統CPU和內存的負載監控。這類監控能為我們的擴容決策提供依據。

2.監控選型

選擇監控方案時，我們面臨的選擇主要有兩個，一是公司自建的監控系統，二是使用開源Prometheus系統搭建。這兩個系統的區別列在下表中。

考慮到我們的整個系統大約有100個容器分布在30台虛擬機上，Prometheus的單機存儲對我們並不是瓶頸。我們不需要完整保留歷史數據，自建系統的最大優勢也不足以吸引我們使用。相反，由於希望能夠統計四大黃金指標延生出的諸多指標，Prometheus方便的DSL能夠很大程度上簡化我們的指標設計。

最終，我們選擇了Prometheus搭建監控系統。整個監控系統的框架如下圖所示。

各服務將自己的地址註冊到consul中，Prometheus會自動從consul中拉取需要監控的目標地址，然後從這些服務中拉取監控數據，存放到本地存儲中。在Prometheus自帶的Ｗeb UI中可以快捷的使用PromQL查詢語句獲取統計信息，同時，還可以將查詢語句輸入grafana,固定監控指標用於監控。

此外，配合插件AlertManager,我們能夠編寫告警規則，當系統出現異常時，將告警發送到手機／郵件／信箱。

日誌

1.日誌格式

一個經常被忽略的問題是如何選擇日誌記錄的格式。良好的日誌格式有利於後續工具對日誌內容的切割，便於日誌存儲的索引。我們使用logrus來列印日誌到文件，logrus工具支持的日誌格式包裹以空格分隔的單行文本格式、json格式等等。

文本格式

time=」2015-03-26T01:27:38-04:00″ level=debug g=」Started observing beach」 animal=walrus number=8ntime=」2015-03-26T01:27:38-04:00″ level=info msg=」A group of walrus emerges from the ocean」 animal=walrus size=10n

Json格式

{"animal":"walrus","level":"info","msg":"A group of walrus emerges from theocean","size":10,"time":"2014-03-10 19:57:38.562264131 -0400 EDT"}n{"level":"warning","msg":"The groups number increased tremendously!","number":122,"omg":true,"time":"2014-03-10 19:57:38.562471297 -0400 EDT"}n

2.端到端鏈路上的調用日誌收集

在微服務架構中，一個業務請求會經歷多個服務，收集端到端鏈路上的日誌能夠幫助我們判斷錯誤發生的具體位置。在這個系統中，我們在請求入口處，生成了全局ID，通過gRPC中的context將ID在鏈路中傳遞。將不同服務的日誌收集到graylog中，查詢時就能通過一個ID，將整個鏈路上的日誌查詢出來。

上圖中，使用session-id來作為整個調用鏈的ID可以進行全鏈路檢索。

小結

微服務構建的系統中，在部署、調度、服務發現、一致性等其他方面都有挑戰，Go技術棧在這些方面都有最佳實踐（docker,k8s,consul,etcd等等）。具體內容在網上已經有很完善的教程，在此不用班門弄斧，有需要的可以自行查閱。