X公司BI技術架構分析

X公司BI技術架構分析

來自專欄 Data Analytics1 人贊了文章

本文是對X公司BI技術架構的分析,包括解決方案和方法論,以及技術架構、工具選型、模型設計、開發規範等。目的是看有哪些優秀的設計值得借鑒、學習,哪些地方待改進。

優點:

1. 完善的需求文檔

業務需求分析很詳盡,包括業務流程(正常流程和Restatement流程),Service Level Management的生命周期,每個SLA(Service Level Agreement)的詳細計算邏輯。例如,業務流程。

詳細的解決方案,包括總體技術架構,數據流,ETL流程,報表原型。例如,某個ETL流程。

2. 實施方法論

遵循實施方法論,降低風險,提高效率,項目可控,按期交付。

3. 敏捷開發

把項目按數據源分成SM7, OVSD, OPS三個子項目,迭代開發、測試、部署、運維。

4. MS解決方案

除了Adobe Flex,整套MS解決方案,功能簡單,開發方便。包括Windows Server + SQL Server+SSIS+SSRS+ASP.NET+IIS,用Visual Studio和SQL Server Management Studio開發ETL、報表、存儲過程和Data Mining模型。

待改進:

1. 總體技術架構不規範

需求文檔(ALU_SIP_BRS_v0 4.doc)解決方案提供了總體技術架構,但在實施階段偏離設計。

ODS/EDW/DM當前在同一個資料庫(SLA_EDW),建議分開。

ODS主要用於處理外部數據源。

EDW清洗數據,建模。

DM聚合固定報表,開發主題域模型,建Data Mining模型。

2. 工具選型非主流技術

Dashboard採用Adobe Flex開源工具開發,選擇非主流技術工具,帶來開發人員人力成本、運維成本上升,可擴展性也差。

建議選用主流技術,如Power BI等。

3. ETL設計不規範

業務邏輯混合在SSIS和Stored procedures中實現,結構不清洗,可讀性差,性能降低,維護成本高。

建議SSIS處理外部數據源,簡單mapping,流程調度。

建議複雜業務邏輯在store procedure實現。

4. DW模型設計不規範

混合了星型模型和雪花模型設計方法,例如[AGG_Daily_F],[SLO_D],[SLO_D_Measure]是雪花模型。建議用星型模型,提高性能。

緩慢變化維設計不合理,所有維表用UpdateDate時間戳處理歷史數據,造成數據大量冗餘,浪費存儲空間,降低性能。建議用代理鍵、起始有效期、結束有效期實現緩慢變化維。

5. SSAS組件沒有實施

SSAS與Excel結合,用戶可自定義報表,多維度實時查詢SLA指標,製作報表簡單、靈活。例如,Workgroup View, Data View,可實現從SLA, Date, Workgroup, Domain, Source, Region等不同維度查看Total Tickets, Total Missed, Total Met, Total Tickets Restated, Total Performance等指標。

6. Data Mining組件沒有實施

solution文檔(AMS dashboard solution -2013-04-10-0.2.pptx)提供了預測的功能,此功能可通過Data Mining組件實現(Time Series演算法)。例如,可預測不同SLA未來幾個月/星期的Performance。

7. 可考慮資料庫集群

目前ISLMT有INC/SRM兩個模塊,隨著Nokia/CM模塊增加,特別是Data Ming所需資源要求更高,可採用資料庫集群的技術架構,負載均衡,大幅提高性能。例如,在單個Server情況下(4 CPU, 16G RAM,2T普通Storage),ETL重跑6個月的數據,大約耗費6個小時,Data Mining的training時間基本上在10個小時左右,很有必要通過集群提高性能。

8. 表命名不規範。

有的事實表和維表有標識([Incident_F][SLO_D]),有的沒有([All_Tickets_F_Restate],[EMDB])。建議統一標識。

9. 表和欄位無注釋。

表和欄位沒有加註釋。建議統一增加註釋,維護數據字典。

10. 空值處理不規範。

有的欄位空值用N/A,有的NULL。建議統一,有利於提高性能。

11. SQL代碼欄位沒有指定。

大量SQL代碼沒有指定欄位,直接用*表示,導致性能降低。建議列出所需欄位代替*號。

12. SQL代碼沒有格式化。

可讀性很差,建議用SQL Pretty Printer Add-In for SSMS V3.6.1插件格式化代碼。

格式化前

格式化後

公眾號:DataAnalytics數據分析

知乎:zhihu.com/people/cao-ti


推薦閱讀:

今日數據行業日報(2016.12.09)
大數據究竟大在哪???
從三大關鍵詞解讀我國智能製造產業發展現狀
你以為川普的推特都是他自己寫的?數據可不這麼認為!
美國現代藝術博物館的軟數據:111件服裝展品的前世今生

TAG:數據分析 | 數據挖掘 | 大數據 |