X公司BI技術架構分析
來自專欄 Data Analytics1 人贊了文章
本文是對X公司BI技術架構的分析,包括解決方案和方法論,以及技術架構、工具選型、模型設計、開發規範等。目的是看有哪些優秀的設計值得借鑒、學習,哪些地方待改進。
優點:
1. 完善的需求文檔
業務需求分析很詳盡,包括業務流程(正常流程和Restatement流程),Service Level Management的生命周期,每個SLA(Service Level Agreement)的詳細計算邏輯。例如,業務流程。
詳細的解決方案,包括總體技術架構,數據流,ETL流程,報表原型。例如,某個ETL流程。
2. 實施方法論
遵循實施方法論,降低風險,提高效率,項目可控,按期交付。
3. 敏捷開發
把項目按數據源分成SM7, OVSD, OPS三個子項目,迭代開發、測試、部署、運維。
4. MS解決方案
除了Adobe Flex,整套MS解決方案,功能簡單,開發方便。包括Windows Server + SQL Server+SSIS+SSRS+ASP.NET+IIS,用Visual Studio和SQL Server Management Studio開發ETL、報表、存儲過程和Data Mining模型。
待改進:
1. 總體技術架構不規範
需求文檔(ALU_SIP_BRS_v0 4.doc)解決方案提供了總體技術架構,但在實施階段偏離設計。
ODS/EDW/DM當前在同一個資料庫(SLA_EDW),建議分開。
ODS主要用於處理外部數據源。
EDW清洗數據,建模。
DM聚合固定報表,開發主題域模型,建Data Mining模型。
2. 工具選型非主流技術
Dashboard採用Adobe Flex開源工具開發,選擇非主流技術工具,帶來開發人員人力成本、運維成本上升,可擴展性也差。
建議選用主流技術,如Power BI等。
3. ETL設計不規範
業務邏輯混合在SSIS和Stored procedures中實現,結構不清洗,可讀性差,性能降低,維護成本高。
建議SSIS處理外部數據源,簡單mapping,流程調度。
建議複雜業務邏輯在store procedure實現。
4. DW模型設計不規範
混合了星型模型和雪花模型設計方法,例如[AGG_Daily_F],[SLO_D],[SLO_D_Measure]是雪花模型。建議用星型模型,提高性能。
緩慢變化維設計不合理,所有維表用UpdateDate時間戳處理歷史數據,造成數據大量冗餘,浪費存儲空間,降低性能。建議用代理鍵、起始有效期、結束有效期實現緩慢變化維。
5. SSAS組件沒有實施
SSAS與Excel結合,用戶可自定義報表,多維度實時查詢SLA指標,製作報表簡單、靈活。例如,Workgroup View, Data View,可實現從SLA, Date, Workgroup, Domain, Source, Region等不同維度查看Total Tickets, Total Missed, Total Met, Total Tickets Restated, Total Performance等指標。
6. Data Mining組件沒有實施
solution文檔(AMS dashboard solution -2013-04-10-0.2.pptx)提供了預測的功能,此功能可通過Data Mining組件實現(Time Series演算法)。例如,可預測不同SLA未來幾個月/星期的Performance。
7. 可考慮資料庫集群
目前ISLMT有INC/SRM兩個模塊,隨著Nokia/CM模塊增加,特別是Data Ming所需資源要求更高,可採用資料庫集群的技術架構,負載均衡,大幅提高性能。例如,在單個Server情況下(4 CPU, 16G RAM,2T普通Storage),ETL重跑6個月的數據,大約耗費6個小時,Data Mining的training時間基本上在10個小時左右,很有必要通過集群提高性能。
8. 表命名不規範。
有的事實表和維表有標識([Incident_F],[SLO_D]),有的沒有([All_Tickets_F_Restate],[EMDB])。建議統一標識。
9. 表和欄位無注釋。
表和欄位沒有加註釋。建議統一增加註釋,維護數據字典。
10. 空值處理不規範。
有的欄位空值用N/A,有的NULL。建議統一,有利於提高性能。
11. SQL代碼欄位沒有指定。
大量SQL代碼沒有指定欄位,直接用*表示,導致性能降低。建議列出所需欄位代替*號。
12. SQL代碼沒有格式化。
可讀性很差,建議用SQL Pretty Printer Add-In for SSMS V3.6.1插件格式化代碼。
公眾號:DataAnalytics數據分析
知乎:https://www.zhihu.com/people/cao-tian-fa/activities
推薦閱讀:
※今日數據行業日報(2016.12.09)
※大數據究竟大在哪???
※從三大關鍵詞解讀我國智能製造產業發展現狀
※你以為川普的推特都是他自己寫的?數據可不這麼認為!
※美國現代藝術博物館的軟數據:111件服裝展品的前世今生