數據接入 | 如何快速提升數據分析的效率?(上)
數據分析的第一步是數據接入,如果沒有數據,那數據分析就無從談起。現實中,數據是分散在企業的各個系統中,並且還需要每天去導出新的報表去更新、分析數據,重複的勞動真的讓人崩潰。作為BDP個人版的忠實用戶,跟大家分享下:我是如何運用BDP的數據源各個功能解決上述問題,這些功能可大大提高了我的工作效率,感謝BDP!
在介紹數據源之前先普及一下同步的概念,同步概念在很多場景都會涉及,比如時間同步,大家按照一個時間基準去確定時間約定一件事情。而數據源的同步指的是我們在BDP個人版分析的數據和我們本地的數據保持一致,只有這樣用戶分析的數據才有價值。
1、接入各種數據源
在BDP個人版的數據源菜單頁面,點擊「添加數據源」即可進入添加數據源界面。
在數據源頁面可以看到各種數據源類型,分別代表什麼呢?資料庫:支持接入MySQL、Oracle、Hive、SqlServer、Postgresql等資料庫,這點可以結合第3個功能「同步客戶端」一起理解和接入;
網路營銷:主要是SEM推廣後台(百度、360、搜狗、神馬、百度實況等)和常見的營銷推廣後台(微博粉絲通、騰訊廣點通、今日頭條等);
在線客服:支持接入百度商橋、快商通等在線客服系統,既然都接入推廣後台了,怎能沒有訪客諮詢的數據呢?
數據統計:支持接入百度統計、CNZZ、友盟等網站統計後台,這些數據對於網站的重要性就不多說了,相信大家都很清楚的;
企業管理:除了能接入Excel、CSV本地數據,還能接入一些OA、CRM、ERP、支付後台等平台數據,滿足企業各種數據接入的需求;
公共數據:這是BDP給用戶提供的免費數據,有實時天氣、人口、APP應用排名等數據,可根據需求自行添加即可;
同步工具:參考下面的功能2和功能3;
現在,我以百度搜索推廣(小戶)的數據源接入為例,百度搜索推廣(小戶)的接入完成連接配置和高級配置2個步驟即可。每種接入方式BDP都給出了詳細的介紹,接入操作都不難,配置也很快~
同步完成後立馬可以看到接入的推廣數據。數據源成功接入後,BDP每天會自動觸發定時同步,自動更新同步前一天的數據,就不需要將數據導來導去的,好棒!
2、同步工具-同步寶
目前BDP雖然已經能支持接入近100個數據源方式,但數據源那麼多,肯定有一些數據源BDP暫時無法接入,比如微信公眾號後台,那也沒事啊,可以用文件同步寶,也稱本地文件同步神器!
要是沒有同步寶,需要每天要微信公眾號後台里導出Excel文件,然後在BDP進行替換/追加操作,這樣每天的工作量會很大。有了同步寶後,只需要首次將微信公眾號後台導出的本地數據放到同步寶指定的文件夾,之後同步寶將微信公眾號後台數據自動同步至BDP,那數據圖表結果也實時隨之變化!
同步寶的配置有如下幾步:
- 設置同步文件夾路徑
- 設置Excel文件表頭的位置以及CSV文件的分隔符
同步寶支持的同步機制有如下幾類:
- 分鐘級別的監測文件數據變化,有變化會將數據同步到BDP
- 同一個子文件夾下的Excel,CSV文件支持自動合併和追加,並同步到BDP
- 同步文件夾下多sheet同構的表會自動進行合併,並同步到BDP
3、同步工具-同步客戶端
另外,有些企業的資料庫都是部署在內網中,不支持外網訪問,針對這樣的場景,BDP個人版提供了同步客戶端。
同步客戶端是部署在企業本地的伺服器上,支持靈活的同步方式和同步時間設置,按照自己的需求將數據推送到BDP個人版,滿足用戶的數據分析需求。同時同步客戶端也支持MySQL,Oracle,SqlServer,Hive,Postgresql,DB2等主流資料庫,對於大數據量同步有一定的優化,從而成為BDP個人版海量數據同步的解決方案。假如資料庫同步失敗了,BDP還會第一時間預警提示,上次我們的資料庫同步失敗了,特別感謝BDP及時通知到我,才能及時解決問題。
稍微總結下,功能1是通用的數據接入方式,大部分人都需要涉及;功能2和功能3是相對特殊的使用場景,但是卻能幫上大忙,大大提高數據分析效率,符合BDP的價值「讓數據真正服務於工作」。
推薦閱讀:
※想學習大數據要掌握些什麼知識?
※國內圖計算研究哪裡比較強?
※MapReduce如何解決數據傾斜?
※國內較知名的大數據服務平台有哪幾家?
※大數據會否使計劃經濟最終掌控世界?