2016 年技術盤點系列文章 —— 「數據實踐篇」

隨著雲計算的發展,大數據已經真實的進入我們的生活,科學研究、電商、社交、輿情分析、交通管理等等,都在努力解決數據層面的各種技術問題,探索海量數據背後的真正價值。

對於數據技術人員來說,當前的大數據發展趨勢是什麼?自身如何從身於大數據產業?對於 IT 開發者來說, 如何構建一套海量數據分析系統?如何將 Hadoop、Spark 等技術手段應用到自身業務之中?

本期,青小雲將為大家帶來 2016 年技術盤點系列文章 —— 「數據實踐篇」,希望能夠給讀者清晰地梳理出如何使用大數據,以及相關的應用實踐,幫助大家解決上面的一些疑問。

如何構建基於雲端的大數據平台?

大數據平台基礎建設當前的趨勢是雲化與開放,這個平台需要可以提供各類大數據相關 PaaS 服務,也需要使各類服務間可以簡單靈活的組合來滿足多變及定製的需求。

如何在雲上提供彈性、敏捷,卻不失穩定和高性能的大數據平台?如何高效的利用雲計算的特點來開發大數據平台?

本期給大家帶來基於雲計算的大數據平台基礎設施建設以及其架構特點的主題分享。

詳情點擊:一場萬人參加的大數據課堂講了些什麼?

孔淼:大數據分析處理與用戶畫像實踐

用戶導向一直以來都是企業發展的重中之重,但是由於種種限制,企業無法對用戶及需求識別進行細分、了解用戶真實的偏好與意願。隨著大數據時代的到來,數據分析以及機器學習等技術的進步,企業可以通過選擇合適的用戶數據,搭建模型,最後得出想要的結果,並用數據可視化的方式解讀。

本文我們邀請了諸葛io 創始人 & CEO 孔淼給大家分享他工作中所遇到的大數據分析與用戶畫像的業務場景與技術實現。

詳情點擊: 大數據分析處理與用戶畫像實踐

面向數據智能時代的大數據架構實踐

時代的發展,帶來了一個 DI 的概念,就是數據智能,BI 關注基於業務收集數據、處理數據的過程,而 DI 更多關注的是數據對各個業務部門的決策驅動和應用。

現在的大數據平台,會從分析看板開始,有各個行業下各個業務部門所關注的指標,並且業務人員可以靈活的配置,同時對於複雜分析下鑽和數據探索過程而言,業務人員也無需 SQL 或者代碼就可以直接通過互動式的查詢組件進行自助式分析和配置。

大數據分析的基礎技術已經逐漸成熟,而挑戰就是基於行業理解下構建合理的數據模型,以及多維下複雜查詢的效率

詳情點擊: 面向數據智能時代的大數據架構實踐

深入剖析對象存儲技術與實現

經常會有人問到對象存儲相關的開源方案,問 QingStor 為什麼沒有採取開源方案。其實,我們在正式開發 QingStor 前,確實調研及測試過不少開源方案,但無一能夠滿足我們的目標。

總體而言,開源的項目要麼如 Ceph RadosGW 有嚴重缺陷,要麼是應對特定場景的,對用戶的數據特徵存在假設,不可通用化。而對數據特徵不假設是最難的,如果把這個要求去掉,對象存儲的設計可以簡化很多,有興趣的同學可以去看 Facebook 的 Haystack ,及淘寶的 TFS 的設計,這兩個項目都是用來解決其企業業務中所面對的特定需求及場景的。

本文將會詳細介紹 QingStor 對象存儲的設計理念、實際的應用案例及進一步研發計劃。同時也對目前行業主流的一些開源存儲方案做一些對比和測試。

詳情點擊: 深入剖析對象存儲技術與實現

對象存儲最佳實踐之初探雲端數據倉庫

隨著移動互聯網、物聯網的高速發展,我們獲取的數據比以往任何時候都要多,大數據在社會、政治和商業等各個領域逐漸顯示出威力,沒有任何一個個人和企業能夠逃過這個數據時代,因此數據的存儲、分析、處理、對企業的決策支持變得格外重要。

QingStor 對象存儲作為海量數據存儲池,將會與 QingCloud 平台上的計算資源緊密整合,從而實現高性能、低成本的數據分析與挖掘,提升企業數據價值。

本文分享了 QingStor 對象存儲如何與 HDW 進行集成的實踐案例。在這個案例中,我們將把數據從 QingStor 對象存儲中導入到數據倉庫,並將最終的查詢結果回導至 QingStor 對象存儲。

詳情點擊: 對象存儲最佳實踐之初探雲端數據倉庫

大數據分析在社交應用中的具體實踐

一個典型的應用場景是社交,tataUFO 利用大數據技術、個性化推薦,可以精準地幫助在校大學生找到和自己志趣相投的朋友。

tataUFO 有三大產品特色,第一是「十點匹配」,每天晚上 22:00 系統會推薦一個新朋友給你;第二是「閃聊」,增加和陌生人的溝通機會,可以自動生成話題,並把話題自動推送給用戶。第三是發現式社交,主要是進行個性化內容推薦。

這三大功能的背後便是 tataUFO 的各種數據,tataUFO 每天有數十 GB 的數據增長,累計若干 TB 歷史數據。這些數據包括日誌、多媒體、文本、資料庫等等多種來源。以「十點匹配」為例,通過數據,tataUFO 可以看到用戶的性別、年齡、姓名、家鄉等靜態數據,也能夠看到用戶看了什麼、對什麼內容感興趣、和誰請求過好友等動態數據。經過聚類分析、相似性評分、過濾條件、優先條件的參數化,最終形成推薦理由。

詳情點擊:如何通過大數據幫你找知己?

推薦閱讀:

快訊 |2017年8月R新包推薦
如何假裝成一個頂級的數據分析師?
如何看待yandex開源clickhouse這個列式文檔資料庫?
如何快速入行數據分析師?
當大家都在鑽探大數據油田時,因特睿已打通數據油田的流動「管道」

TAG:大数据 | 数据分析 | Hadoop |