現在是大數據的時代,許多領域都有大數據的身影,要想充分發揮大數據的價值,在技術層面上需要提供哪些支持?


看你要往哪個方向走,是做平台還是做產品,還是做底層維護。要懂的東西還真的挺多的。個人接觸後的感覺

StuQ發布過一張大數據技能圖譜,可供參考


隨著大數據工作負載在企業內部變得越來越常見且越來越具有戰略性,IT 基礎設施就需要實現根本性的大發展——有當系統能夠快速、可靠地訪問快速擴張的龐大數據存儲內的具體數據並對其進行處理和分析,才不會錯失蘊藏在繁雜數據背後的「金子「。和以往一樣,我還是從存儲的角度來談一談。

對所有大數據戰略來說,軟體必不可少,但僅有軟體是不夠的,必須藉助存儲和內存領域的創新來實現基礎設施轉型,克服很多有關底層數據的困難,具體來說,就是數據的「3 V」:種類 (Variety)、數據量 (Volume) 和速度 (Velocity),才能滿足這一需求。其中速度(即不斷提升的數據創建和決策速度)尤為重要。

為什麼在優化大數據時必須要關注速度呢?這在一定程度上由其他兩個
V所致。大數據系統捕獲和處理的不僅僅是文本;感測器、視頻、音頻、社交媒體以及多種多樣的非結構化數據都有可能成為深度分析的瓶頸。如果不密切關注速度以及底層的存儲和內存基礎設施,大數據項目不僅無法發揮潛力,還會大幅增加企業的財務和運營成本。

實際上,目前數據中心基礎設施普遍都採用基於幀的陣列的配置,採用旋轉式硬碟作為存儲介質,在功能上已達到極限。在空間、供電/散熱成本、CPU 周期和存儲容量方面,也耗盡了許多數據中心的能力,迫使組織耗費大量成本去設立新的數據中心。

現在,一些先進的組織正在重新設計自己的數據中心,將存儲從
NAS 設備和 SAN 上移除,轉為使用支持快閃記憶體的伺服器。這有助於減輕數據中心的擴張,減少物理空間佔用量,降低供電和散熱成本,並提高整體運營效率。

歸根結底,組織需要解決延遲問題,才能更快地找到實時數據並進行處理。但是,面向公眾的應用還需要兼具精確度與速度。用於執行事務處理和實時分析的混合系統正在蓬勃發展,對它們來說,存儲延遲變得至關重要。如果沒有固態硬碟提供的速度,大數據分析就無法為大多數企業或者應用帶來可持續的競爭優勢。

充分利用大數據,不僅需要更快的存儲。要能夠充分利用更快速的存儲系統,關鍵步驟之一就是確保伺服器的計算中心可以達到數據處理所需的更高利用率,因此,針對目標應用和工作負載均衡選擇
DRAM 至關重要。

現在,內存/存儲分層結構方面出現了一個值得思考的新轉折點——持久存儲。持久存儲位於 DRAM 匯流排上,可提供極低的
DRAM 延遲,同時可確保數據持久性。由於存儲匯流排存在限制,而且快閃記憶體需要更多的訪問模式,DRAM 的延遲比速度最快的固態硬碟低了若干數量級。

目前,持久存儲解決方案基於 DRAM 和快閃記憶體技術而構建,被稱作「非易失性 DIMM」(NVDIMM)。這項新技術的優勢在於,它最終可將關鍵數據(就算是斷電也不能丟失的數據)遷移到離處理器儘可能近的位置。有效工作在 DRAM(例如標準 DIMM)中完成,但是數據可在斷電時快速寫入快閃記憶體(電容器或電池系統在足夠長的時間內為模組供電,以完成備份任務)。如果應用中有經常需要訪問或修改的元數據,或者只是應用需要確保指定數據集實現儘可能快的速度,那麼這是極具吸引力的選擇。

隨著來越多的項目生成大量隨機非結構化數據集,各企業都在想方設法確保低延遲,力求事半功倍。此外,新的創企業正通過挖掘 PB 級的數據,獲取近乎瞬時查詢結果以及在納秒級時間內對客戶做出響應, 推動大數據創造無限的可能性。 對支撐新一代大數據解決方案的底層基礎設施進行投資,在優化和調整現有硬體系統的同時,尋找新的存儲和內存選項,讓它們既能順利適應舊環境,又能為針對分析工作負載進行了優化的全新基礎設施奠定基礎,確保系統具備充足的性能、容量和吞吐量,在加快數據處理速度的同時能順利承載數據分析的重任,是存儲在技術層面上可以為大數據貢獻的支持。


大數據談得多了,很多人也厭煩。其實它並非虛無的概念,而是有著直觀的作用:

媒體行業。我們每天會收到很多新聞,但大部分其實是用戶不感興趣的,離真正的精準性還有很大距離。

廣告行業。淘寶百度都有關鍵詞,針對關鍵詞是現在最為精準的廣告投放方式,接下來將針對用戶的年齡、性別、收入層次、興趣愛好投放廣告,大數據在這方面可以有更大作為。

零售業。沃爾瑪、711這些行業先驅,早已將數據收集分析作為基本業務,產品銷量數據、人口統計數據,甚至天氣數據都被納入分析範圍,在特定時間上架合適產品。

硬體層:物聯網設備機遇

想做到大數據首先需要有數據。數據怎麼來?最基礎的數據感知採集,依賴智能手機、PC、手環、VR、搜集收據的汽車自行車等硬體設備。

軟銀孫正義曾預測:「在未來的20年里,將會有1萬億台物聯網設備出現。」隨著設備的爆炸性增長,數據總量在未來20年增長將超過3000倍。

HBO的新劇《西部世界》讓人工智慧的話題再次成為熱點。對於AI來說,數據也是重要制約因素,沒有數據,機器就無從學習。很多公司期望引入人工智慧,但其行業和公司數據積累並不充分,人工智慧應用也是想法多於實際。

在數據採集設備方面,現在的智能硬體公司尤其是智能手機公司佔有先發優勢。谷歌拼了命也要做手機,最大的原因在於AI需要設備載體實現。有了硬體載體,才有希望最大化的搜集數據。

除了採集數據的設備,還需要為數據採集設備提供數據接收的伺服器,解決數據集中化處理問題;分步式爬蟲伺服器,解決互聯網資源調度問題;硬碟資料庫伺服器,用於部署分資料庫,解決高並發在線數據服務問題;Web伺服器,解決大數據平台對外服務問題。

軟體層:數據安全大挑戰

隨著未來連接到互聯網的設備數量幾十倍的增加,數據安全性將成為最大挑戰。這方面的惡性事件層出不窮。例如雅虎公司泄露5億條賬戶的名稱、電子郵箱地址、電話號碼信息;今年2月,黑客入侵孟加拉國央行在紐約聯邦儲備銀行的賬戶,並一舉盜走8100萬美元,成為全球有史以來最大規模網路盜竊案。

這兩年,亞馬遜AWS、微軟Azure、阿里雲等雲計算巨頭也接連曝出故障,導致正在服務的網站中斷、用戶無法連接伺服器。

保護物聯網安全性,須建立過硬的存儲性能。快閃記憶體作為物聯網設備里必要的組成部分,存儲啟動代碼、設備配置、IP 和數據都依賴於它。如果攻擊者獲得系統中內存設備的訪問許可權,設備中的內容就會面臨被清除或修改的可能,從而影響系統功能,甚至會危害到用戶本身。

之所以說「快閃記憶體是保證物聯網安全性的關鍵」,原因在於不同硬體層可以各有所長地發揮作用,以增強安全性和填補漏洞:

塊鎖定:通過設置配置數據位鎖定內存塊;當此配置數據位狀態不正確時,快閃記憶體內容將無法修改。此外,還可以防止意外或惡意修改代碼

一次性可編程:永久性地鎖定內存塊,使其無法再進行清除或寫入操作;一次性可編程普遍用於保護系統中的初始化或啟動代碼,在其他內存內容發生損壞的情況下,可讓系統在啟動後進入已知的良好恢復模式。

重放保護單調計數器:這一功能為啟動內存中的代碼和數據存儲添加增量式單調計數,用於保留獨特性,還可提高啟動前的安全性,使系統可抵禦回滾和重放攻擊。

讀取保護:快閃記憶體設備中的內存塊可設置為禁止內存讀取;可防止複製內存中存儲的IP或數據。

密碼訪問:在輸入有效的64位密碼前,阻止系統的讀取或修改行為,以保護存儲在主陣列內存塊中的IP和啟動代碼。

註:引用自 如何在物聯網環境中保護設備安全?

在大數據和雲計算逐步成為基礎設施的今天,安全性依然是很大挑戰。未來從硬體、軟體層還會曝出哪些漏洞我們並不清楚,這方面的技術解決方案也是刻不容緩。


真的有數據拿個excel表格都能做數據分析,大數據只是一種思維方式而已。


9月份爬的4600分大數據JD需求,提取的技能辭彙,做出的詞雲。


謝。

技術做得多了,反倒覺得技術並不應該成為制約因素。

主要看應用領域或者創意,再用技術實現。

如果直接利用技術開發產品,一般都不會很成功,就像之前火得不行的網盤,大家都具備雲技術了,但沒有找到合適的應用場景,只存儲對於網盤來說太浪費了,還可以做更多事情。


大數據的價值,從業務角度出發,主要有如下的3點:

a.數據輔助決策:為企業提供基礎的數據統計報表分析服務。分析師能夠輕易獲取數據產出分析報告指導產品和運營,產品經理能夠通過統計數據完善產品功能和改善用戶體驗,運營人員可以通過數據發現運營問題並確定運營的策略和方向,管理層可以通過數據掌握公司業務運營狀況,從而進行一些戰略決策;

b.數據驅動業務:通過數據產品、數據挖掘模型實現企業產品和運營的智能化,從而極大的提高企業的整體效能產出。最常見的應用領域有基於個性化推薦技術的精準營銷服務、廣告服務、基於模型演算法的風控反欺詐服務徵信服務,等等

c.數據對外變現:通過對數據進行精心的包裝,對外提供數據服務,從而獲得現金收入。市面上比較常見有各大數據公司利用自己掌握的大數據,提供風控查詢、驗證、反欺詐服務,提供導客、導流、精準營銷服務,提供數據開放平台服務,等等

但在實踐中,我更加喜歡把數據的價值分為兩個方面,一個方面是給企業創造營收,另一個方面就是給企業節省成本。整體梳理的框架如下,請大家參考:

除了上面我對數據價值的理解外,阿里前數據委員會主席車品覺老師從數據的應用價值出發,歸納出如下的5類數據價值,也有一定的道理,大家可以作為參考:

以下就是我對數據價值的理解。

歡迎大家拍磚指正,歡迎大家關注我的知乎專欄「大數據實踐與職業生涯」並留言,專欄會陸續的推出過往十多年的大數據工作經驗總結和我的一些研究實踐成果。如果你是大數據新人,或者想轉行進入大數據領域,或者大數據職業生涯上存在一些疑惑,都歡迎關注我的知乎live分享「大數據人的職業生涯規劃」 、 「數據分析師-從零入門到精通」、「大數據人的數據科學家之路」。


真正玩大數據的高手是林彪,用大數據打掃乾淨了東三省


把這個問題放到以前「小數據」時代的場景里試試,看答案是什麼? 大數據相比之前有了什麼變化,所以之前的答案的哪些方面需要也隨之變化? 這個變化是質變還是量變? 是否核心因素?


數據挖掘,大數據放在那是沒用的,要將這些數據整理分析得到結論,這才是大數據的價值所在,所以數據挖掘,數據分析很重要!


數據只是過去式,美國特朗普當選美國總統和英國脫歐黑天鵝告訴我們!我們人類說一套,不代表真正實際會選擇。說的投希拉里和不脫歐,結果數據也玩脫呢^_^

數據只是記錄歷史一種方式,數據分析師如果靠數據預測未來,那和神棍有什麼區別。人在世界本身就是善變的生物,我們只能假設大部人喜歡,但是無法避免黑天鵝,直接把樂視這樣公司送上不歸路。

還有一種可能就是數據修改和造假,也是數據不真實的結果。機器不會撒謊,但是人卻可以修改和偽造數據,來達到自身利益最大化。就像阿里的螞蟻金服為呢讓人把錢存入自己支付埠,再把錢用花唄借出去收取高利息。可以在此不收取提現的費用。


營銷,在線銷售,零售等基於普遍大眾的行業,數據累計計算分析結果,反過來影響可選擇性。淘寶天貓都有根據個人的搜索記錄的推薦,這樣也是一種限制


推薦閱讀:

不同的聲音是怎麼存儲的啊?
HBase底層基於HDFS, 它們是對數據存儲,組織,提供介面的一種方式,有了文件系統為何要有資料庫?
UWP 的應用程序存儲區有什麼區別?
不在系統中"彈出"U盤就拔出U盤,是否會損壞U盤?
怎麼讓我媽媽相信把文件存在網上沒有安全問題?

TAG:互聯網 | 信息技術IT | 科技 | 大數據 | 數據存儲技術 |