5個大數據時代需要深挖的概念

1 演算法 Algorithm

演算法(Algorithm)是指解題方案的準確而完整的描述,是一系列解決問題的清晰指令,演算法代表著用系統的方法描述解決問題的策略機制。也就是說,能夠對一定規範的輸入,在有限時間內獲得所要求的輸出。如果一個演算法有缺陷,或不適合於某個問題,執行這個演算法將不會解決這個問題。不同的演算法可能用不同的時間、空間或效率來完成同樣的任務。一個演算法的優劣可以用空間複雜度與時間複雜度來衡量。

2深度學習 Deep Learning

深度學習的概念源於人工神經網路的研究。含多隱層的多層感知器就是一種深度學習結構。深度學習通過組合低層特徵形成更加抽象的高層表示屬性類別或特徵,以發現數據的分散式特徵表示。

深度學習的概念由Hinton等人於2006年提出。基於深信度網(DBN)提出非監督貪心逐層訓練演算法,為解決深層結構相關的優化難題帶來希望,隨後提出多層自動編碼器深層結構。此外Lecun等人提出的卷積神經網路是第一個真正多層結構學習演算法,它利用空間相對關係減少參數數目以提高訓練性能。

深度學習是機器學習研究中的一個新的領域,其動機在於建立、模擬人腦進行分析學習的神經網路,它模仿人腦的機制來解釋數據,例如圖像,聲音和文本。

3 人工神經網路

人工神經網路(Artificial Neural Networks,簡寫為ANNs)也簡稱為神經網路(NNs)或稱作連接模型(Connection Model),它是一種模仿動物神經網路行為特徵,進行分散式並行信息處理的演算法數學模型。這種網路依靠系統的複雜程度,通過調整內部大量節點之間相互連接的關係,從而達到處理信息的目的。

4 熵 entropy

熵(entropy)指的是體系的混亂的程度,它在控制論、概率論、數論、天體物理、生命科學等領域都有重要應用,在不同的學科中也有引申出的更為具體的定義,是各領域十分重要的參量。熵的概念由魯道夫·克勞修斯(Rudolf Clausius)於1850年提出,並應用在熱力學中。1948年,克勞德·艾爾伍德·香農(Claude Elwood Shannon)第一次將熵的概念引入資訊理論中。

5 BI 商業智能

BI(Business Intelligence)即商務智能,它是一套完整的解決方案,用來將企業中現有的數據進行有效的整合,快速準確的提供報表並提出決策依據,幫助企業做出明智的業務經營決策。商業智能的概念最早在1996年提出。當時將商業智能定義為一類由數據倉庫(或數據集市)、查詢報表、數據分析、數據挖掘、數據備份和恢復等部分組成的、以幫助企業決策為目的技術及其應用。而這些數據可能來自企業的CRM、SCM等業務系統。

商業智能能夠輔助的業務經營決策,既可以是操作層的,也可以是戰術層和戰略層的決策。為了將數據轉化為知識,需要利用數據倉庫、聯機分析處理(OLAP)工具和數據挖掘等技術。因此,從技術層面上講,商業智能不是什麼新技術,它只是數據倉庫、OLAP和數據挖掘等技術的綜合運用。

把商業智能看成一種解決方案應該比較恰當。商業智能的關鍵是從許多來自不同的企業運作系統的數據中提取出有用的數據並進行清理,以保證數據的正確性,然後經過抽取(Extraction)、轉換(Transformation)和裝載(Load),即ETL過程,合併到一個企業級的數據倉庫里,從而得到企業數據的一個全局視圖,在此基礎上利用合適的查詢和分析工具、數據挖掘工具、OLAP工具等對其進行分析和處理(這時信息變為輔助決策的知識),最後將知識呈現給管理者,為管理者的決策過程提供數據支持。商業智能產品及解決方案大致可分為數據倉庫產品、數據抽取產品、OLAP產品、展示產品、和集成以上幾種產品的針對某個應用的整體解決方案等。

推薦閱讀:

大數據時代:大數據在O2O領域的應用
大數據時代,我們還有隱私嗎?
大數據時代, 我們都在裸奔
從頭學習大數據培訓課程 spark 基於內存的分散式計算框架(四)spark-sql
大數據時代下的我們,何去何從

TAG:大數據分析 | 大數據 | 大數據時代 |