數據那些概念(數據、信息、分析、挖掘、機器學習、大數據、AI)
近幾年,「數據」的概念,在不同的場合,被不同領域的人一次又一次地說起。就像是人們感覺上的一樣,數據在當代生活中所扮演的角色,確實是非常重要的。事實上,數據在歷史上一直都有不可取代的位置,從歷代帝王將相的史書、戶籍冊,再到尋常百姓家的家譜、計數工具,無一不體現著數據在歷史上的重要意義。而近幾年,互聯網技術的迅猛發展,不僅打通了由於天然的地理阻隔,讓數據和信息可以流暢傳播,而且產生了屬於互聯網時代的數以億計的極多的新數據,成了這個時代獨有的標誌性概念。數據的概念被得到了傳播和發展,也就誕生了眾多的衍生概念。接下來,讓我們將這些概念簡單進行整理與區分。
數據與信息
數據是對客觀世界詳盡的觀察與記錄,而信息則是在一定目的下的,基於數據的結論性表述。從這個角度來說,數據是信息的載體,信息是數據的表現和描述。所有的數據中,在特定的目的下,一部分數據是可以提取出信息的,而另一部分(或許是大部分)是不能提取信息的,這些不能提取信息的部分就是數據冗餘。注意這裡的「特定的目的下」,也就是說,不同的目的,數據相對於信息的關係可能也會有變化。
數據與數據
這裡沒有打錯,這兩個「數據」都是簡稱。前者,我們暫且稱之為狹義數據,後者,我們暫且稱為廣義數據。這兩個概念是數據科學發展後形成的區分,狹義數據的概念指傳統基於單純統計學的數據集合與處理方法,廣義數據的概念指「所有」數據及屬性數據的「所有」處理方法。這兩個數據概念的區別表現,我們馬上就會接觸到。
數據與大數據
我們先來看看大數據的特點:
A、數據量非常大(Volume);
B、數據種類特別多,即維度大(Variety);
C、處理速度要求特別快(Velocity);
D、價值密度低(Value):即 提取信息需要的數據/數據總量 這個值很小。
如果數據的概念不同(或廣義,或狹義),數據與大數據的關係也就不一樣了。如果數據是狹義的,以上提到的四點大數據的基本特點,就是大數據相對於數據的區別,對應的狹義數據的特點即:數據量不是非常巨大、數據種類不是很多、處理速度不要求很快、價值密度很有可能會很高。如果數據的概念是廣義的,那麼大數據就僅是廣義數據中的一個子集,是一種特殊的數據形式。
數據分析與數據挖掘
前文我們把數據分為了狹義數據和廣義數據,如果說到數據處理方法,也自然會有狹義處理方法和廣義處理方法,即狹義上的數據分析與廣義上的數據分析,狹義上的數據分析僅指數據的統計分析方法,我們這裡的數據分析,也僅指統計分析方法。
數據分析的對象,即數據,在體量上相對來說是比較小的。通常,數據分析前,我們需要有一些默認的假設和模型,而我們分析的最重要的目的之一,是驗證我們假設的、觀察到的模型與數據是否契合。此外,數據分析的每一步驟,使用到的特徵量和數據量不會很大。數據分析的過程中,人的參與、推理、演譯佔據主導作用。
數據挖掘的對象,可以延伸到整個廣義數據集合。數據挖掘前,我們不需要有假設,我們的目的,就是在數據中挖掘有用的信息,而整個驅動過程,是」讓數據說話「,力求不讓人參與,讓機器自動完成。
數據分析與數據挖掘的目的,都是從數據中提取信息的過程。數據分析提取維度較少,層次較淺;數據挖掘相對提取信息的維度較大,層次較深(即,數據挖掘除了直接從數據提取信息外,還可能從已提取的信息中再提取新的信息)。
雖然數據挖掘看上去似乎更強大一些,但這不意味著數據分析沒什麼用處。如果數據量達不到」巨大「的標準,很有可能數據分析會得到比數據挖掘更精準的結論;同時,數據分析的結論,是容易被人理解的,方便與人進行交互的,這對團隊協作來說,也是有著很重要的作用的;用數據分析的思路去觀察數據,用數據挖掘的思路去發現規則,二者配合使用,才能真正了解數據。
數據挖掘與機器學習
機器學習是指使用已有數據的特徵和對應關係,構建一個映射關係(這個映射關係可以認為是函數,也可以叫作模型),從而實現對數據的判別、分類、回歸等任務。
最初的意義上,數據挖掘可以認為僅挖掘出某結論與哪些特徵或者特徵組合有關,而結論與特徵間究竟是什麼關係,這個交給機器學習去完成。如今,數據挖掘業務不斷豐富,其挖掘過程中也使用了許多關於分類、回歸等原本屬於「機器學習」的方法。所以,在方法上,如今的數據挖掘與機器學習並沒有什麼非常嚴格的界線,區分這兩個概念的,僅存在於它們的驅動目的上:數據挖掘力求在巨大的數據中找出符合某些目的的特徵和關係;機器學習力求用某些方法,建立對於已有數據與已有結論的映射規則。
數據分析、數據挖掘、機器學習 與 人工智慧
人工智慧近些年來可謂是炙手可熱。當前,人工智慧我們現階段可以分為強人工智慧和弱人工智慧。強人工智慧,指的是讓人工智慧的主體能像人一樣進行思考,並具備心智、意識、自我等當前我們以為的人類等某些生物體具備的高級內在要素與心理活動。現在,人類還無法製造出這麼一個主體。弱人工智慧,是製造一種像人一樣,以類似推理、歸納等方式,解決某些領域內特定的問題的機器。
人工智慧(僅指弱人工智慧)相較於之前提到的數據分析、數據挖掘和機器學習,有以下的一些特點:人工智慧研究的數據領域得到了極大的擴展,它可以直接將圖片、視頻、聲音、文字等最原始信息進行分析處理,弱化了特徵預處理的流程,不輕易損失這些複雜數據中的東西(這得多虧深度神經網路);同時,人工智慧非常廣泛地用到了最優化的處理思想,它沒有損失原始數據,同時有效整理「目標」,達到一種目標與數據的深度交互與完全反饋;人工智慧也不局限於數據分析、挖掘、機器學習取並集的方法,它廣泛涉及眾多數學方面的知識,如概率論、矩陣理論等,這也是由於數據本身更為複雜的特點所決定的。
似乎人工智慧可以完成以上所有數據處理方法可以達到的效果,但人工智慧的處理思路,對數據量、對數據維度、數據處理速度的要求會更高。所以,並非全能的方法才是最好的方法,結合「數據環境」使用的方法,才能起到最大的作用。
作者: 途索
鏈接:http://www.imooc.com/article/23493來源:慕課網本文原創發佈於慕課網 ,轉載請註明出處,謝謝合作
推薦閱讀:
※巨變將至!未來人類不分階層,只分物種
※定位大數據分析平台,Kyligence憑開源優勢謀全球業務擴張
※樸素貝葉斯分類器原理與實戰(影評情感分析)
※擁抱20餘家主機廠,彩虹無線提供車聯網全產業鏈服務
※第三節:簡單的數據處理和分析(2)