大數據和「數據挖掘」是何關係?

大數據是不是數據挖掘的延伸?兩者的相似度有多少?


談談個人見解:
數據挖掘基於資料庫理論,機器學習,人工智慧,現代統計學的迅速發展的交叉學科,在很多領域中都有應用。涉及到很多的演算法,源於機器學習的神經網路,決策樹,也有基於統計學習理論的支持向量機,分類回歸樹,和關聯分析的諸多演算法。數據挖掘的定義是從海量數據中找到有意義的模式或知識。

大數據是今年提出來,也是媒體忽悠的一個概念。有三個重要的特徵:數據量大,結構複雜,數據更新速度很快。由於Web技術的發展,web用戶產生的數據自動保存、感測器也在不斷收集數據,以及移動互聯網的發展,數據自動收集、存儲的速度在加快,全世界的數據量在不斷膨脹,數據的存儲和計算超出了單個計算機(小型機和大型機)的能力,這給數據挖掘技術的實施提出了挑戰(一般而言,數據挖掘的實施基於一台小型機或大型機,也可以進行並行計算)。Google提出了分散式存儲文件系統,發展出後來的雲存儲和雲計算的概念。
大數據需要映射為小的單元進行計算,再對所有的結果進行整合,就是所謂的map-reduce演算法框架。在單個計算機上進行的計算仍然需要採用一些數據挖掘技術,區別是原先的一些數據挖掘技術不一定能方便地嵌入到 map-reduce 框架中,有些演算法需要調整。
此外,大數據處理能力的提升也對統計學提出了新的挑戰。統計學理論往往建立在樣本上,而在大數據時代,可能得到的是總體,而不再是總體的不放回抽樣。


在我讀數據挖掘方向研究生的時候:
如果要描述數據量非常大,我們用Massive Data(海量數據)
如果要描述數據非常多樣,我們用Heterogeneous Data(異構數據)
如果要描述數據既多樣,又量大,我們用Massive Heterogeneous Data(海量異構數據)
……
如果要申請基金忽悠一筆錢,我們用Big Data(大數據)


我覺得 大數據 和 深度學習 一樣,是讓艱深的計算機概念得到公眾認知和認可的有效嘗試,無論是 「大」字還是「深度」,都非常形象也很直觀地展示了這些研究課題的挑戰和意義,雖然這些研究課題在相關研究領域早已被探索了幾十年。


我還是一貫堅持我的態度:「大數據」是媒體忽悠出來的名詞,這東西是用來騙錢和騙項目的。所以也就回答了你的第一個問題,不是延伸。第二個問題是,沒有相似度。

接下來好好說。如果說硬要說相似度的話,那麼重合度的確是有很高。因為大數據乾的事情其實就是數據挖掘做的事情。

數據挖掘之前叫KDD(Knowledge Discovery and Data Mining, 或者也可以是 Knowledge Discovery in Database),這樣說就很好解釋了。數據挖掘就是從海量的數據中發現隱含的知識和規律。那麼說,這個東西是啥時候提出來的?上個世紀。大數據啥時候提出來的?也就這幾年的事情吧。所以說,大數據很大程度上是數據挖掘的一個好聽的名字。

其實也不能一概否定「大數據」,至少通過媒體的熱炒,讓很多人知道了「數據」的重要性。只是很多人都不知道怎麼做大數據,因為這個東西本來就是虛的嘛。如果想了解大數據,那麼踏踏實實的做法是學習一下「數據挖掘」和「機器學習」相關的知識。具體的內容,可以搜索一下我以前答過的內容。


關於大數據的定義很多,引述 Doug Laney 2001 關於大數據的主流定義。
翻譯易有偏差,下面是英文定義,從容量(Volume),速率(Velocity)和種類(Variety)三個方面來闡述:

  • Volume. Many factors contribute to the increase in data volume. Transaction-based data stored through the years. Unstructured data streaming in from social media. Increasing amounts of sensor and machine-to-machine data being collected. In the past, excessive data volume was a storage issue. But with decreasing storage costs, other issues emerge, including how to determine relevance within large data volumes and how to use analytics to create value from relevant data.
  • Velocity. Data is streaming in at unprecedented speed and must be dealt with in a timely manner. RFID tags, sensors and smart metering are driving the need to deal with torrents of data in near-real time. Reacting quickly enough to deal with data velocity is a challenge for most organizations.
  • Variety. Data today comes in all types of formats. Structured, numeric data in traditional databases. Information created from line-of-business applications. Unstructured text documents, email, video, audio, stock ticker data and financial transactions. Managing, merging and governing different varieties of data is something many organizations still grapple with.

而數據挖掘(Data mining)簡單的說,則是一個從未經處理過的數據中提取信息的過程,重點是找到相關性和模式分析。

大數據和數據挖掘的相似處或者關聯在於: 數據挖掘的未來不再是針對少量或是樣本化,隨機化的精準數據,而是海量,混雜的大數據。


謝邀,以前關注過一段時間的大數據,不過現在主要糾結社區發現去了,暫時沒用到大數據- -,有什麼不對的地方請指正,不過勿噴。。。咳咳,我覺得我看過的一本書上講的還不錯的,大致介紹一下。

我們處理許多問題的核心思想在於樣本選取和結果選取:

樣本選取:從很久以前到現在,我們獲取數據的能力以及分析數據的能力都是很有限的,這就導致,很多數據我們是無法在我們需要的時候採集到的,舉一個例子:人口普查。近代美國要求10年進行一次人口普查,但是隨著人口的增長速度越來越快,到後來統計出國家的大致人口都需要13年了。。因此不能採用普查。因此我們必須使用另一種經典的方法,並以此方法達到通過獲取少量數據就能夠分析大規模問題的目的——抽樣。我們都知道抽樣調查是有各種各樣的要求和準則,而且合理性也經常不如人意,但是在之前獲取數據難度很大的前提下(只能親自去看,一個一個人工考察),這種方法的確賦予了我們處理大規模數據的能力:從裡面完全隨機的(我們都知道這是不可能的)選擇一些正確的(數據完全正確也是不可能的)數據進行分析。

樣本分析:通過上述介紹的抽樣方式,我們獲得了我們分析問題所需要的數據。我們現在要開始利用它們,那麼怎麼利用呢?數據可以是很簡單的,例如長度,溫度,時間,重量等等;也可以是很複雜的,一本書,一張圖,一個石頭。之所以說這些數據複雜,是因為它們是由我們提到的諸如重量長度等等簡單的數據構成的。那麼,如果我們要分析石頭的話,將會變得很困難——因為要處理的數據種類實在太多了,各種數據之間還存在這樣那樣的影響。這讓我們計算能力嚴重不足的祖先們(只有筆和算盤,各種函數和公式都么有發明。。)無比的抓狂。。。因為等我們用簡單粗暴的方式算出來了以後,數據的有效期很可能已經過了(參見前面說的人口普查數據)。因此我們又發明了一個牛逼而經典的方法——建模。我們採用幾個對描述這個對象很關鍵的數據來代替所有的數據,這樣,計算量和計算難度都有客觀的改善。

上面介紹的就是我們傳統的數據獲取和處理方法,下面就要講一下數據挖掘了。

為什麼我們要挖掘數據,我個人認為是因為我們現在獲取數據的難度大大地降低了,所以我們有了很多很多很多的數據了- -,看著都要吐了。。。是的。。

正是因為看著都要吐了,所以我們不想看了,我們想要不用人腦,而讓計算機來幫我們找到數據的價值,於是我們就要用數據挖掘方法了,也就是肖智博提出來的:數據挖掘就是從海量的數據中發現隱含的知識和規律。所以數據挖掘的前提和大數據的前提是一樣的,就是海量數據。所以就方法而言,二者是很類似的。

我們現在總是提的大數據,我認為主要是一種思路:
1.不使用抽樣的數據,而採用全部的數據:這裡我指的全部的數據是完全所有的數據,包括正確的和不正確的數據都要採用。雜訊和錯誤數據同樣包含著有用的信息。

2.不關心為什麼,只關心是什麼:因為我們有了海量的數據 ,因此我們通過大數據統計出的結果應該是具有相當程度的普適性的。所以把這種現象-結果拿去套就行了。如果探究和證明因果關係的話,通常是極為困難的。一個例子就是經典的啤酒和尿布,從數據中獲得這種結果很簡單,把它們放在一起就能增加銷量從而達到沃爾瑪的目的,而去查明原因則費事的多。

3.相比數據分析方法而言更注重數據獲取:換一種說法就是數據為先。因為現在計算機太牛逼了,所以只要我們想到辦法,它就能替我們干相應的活。基於此,我們要做的就是獲取更多的,更全面的數據來讓計算機分析。例如國外快遞公司在車上裝感測器來幫助快遞調度,勞斯萊斯公司在飛機發動機上裝感測器並通過歷史數據和實時數據預先預測潛在故障並提前檢修的例子。大數據思維模式中,數據為我們提供最多的可能和最大的價值,所以著重獲取數據。

說了這麼多,我想說的就是數據挖掘可以概括為:在我們掌握的數據多了以後,把數據交給計算機分析的方法的集合。而大數據則是跳出我們的傳統數據分析和處理方法框架的一種新思維。一種思維和一類技術比起來,確實是要虛很多,而且思維要付諸實現,必然是要以技術為基礎的。但是正是由於思維方式的不同,我們可以從數據中獲得更多的東西,比如對之前認為沒有價值的雜訊和錯誤數據的分析,或者對現象的重視而意外發現的一些有意思的結果等等。。


因此,我個人認為,大數據是我們在不斷發展數據挖掘技術的過程中誕生出來的一種新思維,這種思維的實際應用以數據挖掘技術為基礎,並可以促進我們開發出更多的數據挖掘技術。。


看了不少評論說只是忽悠,就好像到現在還有很多人認為雲計算是虛擬化的同義詞,也是忽悠一樣,其實是自己還沒真正了解其內涵;
就好像雲計算是因為虛擬化技術發展的量變導致質變(雖然虛擬化不是實現雲計算的必要前提);大數據也是同樣的道理是舊技術發展到一定程度導致的新產物,
很多人還停留在大數據就是海量數據的概念(這只是其中一個特徵),網上很多所謂的大數據例子,也體現不出目前大數據的明顯特徵,和之前的數據挖掘顯示不出差別,更加讓部分人以為大數據就是數據挖掘的別名;

我個人的理解,有若干區別:
1,數據挖掘還是基於用戶假設了因果,然後進行驗證;而大數據則重點在找出關聯關係,A的變化會影響到B的變化幅度;
2,傳統的方法只是從內部資料庫數據提取,分析數據; 大數據則從更多途徑,採用更多非結構化的數據;
3,處理時間上,傳統的對時間要求不高; 大數據強調的是實時性,數據在線即用;
4,傳統的方式,重點還是從數據中挖掘出殘值; 而大數據則是從數據中找出新的內容,創新的價值;
...

最大的區別,還是思維的不同,思考方式的不同,導致後面的方法論,工具有很大的區別;


數據挖掘是一門技術,是學問,更狹義一點就是對一類演算法研究的總稱,這些演算法的共同特點是從希望從真實世界的數據中識別出有用的pattern,進而獲取新的知識,最終落實到decision making。

大數據,這個概念非常的虛,被賦予了太多的含義,缺乏實質的內涵。但是「大」是他們的共性。我更傾向於將其理解為近年來興起的一系列數據處理工具,其代表就是基於MapReduce的Hadoop。他們大多基於分散式環境,以能夠處理海量數據或者實時性為賣點。


大數據可以理解為一個技術手段、平台、工具或者是一種思想
而數據挖掘是工作目標,在沒有大數據概念之前,數據挖掘可以用關係型資料庫、分析型資料庫等等,現在只不過多了一個選擇,而且是一個很好用的技術手段。


我也回答一下我的觀點。
我認為「大數據」這個概念剛剛有雛形,甚至還沒有自己的定義。它不像數據挖掘或機器學習那樣已經形成了自己的知識體系,比如數據挖掘就有聚類、分類、關聯分析及異常檢測等。我曾粗略的讀過《大數據時代:生活、工作與思維的大變革》。我感覺這本書里也沒有提出大數據的概念到底是什麼,且它提出的大數據的觀點也很混沌,難以理解。這本書的一個好處就是案例極多,且基本都能查到原論文。
目前情況下,有很多技術公司熱衷於這個概念。我不認為這是一件壞事,也許這樣真的能促進這個新概念的發展,以至於它能成為一個完整的理論/方法體系,而不是一個個分散的案例。


以山西開礦的煤老闆為例:

開礦的前提是有礦,包括煤礦的儲藏量,儲藏深度,煤的成色。

之後是挖礦,要把這些埋在地下的礦挖出來,需要挖礦工,挖礦機,運輸機。

之後是加工,洗煤,煉丹,等等。

最後才是轉化為銀子。

數據行業十分類似:

挖掘數據的前提是有數據,包括數據的儲藏量,儲藏深度,數據的成色。

之後是數據挖掘,要把這些埋藏的數據挖掘出來。

之後是數據分析輸出,要把這些數據可視化輸出,指導分析、商業實踐。

直到這一步,才創造了價值。

所謂的大數據,大約就是說現在有座正在形成的巨型礦山,快去搶佔成為煤老闆吧,下一個蓋茨興許將在這裡誕生。


個人覺得數據挖掘是一門技術,是相對比較狹義上的一個概念。
而大數據更像一個產業,數據挖掘當然是其一個核心技術。但是,大數據與數據挖掘不同的是,他還涉及到其他廣泛的技術,其中代表的如可視化技術,數據存儲和管理技術。
大數據不僅僅是利用數據挖掘技術從數據中挖掘有用的信息, 他還要採取海量數據,通常要分布實時處理,最後利用要組織數據挖掘技術得到的信息,向用戶直觀的展示這些信息~


先說說我對大數據的理解。我以為大數據有2層意思:首先是萬物皆可數據化。數據化不等於數字化,數據化指的是將對象量化成可分析的數據,可以是結構化的,也可以是非結構化的。援引來自2013年4月19號《東方早報》的文章《比你更了解你——大數據時代的汽車生活》中的一段:
再來說一個例子,你可能永遠也想不到你開車時的坐姿可以防止汽車被盜,這聽起來簡直不可思議,但這就是現實存在的事,日本某工業研究所通過在汽車座椅下安裝360個壓力感測器來測量人對座椅各部分施加壓力的方式,並且通過0-256個數值範圍進行量化,這樣,每個乘坐者都將產生一份專屬的數據資料,這個系統可以根據人對座位的壓力差異識別出乘坐者的身份,準確率高達98%,這項技術作為汽車防盜系統裝在車上時,汽車就會知道駕駛者是不是車主,如果不是,汽車就會自動熄火,另外也可以根據坐姿數據來判斷司機是否正處於疲勞駕駛,系統可以通過自動減速或剎車來控制可能帶來的危險。

我舉這個例子是想說明藉助今天的技術和數學統計知識,以前不能量化描述的東西今天已經可以在計算機上分析和表達,即數據化
第二層意思是大數據的「樣本即總體」。這個觀點來自於舍恩伯格的《大數據時代》。以前的定量調查和分析的數據,受限於技術、資金等條件,總是從整體中抽取一部分樣本,針對這些樣本進行調查。但是大數據不一樣,大數據分析的數據是整體。
總之,大數據是一種思維方式。
然而回到數據挖掘這個關鍵詞上來。之前的回答已經很清楚地解釋了數據挖掘,以及與大數據之間的不同。我想強調的一點是:大數據的獨特魅力在於新穎而又具有實際意義的數據挖掘,如經典的」啤酒與尿布「的案例。


兩回事,大數據是海量數據環境下如何還能保持對某個訪問會話的快速響應。數據挖掘是從大量的歷史信息中總結出有用的知識。這是兩個層次上的事情。
數據挖掘原則上是可以不需要大數據的,因為它對響應速度並無要求,它看重的是挖掘出來的知識的效用。但對於海量數據環境下,如果沒有大數據的相關數據快速供給能力,那麼數據挖掘所消耗的計算資源可能使得其根本無法完成或成本太高。


我對這個問題表示倒是沒有什麼特別的看法,只是在此回憶一些我老闆的話。
1、(大二的時候實驗室大老闆給上資料庫的課,在課上發表過一些關於大數據的看法,大意是:)其實大數據並不是什麼新鮮的概念,很早就有了。只是最近幾年又有人冷飯熱炒把它翻出來,也就是在炒作。炒作好了就可以向國家彙報,申請什麼自然科學基金什麼。
2、(這一段是實驗室內部大老闆做的一個內部報告,只把最不重要的並且在其他場合講過的一些拿出來)大數據其實並沒有一個特別明確的定義,多大的數據算大數據?這個並沒有一個統一的標準。20年前,幾百兆的數據我們看起來就很大;幾年前我們覺得幾個GB的數據算大數據;現在我們覺得幾個TB的數據才能叫大數據。大數據這個標準是在計算機計算能力發展的情況下不斷變化的。(老闆在報告里給出過一個我覺得比較靠譜的定義,但是不知道有沒有發表)
3、對於題主的問題【大數據是不是數據挖掘的延伸?兩者的相似度有多少?】,我覺得兩者並沒有什麼關係。大數據帶來的問題是因為越來越多的數據產生出來而自然引發的一系列的在包括資料庫系統、計算方法等基礎問題上現有工具無法有效處理的問題;而數據挖掘則是在數據基礎上進行知識發現的過程。這兩者並不存在明顯的誰是誰的延伸的問題,也並沒有多少相似的地方。

硬要說兩者有何關係的話,可以看看下面。
大數據帶來的挑戰主要是現在基礎技術無法滿足需求。比如傳統上我們覺得一個亞線性時間演算法不錯,可是拿到大數據上,亞線性時間也不行了,這就是數據量的增長對於整個計算機科學界提出的挑戰,你說你有一個O(log(n))的演算法,那放到大數據身上也是不管用的(指的是不能分布計算的場景,能分布計算的話只要多搞幾台機器(像MapReduce那樣),分散開來變成「小數據」之後也就不叫大數據了)。由此給數據挖掘帶來的問題就是很多數據挖掘演算法即使在傳統概念上的時間複雜度很低,現在也不能滿足要求了。
【以上】


簡單粗暴地講,大數據是海洋,大數據中的信息則是魚,而「數據挖掘」就是捕魚的網。如果把 「大數據」 狹義地理解為一類數據源,那麼,「數據挖掘」 就是用來駕馭 「大數據」 的重要手段之一。

由於大數據是一類複雜的、不友好的數據源,用傳統的方法往往難以駕馭,為了能夠有效利用大數據,人們就逐漸發明出一套系統的方法工具,來對大數據進行收集、存儲、抽取、轉化、載入、清洗、分析、挖掘和應用,而 「數據挖掘 Data mining」 就是對各種挖掘工具方法的統稱

需要注意的是,大數據源通常不能直接進行數據挖掘,還需要耗費大量工作量進行預處理。當然,完成了數據挖掘還沒有結束,還需要對挖掘結果進行業務應用,才能創造價值。就好比有一座鐵礦山,得先從礦山中開採出品質達標的鐵礦石(預處理過程,數據清洗、集成、變換和規約),才能送到鍊鋼廠冶煉為鋼材(挖掘過程),最終鋼材還要用到建築工地上(應用過程)

-- -- -- -- -- -- -- -- -- -- 首先來看什麼是「大數據」 -- -- -- -- -- -- -- -- -- --

1.大數據是具備3V特徵(Volume 大體量、Variety 複雜多樣、Velocity 高速時效)的數據源。大眾很容易理解 Volume,互聯網公司、運營商和金融機構的數據量動輒以TB計,卻往往會忽視 Variety 和 Velocity

Variety 是指大數據來源豐富、形態多樣,常見的大數據就包括電商用戶數據、文本數據、社交網路數據、車載信息服務數據、時間和位置數據、RFID數據、智能電網數據、設備感測器數據等等。

Velocity 是指大數據一邊高速海量生成,同時數據的分析和應用也實時完成,比如,網路廣告程序化購買、互聯網金融實時授信,都涉及到實時處理海量數據的技術。

2. 大數據也是一個相對的概念,目前的「小數據」,曾經也是「大數據」。比如ERP、CRM里導出的數據,現在用excel就能輕鬆駕馭,但在幾十年前,放在當時的技術條件下,這樣的數據又何嘗不是大體量、多樣、高速的 "大數據"。目前的「大數據」,隨著技術發展,未來也會成為能夠輕鬆駕馭的「小數據」。

3. 大數據通常都是機器自動生成的,例如物聯網中感測器自動生成環境數據。而傳統數據的生成往往涉及人工因素,例如零售交易、電話呼叫等等。

4. 大數據往往不是 「結構化」 的,因此難以駕馭。收集傳統數據源的交易系統通常會以整潔的、預先規範好的模板方式來生成數據,以確保數據容易被載入和使用。而大數據源在最開始通常不會被嚴格地定義,而是去收集所有可能使用到的信息。

  • 常見的財務報表就是典型的 「結構化」 數據,表頭明確了數據的類別、科目,整潔規範。
  • 網路日誌則是「半結構化」數據的代表,看起來亂七八糟,完全談不上整潔規範,但其中每一條信息卻都有特定用處。
  • 而文本,諸如博客文章、論壇評論則是 「非結構化」 數據,必須耗費大量精力進行轉化和清洗,才能進行分析和利用。

5. 很多數據可能就是垃圾,並不蘊含大量價值。事實上,大部分數據甚至毫無價值。一篇網頁日誌中會含有非常重要的數據,但其中也包含了很多根本沒有價值的數據。對其進行提煉,從而保留有價值的部分是非常必要的。

-- -- -- -- -- -- -- -- -- -- 再來看什麼是「數據挖掘」 -- -- -- -- -- -- -- -- -- --

既然大數據通常是 「大體量、發雜多樣、高速實時」,而且不是 「結構化」 的,這就引出一個問題,如何駕馭大數據?

前面提到,人們發明出包括數據收集、存儲、抽取、轉化、載入、清洗、分析、挖掘和應用的方法用以駕馭大數據,而 「數據挖掘 Data mining」 就是對各種挖掘工具方法的統稱。

要理解 「數據挖掘」 ,可以和 「數據分析」 做個簡單比較

  • 數據分析的分析目標往往比較明確,分析條件也比較清楚,基本上就是採用統計方法,對數據進行多維度地描述
  • 數據挖掘的目標卻不是很清晰,要依靠挖掘演算法來找出隱藏在大量數據中的規律和模式,也就是從數據中提取出隱含的、未知的有價值的信息。

在實踐中,數據挖掘一般劃分為 「分類」、「聚類」、「關聯」 和 「序列」 等幾大常見問題,針對每一類問題,又有專門的挖掘演算法來處理。例如,用戶流失預警模型、促銷活動響應模型都用於預測用戶某個行為的發生概率,屬於 「分類」 問題,可以用決策樹演算法、邏輯回歸演算法、多元線性回歸、神經網路演算法來處理。

想了解大數據的朋友可以看看《駕馭大數據》(Bill Franks 著、黃海譯、人民郵電出版社),是入門書籍里比較系統的,很適合幫助自己對大數據形成一個基本認知框架。


挖掘——明顯的低端體力勞動,不值一提
大(海量)——絕對的高精尖科技,不明覺厲

同樣的啤酒,同樣的尿布,碼農寫下了樸素的本質,資本家吹出了高大上的藍圖。

  • 媒體與大眾的視角

從媒體的宣傳來看,完全是借用了「大數據」這一名詞向大眾灌輸了「數據挖掘」在商業活動和社會生活中的潛藏的巨大作用。不論是早已威名遠播的「啤酒與尿布」,還是新鮮出爐的「紙牌屋」,無不是對數據挖掘的商業價值的完美詮釋。正如開篇所言,「大數據」無疑比「數據挖掘」更具有吸引眼球的潛質。對於普通大眾而言,讓他們知道海量數據如何存儲和處理並不重要,重要的是告訴他們數據的背後存在著價值。於是乎,「大數據」成為了「數據挖掘」的代名詞,通過媒體狂轟濫炸地宣傳成功上位,成為某些利益集團用於概念炒作的工具。

  • 專業的視角

正如 @張偉棋 引用的定義所言,大數據概念強調了在對於具有數據容量大、產生速度快、數據類型雜的特點的數據的處理,包含了與之相關的存儲、計算等方面的技術。數據挖掘的發展過程中,不斷追求著從更多來源獲得更大數據量並進行更高效地分析,以期獲得更全面、更準確、更及時的結果。我認為,大數據概念的提出是數據挖掘技術發展和應用帶來的必然結果,是對數據挖掘發展中遇到的海量數據相關問題的提煉和總結,並由此形成的對立的相關概念。


數據挖掘=大數據+機器學習


今天開會老闆對大數據的總結十分精彩:大數據就像「teenage-sex」,所有人都在談論這個,所有人都以為別人在做這個,所以所有人都聲稱自己也在做這個。。。

--------------------------------------------------------------------------------------------------------------------
在我看來大數據是一種屬性,而數據挖掘是方法,或者說是方法的集合。

我認為數據挖掘就是指從單純無序雜亂的數據裡面提取出有用的信息,首先要規範化數據,然後根據想要回答的問題選擇相應的方法,可以建立模型預測未來,也可以對當前數據聚類等等。也可以是單純的從數據中找尋規律,並不一定要回答特定的問題。所以我覺得用excel作pivot table也是一種數據挖掘。

而大數據就是指數據的特性,顧名思義就是大。海量數據會造成很多問題,首先計算量就是一個問題,最簡單的個人電腦的內存在數據量達到百萬行的時候基本上就捉襟見肘了,讀入就成問題,更談不上計算了,當然計算速度就是附帶的問題。然後就是選擇的問題了,以往都是數據量太少,要預測一個量恨不得把能收集到的其他量都用上,現在是數據量太大,想像一下1000多個不同的量預測一個量的模型你能信任嗎,即使真的相信了這樣的模型,要很難利用這樣的模型給出合適的建議。第三個大數據特點就是實時更新,因為每天都可以產生大量數據,昨天的模型需要用今天的模型驗證,然後修正,這就是一個不斷更正的過程。

我不覺得大數據全是炒作出來的噱頭,什麼都數字化的今天,數據的處理方法上還是有一些特別的地方的。不過數據還是數據,處理的核心還是不會變的。


地球和挖掘機的關係。


推薦閱讀:

有哪些很好玩而且很有用的 R 包?
制約大數據發展的核心因素是什麼?
使用爬蟲抓投資數據是否是一個高效的方式?
如何分析找出知乎的潛在的熱門問題?
如何用爬蟲抓取股市數據並生成分析報表 ?

TAG:數據挖掘 | 大數據 |