大數據技術的本質就是數據挖掘嗎?

大數據技術的本質其實就是數據挖掘嗎?數據挖掘是否不用拘泥於某種編程語言寫的軟體?現有哪些用於數據挖掘/大數據的軟體?


不是。

還有存儲,消息,流式計算等,數據挖掘只是其中一個部分。

目前大數據技術還難以脫離Hadoop生態系統下的東西(除了谷歌,因為他有自己的一套東西),HDFS,Hive,HBase仍然是解決巨量數據存儲和ETL的必要工具(即使是亞馬遜的S3也是HDFS)。Hadoop是JAVA寫的。當然只是用用也不用會JAVA。

關於數據挖掘軟體,Hadoop Mahout(JAVA),Spark MlLib(Scala),Dato(C++,Python),Scikit(C,Python)

PS:我是從程序員的角度說的,我也是不太清楚非程序員有哪些黑科技~


大數據本質是預測!有無數媒體、無數樣本數據、牛逼的演算法,最終的預測錯得離譜的話,那都是扯的!預測的準確性或者較大概率的準確性才是大數據的根本!

一、只找數據相關性而不是找到準確的因果性。
找因果關係的成本和難度遠大於找相關性,什麼是相關性就是我知道當出現A現象時必然會出現B現。我不一定花成本去搞明白為什麼,而只需要努力的提高出現A現象時一定會出現B現象的預測準確率。設計測試系統的本質是發現一堆bug數據,然後找到bug數據集與軟體質量的相關性,不一定找到準確的因果性。測試設計的測試系統或測試評價模型對挖掘出的bug數據集的質量非常重要,否則在尋找bug集與質量相關性時,就會很難或不靠譜。

二、大數據是對所有數據進行分析處理而不是隨機樣本,最有價值的數據是異常數據,對全部數據進行統計分析發現這些小概率的異常數據對其分析是大數據分析的最大價值,異常數據說明我們的認知和建模還有漏洞,從而可發現我們過去未知的新事物,完善我們的認知模型。

三、大數據分析既然要全部數據就不怕數據中有錯誤數據的干擾 2+2=3.9也挺好的。從軟體質量角度來看,只要是全部bug數集,即使有一些無效bug,但對產品發布質量的相關性準確性的負面影響 也小於 僅是隨機抽樣bug數據或按規則抽樣bug數據進行數據分析的負面影響。

四、大數據時代三大關鍵資源:擁有大數據資源、擁有統計演算法工具、擁有大數據思維模式。對於大多數人或組織沒法擁有大數據資源,也不一定精通統計演算法工具,但都可以擁有大數據思維模式,依靠大數據思維模式提升工作的效率和質量。我們就曾在圖片搜索中發揮大數據思維模式,成功實現了高性能(單機計算機能力1秒1個)高準確率(85%)的自動識別「文不對圖」的測試系統。
  關於大數據的編寫語言和挖掘軟體,樓上已經有人說得挺好的我就不補充了。如果你對大數據感興趣,也可以加我信微:idacker

http://weixin.qq.com/r/JUjbw8TE1JmrrYCg9x03 (二維碼自動識別)


本質是算命


數據挖掘與大數據其實並無關係,數據挖掘演算法在數據量不大的時候就出現了。我認為大數據更多的是使用分散式技術來進行數據管理與計算,提高了對數據的存取,處理能力


談到大數據的本質,作為多年從業者,必需說一下了。首先我們看下下面幾個問題,然後給出對大數據本質的定義,之後大家自然會對下面的幾個問題有更加深刻的理解:

  1. 什麼是大數據?什麼是小數據
  2. 大數據就是數據倉庫/數據挖掘么?
  3. 大數據=Hadoop?
  4. 大數據時代到來了么?
  5. 怎麼理解算命都叫大數據?

今天來看大數據,大家其實已經不在陌生,甚至在好多電視節目中也不斷提到「大數據」的字眼:

「大」這個字,究竟代表了什麼,和它相對的「小數據」又如何區分?不妨類比下大數據(Big Data)的Big這個詞:

Big在英文中經常帶有貶義,有破壞自由和隱私的味道。例如:

在小說《1984》,老大哥(Big Brother):大洋國的名義領袖,但書中自始至終沒有真正出現這個人物,他的存在始終是作為權力的象徵和人們膜拜的對象。1984年的世界被三個超級大國所瓜分——大洋國、歐亞國和東亞國,三個國家之間的戰爭不斷,國家內部社會結構被徹底打破,均實行高度集權統治,以改變歷史、改變語言(如「新話」—Newspeak)、打破家庭等極端手段鉗制人們的思想和本能,以具有監視與監聽功能的「電幕」(telescreen)控制人們的行為,以對領袖的個人崇拜和對國內外敵人的仇恨維持社會的運轉

然後,大政府(big government)的概念,指奉行干預主義政策的政府,一般被理解為進行無處不在的經濟管理與社會控制。

大石油(Big oil), 描述國家的政治甚至都被石油工業經濟體系所影響,尤其是形容美國。

這些Big,都帶有「無處不在」的含義。「大數據」的Big也是因數據,變的無處不在,干預到生活,干預到企業的運營,干預到政府的決策。

所以,「大數據」最本質的定義還是指「無處不在的數據」,或「數據變得無處不在了」。

從數據存儲和處理的發展來看,隨著數據的獲取,存儲,運用成本變的越來越低,大量的企業不單單關注業務的IT自動化,更加需要業務智能化。

業務的自動化,解放了枯燥的重複性勞動,業務IT系統自動完成現實的業務:財務人員無需用一筆一筆記賬並核算,超市也直接掃碼完成入庫出庫。

業務的智能化,達成輔助甚至直接決策業務流程中的關鍵環節,預測可能的未來,洞悉事件的因果。智能化趨勢在互聯網公司最早體現:

  • 使用app/電商的時候可以智能推薦商品
  • 我想搜索的東西也總是在搜索引擎前幾條出現
  • 打車去的地方只要輸入前幾個字就提示出來了
  • 等等

DT時代能做到這件事情的原因是,企業可以使用業務核心數據之外更大量的數據,比如日誌,互聯網抓取,埋點採集等,通過整合這些數據,可以發現IT系統無法發現的大量的隱含規則。為了獲取智能化,企業不自覺的就構建了一層現實世界的數據化的層。

這個數據層,通常會用掉大量計算機存儲資源,在Hadoop面世之前,企業能夠做到這一點的屈指可數,企業不得不花費大量的成本購買專業的存儲硬體和軟體,並構建專業的團隊對其維護。Hadoop的

出現使得即使是互聯網公司也可以輕易的存儲和處理更大量的數據來產出價值。

大數據,從方法論的角度講,就是我們要有大數據的意識,要量化一切,記錄一切。不論數據和業務的關係是否那麼密切,無差別的採集並存儲數據。

從技術角度說,大數據的發展的確是伴隨著技術的不斷發展而演進的,從虛擬化,雲計算,分散式存儲計算框架,流式計算框架,MPP框架等,無一不在變的低成本,可複製,開源。使用這些技術實現

大數據的方法論變的更為簡單。

任何企業或組織,要運用大數據,都需要對數據的整個生命周期進行管理。數據在DT時代已經變成企業寶貴的資產。從數據的產生,流動,變化,輸出每個環節,需要有工具統一管理。

數據挖掘的從業者的一個共識是:實際花在模型訓練效果調優的時間只佔20%,80%的時間都花在數據預處理,格式化,臟數據清洗等操作上了。保證數據生命周期的每一個環節,是獲得最大大數據利用效率的根本方法。從數據流來講,包括:

  1. 數據源梳理
  2. 數據採集工具
  3. 數據存儲
  4. 數據計算和管理(離線處理和實時處理)
  5. 數據查詢介面
  6. 應用

當然企業也可以選擇一些商用公司提供的大數據平台服務,其自身會整合一整套數據生命周期管理工具和體系,並可以幫助企業實現向大數據靠攏。

然後說一下數據挖掘:

數據挖掘一般是指從大量的資料中自動搜索隱藏於其中的有著特殊關聯性(屬於Association rule learning)的信息的過程。資料挖掘通常與電腦科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。---- wikipedia

數據挖掘,總體來說使用一系列的技術手段,完成對數據潛在價值的發現和展示。既然明白目標,達成目標選擇的手段當然不唯一

如何選擇,取決於讀者自身所在的位置:

比如,我是一個Java開發工程師,怎麼實現對現有大量數據的自動聚類?

又如,我是一個企業運營人員,怎麼使用數據挖掘工具分析客戶流失原因?

了解目標和現狀,選擇合適的工具和手段,下面列出一些在工業級別常用的工具,僅供參考:

數據科學類:

Matlab

免費版matlab: Octave

程序語言類:

R語言

Python scikit-learn

google word2vec

雲服務類:

Microsoft Azure Machine Learning

AWS Machine Learning

分散式機器學習

mahout

spark MLlib

Vowpal Wabit


1.不是 不知道你說的數據挖掘是什麼概念。好多時間用來收集數據、清理數據,存儲,讀寫,跑,分析,可視化。我猜你說的僅僅是把數據放在軟體里運行。
2. 不拘於,但是主流的就那幾個。除非你自己實現。
3.其他答主說過了。


大數據技術的本質是實現業務價值!


本質是機器學習
因為人已經處理不過來了


大數據技術除了數據挖掘以外,還包括數據的篩選標籤化和場景利用。


大數據技術包含了數據挖掘,但是不能只用數據挖掘來解釋大數據技術,大數據技術是對海量數據進行高速有效的數據採集、挖掘與分析。所以說本質這個描述不恰當。


我覺得不是,但是是大數據中的重要一部分。

隨著大數據時代的到來(數據一直存在,只是受摩爾定律的影響,數據收集、數據儲存的成本在降低),大家也需要轉變到大數據思維。所謂的大數據思維,就是充分的利用數據進行決策,大數據時代中說,過去我們過於關注技術,現在要將重心放在信息本身上。

所以,大數據中最重要的兩部分:

1 數據思維,大數據如何落地,可以顛覆哪些直覺?

2 分析演算法,如何挖掘數據內在的聯繫;


只能說機器學習模式識別數據挖掘等是大數據分析的非常重要一部分!但並不是全部!


大數據技術的本質就是數據可視化分析與數據挖掘
http://www.ethinkbi.com


粗淺認為大數據是數據挖掘的基礎。就10條數據有必要挖嗎,一是信息價值太小,二來不一定準確,數據量大了才有挖的價值。


普羅米修斯知道不 大數據的核心是把一種原來屬於科學家和天才的東西變成了工具 雖然是很有局限的工具 這是科學的勝利 更是對於現在到處還在殘留的封建主義的最大諷刺


你讓管理處理技術怎麼想?
往上還有可視化呢


大數據就是Big Brother的電幕


輿情監控,實時流計算,量子模擬。啥都可以玩,好酸爽,誰用誰知道。


推薦閱讀:

如何成為一個數據極客?
spark 和 elk 技術棧對比?
如何成為一名數據可視化工程師?
什麼是大數據,什麼是大數據概念?
為什麼很多公司都開始去oracle而使用mysql?

TAG:數據挖掘 | 大數據 | 大數據處理 | 數據挖掘工具 |