什麼是大數據,什麼是大數據概念?

互聯網時代背景下大數據是什麼,大數據概念是什麼


「大數據」是近年來IT行業的熱詞,大數據在各個行業的應用逐漸變得廣泛起來,如2014年的兩會,我們聽得最多的也是大數據分析,那麼,什麼是大數據呢,什麼是大數據概念呢,大數據概念怎麼理解呢,一起來看看吧。

大數據的定義。大數據,又稱巨量資料,指的是所涉及的數據資料量規模巨大到無法通過人腦甚至主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。
互聯網是個神奇的大網,大數據開發也是一種模式,你如果真想了解大數據,可以來這裡,這個手機的開始數字是一八七中間的是三兒零最後的是一四二五零,按照順序組合起來就可以找到,我想說的是,除非你想做或者了解這方面的內容,如果只是湊熱鬧的話,就不要來了。

大數據的採集。科學技術及互聯網的發展,推動著大數據時代的來臨,各行各業每天都在產生數量巨大的數據碎片,數據計量單位已從從Byte、KB、MB、
GB、TB發展到PB、EB、ZB、YB甚至BB、NB、DB來衡量。大數據時代數據的採集也不再是技術問題,只是面對如此眾多的數據,我們怎樣才能找到
其內在規律。

大數據的特點。數據量大、數據種類多、 要求實時性強、數據所蘊藏的價值大。在各行各業均存在大數據,但是眾多的信息和諮詢是紛繁複雜的,我們需要搜索、處理、分析、歸納、總結其深層次的規律。

大數據的挖掘和處理。大數據必然無法用人腦來推算、估測,或者用單台的計算機進行處理,必須採用分散式計算架構,依託雲計算的分散式處理、分散式資料庫、雲存儲和虛擬化技術,因此,大數據的挖掘和處理必須用到雲技術。

大數據的應用。大數據可應用於各行各業,將人們收集到的龐大數據進行分析整理,實現資訊的有效利用。舉個本專業的例子,比如在奶牛基因層面尋找與產奶量相
關的主效基因,我們可以首先對奶牛全基因組進行掃描,儘管我們獲得了所有表型信息和基因信息,但是由於數據量龐大,這就需要採用大數據技術,進行分析比
對,挖掘主效基因。例子還有很多。

大數據的意義和前景。總的來說,大數據是對大量、動態、能持續的數據,通過運用新系統、新工具、新模型的挖掘,從而獲得具有洞察力和新價值的東西。以前,
面對龐大的數據,我們可能會一葉障目、可見一斑,因此不能了解到事物的真正本質,從而在科學工作中得到錯誤的推斷,而大數據時代的來臨,一切真相將會展現
在我么面前。


大數據並不是一種概念,而是一種方法論,一句話概括,就是通過分析和挖掘全量的非抽樣的數據輔助決策。


大數據不是數據量有多大,當我們還在談數據量是多少G多少T多少P的時候我們還沒真正進入大數據。
當我們的演算法可以不再去關心數據量有多大的時候,這才是大數據。

我同事跟我說的。我覺得挺有道理。


謝邀。

我其實是挺反對大數據概念的濫用的,比如兩會大數據分析的報道,其實就是百度的搜索關鍵詞的統計,你可能都不知道他是基於數據全集統計的還是抽樣統計。我和一位資料庫公司老總在談數據的重要性的時候他的一個觀點我很認同,傳統的數據倉庫,一堆數據在要盤陣里趴著,這為叫大數據,大數據就需要對這些趴著的數據不停的排列、重組、統計、分析,依靠你的模型從數據出發為決策提供支撐,這才是大數據。

所以我理解的大數據是隨著信息技術的發展,數據的積累越來越迅速,處理速度也越來越快,對數據從不同維度運用不同模型進行分析處理,而最終使數據為我們的決策服務。至於其存在的形式,無非就是樓上說的sql和非結構化數據等,沒有什麼特別的。


對於我這個做技術的而言:

  • 所謂大數據無非就是存到 sql、文件的一堆字元串

只不過,這個數據有點大:

  • 小的 1、2 G,多的上千、上萬 G

然後企業利用這些數據 + 程序 code,分析出自己想要的東西:

  • 用戶行為
  • 用戶習慣
  • 怎麼才能從用戶身上賺到錢

最後一點很重要,是目前大數據公司最想做的事情 :)


大數據是什麼?投資者眼裡是金光閃閃的兩個字:資產。比如,Facebook上市時,評估機構評定的有效資產中大部分都是其社交網站上的數據。

如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。

典型案例

1948年遼瀋戰役期間,司令員林彪要求每天要進行例常的「每日軍情彙報」,由值班參謀讀出下屬各個縱隊、師、團用電台報告的當日戰況和繳獲情況。那幾乎是重複著千篇一律枯燥無味的數據:每支部隊殲敵多少、俘虜多少;繳獲的火炮、車輛多少,槍支、物資多少……有一天,參謀照例彙報當日的戰況,林彪突然打斷他:「剛才念的在胡家窩棚那個戰鬥的繳獲,你們聽到了嗎?」大家都很茫然,因為如此戰鬥每天都有幾十起,不都是差不多一模一樣的枯燥數字嗎?林彪掃視一周,見無人回答,便接連問了三句:「為什麼那裡繳獲的短槍與長槍的比例比其它戰鬥略高?」「為什麼那裡繳獲和擊毀的小車與大車的比例比其它戰鬥略高?」「為什麼在那裡俘虜和擊斃的軍官與士兵的比例比其它戰鬥略高?」林彪司令員大步走向掛滿軍用地圖的牆壁,指著地圖上的那個點說:「我猜想,不,我斷定!敵人的指揮所就在這裡!」果然,部隊很快就抓住了敵方的指揮官廖耀湘,並取得這場重要戰役的勝利。

參考資料:什麼是大數據,什麼是大數據概念?


大數據技術可以理解為在海量的數據資源中提取到有價值的部分加以分析和處理。大數據技術人員需要掌握的專業技術:

基礎階段:Linux、Docker、KVM、MySQL基礎、Oracle基礎、MongoDB、redis。

hadoop mapreduce hdfs yarn:hadoop:Hadoop 概念、版本、歷史,HDFS工作原理,YARN介紹及組件介紹。

大數據存儲階段:hbase、hive、sqoop。

大數據架構設計階段:Flume分散式、Zookeeper、Kafka。

大數據實時計算階段:Mahout、Spark、storm。

大數據數據採集階段:Python、Scala。

大數據商業實戰階段:實操企業大數據處理業務場景,分析需求、解決方案實施,綜合技術實戰應用。

大數據開發的學習資料能夠找到很多,千鋒在扣丁學堂上的那套還不錯,自學一段時間看效果如何,然後在決定去不去培訓班學習。


大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。 大數據的4V特點:Volume、Velocity、Variety、Veracity。

最通俗的講就是:現在的市場模式是商場一般是在人居住最多的附近開,這樣大家會集中去一個地方購物消費,類似於淘寶建立了一個商店,大家都集中在一個地方購物。

而大數據是恰恰相反的市場模式,就是你能看得到聽得到聞得到的一切東西。通過互聯網大家之間沒有什麼距離了,剩下的就是靠商家搜集大家平時的搜索關鍵詞,對產品的不滿意,以及想法搜集整理,然後做出產品在滿足市場需求的一個模式,這個包含了市場調研的工作。大大節省開發成本和人們需求的判斷。

以前公司是自己去調研,然後開發產品,再通過銷售中用戶的意見進一步改進

而大數據的來臨,我們可以通過互聯網非常方便的搜集信息,然後進行調研,問答然後做出更加完善的產品,就是產品的更新周期將大大壓縮,凡是一成不變的公司將全部死掉

大數據時代是人人創業的時代,誰發現需求,誰去滿足需求就可以盈利。說到底就是人們的行為習慣而已,商人利用的只是數據中的需求數據部分

所以也算是一個亂世,群雄四起。也是細分化市場的年代。


大數據技術可理解為在巨量的數據中提取到有用的部分加以分析和處理,在某些電商中通過收集用戶瀏覽或購買過的產品,向用戶主動推薦用戶感興趣的產品。

大數據分析有五個方面:
1、可視化分析:可視化分析能夠直觀的呈現大數據特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。

2、數據挖掘演算法:大數據分析的理論核心就是數據挖掘演算法。
3、預測性分析:從大數據中挖掘出特點,通過科學的建立模型,從而預測未來的數據。

4、語義引擎:需要設計到有足夠的人工智慧以足以從數據中主動地提取信息。

5、數據質量和數據管理:能夠保證分析結果的真實性。


大數據,又稱巨量資料,指的是所涉及的數據資料量規模巨大到無法通過人腦甚至主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。

大數據的特點。數據量大、數據種類多、 要求實時性強、數據所蘊藏的價值大。在各行各業均存在大數據,但是眾多的信息和諮詢是紛繁複雜的,我們需要搜索、處理、分析、歸納、總結其深層次的規律。

  大數據的採集。科學技術及互聯網的發展,推動著大數據時代的來臨,各行各業每天都在產生數量巨大的數據碎片,數據計量單位已從從Byte、KB、MB、GB、TB發展到PB、EB、ZB、YB甚至BB、NB、DB來衡量。大數據時代數據的採集也不再是技術問題,只是面對如此眾多的數據,我們怎樣才能找到其內在規律。

大數據的挖掘和處理。大數據必然無法用人腦來推算、估測,或者用單台的計算機進行處理,必須採用分散式計算架構,依託雲計算的分散式處理、分散式資料庫、雲存儲和虛擬化技術,因此,大數據的挖掘和處理必須用到雲技術。

大數據的應用。大數據可應用於各行各業,將人們收集到的龐大數據進行分析整理,實現資訊的有效利用。舉個本專業的例子,比如在奶牛基因層面尋找與產奶量相關的主效基因,我們可以首先對奶牛全基因組進行掃描,儘管我們獲得了所有表型信息和基因信息,但是由於數據量龐大,這就需要採用大數據技術,進行分析比對,挖掘主效基因。例子還有很多。

    大數據的意義和前景。總的來說,大數據是對大量、動態、能持續的數據,通過運用新系統、新工具、新模型的挖掘,從而獲得具有洞察力和新價值的東西。以前,面對龐大的數據,我們可能會一葉障目、可見一斑,因此不能了解到事物的真正本質,從而在科學工作中得到錯誤的推斷,而大數據時代的來臨,一切真相將會展現在我么面前。


big volume, big variety, big velocity!


準確定義還是看維基吧
https://en.m.wikipedia.org/wiki/Big_data


當前的答案基本上都是描述大數據的定義和特性,這樣並不好。懂得人自然懂,不懂的人還是不動懂。
如果想清楚的認識這個問題,我們需要進一步細化問題:「大數據和傳統演算法究竟有什麼區別?」
大家第一反應都是:數據量大呀!
但這是一個誤會,傳統演算法照樣耍數據耍到飛起。例如,可達性判定、最短路演算法、simulation子圖匹配這三個傳統上被認為是還算複雜的演算法,已經能丟到250gb的數據上跑了。而且這根本不是極限,論文三件套---外存演算法、並行化、近似演算法---套上去可以處理的數據規模還可以繼續提升量級呢。可以說但從演算法層面而言,大數據與普通演算法的界限並不清晰。

所以你要真的搞懂這個問題,你就需要從我們計算機科學系出去,跑到隔壁信息管理系裡。那裡的人都是異端,根本不喜歡「計算效率」這個女神,反而神控「準確度」這個蘿莉。當然「準確度」這個詞只是我的粗略概括啦,蘿莉控自然發明了一系列邪教用語,從樸素的「召回率」、龐大的「{{X}}-measure」家族到四五個字母隨機組合出來的各種各樣的指標,無所不有應有盡有。總之吶,這堆蘿莉控中某個資深鬼畜教徒在摸遍了無數蘿莉的頭、**、**後,突然悟出了一個(經驗上的)至理:「口胡!你們這些雜交黨徒果然都是渣啊!御遍蘿莉才是真正的愛!」。所謂雜交黨徒呢,就是呢想通過深加工蘿莉---利用化妝、美容、切片、肢解、雜交、**、**等等手段---來得到真正的至美蘿莉,他們相信,每個蘿莉都持有至美蘿莉的一部分,只要想法分離並湊齊這些部分就好啦!然而該資深鬼畜教徒發現,蘿莉控們眼光太次啦而且還容易內鬥,浪費時間不說還找不到多少完美部件。於是他決定給每個蘿莉都畫個簡裝,嗶一嗶看看嗶的舒不舒服,不舒服就蹬。結果竟然發現,我操這樣效果竟然比之前努力幹活的效果還好?!

喏,事情就是這樣,數量龐大的簡單演算法得到的結果反而比複雜演算法號好。原理並不是很明朗,我個人認為主要有兩點:1.當前的模型與實際貼合的並不緊密,因此複雜演算法仍然會因為模型假設、參數設置等問題偏離目標;2.粗略看來統計量估計值的均值的方差與樣本量成反比,因此其效率對樣本數量的貢獻足以彌補精度(單樣本方差)上的不足,而且簡單的方法更容易進行無偏修正,從而距離目標更近。大數據的「大」也主要體現在這裡,越多數據,越好精度!不妨稱之為「大精度」。需要注意到,複雜演算法的改進不是說改就改的,那需要無數聰明的腦袋變強---也就是變禿---才能辦到,而硬體擴張確是近乎廉價而無界限的。也就是說,只要有錢,保你出新手村就90級!因此雖然理論上還有空白需要填補,但並不妨礙只看實際效果的資本一擁而上,而這才催生了大數據的概念。

當然,雖然所述的事情都是有原型的,但歷史卻未必是以這個脈絡發生的。而且資本與學術的結合自然會極大的推進學科的發展,進而賦予大數據新的意義。這些就不是我這個偶爾串串門的人所能概括的了。
謹希望以此文作為敲門磚,砸上來幾個隔壁的傢伙來扒一扒。如此甚好,阿彌陀佛。


多+亂


首先數據多是一方面,然後來源多是另一方面到處都是信息到處都是數據

數據格式亂是一方面,有用沒用混雜在一起是亂的另外一方面。


在以前的時代,收集大量數據是一件費時費力費財的事情。自從有了互聯網,收集數據的門檻越來越低,很多公司的數據量蹭蹭往上漲,收集數據變成一件很簡單的事情,這些海量的數據中是含有無窮的信息和價值的,但是現在能駕馭這些數據的人很少,公司也很少。所以就有了這個概念,因為它的潛在無窮價值。


大數據是在固定的觀察者的情況下,有幾乎無數的variables。(定義是這個樣子的!!)大數據的應用就是在做預測的時候,可以考慮進各種變數。大數據有很多問題:1、variable太多導致非常複雜,可以用lasso發現最重要的variables。2、數據量太大正常的電腦沒法做,需要用多台電腦。3、是至今無法解決的 multiple treatment簡答說就是控制變數法無效。


推薦閱讀:

為什麼很多公司都開始去oracle而使用mysql?
大數據真的可以預測未來嗎?
張佳瑋說2009年的第一中鋒是姚明是否有失偏頗?
什麼技術可以爬取和分析旅遊網站的信息?(爬蟲,自然語言處理等大數據相關)

TAG:互聯網 | 數據挖掘 | 數據分析 | 大數據 | 大數據分析 |