大數據是什麼意思?

什麼是大數據?


大數據的概念可能不同的人會有不同的理解,我自己從08年開始從事大數據相關的工作,那個時候我們是覺得自己搞的是雲計算和數據倉庫,而到了2011、2012年的時候,國內大數據的概念才興起來,之後就是炒了三年的概念。

因為從事這一方向,這幾年不斷會有人問我什麼是大數據?我一直都回答不好。在最近的幾個月,我對這一概念思考的更多一些,結合看過的一些資料(如《大數據時代》、《數學之美》第二版、《矽谷之謎》、吳軍的演講材料等)和實際的經歷,算是有了一些認識。與其說認識,還不如說是總結,換個角度看待這個問題,分為大數據概念和大數據思維。

我把大數據的概念總結為四個字:大、全、細、時。

大數據之大

我們先來看一組數據:

  • 百度每天採集的用戶行為數據有1.5PB以上
  • 全國各地級市今天的蘋果價格數據有2MB
  • 1998年Google抓取的互聯網頁面共有47GB(壓縮後)
  • 一颱風力發電機每天產生的振動數據有50GB

百度每天的行為數據1.5個PB夠大吧?我們毫無懷疑這是大數據。但全國各個地級市今天的蘋果價格只有2MB大小,是典型的小數據吧?但如果我們基於這個數據,做一個蘋果分銷的智能調度系統,這就是個牛逼的大數據應用了。Google在剛成立的時候,佩奇和布林下載了整個互聯網的頁面,在壓縮後也就47GB大小,現在一個U盤都能裝的下,但Google搜索顯然是個大數據的應用。如果再來看一颱風機每天的振動數據可能都有50GB,但這個數據只是針對這一颱風機的,並不能從覆蓋面上,起到多大的作用,這我認為不能叫大數據。

這裡就是在強調大,是Big不是Large,我們強調的是抽象意義的大。

大數據之全

我們再來看關於美國大選的三次事件:

  • 1936年《文學文摘》收集了240萬份調查問卷,預測錯誤
  • 新聞學教授蓋洛普只收集了5萬人的意見,預測羅斯福連任正確
  • 2012年Nate Silver通過互聯網採集社交、新聞數據,預測大選結果

《文學文摘》所收集的問卷有240萬,絕對是夠大的,但為什麼預測錯誤了呢?當時《文學文摘》是通過電話調查的,能夠裝電話的就是一類富人,這類人本身就有不同的政治傾向,調查的結果本身就是偏的。而蓋洛普只收集了5萬人的意見,但是他採用按照社會人群按照比例抽樣,然後彙集總體結果,反而預測正確了。因為這次預測,蓋洛普一炮而紅,現在成了一個著名的調研公司。當然,後來蓋洛普也有預測失敗的時候。到了2012年,一個名不見經傳的人物Nate Silver通過採集網上的社交、新聞數據,這是他預測的情況和真實的情況:

(圖1 Nate Silver做的競選預測)

兩者是驚人的接近的。

從這點我是想強調要全量而不是抽樣,大數據時代有了更好的數據採集手段,讓獲取全量數據成為可能。

大數據之細

在2013年9月,百度知道發布了一份《中國十大吃貨省市排行榜》,在關於「××能吃嗎?」的問題中,寧夏網友最關心「螃蟹能吃嗎?」內蒙古、新疆和西藏的人最關心「蘑菇能吃嗎?」浙江、廣東、福建、四川等地網友問得最多的是「××蟲能吃嗎?」而江蘇以及上海、北京等地則最愛問「××的皮能不能吃?」。下圖是全國各地關心的食物:

(圖2 各省市最喜歡吃的東西)

用戶在問什麼能吃嗎的時候,並不會說「我來自寧夏,我想知道螃蟹能吃嗎」,而是會問「螃蟹能吃嗎」,但是伺服器採集到了用戶的IP地址,而通過IP地址就能知道他所在的省份。這就是數據多維度的威力,如果沒有IP這個維度,這個分析就不好辦了。而現有的採集手段,能夠讓我們從多個維度獲取數據,再進行後續分析的時候,就能對這些維度加以利用,就是「細」。

大數據之時

我們現在對CPI已經不再陌生,是居民消費價格指數(consumer price index)的簡稱。我們努力工作,起碼要跑過CPI。

(圖3 CPI)

那你有了解過CPI是怎麼統計的嗎?這裡包括兩個階段,一個是收集商品價格數據,一個是分析並發布數據。我從百度百科上了解到,中國CPI採樣500多個市縣,采價調查點6.3萬個,近4000名采價員,次月中旬發布報告。我還曾找國家統計局的朋友確認了這個事情。

而在美國有一家創業公司叫Premise Data。它通過眾包方式,25000個采價員(學生、收銀員、司機等),使用手機APP採集數據,每條6~40美分,比美國政府數據提前4~6周發布。

這就是「時」,強調實時收集數據和實時分析數據。當然,在CPI的例子中,我們可以讓價格上報更智能一些,不需要人工的方式。

從上面的大、全、細、時四個字,我們就可以對大數據的概念有個較為清晰的認識。這四點主要強調的數據的獲取和規模上,和以往傳統數據時代的差異。有了這個基礎,我們還要看怎麼對大數據加以利用。這裡就要看看大數據思維。我們也來看兩個例子。

大數據思維

(圖4 輸入法)

85前應該都用過智能ABC,一種古老的輸入法,打起來特別慢。到了2002年左右,出了一個叫紫光的輸入法,當時我就震驚了。真的輸入很快,彷彿你的按鍵還沒按下去,字就已經跳出來了。但漸漸的發現紫光拼音有個問題是許多新的辭彙它沒有。後來有了搜狗輸入法,直接基於搜索的用戶搜索記錄,去抽取新的詞庫,准實時的更新用戶本地的詞庫數據,因為有了大量的輸入數據,就能直接識別出最可能的組合。

(圖5 地圖)

我們以前都用紙質的地圖,每年還要買新的,舊的地址可能會過時,看著地圖你絕對不知道哪裡堵車。但有了百度地圖就不一樣了,我們上面搜索的地址都是及時更新的,雖然偶爾也會有被帶到溝里的情況,但畢竟是少數。可以實時的看到路面堵車情況,並且可以規劃防擁堵路線。

我們想想這種做事方式和以前有何不同?

我們發現不是在拍腦袋做決定了,不是通過因果關係或者規則來決定該怎麼辦了,而是直接通過數據要答案。我們獲取的數據越全面,越能消除更多的不確定性。也就是用數據說話,數據驅動。

謝謝


請參考

http://www.zhihu.com/question/46145099/answer/100909154


謝謝邀請。

PS:有點搞不懂,為什麼知乎一下來這麼多邀請。

我剛回答了一個大數據問題,我就複製粘貼下:

對於我這個做技術的而言:

  • 所謂大數據無非就是存到 sql、文件的一堆字元串

只不過,這個數據有點大:

  • 小的 1、2 G,多的上千、上萬 G

然後企業利用這些數據 + 程序 code,分析出自己想要的東西:

  • 用戶行為
  • 用戶習慣
  • 怎麼才能從用戶身上賺到錢

最後一點很重要,是目前大數據公司最想做的事情 :)

作者:Tinker

鏈接:什麼是大數據,什麼是大數據概念? - Tinker 的回答

來源:知乎

著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。


大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。(在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指

不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有數據的方法[2])大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。

說起大數據,就要說到商業智能:

商業智能(Business Intelligence,簡稱:BI),又稱商業智慧或商務智能,指用現代數據倉庫技術、線上分析處理技術、數據挖掘和數據展現技術進行數據分析以實現商業價值。

  商業智能作為一個工具,是用來處理企業中現有數據,並將其轉換成知識、分析和結論,輔助業務或者決策者做出正確且明智的決定。是幫助企業更好地利用數據提高決策質量的技術,包含了從數據倉庫到分析型系統等。

商務智能的產生髮展

  商業智能的概念經由Howard Dresner(1989年)的通俗化而被人們廣泛了解。當時將商業智能定義為一類由數據倉庫(或數據集市)、查詢報表、數據分析、數據挖掘、數據備份和恢復等部分組成的、以幫助企業決策為目的技術及其應用。

  商務智能是20世紀90年代末首先在國外企業界出現的一個術語,其代表為提高企業運營性能而採用的一系列方法、技術和軟體。它把先進的信息技術應用到整個企業,不僅為企業提供信息獲取能力,而且通過對信息的開發,將其轉變為企業的競爭優勢,也有人稱之

為混沌世界中的智能。因此,越來越多的企業提出他們對BI的需求,把BI作為一種幫助企業達到經營目標的一種有效手段。

  目前,商業智能通常被理解為將企業中現有的數據轉化為知識,幫助企業做出明智的業務經營決策的工具。這裡所談的數據包括來自企業業務系統的訂單、庫存、交易賬目、客戶和供應商資料及來自企業所處行業和競爭對手的數據,以及來自企業所處的其他外部環

境中的各種數據。而商業智能能夠輔助的業務經營決策既可以是作業層的,也可以是管理層和策略層的決策。

  為了將數據轉化為知識,需要利用數據倉庫、線上分析處理(OLAP)工具和數據挖掘等技術。因此,從技術層面上講,商業智能不是什麼新技術,它只是ETL、數據倉庫、OLAP、數據挖掘、數據展現等技術的綜合運用。

互聯網是個神奇的大網,大數據開發也是一種模式,你如果真想了解大數據,可以來這裡,這個手機的開始數字是一八七中間的是三兒零最後的是一四二五零,按照順序組合起來就可以找到,我想說的是,除非你想做或者了解這方面的內容,如果只是湊熱鬧的話,就不要來了。

  把商業智能看成是一種解決方案應該比較恰當。商業智能的關鍵是從許多來自不同的企業運作系統的數據中提取出有用的數據並進行清理,以保證數據的正確性,然後經過抽取(Extraction)、轉換(Transformation)和裝載(Load),即ETL過程,合併到一個企業

級的數據倉庫里,從而得到企業數據的一個全局視圖,在此基礎上利用合適的查詢和分析工具、數據挖掘工具、OLAP工具等對其進行分析和處理(這時信息變為輔助決策的知識),最後將知識呈現給管理者,為管理者的決策過程提供支持。

企業導入BI的優點

1.隨機查詢動態報表

2.掌握指標管理

3.隨時線上分析處理

4.視覺化之企業儀錶版

5.協助預測規劃

導入BI的目的

1.促進企業決策流程(Facilitate the Business Decision-Making Process):BIS增進企業的資訊整合與資訊分析的能力,匯總公司內、外部的資料,整合成有效的決策資訊,讓企業經理人大幅增進決策效率與改善決策品質。

2.降低整體營運成本(Power the Bottom Line):BIS改善企業的資訊取得能力,大幅降低IT人員撰寫程式、Poweruser製作報表的時間與人力成本,而彈性的模組設計介面,完全不需撰寫程式的特色也讓日後的維護成本大幅降低。

3.協同組織目標與行動(Achieve a Fully Coordinated Organization):BIS加強企業的資訊傳播能力,消除資訊需求者與IT人員之間的認知差距,並可讓更多人獲得更有意義的資訊。全面改善企業之體質,使組織內的每個人目標一致、齊心協力。

商業智能領域的技術應用

  商業智能的技術體系主要有數據倉庫(Data Warehouse,DW)、聯機分析處理(OLAP)以及數據挖掘(Data Mining,DM)三部分組成。

  數據倉庫是商業智能的基礎,許多基本報表可以由此生成,但它更大的用處是作為進一步分析的數據源。所謂數據倉庫(DW)就是面向主題的、集成的、穩定的、不同時間的數據集合,用以支持經營管理中的決策制定過程。多維分析和數據挖掘是最常聽到的例子,數據

倉庫能供給它們所需要的、整齊一致的數據。

  在線分析處理(OLAP)技術則幫助分析人員、管理人員從多種角度把從原始數據中轉化出來、能夠真正為用戶所理解的、並真實反映數據維特性的信息,進行快速、一致、交互地訪問,從而獲得對數據的更深入了解的一類軟體技術。

  數據挖掘(DM)是一種決策支持過程,它主要基於AI、機器學習、統計學等技術,高度自動化地分析企業原有的數據,做出歸納性的推理,從中挖掘出潛在的模式,預測客戶的行為,幫助企業的決策者調整市場策略,減少風險,做出正確的決策。

商業智能的應用範圍

  1.採購管理

  2.財務管理

  3.人力資源管理

  4.客戶服務

  5.配銷管理

  6.生產管理

  7.銷售管理

  8.行銷管理

商業智能實施步驟

商業智能系統處理流程[1]

  商業智能(BI)作為一個概念,描述與業務緊密結合,並且根據需要進行相關特性展示和數據處理的過程。

  為了讓數據「活」起來,往往需要利用數據倉庫、數據挖掘、報表設計與展示、聯機在線分析(OLAP)等技術。數據或者數據源包含的種類繁多,例如存儲在關係型資料庫中的,在外圍數據文件中的,在業務流中實時產生存儲在內存中的等等。而商業智能最終能夠

輔助的業務經營決策,既可以是操作層的,也可以是戰術層和戰略層的決策。

  這些分析有財務管理、點擊流分析(Clickstream)、供應鏈管理、關鍵績效指標(Key Performance Indicators, KPI)、客戶分析等。商業智能關注的是,從各種渠道(軟體,系統,人,等等)發掘可執行的戰略信息。商業智能用的工具有抽取(Extraction)、

轉換(Transformation)和載入(Load)軟體(搜集數據,建立標準的數據結構,然後把這些數據存在另外的資料庫中)、數據挖掘和在線分析(Online Analytical Processing,允許用戶容易地從多個角度選取和察看數據)等 。

   商業智能系統的功能

  商業智能系統應具有的主要功能:

  數據倉庫:高效的數據存儲和訪問方式。提供結構化和非結構化的數據存儲,容量大,運行穩定,維護成本低,支持元數據管理,支持多種結構,例如中心式數據倉庫,分散式數據倉庫等。存儲介質能夠支持近線式和二級存儲器。能夠很好的支持現階段容災和備份方案。

  數據ETL:數據ETL支持多平台、多數據存儲格式(多數據源,多格式數據文件,多維資料庫等)的數據組織,要求能自動化根據描述或者規則進行數據查找和理解。減少海量、複雜數據與全局決策數據之間的差距。幫助形成支撐決策要求的參考內容。

  數據統計輸出(報表):報表能快速的完成數據統計的設計和展示,其中包括了統計數據表樣式和統計圖展示,可以很好的輸出給其他應用程序或者Html形式表現和保存。對於自定義設計部分要提供簡單易用的設計方案,支持靈活的數據填報和針對非技術人員設計的解決方案。能自動化完成輸出內容的發布。

  分析功能:可以通過業務規則形成分析內容,並且展示樣式豐富,具有一定的交互要求,例如預警或者趨勢分析等。要支持多維度的聯機在線分析(OLAP分析),實現維度變化、旋轉、數據切片和數據鑽取等。幫助決策做出正確的判斷。 典型的商業智能系統

 典型的商業智能系統有:

  客戶分析系統、菜籃分析系統、反洗錢系統、反詐騙系統、客戶聯絡分析系統、市場細分系統、信用計分系統、產品收益系統、庫存運作系統以及與商業風險相關的應用系統等。

[編輯]商業智能解決方案廠商

  提供商業智能解決方案的著名IT廠商包括微軟、IBM、Oracle、Microstrategy、Business Objects、Cognos、SAS等

北京開運聯合為你解答,希望對你有幫助!!!

希望對你有幫助!


通俗點,包含著一些不那麼明顯信息的垃圾。


對大數據和人工智慧有興趣的童鞋們可以關注公眾號ETHINK數據智能分析平台


拿到原始數據(raw data)

- 數據處理(data processing),此步驟包括 數據清潔 (data cleaning),數據篩選(data filtering),樣本重採樣(resampling),數據標準化(normalized)等。 數據處理一般情況下都要結合 統計學 和 相關領域知識(domain knowledge)的分析

- 數據整合(data integeration),整合處理完的數據,並輸入資料庫,成為一個可查詢的數據集

- 數據格式的選擇。考慮到不同平台和應用程序,應將數據轉化成可兼容的格式。

考慮到我做的是數據可視化,我還需

- 可視化分析(visual analytics),此步驟包括 數據處理與資料庫建立,假設代(hypotheses generation) 的建立,可視化,利用用戶的洞察力(insight)反饋信息挖掘成果。

- 可視化驗證(visual evaluation),建立可視化衡量對象與衡量標準,評測 用戶交互能力 與 信息挖掘程度 等。

目前這些就是與我相關,我所知的大數據,或者說 數據科學。;)


「大數據」是近年來IT行業的熱詞,大數據在各個行業的應用逐漸變得廣泛起來,如2014年的兩會,我們聽得最多的也是大數據分析,那麼,什麼是大數據呢,大數據時代怎麼理解呢,一起來看看吧。

大數據的定義。大數據,又稱巨量資料,指的是所涉及的數據資料量規模巨大到無法通過人腦甚至主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。

互聯網是個神奇的大網,大數據開發也是一種模式,你如果真想了解大數據,可以來這裡,這個手機的開始數字是一八七中間的是三兒零最後的是一四二五零,按照順序組合起來就可以找到,我想說的是,除非你想做或者了解這方面的內容,如果只是湊熱鬧的話,就不要來了。

大數據的特點。數據量大、數據種類多、 要求實時性強、數據所蘊藏的價值大。在各行各業均存在大數據,但是眾多的信息和諮詢是紛繁複雜的,我們需要搜索、處理、分析、歸納、總結其深層次的規律。

大數據的採集。科學技術及互聯網的發展,推動著大數據時代的來臨,各行各業每天都在產生數量巨大的數據碎片,數據計量單位已從從Byte、KB、MB、GB、TB發展到PB、EB、ZB、YB甚至BB、NB、DB來衡量。大數據時代數據的採集也不再是技術問題,只是面對如此眾多的數據,我們怎樣才能找到其內在規律。

大數據的挖掘和處理。大數據必然無法用人腦來推算、估測,或者用單台的計算機進行處理,必須採用分散式計算架構,依託雲計算的分散式處理、分散式資料庫、雲存儲和虛擬化技術,因此,大數據的挖掘和處理必須用到雲技術。

大數據的應用。大數據可應用於各行各業,將人們收集到的龐大數據進行分析整理,實現資訊的有效利用。舉個本專業的例子,比如在奶牛基因層面尋找與產奶量相關的主效基因,我們可以首先對奶牛全基因組進行掃描,儘管我們獲得了所有表型信息和基因信息,但是由於數據量龐大,這就需要採用大數據技術,進行分析比對,挖掘主效基因。例子還有很多。

大數據的意義和前景。總的來說,大數據是對大量、動態、能持續的數據,通過運用新系統、新工具、新模型的挖掘,從而獲得具有洞察力和新價值的東西。以前,面對龐大的數據,我們可能會一葉障目、可見一斑,因此不能了解到事物的真正本質,從而在科學工作中得到錯誤的推斷,而大數據時代的來臨,一切真相將會展現在我么面前。


推薦閱讀:

做網上校園零食店,如何能夠儘快的搶佔市場?
在潮汕(潮州/汕頭/揭陽)IT/互聯網/軟體公司工作是一種什麼樣的體驗?
怎樣從零開始成為優秀的程序員?
2014 年有哪些值得推薦的年度 Android 遊戲?
受互聯網影響,傳統服裝批發市場會不會消失?

TAG:互聯網 | 大數據 | 大數據運維 |