什麼是大數據技術? 現在發展怎樣?


樓上的回答有點牽強。大數據不是從海量數據里找有用的,你說的那是傳統資料庫。大數據是指研究整個數據的走向和變化,不強調價值,強調趨勢。
樓上的意思是因為數據大了 所以要做一些妥協的事情 而本人理解的大數據是希望數據越大越好 大數據的價值在於大


簡單說,大數據一般指數據多(一般多到人類要很費勁很費勁才能用計算機過一遍),而且常常不僅多,其中還大部分都沒什麼價值……大數據技術就是從這些大部分都沒用的數據里找出有用的東西的技術。

現在發展,呵呵,可能技術層面上談不上有什麼巨大的發展吧,演算法似乎還是那些演算法,只是應用層面上比較熱乎,所以大家經常都願意來談一談。一個詞變熱乎,經常並不是因為技術突破,而是因為觀念突破,是其中蘊含的商業價值受到了產業界廣泛的接受、認可和重視。

大數據面臨的主要問題(和挑戰)是規模大到一定程度之後,「小數據」時可以輕鬆處理的問題常常會一下子變得寸步難行,於是各種工程上的決策往往都必須精打細算。以前「小數據」常常只關心演算法的數量級就行,而大數據開始必須關心演算法的時間常數(因為半年和一年常常有本質區別)、通訊複雜度(因為網路和硬碟經常太慢了)、以及是否能有效並行(因為添加機器數量常常是最容易的事情)。於是凡是常數太大的,通訊複雜度太大的,或者不能有效並行的演算法,想要用在大數據上,常常必須重新設計。


樓主想要了解這個問題,那麼首先設想這樣一個情景,10年前和現在, 當你在思考一個問題,請問你會怎麼辦? 如果在10年前,你會去翻書,會去百般周折問專家,又或者不知所措。但是現在,你只需要通過一個神奇的工具來作為核心達到這個目的---網路和背後的數據。

我所希望傳達的意思,是在我們現在進入了一個時代,這個時代絕對不缺乏技術,不缺乏專家,做技術做專家的人太多的。 網路的產生,讓無數的專業和業餘愛好者在主動的傳播著自己的知識和技術,也同時留下了自身的很多行為信息。 這些信息,零零散散。 如果設想,我們可以把這些信息組合起來,他們不就是 每一種技術,每一個人,每一個事物的DNA和血液嗎,如果掌握了DNA,我們不就能掌握這個人/技術/事物了嗎??? 這個想法放在過去,實際操作中我們是無法實現的,因為信息每天在產生,無法採集,再說我們也沒有那麼多科學家去處理和分析這些數據。 但是,當我們進入了科學發展的第四個領域---資料時代,這個想法依賴科技的進一步變革,將被實現。

什麼是第四個階段? 這裡引用到一個IT精英的話語。 Jim Gray 是一位著名資料庫專家,曾經獲得有電腦界諾貝爾獎之稱的圖靈獎 (Turing Award),他的個人傳記中寫到一句話:『』科學發展已經走過了「實驗、理論、計算」三個階段,而進入了第四個以「資料」為重點的階段,也就是他所稱的第四典範。過去幾十年來是計算科學大行其道的時代,各種重要的資料庫技術和演演算法,都在過去幾十年漸漸成熟;而現在由於全世界物聯化 (instrumented) 以及互連化 (inter-connected) 的關係,讓全世界的資料在任何領域都以非常快的速度在累積,而且累積的速度遠遠超過現在所有企業所能處理的速度。由於資料累積的量和速度都是前所未見,而且其中的確蘊含寶貴的資訊金礦,因此在科學研究或是其他各種領域,大家都轉而以資料分析來為科學研究或是企業組織提供發展方向、尋求突破。『』 資料的全面分析,給我們所想要了解的事物一個全貌的解釋。

當然,『通過數據了解某個 人或者技術或者事物』,這樣的想法還不能驅使 微軟,IBM,高盛等等這樣的全球領銜的以商業至上的企業大肆鼓舞。 他們真正感興趣的,是大數據時代下,依託雲計算的計算機通過解析人/技術/事物的過去和現在的特質,所能實現對未來的「預測功能」: 一家英國倫敦基金公司 Derwent Capital Markets 在去年五月的時候,推出了世界第一支基於 twitter 上公眾情緒來進行投資的對沖基金,並且承諾每年 15 ~ 20% 的高報酬率。相較於最近台灣的投信還在聯合公司派炒股票被抓包,人家顯然進步得多 (無誤)。雖然這一支對沖基金僅僅一個月後就清算不做了,(月報酬率有 1.86%,以對沖基金來說算不錯了),我們在這個特別的基金當中,卻明顯看到了 big data 帶來的威力以及我們對未來的想像。實際上,美國一位教授 Johan Bollen 就因為發現 Twitter 對於股市的預測效用,竟然因此在上個月獲得了一項專利。Twitter 自然也知道自己的平台有這樣的預測和分析作用,所以也推出了 Twindex 這項即時分析政治情勢和總統大選的服務。
(more: Google 趨勢預測奧斯卡,六大獎命中四項)

僅僅擁有單一數據渠道來源(也就是只有本公司的)的facebook,google, 基金公司,twitter公司通過數據已經實現了如此震撼我們的預測,那麼當我們努力實現讓所有類型的數據都整合在一起,交給計算機,他將帶來多大的小宇宙力量! 那麼關於人類,國家資源調配,商業活動趨勢,自然災害預測,所有問題雖然不能在短時間內完全掌握,但是可以確保的是,他一定能----優化現有所有的資源,協助解決一切我們想解決的問題。背後蘊藏的,是無限的可能,不論是政治,文化,還是商業。

這就是為什麼,一呼百應,所有企業都在呼籲的原因。

上面的話可能太繁瑣了,那麼我們簡單化一點來看這個問題, 數據一定是人類最終追求的終點,why?
比如你問我, 知乎這個網站專業么?
1.我說,專業。不管你信不信,反正我信了---- 我這樣回答,估計也說服不了你。
2.我拿出一大報告,指著上面的『數據』說,據我調查,知乎上95%的人都是受過高等教育的學者和專業領域愛好者。 所以, 他專業。-----------這樣的回答,你會相信知乎專業了么?

數據,代表了信心,給了我們想要理解但不了解事物的信心。


大數據這幾年是一個很火的話題,但其實自從有了計算機技術,有了互聯網革命,大數據就已經開始了,每一個電腦終端的輸入,每一天全球各種計算的信息,都可以歸納到大數據的範疇。

關於什麼是大數據技術,有一個帖子寫的很詳細了,可以參考一下:如何準確又通俗易懂地解釋大數據及其應用價值?

關於大數據的發展,德勤中國科技、傳媒及電信行業主管合伙人周錦昌的一篇文章『
限制大數據 | @二十一世紀商業評論 』寫的很詳盡,裡面提到的主要內容是:

真正制約大數據發展和應用有三大環節:

第一個制約是數據收集的合法性,導致能夠用於商業應用、服務於人們的數據要遠遠小於理論上大數據能夠採集和處理的數據。

第二個制約是用戶數據隱私保護與數據商業應用間的權衡,因為單個企業僅僅基於自己掌握的獨立數據是無法了解產業鏈各個環節數據之間的關係,因此對消費者做出的判斷和影響十分有限。

最後一個制約是大數據人才的稀缺。由於大數據的執行與管理均需要相應的執行人,因此人才的因素亦成為制約的關鍵。

由此可見,大數據的未來,前途是光明的,但道路也是曲折的,對於單個公司或者個體來說,大數據的應用將是細水長流逐步深化的過程。這方面的人才也是急缺,如果有此興趣,到頂尖的企業做BI或許是一個好的職業選擇。


這是長睦數學院的博客上的一篇文章——長睦觀點:大數據行業趨勢。全文還囊括解釋圖片以及視頻(http://weibo.com/p/2304181658ddeca0102x1jp),希望能對你有所幫助。

以史為鑒,可以知興替,所以要想深入探索大數據行業趨勢,縱觀大數據的發展歷程是有必要的。

以下為大數據行業發展履歷:

1,在2003-2008年hadoop誕生的頭幾年,沒有人知道他是什麼,更加沒有人知道怎麼去使用它。


2,2008年第一家基於hadoop技術的商業化公司Cloudera誕生了,其主要是為一些小眾高端數據市場提供解決方案。在2009年3月它發布了第一個hadoop分散式的產品,大家可以看到圖二的「大數據」趨勢也正好是在2009年開始興起。


3,2009-2011年,Cloudera 試圖炒熱hadoop數據市場,作為第一個嘗鮮者,它向大家證實了hadoop的價值,緊接著MapR 和 Hortonworks 也加入到團戰中。


4,2012-2014年,「大數據」已經成為了人人皆知的辭彙,同時也成為了企業的必備品。當然,其中很大一部分歸功於各大科技公司的大規模宣傳。光是在2012年,主流的科技公司在數據處理和分析行業的併購案就達到了150億美金。

5,2014-2015年,這兩年「大數據」已經到達了技術成熟度曲線的巔峰。光是Intel 對Cloudera 的投資就達到了7.6億美金,並且估值達到了40億美金。Hortonworks上市後其估值也達到了10億美金。與此同時,Spark, Flink, Kafka 等等新興科技也異軍突起。IBM對Spark也注資3億美金。自此數據行業到達了巔峰。


6. 2016年,這是個很有意思的時間點,在今年4月Cloudera』的估值下跌了38%,Hortonworks也下跌了將近40%。同時Pivotal也棄用了hadoop分布系統。

這到底是為什麼呢?

根據我們團隊使用這些技術的經驗,hadoop,spark,這些工具其實只能適用於
某些場景,很多時候我們的數據量還沒有到達大的一個級別。在我們做過許多
的數據採集項目中,大部分的只是在幾百兆到幾十個GB內的級別,僅僅有幾個語
義分析的項目達到了TB級別的,需要用到分散式的系統和處理方式。對於幾百或
者是幾十個GB的我們其實也只需要使用好一點的單機,用Pyhton的豐富的機器學
習包就能圓滿的完成任務,沒有必要去使用spark MLlib.

所以我想,隨著大公司對這些技術的深度磨合,對於hadoop的某些局限性也有著更
深刻的理解,而且大部分企業內部的數據也沒到TB級別,也沒有真正的所謂的「大
數據」的困擾。所以這一波大數據熱,正在被所有的人重新評估。 所以,「大數據」
市場在今年開始冷卻。

未來是什麼樣子

我並不是說大數據沒有了前途,我只是覺得數據的雲端化,數據產品的開放化,還有人工智慧是未來很重要的幾個趨勢。

什麼是數據的雲端化?

這點我們感覺非常的深刻,以前我們需要自己在Aliyun,亞馬遜,搭建伺服器集群,然而現在Ali,亞馬遜,微軟都紛紛推出自己的集群資料庫產品,即插即用,方便擴容,減少運維,這些都是雲端資料庫的優勢。

最後,我們覺得人工智慧會成為第二波數據行業的高潮,因為我上面也提到過像開源社區的數據產品也已經非常成熟了。很多的初創公司,或者是有數理統計背景的團隊,都能夠通過第一波已經成熟的基礎架構和數據產品,在更少的投入下,快速進行產品開發。所以真正的智能時代將要到來!

此回復摘自長睦數學院——長睦觀點:大數據行業趨勢。全文還囊括解釋圖片以及視頻,


這是一個基本問題,同時也包含著對當下數據現實的基本認識。一個不可否認的事實是,隨著網路和信息技術的不斷普及,我們產生的數據量正在呈指數級增長。大約每兩年翻一番,這意味著人類在最近兩年產生的數據量相當於之前產生的全部數據之和。

對於如此巨量數據(而且單純的增量數據都是一個巨量),與之相關的存儲、分析、流轉、使用到交易等等環節產生了一系列關聯的問題,而在當下的時間節點,我們不得不明確面對,而不僅僅是先找個地方把數據存起來。

大數據是指無法在一定時間內使用傳統資料庫軟體工具對其內容進行抓取、管理和處理的數據集。大數據不僅僅是大,還有它的複雜性和沙裡淘金的重要性,傳統軟體處理的數量主要是結構化數據,而且數量上相對小。當規模大到需要新的技術方案的時候,那正是我們重新認識它的時候。

大數據有兩大特點,一是數據來源多,包括各種結構化數據和非結構化數據,如網路日誌、視頻、圖片、地理位置信息等等,同時數量相對巨大,大數據中的『大』本身就是一個相對的概念;二是數據處於「on line」即在線的狀態,能夠隨時被吸取和關聯,並進行分析。

一般來講,更多智能硬體和這能設備的加入,更多數據實時產生,於是就需要大數據技術來實現對數據信息的價值挖掘。大數據技術包括了數據採集,數據存取,基礎架構,數據處理,統計分析,數據挖掘,模型預測,結果呈現等八個方面。

大數據現在發展,可以看下相關的智能科普平台,比如,多智時代:http://duozhishidai.com,引領智能變革,雷峰網——讀懂智能未來等等,讓我們一起迎接人工智慧時代的社會、經濟與文化變革,擁抱智能,暢享未來!


大數據技術可以理解為在巨量的數據中提取到有用的數據加以分析和處理,其主要特點有:

1、數據體量巨大(Volume);
2、數據種類繁多(Variety);
3、價值密度低(Value);
4、處理速度快(Velocity);

大數據技術的就業方向:大數據系統研發類人才、大數據應用開發類人才和大數據分析類人才。


個人理解,簡而言之。
把現象背後的數據收集、整合、統計,然後通過結論,反饋到這些現象上。
需要注意的是:
1 現象要足夠多,數據容量要足夠大,否則數據的代表性不夠準確。
2 數據的結論反饋到現象,並不是要透過現象看本質,其作用在反饋的過程中已經實現了。

例子不勝枚舉。
1 淘寶網會根據你對商品的搜索偏好記錄相關數據,隨後在大大資料庫內找到符合你的偏好的產品,發推廣給你,主動營銷。這是大數據反饋到個體的應用。
2 大型超市的貨架擺放規則,也是對消費者消費行為(特別是消費選擇行為)產生的數據匯總分析後的再應用。

有空再補充


我感覺大數據只是一個概念吧,很多技術之前都有了吧。

海量數據的處理,並行計算,數據挖掘,機器學習。。。


大數據簡而言之,就是將「蝴蝶效益」從理論化變成顯性化、可視化、具象化(例如原來人們推測亞洲蝴蝶的翅膀揮動產生的氣流可能與北美洲的颶風形成有關係,現在人們通過大數據知道了亞馬遜森林的大面積砍伐造成了廣州地區近期連日的暴雨,只是舉個例子,不一定實際如此);


推薦閱讀:

如何看待Oracle DBA在雲計算時代的職業危機?
1000M乙太網卡和交換機的吞吐量?
阿里雲強制換IP算不算違法,我們站長如何維權?
人工智慧可以為我們做些什麼?
雲計算在中國的市場格局是怎樣的?

TAG:雲計算 | 互聯網 | 科技 | 大數據 |