大數據究竟是什麼?一篇文章讓你認識並讀懂大數據
在寫這篇文章之前,我發現身邊很多IT人對於這些熱門的新技術、新趨勢往往趨之若鶩卻又很難說的透徹,如果你問他大數據和你有什麼關係?
估計很少能說出一二三來。究其原因,一是因為大家對新技術有著相同的原始渴求,至少知其然在聊天時不會顯得很「土鱉」;二是在工作和生活環境中真正能參與實踐大數據的案例實在太少了,所以大家沒有必要花時間去知其所以然。
我希望有些不一樣,所以對該如何去認識大數據進行了一番思索,包括查閱了資料,翻閱了最新的專業書籍,但我並不想把那些零散的資料碎片或不同理解論述簡單規整並堆積起來形成毫無價值的轉述或評論,我很真誠的希望進入事物探尋本質。
如果你說大數據就是數據大,或者侃侃而談4個V,也許很有深度的談到BI或預測的價值,又或者拿Google和Amazon舉例,技術流可能會聊起Hadoop和Cloud Computing,不管對錯,只是無法勾勒對大數據的整體認識,不說是片面,但至少有些管窺蠡測、隔衣瘙癢了。……也許,「解構」是最好的方法。
怎樣結構大數據?
首先,我認為大數據就是互聯網發展到現今階段的一種表象或特徵而已,沒有必要神話它或對它保持敬畏之心,在以雲計算為代表的技術創新大幕的襯托下,這些原本很難收集和使用的數據開始容易被利用起來了,通過各行各業的不斷創新,大數據會逐步為人類創造更多的價值。
其次,想要系統的認知大數據,必須要全面而細緻的分解它,我著手從三個層面來展開:
第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。我會從大數據的特徵定義理解行業對大數據的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;從對大數據的現在和未來去洞悉大數據的發展趨勢;從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。
第二層面是技術,技術是大數據價值體現的手段和前進的基石。我將分別從雲計算、分散式處理技術、存儲技術和感知技術的發展來說明大數據從採集、處理、存儲到形成結果的整個過程。
第三層面是實踐,實踐是大數據的最終價值體現。我將分別從互聯網的大數據,政府的大數據,企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。
和大數據相關的理論
特徵定義
最早提出大數據時代到來的是麥肯錫:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」
業界(IBM 最早定義)將大數據的特徵歸納為4個「V」(量Volume,多樣Variety,價值Value,速Velocity),或者說特點有四個層面:第一,數據體量巨大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);第二,數據類型繁多。比如,網路日誌、視頻、圖片、地理位置信息等等。第三,價值密度低,商業價值高。第四,處理速度快。最後這一點也是和傳統的數據挖掘技術有著本質的不同。
其實這些V並不能真正說清楚大數據的所有特徵,下面這張圖對大數據的一些相關特性做出了有效的說明。
古語云:三分技術,七分數據,得數據者得天下。先不論誰說的,但是這句話的正確性已經不用去論證了。維克托·邁爾-舍恩伯格在《大數據時代》一書中舉了百般例證,都是為了說明一個道理:在大數據時代已經到來的時候要用大數據思維去發掘大數據的潛在價值。書中,作者提及最多的是Google如何利用人們的搜索記錄挖掘數據二次利用價值,比如預測某地流感爆發的趨勢;Amazon如何利用用戶的購買和瀏覽歷史數據進行有針對性的書籍購買推薦,以此有效提升銷售量;Farecast如何利用過去十年所有的航線機票價格打折數據,來預測用戶購買機票的時機是否合適。
那麼,什麼是大數據思維?維克托·邁爾-舍恩伯格認為,1-需要全部數據樣本而不是抽樣;2-關注效率而不是精確度;3-關注相關性而不是因果關係。
阿里巴巴的王堅對於大數據也有一些獨特的見解,比如,
「今天的數據不是大,真正有意思的是數據變得在線了,這個恰恰是互聯網的特點。」
「非互聯網時期的產品,功能一定是它的價值,今天互聯網的產品,數據一定是它的價值。」
「你千萬不要想著拿數據去改進一個業務,這不是大數據。你一定是去做了一件以前做不了的事情。」
特別是最後一點,我是非常認同的,大數據的真正價值在於創造,在於填補無數個還未實現過的空白。
有人把數據比喻為蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據並不在「大」,而在於「有用」。價值含量、挖掘成本比數量更為重要。
價值探討
大數據是什麼?投資者眼裡是金光閃閃的兩個字:資產。比如,Facebook上市時,評估機構評定的有效資產中大部分都是其社交網站上的數據。
如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。
Target 超市以20多種懷孕期間孕婦可能會購買的商品為基礎,將所有用戶的購買記錄作為數據來源,通過構建模型分析購買者的行為相關性,能準確的推斷出孕婦的具體臨盆時間,這樣Target的銷售部門就可以有針對的在每個懷孕顧客的不同階段寄送相應的產品優惠卷。
Target的例子是一個很典型的案例,這樣印證了維克托·邁爾-舍恩伯格提過的一個很有指導意義的觀點:通過找出一個關聯物並監控它,就可以預測未來。Target通過監測購買者購買商品的時間和品種來準確預測顧客的孕期,這就是對數據的二次利用的典型案例。如果,我們通過採集駕駛員手機的GPS數據,就可以分析出當前哪些道路正在堵車,並可以及時發佈道路交通提醒;通過採集汽車的GPS位置數據,就可以分析城市的哪些區域停車較多,這也代表該區域有著較為活躍的人群,這些分析數據適合賣給廣告投放商。
不管大數據的核心價值是不是預測,但是基於大數據形成決策的模式已經為不少的企業帶來了盈利和聲譽。
從大數據的價值鏈條來分析,存在三種模式:
1- 手握大數據,但是沒有利用好;比較典型的是金融機構,電信行業,政府機構等。
2- 沒有數據,但是知道如何幫助有數據的人利用它;比較典型的是IT諮詢和服務企業,比如,埃森哲,IBM,Oracle等。
3- 既有數據,又有大數據思維;比較典型的是Google,Amazon,Mastercard等。
未來在大數據領域最具有價值的是兩種事物:1-擁有大數據思維的人,這種人可以將大數據的潛在價值轉化為實際利益;2-還未有被大數據觸及過的業務領域。這些是還未被挖掘的油井,金礦,是所謂的藍海。
Wal-Mart作為零售行業的巨頭,他們的分析人員會對每個階段的銷售記錄進行了全面的分析,有一次他們無意中發現雖不相關但很有價值的數據,在美國的颶風來臨季節,超市的蛋撻和抵禦颶風物品竟然銷量都有大幅增加,於是他們做了一個明智決策,就是將蛋撻的銷售位置移到了颶風物品銷售區域旁邊,看起來是為了方便用戶挑選,但是沒有想到蛋撻的銷量因此又提高了很多。
還有一個有趣的例子,1948年遼瀋戰役期間,司令員林彪要求每天要進行例常的「每日軍情彙報」,由值班參謀讀出下屬各個縱隊、師、團用電台報告的當日戰況和繳獲情況。那幾乎是重複著千篇一律枯燥無味的數據:每支部隊殲敵多少、俘虜多少;繳獲的火炮、車輛多少,槍支、物資多少……有一天,參謀照例彙報當日的戰況,林彪突然打斷他:「剛才念的在胡家窩棚那個戰鬥的繳獲,你們聽到了嗎?」大家都很茫然,因為如此戰鬥每天都有幾十起,不都是差不多一模一樣的枯燥數字嗎?林彪掃視一周,見無人回答,便接連問了三句:「為什麼那裡繳獲的短槍與長槍的比例比其它戰鬥略高?」「為什麼那裡繳獲和擊毀的小車與大車的比例比其它戰鬥略高?」「為什麼在那裡俘虜和擊斃的軍官與士兵的比例比其它戰鬥略高?」林彪司令員大步走向掛滿軍用地圖的牆壁,指著地圖上的那個點說:「我猜想,不,我斷定!敵人的指揮所就在這裡!」果然,部隊很快就抓住了敵方的指揮官廖耀湘,並取得這場重要戰役的勝利。
這些例子真實的反映在各行各業,探求數據價值取決於把握數據的人,關鍵是人的數據思維;與其說是大數據創造了價值,不如說是大數據思維觸發了新的價值增長。
現在和未來
我們先看看大數據在當下有怎樣的傑出表現:
大數據幫助政府實現市場經濟調控、公共衛生安全防範、災難預警、社會輿論監督;
大數據幫助城市預防犯罪,實現智慧交通,提升緊急應急能力;
大數據幫助醫療機構建立患者的疾病風險跟蹤機制,幫助醫藥企業提升藥品的臨床使用效果,幫助艾滋病研究機構為患者提供定製的藥物;
大數據幫助航空公司節省運營成本,幫助電信企業實現售後服務質量提升,幫助保險企業識別欺詐騙保行為,幫助快遞公司監測分析運輸車輛的故障險情以提前預警維修,幫助電力公司有效識別預警即將發生故障的設備;
大數據幫助電商公司向用戶推薦商品和服務,幫助旅遊網站為旅遊者提供心儀的旅遊路線,幫助二手市場的買賣雙方找到最合適的交易目標,幫助用戶找到最合適的商品購買時期、商家和最優惠價格;
大數據幫助企業提升營銷的針對性,降低物流和庫存的成本,減少投資的風險,以及幫助企業提升廣告投放精準度;
大數據幫助娛樂行業預測歌手,歌曲,電影,電視劇的受歡迎程度,並為投資者分析評估拍一部電影需要投入多少錢才最合適,否則就有可能收不回成本;
大數據幫助社交網站提供更準確的好友推薦,為用戶提供更精準的企業招聘信息,向用戶推薦可能喜歡的遊戲以及適合購買的商品。
其實,這些還遠遠不夠,未來大數據的身影應該無處不在,就算無法準確預測大數據終會將人類社會帶往到哪種最終形態,但我相信只要發展腳步在繼續,因大數據而產生的變革浪潮將很快淹沒地球的每一個角落。
比如,Amazon的最終期望是:「最成功的書籍推薦應該只有一本書,就是用戶要買的下一本書。」
Google也希望當用戶在搜索時,最好的體驗是搜索結果只包含用戶所需要的內容,而這並不需要用戶給予Google太多的提示。
而當物聯網發展到達一定規模時,藉助條形碼、二維碼、RFID等能夠唯一標識產品,感測器、可穿戴設備、智能感知、視頻採集、增強現實等技術可實現實時的信息採集和分析,這些數據能夠支撐智慧城市,智慧交通,智慧能源,智慧醫療,智慧環保的理念需要,這些都所謂的智慧將是大數據的採集數據來源和服務範圍。
未來的大數據除了將更好的解決社會問題,商業營銷問題,科學技術問題,還有一個可預見的趨勢是以人為本的大數據方針。人才是地球的主宰,大部分的數據都與人類有關,要通過大數據解決人的問題。
比如,建立個人的數據中心,將每個人的日常生活習慣,身體體征,社會網路,知識能力,愛好性情,疾病嗜好,情緒波動……換言之就是記錄人從出生那一刻起的每一分每一秒,將除了思維外的一切都儲存下來,這些數據可以被充分的利用:
醫療機構將實時的監測用戶的身體健康狀況;
教育機構更有針對的制定用戶喜歡的教育培訓計劃;
服務行業為用戶提供即時健康的符合用戶生活習慣的食物和其它服務;
社交網路能為你提供合適的交友對象,並為志同道合的人群組織各種聚會活動;
政府能在用戶的心理健康出現問題時有效的干預,防範自殺,刑事案件的發生;
金融機構能幫助用戶進行有效的理財管理,為用戶的資金提供更有效的使用建議和規劃;
道路交通、汽車租賃及運輸行業可以為用戶提供更合適的出行線路和路途服務安排;
……
當然,上面的一切看起來都很美好,但是否是以犧牲了用戶的自由為前提呢?只能說當新鮮事物帶來了革新的同時也同樣帶來了「病菌」。比如,在手機未普及前,大家喜歡聚在一起聊天,自從手機普及後特別是有了互聯網,大家不用聚在一起也可以隨時隨地的聊天,只是「病菌」滋生了另外一種情形,大家慢慢習慣了和手機共渡時光,人與人之間情感交流彷彿永遠隔著一張「網」。
大數據隱私
你或許並不敏感,當你在不同的網站上註冊了個人信息後,可能這些信息已經被擴散出去了,當你莫名其妙的接到各種郵件,電話,簡訊的滋擾時,你不會想到自己的電話號碼,郵箱,生日,購買記錄,收入水平,家庭住址,親朋好友等私人信息早就被各種商業機構非法存儲或賤賣給其它任何有需要的企業或個人了。
更可怕的是,這些信息你永遠無法刪除,它們永遠存在於互聯網的某些你不知道的角落。除非你更換掉自己的所有信息,但是這代價太大了。
用戶隱私問題一直是大數據應用難以繞開的一個問題,如被央視曝光過的分眾無線、羅維鄧白氏以及網易郵箱都涉及侵犯用戶隱私。目前,中國並沒有專門的法律法規來界定用戶隱私,處理相關問題時多採用其他相關法規條例來解釋。但隨著民眾隱私意識的日益增強,合法合規地獲取數據、分析數據和應用數據,是進行大數據分析時必須遵循的原則。
說到隱私被侵犯,愛德華?斯諾登應該佔據一席之地,這位前美國中央情報局(CIA)僱員一手引爆了美國「稜鏡計劃」(PRISM)的內幕消息。「稜鏡」項目是一項由美國國家安全局(NSA)自2007年起開始實施的絕密電子監聽計劃,年耗資近2000億美元,用於監聽全美電話通話記錄,據稱還可以使情報人員通過「後門」進入9家主要科技公司的伺服器,包括微軟、雅虎、谷歌、Facebook、PalTalk、美國在線、Skype、YouTube、蘋果。這個事件引發了人們對政府使用大數據時對公民隱私侵犯的擔心。
再看看我們身邊,當微博,微信,QQ空間這些社交平台肆意的吞噬著數億用戶的各種信息時,你就不要指望你還有隱私權了,就算你在某個地方刪除了,但也許這些信息已經被其他人轉載或保存了,更有可能已經被百度或Google存為快照,早就提供給任意用戶搜索了。
因此在大數據的背景下,很多人都在積極的抵制無底線的數字化,這種大數據和個體之間的博弈還會一直繼續下去……
專家給予了我們一些如何有效保護大數據背景下隱私權的建議:1-減少信息的數字化;2-隱私權立法;3-數字隱私權基礎設施(類似DRM數字版權管理);4-人類改變認知(接受忽略過去);5-創造良性的信息生態;6-語境化。
但是這些都很難立即見效或者有實質性的改善。
比如,現在有一種職業叫刪帖人,專門負責幫人到各大網站刪帖,刪除評論。其實這些人就是通過黑客技術侵入各大網站,破獲管理員的密碼然後進行手工定向刪除。只不過他們保護的不是客戶的隱私,而大多是醜聞。還有一種職業叫人肉專家,他們負責從互聯網上找到一個與他們根本就無關係用戶的任意信息。這是很可怕的事情,也就是說,如果有人想找到你,只需要兩個條件:1-你上過網,留下過痕迹;2-你的親朋好友或僅僅是認識你的人上過網,留下過你的痕迹。這兩個條件滿足其一,人肉專家就可以很輕鬆的找到你,可能還知道你現在正在某個餐廳和誰一起共進晚餐。
當很多互聯網企業意識到隱私對於用戶的重要性時,為了繼續得到用戶的信任,他們採取了很多辦法,比如google承諾僅保留用戶的搜索記錄9個月,瀏覽器廠商提供了無痕衝浪模式,社交網站拒絕公共搜索引擎的爬蟲進入,並將提供出去的數據全部採取匿名方式處理等。
在這種複雜的環境裡面,很多人依然沒有建立對於信息隱私的保護意識,讓自己一直處於被滋擾,被精心設計,被利用,被監視的處境中。可是,我們能做的幾乎微乎其微,因為個人隱私數據已經無法由我們自己掌控了,就像一首詩里說到的:「如果你現在繼續麻木,那就別指望這麻木能抵擋得住被」扒光」那一刻的驚恐和絕望……」
和大數據相關的技術
雲技術
大數據常和雲計算聯繫到一起,因為實時的大型數據集分析需要分散式處理框架來向數十、數百或甚至數萬的電腦分配工作。可以說,雲計算充當了工業革命時期的發動機的角色,而大數據則是電。
雲計算思想的起源是麥卡錫在上世紀60年代提出的:把計算能力作為一種像水和電一樣的公用事業提供給用戶。
如今,在Google、Amazon、Facebook等一批互聯網企業引領下,一種行之有效的模式出現了:雲計算提供基礎架構平台,大數據應用運行在這個平台上。
業內是這麼形容兩者的關係:沒有大數據的信息積澱,則雲計算的計算能力再強大,也難以找到用武之地;沒有雲計算的處理能力,則大數據的信息積澱再豐富,也終究只是鏡花水月。
那麼大數據到底需要哪些雲計算技術呢?
這裡暫且列舉一些,比如虛擬化技術,分散式處理技術,海量數據的存儲和管理技術,NoSQL、實時流數據處理、智能分析技術(類似模式識別以及自然語言理解)等。
雲計算和大數據之間的關係可以用下面的一張圖來說明,兩者之間結合後會產生如下效應:可以提供更多基於海量業務數據的創新型服務;通過雲計算技術的不斷發展降低大數據業務的創新成本。
如果將雲計算與大數據進行一些比較,最明顯的區分在兩個方面:
第一,在概念上兩者有所不同,雲計算改變了IT,而大數據則改變了業務。然而大數據必須有雲作為基礎架構,才能得以順暢運營。
第二,大數據和雲計算的目標受眾不同,雲計算是CIO等關心的技術層,是一個進階的IT解決方案。而大數據是CEO關注的、是業務層的產品,而大數據的決策者是業務層。
分散式處理技術
分散式處理系統可以將不同地點的或具有不同功能的或擁有不同數據的多台計算機用通信網路連接起來,在控制系統的統一管理控制下,協調地完成信息處理任務—這就是分散式處理系統的定義。
以Hadoop(Yahoo)為例進行說明,Hadoop是一個實現了MapReduce模式的能夠對大量數據進行分散式處理的軟體框架,是以一種可靠、高效、可伸縮的方式進行處理的。
而MapReduce是Google提出的一種雲計算的核心計算模式,是一種分散式運算技術,也是簡化的分散式編程模式,MapReduce模式的主要思想是將自動分割要執行的問題(例如程序)拆解成map(映射)和reduce(化簡)的方式, 在數據被分割後通過Map 函數的程序將數據映射成不同的區塊,分配給計算機機群處理達到分散式運算的效果,在通過Reduce 函數的程序將結果彙整,從而輸出開發者需要的結果。
再來看看Hadoop的特性,第一,它是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。其次,Hadoop 是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴於社區伺服器,因此它的成本比較低,任何人都可以使用。
你也可以這麼理解Hadoop的構成,Hadoop=HDFS(文件系統,數據存儲技術相關)+HBase(資料庫)+MapReduce(數據處理)+……Others
Hadoop用到的一些技術有:
HDFS: Hadoop分散式文件系統(Distributed File System) - HDFS (HadoopDistributed File System)
MapReduce:並行計算框架
HBase: 類似Google BigTable的分散式NoSQL列資料庫。
Hive:數據倉庫工具,由Facebook貢獻。
Zookeeper:分散式鎖設施,提供類似Google Chubby的功能,由Facebook貢獻。
Avro:新的數據序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制。
Pig:大數據分析平台,為用戶提供多種介面。
Ambari:Hadoop管理工具,可以快捷的監控、部署、管理集群。
Sqoop:用於在Hadoop與傳統的資料庫間進行數據的傳遞。
說了這麼多,舉個實際的例子,雖然這個例子有些陳舊,但是淘寶的海量數據技術架構還是有助於我們理解對於大數據的運作處理機制:
淘寶大數據
如上圖所示,淘寶的海量數據產品技術架構分為五個層次,從上至下來看它們分別是:數據源,計算層,存儲層,查詢層和產品層。
數據來源層。存放著淘寶各店的交易數據。在數據源層產生的數據,通過DataX,DbSync和Timetunel准實時的傳輸到下面第2點所述的「雲梯」。
計算層。在這個計算層內,淘寶採用的是Hadoop集群,這個集群,我們暫且稱之為雲梯,是計算層的主要組成部分。在雲梯上,系統每天會對數據產品進行不同的MapReduce計算。
存儲層。在這一層,淘寶採用了兩個東西,一個使MyFox,一個是Prom。MyFox是基於MySQL的分散式關係型資料庫的集群,Prom是基於Hadoop Hbase技術的一個NoSQL的存儲集群。
查詢層。在這一層中,Glider是以HTTP協議對外提供restful方式的介面。數據產品通過一個唯一的URL來獲取到它想要的數據。同時,數據查詢即是通過MyFox來查詢的。
最後一層是產品層,這個就不用解釋了。
存儲技術
大數據可以抽象的分為大數據存儲和大數據分析,這兩者的關係是:大數據存儲的目的是支撐大數據分析。到目前為止,還是兩種截然不同的計算機技術領域:大數據存儲致力於研發可以擴展至PB甚至EB級別的數據存儲平台;大數據分析關注在最短時間內處理大量不同類型的數據集。
提到存儲,有一個著名的摩爾定律相信大家都聽過:18個月集成電路的複雜性就增加一倍。所以,存儲器的成本大約每18-24個月就下降一半。成本的不斷下降也造就了大數據的可存儲性。
比如,Google大約管理著超過50萬台伺服器和100萬塊硬碟,而且Google還在不斷的擴大計算能力和存儲能力,其中很多的擴展都是基於在廉價伺服器和普通存儲硬碟的基礎上進行的,這大大降低了其服務成本,因此可以將更多的資金投入到技術的研發當中。
以Amazon舉例,Amazon S3 是一種面向 Internet 的存儲服務。該服務旨在讓開發人員能更輕鬆的進行網路規模計算。Amazon S3 提供一個簡明的 Web 服務界面,用戶可通過它隨時在 Web 上的任何位置存儲和檢索的任意大小的數據。 此服務讓所有開發人員都能訪問同一個具備高擴展性、可靠性、安全性和快速價廉的基礎設施,Amazon 用它來運行其全球的網站網路。再看看S3的設計指標:在特定年度內為數據元提供 99.999999999% 的耐久性和 99.99% 的可用性,並能夠承受兩個設施中的數據同時丟失。
S3很成功也確實卓有成效,S3雲的存儲對象已達到萬億級別,而且性能表現相當良好。S3雲已經擁萬億跨地域存儲對象,同時AWS的對象執行請求也達到百萬的峰值數量。目前全球範圍內已經有數以十萬計的企業在通過AWS運行自己的全部或者部分日常業務。這些企業用戶遍布190多個國家,幾乎世界上的每個角落都有Amazon用戶的身影。
感知技術
大數據的採集和感知技術的發展是緊密聯繫的。以感測器技術,指紋識別技術,RFID技術,坐標定位技術等為基礎的感知能力提升同樣是物聯網發展的基石。全世界的工業設備、汽車、電錶上有著無數的數碼感測器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,都會產生海量的數據信息。
而隨著智能手機的普及,感知技術可謂迎來了發展的高峰期,除了地理位置信息被廣泛的應用外,一些新的感知手段也開始登上舞台,比如,最新的」iPhone 5S」在home鍵內嵌指紋感測器,新型手機可通過呼氣直接檢測燃燒脂肪量,用於手機的嗅覺感測器面世可以監測從空氣污染到危險的化學藥品,微軟正在研發可感知用戶當前心情智能手機技術,谷歌眼鏡InSight新技術可通過衣著進行人物識別。
除此之外,還有很多與感知相關的技術革新讓我們耳目一新:比如,牙齒感測器實時監控口腔活動及飲食狀況,嬰兒穿戴設備可用大數據去養育寶寶,Intel正研發3D筆記本攝像頭可追蹤眼球讀懂情緒,日本公司開發新型可監控用戶心率的紡織材料,業界正在嘗試將生物測定技術引入支付領域等。
其實,這些感知被逐漸捕獲的過程就是就世界被數據化的過程,一旦世界被完全數據化了,那麼世界的本質也就是信息了。
就像一句名言所說,「人類以前延續的是文明,現在傳承的是信息。」
大數據的實踐
互聯網的大數據
互聯網上的數據每年增長50%,每兩年便將翻一番,而目前世界上90%以上的數據是最近幾年才產生的。據IDC預測,到2020年全球將總共擁有35ZB的數據量。互聯網是大數據發展的前哨陣地,隨著WEB2.0時代的發展,人們似乎都習慣了將自己的生活通過網路進行數據化,方便分享以及記錄並回憶。
互聯網上的大數據很難清晰的界定分類界限,我們先看看BAT的大數據:
百度擁有兩種類型的大數據:用戶搜索表徵的需求數據;爬蟲和阿拉丁獲取的公共web數據。搜索巨頭百度圍繞數據而生。它對網頁數據的爬取、網頁內容的組織和解析,通過語義分析對搜索需求的精準理解進而從海量數據中找准結果,以及精準的搜索引擎關鍵字廣告,實質上就是一個數據的獲取、組織、分析和挖掘的過程。搜索引擎在大數據時代面臨的挑戰有:更多的暗網數據;更多的WEB化但是沒有結構化的數據;更多的WEB化、結構化但是封閉的數據。
阿里巴巴擁有交易數據和信用數據。這兩種數據更容易變現,挖掘出商業價值。除此之外阿里巴巴還通過投資等方式掌握了部分社交數據、移動數據。如微博和高德。
騰訊擁有用戶關係數據和基於此產生的社交數據。這些數據可以分析人們的生活和行為,從裡面挖掘出政治、社會、文化、商業、健康等領域的信息,甚至預測未來。
在信息技術更為發達的美國,除了行業知名的類似Google,Facebook外,已經湧現了很多大數據類型的公司,它們專門經營數據產品,比如:
Metamarkets:這家公司對Twitter、支付、簽到和一些與互聯網相關的問題進行了分析,為客戶提供了很好的數據分析支持。
Tableau:他們的精力主要集中於將海量數據以可視化的方式展現出來。Tableau為數字媒體提供了一個新的展示數據的方式。他們提供了一個免費工具,任何人在沒有編程知識背景的情況下都能製造出數據專用圖表。這個軟體還能對數據進行分析,並提供有價值的建議。
ParAccel:他們向美國執法機構提供了數據分析,比如對15000個有犯罪前科的人進行跟蹤,從而向執法機構提供了參考性較高的犯罪預測。他們是犯罪的預言者。
QlikTech:QlikTech旗下的Qlikview是一個商業智能領域的自主服務工具,能夠應用於科學研究和藝術等領域。為了幫助開發者對這些數據進行分析,QlikTech提供了對原始數據進行可視化處理等功能的工具。
GoodData:GoodData希望幫助客戶從數據中挖掘財富。這家創業公司主要面向商業用戶和IT企業高管,提供數據存儲、性能報告、數據分析等工具。
TellApart:TellApart和電商公司進行合作,他們會根據用戶的瀏覽行為等數據進行分析,通過鎖定潛在買家方式提高電商企業的收入。
DataSift:DataSift主要收集並分析社交網路媒體上的數據,並幫助品牌公司掌握突發新聞的輿論點,並制定有針對性的營銷方案。這家公司還和Twitter有合作協議,使得自己變成了行業中為數不多可以分析早期tweet的創業公司。
Datahero:公司的目標是將複雜的數據變得更加簡單明了,方便普通人去理解和想像。
舉了很多例子,這裡簡要歸納一下,在互聯網大數據的典型代表性包括:
1-用戶行為數據(精準廣告投放、內容推薦、行為習慣和喜好分析、產品優化等)
2-用戶消費數據(精準營銷、信用記錄分析、活動促銷、理財等)
3-用戶地理位置數據(O2O推廣,商家推薦,交友推薦等)
4-互聯網金融數據(P2P,小額貸款,支付,信用,供應鏈金融等)
5-用戶社交等UGC數據(趨勢分析、流行元素分析、受歡迎程度分析、輿論監控分析、社會問題分析等)
政府的大數據
近期,奧巴馬政府宣布投資2億美元拉動大數據相關產業發展,將「大數據戰略」上升為國家意志。奧巴馬政府將數據定義為「未來的新石油」,並表示一個國家擁有數據的規模、活性及解釋運用的能力將成為綜合國力的重要組成部分,未來,對數據的佔有和控制甚至將成為陸權、海權、空權之外的另一種國家核心資產。
在國內,政府各個部門都握有構成社會基礎的原始數據,比如,氣象數據,金融數據,信用數據,電力數據,煤氣數據,自來水數據,道路交通數據,客運數據,安全刑事案件數據,住房數據,海關數據,出入境數據,旅遊數據,醫療數據,教育數據,環保數據等等。這些數據在每個政府部門裡面看起來是單一的,靜態的。但是,如果政府可以將這些數據關聯起來,並對這些數據進行有效的關聯分析和統一管理,這些數據必定將獲得新生,其價值是無法估量的。
具體來說,現在城市都在走向智能和智慧,比如,智能電網、智慧交通、智慧醫療、智慧環保、智慧城市,這些都依託於大數據,可以說大數據是智慧的核心能源。從國內整體投資規模來看,到2012年底全國開建智慧城市的城市數超過180個,通信網路和數據平台等基礎設施建設投資規模接近5000億元。「十二五」期間智慧城市建設拉動的設備投資規模將達1萬億元人民幣。大數據為智慧城市的各個領域提供決策支持。在城市規劃方面,通過對城市地理、氣象等自然信息和經濟、社會、文化、人口等人文社會信息的挖掘,可以為城市規劃提供決策,強化城市管理服務的科學性和前瞻性。在交通管理方面,通過對道路交通信息的實時挖掘,能有效緩解交通擁堵,並快速響應突髮狀況,為城市交通的良性運轉提供科學的決策依據。在輿情監控方面,通過網路關鍵詞搜索及語義智能分析,能提高輿情分析的及時性、全面性,全面掌握社情民意,提高公共服務能力,應對網路突發的公共事件,打擊違法犯罪。在安防與防災領域,通過大數據的挖掘,可以及時發現人為或自然災害、恐怖事件,提高應急處理能力和安全防範能力。
另外,作為國家的管理者,政府應該有勇氣將手中的數據逐步開放,供給更多有能力的機構組織或個人來分析並加以利用,以加速造福人類。比如,美國政府就籌建了一個http://data.gov網站,這是奧巴馬任期內的一個重要舉措:要求政府公開透明,而核心就是實現政府機構的數據公開。截止目前,已經開放了有91054 個datasets;349citizen-developed apps;137 mobile apps;175 agencies and subagencies;87 galleries;295 Government APIs。
企業的大數據
企業的CXO們最關注的還是報表曲線的背後能有怎樣的信息,他該做怎樣的決策,其實這一切都需要通過數據來傳遞和支撐。在理想的世界中,大數據是巨大的槓桿,可以改變公司的影響力,帶來競爭差異、節省金錢、增加利潤、愉悅買家、獎賞忠誠用戶、將潛在客戶轉化為客戶、增加吸引力、打敗競爭對手、開拓用戶群並創造市場。
那麼,哪些傳統企業最需要大數據服務呢?拋磚引玉,先舉幾個例子:1) 對大量消費者提供產品或服務的企業(精準營銷);2) 做小而美模式的中長尾企業(服務轉型);3) 面臨互聯網壓力之下必須轉型的傳統企業(生死存亡)。
對於企業的大數據,還有一種預測:隨著數據逐漸成為企業的一種資產,數據產業會向傳統企業的供應鏈模式發展,最終形成「數據供應鏈」。這裡尤其有兩個明顯的現象:1) 外部數據的重要性日益超過內部數據。在互聯互通的互聯網時代,單一企業的內部數據與整個互聯網數據比較起來只是滄海一粟;2) 能提供包括數據供應、數據整合與加工、數據應用等多環節服務的公司會有明顯的綜合競爭優勢。
對於提供大數據服務的企業來說,他們等待的是合作機會,就像微軟史密斯說的:「給我提供一些數據,我就能做一些改變。如果給我提供所有數據,我就能拯救世界。」
然而,一直做企業服務的巨頭將優勢不在,不得不眼看新興互聯網企業加入戰局,開啟殘酷競爭模式。為何會出現這種局面?從 IT 產業的發展來看,第一代 IT 巨頭大多是 ToB 的,比如 IBM、Microsoft、Oracle、SAP、HP這類傳統 IT 企業;第二代 IT 巨頭大多是ToC 的,比如 Yahoo、Google、Amazon、Facebook 這類互聯網企業。大數據到來前,這兩類公司彼此之間基本是井水不犯河水;但在當前這個大數據時代,這兩類公司已經開始直接競爭。比如 Amazon 已經開始提供雲模式的數據倉庫服務,直接搶佔 IBM、Oracle 的市場。這個現象出現的本質原因是:在互聯網巨頭的帶動下,傳統 IT 巨頭的客戶普遍開始從事電子商務業務,正是由於客戶進入了互聯網,所以傳統 IT 巨頭們不情願地被拖入了互聯網領域。如果他們不進入互聯網,他們業務必將萎縮。在進入互聯網後,他們又必須將雲技術,大數據等互聯網最具有優勢的技術通過封裝打造成自己的產品再提供給企業。
以IBM舉例,上一個十年,他們拋棄了PC,成功轉向了軟體和服務,而這次將遠離服務與諮詢,更多地專註於因大數據分析軟體而帶來的全新業務增長點。IBM執行總裁羅睿蘭認為,「數據將成為一切行業當中決定勝負的根本因素,最終數據將成為人類至關重要的自然資源。」IBM積極的提出了「大數據平台」架構。該平台的四大核心能力包括Hadoop系統、流計算(StreamComputing)、數據倉庫(Data Warehouse)和信息整合與治理(Information Integration and Governance)
IBM大數據
另外一家亟待通過雲和大數據戰略而復甦的巨頭公司HP也推出了自己的產品:HAVEn,一個可以自由擴展伸縮的大數據解決方案。這個解決方案由HP Autonomy、HP Vertica、HP ArcSight 和惠普運營管理(HP OperationsManagement)四大技術組成。還支持Hadoop這樣通用的技術。HAVEn不是一個軟體平台,而是一個生態環境。四大組成部分滿足不同的應用場景需要,Autonomy解決音視頻識別的重要解決方案;Vertica解決數據處理的速度和效率的方案;ArcSight解決機器的記錄信息處理,幫助企業獲得更高安全級別的管理;運營管理解決的不僅僅是外部數據的處理,而是包括了IT基礎設施產生的數據。
個人的大數據
個人的大數據這個概念很少有人提及,簡單來說,就是與個人相關聯的各種有價值數據信息被有效採集後,可由本人授權提供第三方進行處理和使用,並獲得第三方提供的數據服務。
舉個例子來說明會更清晰一些:
未來,每個用戶可以在互聯網上註冊個人的數據中心,以存儲個人的大數據信息。用戶可確定哪些個人數據可被採集,並通過可穿戴設備或植入晶元等感知技術來採集捕獲個人的大數據,比如,牙齒監控數據,心率數據,體溫數據,視力數據,記憶能力,地理位置信息,社會關係數據,運動數據,飲食數據,購物數據等等。用戶可以將其中的牙齒監測數據授權給XX牙科診所使用,由他們監控和使用這些數據,進而為用戶制定有效的牙齒防治和維護計劃;也可以將個人的運動數據授權提供給某運動健身機構,由他們監測自己的身體運動機能,並有針對的制定和調整個人的運動計劃;還可以將個人的消費數據授權給金融理財機構,由他們幫你制定合理的理財計劃並對收益進行預測。當然,其中有一部分個人數據是無需個人授權即可提供給國家相關部門進行實時監控的,比如罪案預防監控中心可以實時的監控本地區每個人的情緒和心理狀態,以預防自殺和犯罪的發生。
以個人為中心的大數據有這麼一些特性:
1- 數據僅留存在個人中心,其它第三方機構只被授權使用(數據有一定的使用期限),且必須接受用後即焚的監管。
2- 採集個人數據應該明確分類,除了國家立法明確要求接受監控的數據外,其它類型數據都由用戶自己決定是否被採集。
3- 數據的使用將只能由用戶進行授權,數據中心可幫助監控個人數據的整個生命周期。
展望過於美好,也許實現個人數據中心將遙遙無期,也許這還不是解決個人數據隱私的最好方法,也許業界對大數據的無限渴求會阻止數據個人中心的實現,但是隨著數據越來越多,在缺乏監管之後,必然會有一場激烈的博弈:到底是數據重要還是隱私重要;是以商業為中心還是以個人為中心。
文章來源:http://www.thebigdata.cn/YeJieDongTai/7180.html
謝邀!這個問題說大很大,因為要總結怎麼多東西,估計連阿爾法狗都有些吃力,說小也小,因為大數據已經走入了我們日常的生活。下面是我從我們的微信後台找的一些相關文章,相信已經足夠讓你眼前一亮,對大數據感興趣,歡迎加我微信:idacker徐子沛:從現代到古老,說說大數據的故事大數據並不是萬能的,我們能從谷歌流感趨勢預測的失敗中學到什麼?分析師告訴你,普通公民利用公開數據可以做什麼?哪些人愛自拍?中國首份女性自拍黨分析報告出爐
推薦閱讀:
※關於微軟的Power BI介紹?
※數據分析、大數據、數據挖掘或者數據分析學習相關的網站推薦幾個?
※mpp架構是什麼?它與各種sql on hadoop架構根本區別在那裡,優點和缺點是什麼?求專業人士賜教?
※以後的路線如何走,入職半年的職場小白的困惑,研發、弱電、強電?
※大數據技術中,關於用戶行為分析方面的有哪些技術?