2013年:世界「大數據元年」
11月12日,美國政府公布新版大數據研究計劃,白宮科技政策辦公室主任霍爾德倫致辭說,他去年曾預測大數據將是件「大事」,現在來看保守了;因為「大數據現在已經成為天大的事」。
時間倒回到6月,斯諾登的41張幻燈片,讓美國大數據監控項目「稜鏡」浮出水面,令人不寒而慄。
對大數據時代的樂觀和憂慮,在這一年充分展示。
1
大變革
「除了上帝,每個人都必須用數據說話。」不僅是人,整個世界都越來越數據化。信息革命深入發展,如潮的數據澎湃而至,數量之巨,種類之雜,來勢之快,前所未有。
IDC(國際數據公司)估計,全球2012年產生數據總量約2.8澤位元組。有人計算,這相當於3000多億部時長2小時的高清電影,連著看7000多萬年也看不完。
而這還只是序曲。更大的浪潮在後頭。
IDC預測,未來幾年,全球數據量每隔兩年翻一番,2020年達到40澤位元組。
大數據不單單是「數據的工業革命」,而是一場更深刻的科技和產業大變革的組成部分,是對未來大趨勢、時代新特徵的一種描述。大數據是推動這場大變革的重要動力,將成為促進經濟社會轉型新的關鍵資源。搜集、分析和運用指數級增長的龐大數據,將催生創新,為各行各業提供新的發展機遇,給人們日常生活帶來改變。
星巴克有意推出的「大數據咖啡杯」就是個小小的例子。美國媒體報道,這家咖啡連鎖巨頭打算試驗在一些咖啡杯中裝上感測器,收集常客喝咖啡速度等數據,從而為喝咖啡較慢顧客提供保溫效果好的杯子,提高其滿意度和忠誠度。
業內人士認為,大數據的本質還不在於「大」,而是以嶄新的思維和技術去分析海量數據,揭示其中隱藏的人類行為等模式,由此創造新產品和服務,或是預測未來趨勢。
暢銷書《大數據時代》的作者、英國牛津大學數據科學家舍恩伯格認為,大數據是一種新的價值觀和方法論,人們面對的不再是隨機樣本而是全體數據,不是精確性而是混雜性,不是因果關係而是相關關係。
「現有的認知和體系是建立在稀缺數據上的成果,人們思維和工作方式必須發生變革以適應大數據時代的到來。」舍恩伯格在其書中寫道。
2
大競爭
大數據被視為創新和生產力提升的下一個前沿,正成為國家競爭力的要素之一,在世界範圍內日益受到重視。多國政府加大了對大數據發展的扶持力度,甚至上升到國家戰略的高度。2013年,圍繞大數據的國際競爭繼續加碼。
諮詢公司益百利集團的研究顯示,全球對大數據項目投資總額去年已達45億歐元(約60億美元),預計今明兩年均會保持約40%的增長速度。
在美國,大數據已由熱點辭彙變成重點項目。去年3月,美國政府已公布2億美元的《大數據研究發展計劃》,今年11月再度公布涉及各級政府、私企、科研機構的多個大數據研究項目。美國國家衛生研究院、國家科學基金會等都參與其中,有評論稱之為美國大數據戰略2.0版。
在英國,雖然經濟不景氣、財政緊縮,但政府依然為大數據一擲千金。2013年初,英國商業、創新和技能部宣布將注資8億英鎊發展8類高新技術,其中1.89億英鎊(約3億美元)用於大數據項目。
大數據在中國也已啟動駛入「快車道」,政府、企業和科研院所正多方位布局。工信部的物聯網「十二五」發展規劃,將信息處理技術作為四項關鍵創新技術工程之一,其中包括海量數據存儲、數據挖掘等。隨著4G牌照在2013年末的發放,更高速的網路將帶來更大的數據流,為政府和企業帶來戰略性資源。
3
大挑戰
「稜鏡」今年曝光,讓人看到大數據時代維護國家信息安全、保護個人隱私所面臨的嚴峻挑戰。
「稜鏡門」讓各國政府意識到「數據主權」的重要性,以及在網路和電信核心技術上依賴個別國家的惡果。必須加快自主創新以保護「數據主權」,已成為一些國家的共識。
英國《自然》雜誌3月刊登的研究發現,只要有4個時間點和位置的數據就能確定一個人身份,準確率高達95%。這表明,大數據足以將一個人「描畫」清晰,現有法律手段和核心技術對個人隱私的保護正在逐漸失效。
如何在大數據來襲中保持清醒和理性、有所創新和創造,對國家和個人來說同樣是考驗。
專家指出,大數據可望為中國經濟轉型升級發揮重要貢獻,巨大的人口基數、經濟體量和需求,意味著中國發展大數據擁有得天獨厚的優勢。但也應該看到,大數據具有價值密度低的特性,挖掘、分析等技術要求高。中國不能僅滿足於做「世界數據中心」,應防止概念炒作,加強自主創新,進行前瞻性的制度設計等布局,順勢而為,將「中國創造」由機遇化為現實。
還應該警惕「迷信」大數據等傾向,認識到大數據分析可能存在的缺陷和不足。心理學家認為,大數據創造的模型會將人束縛在演算法提供的選項中,過度依賴大數據分析也可能束縛創新。美國互聯網活動家帕里澤稱之為「互聯網濾泡」:互聯網個性化雖然帶來方便,卻將人們局限在自己過往行為模式的「氣泡」中,無法觸及海量信息帶來的無儘可能。
大數據專家喜歡用莎士比亞「凡是過去,皆為序曲」來形容大數據分析的必然,但大數據提供的也只是參考答案而非最終答案。無論在小數據時代還是大數據時代,探索和創新精神都不應放棄,正如林肯所言,「預測未來最好的方法就是去創造未來」。
4
大事件
美國防務承包商前僱員愛德華·斯諾登的爆料,讓美國國家安全局的「稜鏡」監視項目為大眾窺知。如果單從技術角度看,「稜鏡」可能是迄今最成功的大數據應用項目之一。
「稜鏡」最大特點在於利用美國的全球通信中樞地位截取數據。斯諾登提供的一張幻燈片,如果從巴基斯坦發一封電子郵件到英國,從美國「繞道」更快捷經濟。而當全球海量數據都如此「繞道」,美國情報機構只要在電信運營商的主幹光纖上做手腳,就可以截取。
除了對互聯網數據通路的操控,美國國家安全局在「9·11」之後還開始收集通話元數據,即不包含通話內容的美國境內及國際通話的雙方電話號碼、通話時長、電話的位置信息等。另據媒體披露,對於電子郵件、社交網路等加密內容,在一些互聯網公司的合作下,國家安全局可以從這些公司的伺服器將數據直接同步到自己的伺服器上,運作過程同雲端硬碟備份類似。
為了處理這些數據,國家安全局專門開發了一個資料庫,可以儲存處理多格式數據,在發現數據的規律模式後實時報告,並能將姓名、電話號碼等元數據作為節點,把相關的姓名、號碼、搜索詞等聯繫起來,自動生成關聯圖。
「稜鏡」還有一套名為「無限線人」的大數據分析工具,按國家和具體項目進行監視。使用者可以選擇一個國家向系統提問「我們對X國掌握的最新數據是什麼」,系統會顯示掌握的元數據量,再根據具體項目顯示細節數據。資料顯示,2013年3月,「無限線人」在全球計算機網路收集信息基礎上產生的報告達970億條。
大變革
一種新的價值觀和方法論,人們思維和工作方式必須轉變以適應大數據時代
大競爭
大數據被視為創新和生產力提升的下一個前沿,成為國家競爭力的要素之一
大挑戰
只要有4個時間點和位置的數據就能確定一個人身份,其準確率高達95%
新聞熱詞
大數據
據新華社電 按照業界比較普遍的看法,大數據具有海量、多種類、需要大規模處理和快速響應等特點。
根據IDC(國際數據公司)的跟蹤分析,全球產生的數據總量2010年首次突破1澤(10的21次方)位元組,2012年達到約2.8澤位元組,2020年有望達到40澤位元組。2012年,全球產生的數據中僅有約0.5%得到分析。到2020年,全球數據總量中有22%將來自中國。
從內容來看,這些海量數據可分為結構化和非結構化數據。問卷調查、產品評論、信用卡記錄和實驗結果等屬於結構化數據,僅占數據總量的5%左右;大數據時代的數據量爆炸多來自非結構化數據,例如在社交網站上發布的照片和視頻,在搜索引擎中輸入的搜索詞,手機產生的即時位置信息等,約佔數據量的95%。
比如,世界上第一部「先拍照後對焦」光場相機Lytro,就運用了大數據處理分析理念。與傳統相機只記錄一束光不同,Lytro可以記錄整個光場里所有的光,也就是用總體數據取代了隨機樣本。用戶沒必要一開始就對焦,想要什麼樣的照片可以在拍攝之後再決定。
數據量大幅增加對人們注重精確性的習慣等提出了挑戰,大數據需要技術和思維上的變革才能利用。人工智慧專家說,相關翻譯在語料庫使用龐雜的網路內容後取得了飛躍發展,不完整的句子、拼寫錯誤、語法錯誤等各種錯誤;讓翻譯可以正確地推算出英文辭彙搭配在一起的可能性,混雜性和謬誤反而讓翻譯的表現以及產品更為突出。
以上內容來自:深圳晚報 [責任編輯:yf001]推薦閱讀:
※2013年最有深度的一句話語錄,很受啟發!分享給大家體會~~
※【探索門命學講座筆記】2013年高級班講座(14)
※盤點2013年中國最會著裝的10大女星|2013年|著裝|女星
※FT2013年度女性之五:柳德米拉?普京娜