大數據時代:數據收集比數據挖掘更有意義

按照今天信息技術的發達程度,數據收集看起來很容易。一個攝像頭每天收集多少信息?空間跑著那麼多衛星,它們每天收集多少信息?好像不用愁沒有信息。而數據挖掘要從繁雜的信息中尋找知識,就很困難了。但是,事情可能不是那麼簡單。在某些情況下,數據收集可能比數據挖掘更難、更有意義。

不竟想起所謂「費米悖論(Fermi Paradox)」。1950年的一天,諾貝爾獎獲得者、物理學家費米在和別人討論飛碟及外星人問題時,突然冒出一句:「如果有外星人,他們為什麼沒在這裡?」這句看似簡單的問話,就是著名的「費米悖論」。如果認為在如此廣闊的宇宙中(上百億光年的空間,約700萬億億顆恆星),在如此漫長的時間裡(100億~160億年),全宇宙總共只誕生了太陽系的地球這唯一的文明,這聽起來無論如何總是極端武斷的。那麼,總該有一個兩個外星文明被我們發現,或到地球來訪問過了吧?為什麼它們至今仍然是沉默的呢?人類能用100萬年的時間飛往銀河系各個星球,那麼,外星人只要比人類早進化100萬年,現在就應該來到地球了。迄今為止,仍然缺乏任何被科學共同體接受的證據,能夠證明地外文明的存在;另一方面,科學共同體也無法提出任何令人信服的證據,能夠證明外星文明不存在,這就使得「費米悖論」成為一個極端開放的問題

我們學偏微分方程的時候,總是要先論證某一類方程解的存在性。知道解的存在,才能去求解。可是,不求出解來,怎麼知道解是存在的呢?這就是一個悖論。對存在的數據集應用演算法過去是產生新發現的有效方法,而現在新知識可以使用可用的材料資源創造財富,比累積新資源更有效。過去,生物學家,天文學家和宇宙學家從歷史數據中找發現,考古學家艱難地去挖掘。現在,他們可以重建所有的廢墟和人工製品,從衛星和航拍圖像偵察到的表面跟蹤想像出來。研究(Research)就真成了重新搜索(Re-Search)。

聯想到馬航MH370失聯事件。2014年3月8日凌晨1時20分,由馬來西亞吉隆坡飛往中國北京的馬來西亞航空公司MH370航班與地面失去聯繫,機上239人中有154名中國籍乘客。此事已經過去35天,先後26個國家參加搜索,出動幾百架次飛機和軍艦、商船,花費超過5000萬美元。先說在南海,折騰了10多天一無所獲;有人根據衛星圖像說是在吉爾吉斯西北部的塔拉斯州州府以南約30公里處的山谷里;後來又說是在印度洋;反覆折騰,試圖收集MH370的數據,但是,至今沒找到。按理說,有關的數據多的是,即使是這35天的衛星數據、搜索飛機得到的數據,不可謂不大,不管你怎麼去挖掘這些數據,你也得不到任何MH370的數據。這個例子說明,在某些情況下,數據收集比數據挖掘更難、更有意義,因為這種數據收集就是發現。這裡的數據分析是和政治有關的,甚至說,數據收集的過程也與政治有關。不要認為,大數據能解決一切。而在數據收集中,硬體技術不可缺少。我們國家在硬體技術和生產方面應該承認差距,加強研究、製造和發展。

Bingdata優網助幫匯聚多平台採集的海量數據,通過大數據技術的分析及預測能力為企業提供智能化的數據分析、運營優化、投放決策、精準營銷、競品分析等整合營銷服務。

北京優網助幫信息技術有限公司(簡稱優網助幫)是以大數據為基礎,並智能應用於整合營銷的大數據公司,隸屬於亨通集團。Bingdata是其旗下品牌。優網助幫團隊主要來自阿里、騰訊、百度、金山、搜狐及移動、電信、聯通、華為、愛立信等著名企業的技術大咖,兼有互聯網與通信運營商兩種基因,為大數據的演算法分析提供強大的技術支撐。

推薦閱讀:

怎麼才能用數據實現商業價值?
如何成為大數據產品經理
歡迎收藏丨6個免費數據源網站
阿里將全面進軍IoT | 一周綜述
pc28網站計算數據?

TAG:大數據時代 | 大數據 |