最早的大數據應用原來來自於一群物理學家為了更方便的工作
1 人贊了文章
「海量資料」是一個讓人難以琢磨的概念,他表示巨大的數字信息量,大到難以「儲存」「轉移」或「分析」。「海量數據」(大數據)非常龐大以至於它顛覆了目前的科技發展,並且挑戰我們發明新一代數據存儲技術的工具和技術。
所以,「海量數據」不是新的話題。實際上,物理學家在歐洲粒子物理研究所已經為他們不斷擴大的資料庫糾結了數十年。五十年前,歐洲粒子物理研究所的數據可以被存儲在單單一台電腦上。好吧,那台電腦不是你現在用的普通的電腦。這台電腦的主機填滿了整個辦公樓。想要分析得到的數據,世界各地的物理學家們就得來歐洲粒子物理研究所連接上這個巨大的機器。
在七十年代,這些不斷增長的海量數據被分配到不同的計算機集上,這些計算機集在研究所里迅速擴張。每個計算機集連著專屬廣播網。但是物理學家們的合作研究不能受到這些計算機集的束縛,他們需要訪問所有的數據,所以,我們橋接起這些獨立的計算機集,創建了歐洲粒子物理研究所內部網路。
在八十年代,說著不同語言的與此相似的網路擴散到了整個歐洲和美國,使遠程訪問成為可能但是非常痛苦和麻煩。為了讓全球的物理學家們更容易地拿到這些數據,這些網路必須用同一種語言。我們採用了初出茅廬的美國網際網路標準,歐洲也隨之採用,之後,1989年,我們設立了歐洲和美國的首要鏈接在歐洲粒子物理研究所,隨後,全球網際網路迅速流行起來。
物理學家們可以輕而易舉地從全世界各地遠程獲取海量數據生成結果,並且在他們自己的研究所里寫研究報告。之後,他們想和所有的同行們分享他們的研究成果。為了讓數據分享更容易,我們在九十年代早起發明了網際網路。
物理學家們再也不用需要知道數據儲存在哪裡,他們需要上網找就可以了。這個主意被人們廣泛接受了,隨之改變了我們日常生活中人們溝通的方式。
在二十一世紀初期,「海量數據」的持續增長超過了歐洲物理研究所的研究能力,儘管他們擁有一幢幢全是計算機的大樓,我們不得不開始散布這些「PB級」數據(Petabyte、PB)是一種資訊計量單位,現今通常在標示網路硬碟總容量,或具有大容量的儲存媒介儲存容量時使用。
給我們的合作夥伴,從而使用上百各大科學研究院的地方計算機儲存資源。為了更好得調配這些互相聯繫的資源,我們研發了一個計算機網格,使無縫的全球數據分享成為可能。這依賴於相互信賴的關係和互相交流。
但是這個網格模型可以輕易地被轉送到這種關係之外,沒有相互信賴的關係和互相交流,每一個人都會對自己的資源表現的保守,一些公司也不會有同樣的信任度。取而代之一種商業化方式的獲取信息的方式在最近非常流行,那就是雲技術。
雲技術被很多其他的團體用來分析他們的海量數據。
像歐洲粒子物理研究所這樣的地方專註於研究小得無法想像的粒子卻可以成為「海量數據」的源頭,這可能會讓人感覺很矛盾,然而,我們學習這些基本顆粒的方式和這些顆粒的作用於彼此的作用力,包含了:短暫地創造它們,在加速器里使它們碰撞,在他們在以接近光速運動時,記錄下他們的跡線。為了能很好地觀察這些軌跡,在探測器里,我們裝了1.5億個感應器,這些探測器就像碩大的3D照相機,拍下每一次碰撞,那是每秒1400萬張,這構成了很多數據。
如果「海量數據」已經存在了那麼久,我們為什麼現在才聽說它呢?老話說的好,「團結力量大」,不僅是科學研究在利用這個。從各種信息中,我們可以通過拼接相關信息和發現關聯性,從而導出更多信息。這讓我們更消息靈通,也可以豐富我們的日常生活。無論是在實時(比如信息量或金融信息),在短期的演變(比如說醫學或氣象學) 或者在需要預測的情況下(比如說商業,犯罪,疾病發展趨勢)。
事實上,每一個領域都需要收集海量數據,比如遍布全球的移動感應網路,比如陸地或在空中都有的攝像器,比如網路信息檔案集,和捕捉全球網民網上活動的記錄器。我們面臨的挑戰是去發明新的工具與新的技術,從而來挖掘這些巨大的存儲箱,幫助我們做正確的決定,提高醫學診斷正確率,甚至推滿足未來社會尚無法想像的需求和渴望。
推薦閱讀:
※今日數據行業日報(2017.4.20)
※hadoop實驗(MapReduce)——關於氣象數據集
※大數據殺熟只是開始,未來演算法還將成為法律
※智慧農業:大數據的機遇