標籤:

大眾眼中的大數據是怎樣的?

導語:大數據妙不可言,但它真能改變企業的運作方式嗎?答案毋庸置疑是肯定的。大數據可謂眼下的熱門辭彙,成為眾人口中津津樂道的話題,然而人們對它的實際影響力如霧裡看花。以下的9個案例生動闡明了大數據在實際生活中的應用情況。

總統競選

許多人通過Facebook更新個人狀態、分享圖片以及他們"喜歡"的內容。奧巴馬的總統競選運動也通過使用社交網路的各種數據功能完成了競選,他們不僅通過社交網路尋找支持者,而且還通過社交網路召集了一批志願軍。

早在2006年,Facebook聯合創始人,克里斯·休斯就建議扎克伯格在網站上推出相關服務,幫助總統候選人在Facebook上建立個人主頁,以便他們進行形象推廣。2006年9月,Facebook全面開放,用戶數量爆炸式增長,在年底達到1200萬。這一過程恰好有利地推升了奧巴馬的知名度。此後,在克里斯的輔佐下,奧巴馬掀起了一系列的網路活動,在Facebook、MySpace等社交網站上發表公開演講、推廣施政理念,贏得大量網民支持,募集到5億多美元的競選經費。

最終,"黑人平民"戰勝了實力雄厚的對手,成為美國歷史上第一位黑人總統,之後,在第二次的選舉中更獲得連任。此次選舉被認為是美國民主的巨大進步,而互聯網則提供了前所未有的實施手段,其中尤以Facebook代表的社交網站最為突出,以至於有人戲稱之為"Facebook之選"。

公路交通

在洛杉磯開過車的人一定都經歷過那裡噩夢般的交通擁堵情況。目前政府在I-10和I-110州際公路上建立了一條了收費的快速通道。政府可通過大數據引導駕駛人員在該通道上的行駛情況,保證交通暢通。

施樂就是參與此次項目的公司,它的抗擁塞項目,包括用ExpressLanes、動態定價,上升的需求等等以維持某種秩序的想法。施樂公司的首席技術執行官NateshManikoth表示,如果司機支付給駕駛熱車道(高佔用收費系統),他必須保證車速每小時45英里左右。如果交通開始擁堵,私家汽車的支付價格將上升,以減少他們進入,而將車道用於高佔用率的車輛,例如公共汽車和大巴車。

施樂還有另一個項目在洛杉磯稱為ExpressPark,目標是讓人們知道他們何時即將離開房子,在哪能找到停車場和花費金額。不僅要確保定價,同時更要確保數據實時到達用戶手中。例如,應當提前40分鐘告知用戶停車位置。

職業籃球賽

專業籃球隊會通過搜集大量數據來分析賽事情況,然而他們還在為這些數據的整理和實際意義而發愁。通過分析這些數據,可否找到兩三個制勝法寶,或者至少能保證球隊獲得高分?Krossover公司正致力於此。

在每場比賽過後,教練只需要上傳比賽視頻。接下來,來自Krossover團隊的大學生將會對其分解。等到第二天教練再看昨晚的比賽時,他只需檢查任何他想要的——數據統計、比賽中的個人表現、比賽反應等等。通過分析比賽視頻,毫不誇張地分析所有的可量化的數據。

音樂

十多年前,音樂元數據公司Gracenote收到來自蘋果公司的神秘忠告,建議其購買更多的伺服器。Gracenote照做了,而後蘋果推出iTunes和iPod,Gracenote從而成為了元數據的帝國。

在車內聽的歌曲很可能反映你的真實喜好,Gracenote就擁有此種技術。它採用智能手機和平板電腦內置的麥克風識別用戶電視或音響中播放的歌曲,並可檢測掌聲或噓聲等反應,甚至還能檢測用戶是否調高了音量。這樣,Gracenote可以研究用戶真正喜歡的歌曲,聽歌的時間和地點。

Gracenote擁有數百萬首歌曲的音頻和元數據,因而可以快速識別歌曲信息,並按音樂風格、歌手、地理位置等分類。

社交網路

數據基礎設施工程部高級主管Ghosh描繪的LinkedIn數據構建圖,其中就包括Hadoop戰略部署。

五年前,LinkedIn只是一家普通的科技公司。而現在,其儼然成為一個工程強國。LinkedIn建成的一個最重要的資料庫是Espresso。不像Voldemort,這是繼亞馬遜Dynamo資料庫之後的一個最終一致性關鍵值存儲,用於高速存儲某些確定數據,Espresso作為一個事務一致性文件存儲,通過對整個公司的網路操作將取代遺留的Oracle資料庫。它最初的設計就是為了提供LinkedInInMail消息服務的可用性,該公司計劃今年晚些時候將推出開源Espresso。

保險行業

保險行業並非技術創新的指示燈,然而MetLife保險公司已經投資3億美金建立一個新式系統,其中的第一款產品是一個基於MongoDB的應用程序,它將所有客戶信息放在同一個地方。

MongoDB匯聚了來自70多個遺留系統的數據,並將它合併成一個單一的記錄。它運行在兩個數據中心的6個伺服器上,目前存儲了24TB的數據。這包括MetLife的全部美國客戶,儘管它的目標是擴大它的國際客戶和多種語言,同時也可能創建一個面向客戶的版本。它的更新幾乎是實時的,當新客戶的數據輸入時,就好像Facebook牆一樣。

電視媒體

對於體育愛好者,追蹤電視播放的最新運動賽事幾乎是一件不可能的事情,因為有超過上百個賽事在8000多個電視頻道播出。

而現在市面上開發了一個可追蹤所有運動賽事的應用程序RUWT,它已經可以在iOS和Android設備,以及在Web瀏覽器上使用,它不斷地分析運動數據流來讓球迷知道他們應該轉換成哪個台看到想看的節目,在電視的哪個頻道上找到,並讓他們在比賽中進行投票。對於谷歌電視和TiVo用戶來說,實際上RUWT就是讓他們改變頻道調到一個比賽中。

該程序能基於賽事的緊張激烈程度對比賽進行評分排名,用戶可通過該應用程序找到值得收看的頻道和賽事。

社會生活

印度有一檔非常受歡迎的電視節目Satyamevjayate,該節目整理並分析社會民眾關於爭議話題的各種意見,包括女性墮胎、種姓歧視和虐待兒童等社會熱點問題,並使用這些數據來推進政治改革。

雖然目前只播放了13集,但是來自各方的反饋數據不容小覷。

-來自印度電視和世界各地的YouTube上的400萬觀眾;

-超過1.2億人在其網站、Facebook,Twitter,YouTube和移動設備上已連接Satyamevjayate;

-超過800萬的人通過Facebook,網路注釋,文本消息及電話熱線等方式發送14萬個回應,每周有超過10萬個新觀眾進行回應。

處方葯

儘管藥品價格問題已逐漸取代人們對處方葯的關注,但我們不該忽視由於處方葯的濫用和誤用而引起的經濟問題。ExpressScripts就是這麼一家處方葯管理服務公司,目前它正在通過一些複雜模型來檢測虛假藥品,這些模型還能及時提醒人們何時應該停止用藥。ExpressScripts能夠解決該問題的原因在於所有有關數據。因為它每年管理著1.4億處方,覆蓋了一億美國人和65,000家藥店,雖然該公司是能夠識別潛在問題的信號模式,但它也使用數據來嘗試解決某些情況下之前曾經發現的問題。

同時,ExpressScripts還著眼於一些事情,如他們所開處方的藥物種類,甚至有人在網上談論醫生。如果一個醫生的行為被標記為紅色的旗幟,那麼他在網路上是個好人的形象,更是你所需要的醫生。

筆記:

大數據變成了一種資源,類似於石油一樣的稀有資源!在現代社會,隨著各種信息化技術的發展,人們的日常生活處處都會留下自己的信息,即數據。刷微博,淘寶購物,微信聊天,每一次的點擊都會產生一個數據,這些數據的集合成大數據,彌散在生活的每一處,悄然間也改變了我們的生活。


有這樣一段話:「Big data is like teenage sex,everyone talks about it,nobody really knows how to do it,everyone thinks everyone else is doing it,so everyone claims they are doing it".我覺得這短話用在「大眾眼中的大數據」很合適。大數據是一個很熱的東西,大家都對這個東西聽過兩耳朵,但是很多大眾並不了解它。其實不光是大眾,很多高知識分子也不怎麼了解他,當然這就更別提怎麼運用它了。

大數據其實已不光僅僅指的是海量數據了,它更是指對大數據分析的方法。大數據改變了我們傳統的數據分析方法,這一點是毫無疑問的。傳統的數據分析多是提出假設然後獲得數據再通過 數據分析去驗證假設。但是大數據則不是這樣的,我們對大數據的處理方法是直接分析(當然因為數據是海量的,我們需要一個篩選的過程)。但是雖說「直接分析」,其實並沒有那麼簡單,因為我們需要掌握或選擇一個最佳的分析方法,以更好的挖掘出大數據的價值,這方面大家都在探索的路上。


對於大多數人而言,對於大數據更多的關注大數據4V中的容量,即傳統的海量數據。而比較少關注到數據本身的異構和混合存儲,數據採集和處理速度,大數據價值等方面的內容。


舉一個網上看到的例子,相信大家就很容易理解了:關於大數據應用最經典的案例:

某比薩店的電話鈴響了,客服人員拿起電話。

客服:**比薩店,您好,請問有什麼需要我為您服務?

顧客:你好,我想要......

客服:先生,請把您的AIC 會員卡號碼告訴我。

顧客:135259XXXXXX 。

客服:陳先生,您好,您是住在 XX 街一號12 樓 1205室,您家電話是209XXXX 。對嗎?

顧客:為什麼你知道我的電話號碼?

客服:陳先生,因為我們有 AIC 會員系統。

顧客:我想要海鮮比薩......

客服:陳先生,海鮮比薩不適合您。

顧客:為什麼?

客服:根據您的醫療記錄,您有高血壓和膽固醇偏高。

顧客:那...... 你們有什麼可以推薦的?

客服:您可以試試我們的低脂健康比薩

顧客:你怎麼知道我會喜歡吃這種的?

客服:您上星期一在中央圖書館借了一本《低脂健康食譜》。

顧客:好...... 那我要一個家庭號特大比薩,要付多少錢?

客服:99元,這個足夠您一家六口吃了,但是您母親應該少吃,因為她上個月剛做了心臟搭橋手術,處在恢復期。

顧客:可以刷卡嗎?

客服:陳先生,對不起,請您付現款,因為您的信用卡已經刷爆了,您現在還欠銀行4807元,而且還不包括房貸利息。

顧客:算了。你們直接把比薩送到我家吧,家裡有現金。你們多久會送到?

客服:大約三十分鐘,如果您不想等,可以自己騎車來?

顧客:什麼?

客服:根據AICCRM 系統全球定位系統的實時自動跟蹤系統的記錄,目前您正騎著這輛車,離我們店並不遠。

顧客:XXX......

客服:陳先生,請您說話小心點兒,您曾在 2004年4 月 1日用髒話侮辱警察,被判了10天拘役,罰款200 元。如果您不想重蹈覆轍,就請您禮貌回復。

顧客:那...... 算了,我什麼都不要了,那份比薩也不要了!

客服:謝謝您的電話光臨,下星期三是您太太的生日,你不想預訂一份生日比薩嗎?提前一周預訂可以享受8 折優惠。

顧客:......


最近正在接受大數據課程的聯合培養,我覺得大數據更多地是一種思維方式,是一種從數據出發,尋找內部的相關關係,去發現一些直觀觀察並不容易發現的結論的思路。

這種思維方式並不是現在才有的,但是在過去因為硬體、計算能力等限制並不能充分發揮作用。當代的電子商務,移動互聯網等每天都會產生有價值的大量數據,而計算機性能的提高以及雲計算的出現使這種思路的出現更加容易實現,所以大數據才在這個年代火了起來。

另外提一點,我覺得對大數據而言同時也是將多種信息,比如消費信息與位置信息結合起來更直觀呈現給大眾的方式。利用高效的數據處理能力,做好數據可視化也是非常重要的。


要全體不要抽樣,要效率不要絕對精確,要相關不要因果


[一切的結果都是取捨的結果。]

這兩天粗讀大數據。發現了一個問題,提出了一個疑問。

發現的問題是:大數據與大腦有相關性。大數據在日常生活中已經開始應用廣泛,它的本質不是傳統的數據統計帶來的簡單的因果關係,而是數據的相關關係。在相關關係分析法基礎上的預測才是大數據的核心。這讓人自然會想到大腦的功能,每個人的思維就是一個大數據處理體系,如果有的人擅長去尋找不同事件之間發生的因果關係,那麼這個叫做因果錯覺,因果錯覺容易發生在女性身上,因為女性因性格敏感等特點,會不自覺的將事情發生的結果,採用自己主觀判斷來歸因,但事實上,事情之間的相關關係才是真正的關係。人的思維體系中,相關關係更加重要,相關關係代表調取大腦中的既往相關經驗,來處理眼前的事情,更加客觀。

大數據將開啟一次重大的時代轉型。信息廣速度快,是很好,可是這不是最重要的,最重要的是不要讓數據無處不在。大腦就像數據倉庫,在數據充滿我們的大腦、生活、生命中時,如果不去清理,不去遺忘,很容易一腦子漿糊,身心不舒暢。任何環境下我們都需要在紛繁的情況里簡化問題。

我的疑問是怎麼刪除。在這個信息碎片化的時代,如何做一個自我的搜索和過濾器,最好做成一個晶元,安放在我的手腕處皮膚下,這樣,我就可以快速的找到我想看到的東西,忽視噪音,更加直接的去感受和了解自己。因為路徑縮短,我便可以將時間放長,慢慢的去體會和感受,就好像小女孩慢慢的舔一個棒棒糖,而不是豬八戒吞一個人蔘果。這才是我要的密度和質量。

晶元是個玩笑, 出色的信息提取能力能夠促進一個人的決策,一個人的一念一息及多年慢慢形成的價值觀才是做選擇的依據。你是不是有和我一樣的經歷,上千張照片中,刪還是不刪是個問題。怎麼確定保留哪張,根據什麼原則,每個人都有不同的原則,有的人認為,人最全的一定要留,有的人認為背景全的一定要留,有的人認為留表情最好的,有人認為留姿勢最美的,甚至有的認為沒對好焦距的朦朧的才是最有意境的。而我應該最清楚我怎麼篩選,藝術家羅丹說,雕像就在那塊石料里,我只是將那些不要的東西去掉了。但是要知道雕像到底是什麼,只有我自己才明白我自己到底要雕什麼。看書也是一樣,書籍能使一個人瞥見這個世界的一角。是你自己選擇去瞥見哪一角。

對於大數據中垃圾數據的刪除和遺忘處理,早已有人考慮過這個大課題並書寫出來警醒大家。

對於個人生活中的刪除,我沒有找到特別好的方法,只能試試這樣考慮:取和舍。一切的結果都是取捨的結果。拿處理碎片化信息舉例,如何在微信圈中過度的被動文字中進行選擇,而不是失掉獨立思考的能力被一條又一條自動跳出來的新聞頭條,推送提醒,對話提示等所左右:1)減少重複閱讀的數量;2)選擇激發自己的動力和能量的內容閱讀;3)篩選過濾,超過10條都不會看的公眾號可以刪掉了,這代表你試錯成功,那原本就是你不需要的信息;4)限定時間,可以常規,但必須節制,減少刷新次數;5)嘗試每周至少有一天不看微信,將清凈歸還自己,不要讓一個功能控制了你,更不允許左右你的心情。彈性調整是對自我的一種負責。也是對自我是否足夠認知的衡量,越是了解自己越是容易根據內心變化和外在影響來及時調整狀態。

日本可能因為資源集中而緊缺,一直很倡導簡生活,最近很流行的一位日本女士所著的一本書《斷舍離》,將人身邊的外物採用各種方式進行清理,代表對內心的一種掃除力,從而保持一種簡約清爽的生活態度。還有很多其他方式對生活進行刪減,試試斷食(辟穀),試試冥想訓練,看網上寫過一個訓練,基本要求為整天不語,不帶手機,不帶手錶,拋開時間和事件和想法的概念,體會真正的當下,自己面對自己。

從心理學的角度,做出選擇-同時意味著捨棄其他的可能性-是一件異常困難的事情。造成這個困難的無非是利弊兩個字,但因利弊兩個字背後摻雜了太多的心理變數,因此難倒了古往今來多少英雄好漢。為了有能力更好的進行抽象的思考和決策,挑戰自我,嘗試一下刪刪刪刪的效果吧。

《互聯網周刊》主編姜奇平為《刪除》那本書寫了序言,頭一次想用截圖的方式給人看,生怕破壞對人家思想的精妙之處,一個序言可以寫成這個樣子,這讓人情何以堪。

參考書目

1、[英]維克托-邁爾-舍恩伯格著 盛楊燕 周濤 譯 《大數據時代:生活、工作與思維的大變革》 浙江人民出版社

2、[英]維克托-邁爾-舍恩伯格著 袁傑 譯《刪除:大數據取捨之道》 浙江人民出版社

我的公眾微信號:zhiweilai17,或搜索「致未來」


樣本=全體,大數據時代的說法


引用剛在linkin上看到一句話: Big Data is like teenage sex: Everyone
talks about it, nobody really knows how to do it, everyone thinks
everyone else is doing it, so everyone claims they are doing it too.


Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too.


想給「大數據」下定義的同學們先講一下「大數據」和以前「數據挖掘」的區別?如果這關都過不了就別好意思出去忽悠了


用關聯性推測可能性,用可能性體現預測性。


從用戶角度來看,大數據 就是 qq上的圈子、就是亞馬遜的推薦頁面、就是google搜索頁的文字鏈廣告。大數據就是讓商家能更好認識用戶喜好、減少用戶搜尋過程、提高用戶服務的工具。

從商家來說,大數據就是要實現數據的採集、存儲、清洗、轉化、分析、建模、反饋知識到系統,然後新的一輪採集、存儲。。。

從數據本身來看,大數據是在hadoop等分散式處理方法問世、各種nosql成熟後,在傳統數據挖掘基礎上更升華的過程。有了更大量的數據,挖掘演算法的樣本更充足,甚至數據過多,更側重關聯性!


有讓人窺探出很多曾經是隱藏著的秘密的趕腳~


整點兒新聞 · 手機界要出大事兒啦

最後一條說明,天上人間的員工都去東莞了


大數據就是基於大數定律啊,減小預測偏差。


我眼中的大數據是大而全的數據。通過它你可以用一切邊緣化的數據全方位去分析用戶行為。


其實沒啥好神秘的,就是傳統數據倉庫技術的衍生,加上對非結構化日誌數據的存儲分析,並把數據挖掘神化


你談或不談,數據就一直在那兒,關鍵是拿它幹啥,怎樣干。


通過技術分析把原本孤立的各種數據關聯在一起,分析後為行業生產和發展提供新的價值


目前公眾能直接利用的大概就是「百度指數」和「淘寶數據」。很好看大數據出版,OA是個趨勢


推薦閱讀:

測試比較 Hive, impala 和 shark/spark 的性能,可以從哪些具體方面入手?
數據分析師是程序員嗎?
近期的約網車服務通過隱藏號碼來保護隱私,這在技術上是如何實現的?對其他服務行業有怎樣的啟示?
單台伺服器中如何存放幾千萬張圖片?
1萬億條數據怎麼存儲和查詢?

TAG:大數據 |