大數據聽著很牛，實際上也很牛嗎？

12-31

就是收集很多用戶數據，用機器進行處理嘛，幹嘛整天吵得這麼high。傳統行業的數據，收集和分析慢，互聯網時代特別是移動互聯網時代，數據收集和分析都變得更快更智能，僅此而已吧。

建議來百度基礎架構部分散式計算組實習下~

--------------------------------舉個例子吧---------------------------

我有20個整數，一把全裝進內存，調用個sort，完事了。

我有2GB那麼多的整數，一把全裝進內存……恩恩，如果機器不那麼破，勉強也完事吧。

我有20GB那麼多的整數，對，往你家PC里多插幾條8GB的內存條試試？

那我現在有200GB那麼多的整數……看你丫的怎麼裝內存，哈哈哈哈哈哈！

嚇尿了吧！？寫外排序？你寫啊！It"s ONLY the beginning！很多人可是連內存里的快排都寫不出的哦~

200GB算個啥大數據啊，蒼老師的合集都不止咳咳……

OK，顯然我們已經意識到1台機器裝不下了。咋辦？多找幾台機器唄。多找幾台機器意味著啥啊？分散式計算懂不懂，連分散式都不懂說個毛大數據啊！！！

好，現在有200GB的整數，排個序吧……呃，給你10台機器吧。

1）這200GB的整數，如何分配？

2）這10台機器之間如何通訊？沒錯，我不止坑了你去寫外排序，我還得坑你去玩網路編程。

3）假設每一台機器上的數據都已經完全排好，如何多快好省地把各自排序好的結果merge在一起？

4）如何設計有效的merge邏輯減少10台機器之間的網路IO。

5）別以為10台機器不需要維護，萬一在排序的時候其中一台機器掛了，怎麼辦？具體包括但不限於：他在掛之前有響應其他機器發給他的request嗎？他在掛之前自身的任務完成了多少了？假設這台機器在掛的時候正在跟隔壁的機器互相傳輸數據腫么辦？

6）誰去監聽這10台機器的健康？或者是其他機器怎麼知道某台機器掛了？如果是連接超時，怎麼知道是網路阻塞還是目標機真的掛了？

７）如果某台機器真的掛了無法恢復，又或者由於隔壁的黃大牛要打魔獸了劫走了一台（集群升級，集群中的節點被臨時撤走的事常有哦），如何把那台機器上那20GB的數據分給其餘的9台？

如果數據不是200GB，而是2TB，2PB……

1）這麼大的數據，這麼大的集群，同一時間掛掉的機器數量可能會很多。如果這個集群用來做存儲（例如百度雲），怎麼保證用戶的數據不丟失？

2）如果這個集群用來做離線計算，怎麼設計調度程序提高每台機器的資源利用率，減少集群內的網路IO和儘可能地提高每台機器的響應速度？

3）我希望集群是可擴展的，最好架構能支持我只要簡單地增加機器數目就能擴充集群的計算和存儲能力，這個架構要怎麼設計？

建議題主有空去了解下mapreduce，hadoop，yarn，mpi，vfs等等內容。

傳統行業的數據，收集和分析慢，互聯網時代特別是移動互聯網時代，數據收集和分析都變得更快更智能，僅此而已吧。

只所以題主會這麼說，是因為題主作為局外人，能看到的就只有這些表面的最直觀的現象。一句簡單的「數據分析變得智能了更快了」的背後，實際上是無數人付出的勤奮、創造力、勇敢還有艱辛！

結論：技術蠻牛，體驗一般。

——————————————————————————————————————————

現在大數據被媒體一幫理工文盲玩壞了。。。覺得數據量大就是大數據，或者甚至裡面數字大也是大數據。。。。唉

請問統計個搜索量跟大數據有什麼關係......

所謂Big Data其實是有兩部分組成的。一部分是海量運算存儲能力，一部分是數據建模演算法。

第二部分其實是一個蠻久的學科了。20年前我們叫做statistical analysis，10年前叫data mining，5年前叫machine learning，最近叫big data。其實就是用數學建模的方法對過去的數據建模，以期可以預測未來的行為。比如netflix用你的歷史評分來猜你喜歡的電影，yelp用你歷史喜好來預測你的口味。。。

但是在之前人們發現雖然模型看起來不錯，但是第一海量的數據不好存儲，第二是超大型矩陣運算要很長時間，這對於一個需要快速響應的系統顯然是不行的。

最直接的方式就是提高硬碟和CPU的capacity，但是後來發現遠遠趕不上需求。於是大量的研究聚集到了並行計算的架構上。感謝google帶來的mapreduce和hadoop，碼農們有了一個標準化和廣泛接受的並行存儲計算框架。之前的bottleneck在近幾年突然被突破了，人們發現可以實時運算數據量瞬間達到了PB級別。面對這樣的海量數據人們提出了Big Data的概念。

另外一點就是互聯網的急速發展，一方面大帶寬促進了並行計算髮展，一方面人們越來越多的在網路發布自己的信息。這使得挖掘數據越來越成為一個有商業前景的技術。

下面來回答題主的問題：大數據到底牛不牛？

就並行計算來講確實很牛。但原理很簡單，就是把一個巨型的矩陣切片分給一個個小的機器來處理(Map)，然後把計算結果匯總處理(Reduce)。這樣不用提高單個核心的運算頻率的條件下，通過並行運算來達到速度加倍的效果。雖然說起來很簡單，但其中牽扯到的數據存儲方式、計算負荷分配等技術確實到近幾年才突飛猛進的發展完善。吐槽一下....看到有人說hadoop被sql虐。這很正常好嘛....能一台機器上解決的事情你分一堆機器做，網路不要時間么....

但是這些後台的東西，我們普羅大眾是感受不到的。我們能感受到是處理以後的結果，也就是模型的質量。這部分牛不牛，個人覺得其實一般般。

大數據應用比較廣泛的一個領域就是推薦系統(Recommander System)。其中很有名的事件是在2009年，netflix舉辦了一個獎金一百萬美金的比賽。netflix開放了一部分資料庫的用戶數據，要求每個參賽者根據這些數據預測這些用戶未來對影視作品的打分。但是結果如何呢？

這是當時的leaderboard，第一名的得分是0.86左右。什麼意思呢？就是他對用戶打分的預測有平均0.86的誤差。也就是說如果你給一個電影評分3.5，表示你還算滿意，結果預測是2.7，表示不滿意....而且最悲催的是netflix花了一百萬之後的來的模型，他們決定不用了，因為太複雜，運算起來不划算。當時他們自己的誤差是0.9以上。

值得注意的是這裡面沒有冷啟動問題。什麼意思呢？就是在test set裡面沒有出現新用戶。Yelp在去年舉辦了類似的比賽，其中就涉及了冷啟動的問題。就是要求模型在已知用戶基本信息（性別，地理位置，年齡...）而沒有歷史評分的情況下預測他們對飯店的打分。

看到了吧。結果更加差強人意。。。

這個結論最直觀的表現就是，我們在電商網站上經常會被推送一些莫名其妙的東西....

還有一個很火的概念是利用社交網站的sentimental data來預測市場走勢。我來給大家看一個利用社交網站數據來預測每分鐘股票價格的比賽....

這是比賽的結果，看上去不錯哈。

...這是簡單用上分鐘的收盤價來預測的結果。是不是很打擊.....

這方面反而不如簡單統計google關鍵詞搜索量來的表現好

這是最近一篇nature的文章。有興趣可以去看看。

簡單說，一頓飯吃一碗，是正常人；一頓飯能吃300碗呢。不就是吃飯嘛。是嘛。。是嗎。。。

小規模的數據分析，會有很大噪音。比如你不能因為看到1個人買了黃瓜又買了KY就說兩者有什麼關聯，但是如果幾百萬個用戶都顯示了這樣的關聯，那就能說明一些問題（？）了。可是數據量一旦上了規模，傳統的系統就沒辦法很好的處理了。

比如說你的電商網站每天有幾十G的用戶點擊數據，你希望知道定了鮮花的用戶是否也會購買避孕套，然後讓決定是否給杜蕾斯做推薦。你決定分析上個季度的用戶數據來作決策，不過這些數據結構鬆散，沒有索引，你家的Oracle把磁碟轉的吱吱響，轉了兩天終於給出結果說根據這個季度的歷史瀏覽統計，我們發現鮮花和避孕套有很大的正相關性，因此這個關聯推薦是有效的。你回頭跟老闆商量，他披頭對你一通罵，2貨，情人節是昨天！

阿里亞馬遜ebay這些，成千上萬種貨物，每天成TB的甚至PB的數據量，要對大量不同的貨品種類作分析和推薦，近實時地更新給用戶看；推特和Facebook這些，根據用戶發布的信息和行為模式，快速地分析整合數據給出精確廣告投放是這些公司生存的根本。

等移動互聯網或者物聯網更普及，數據量只會更大，結構更隨意，分析更困難。能從中找到有意思的信息，用傳統手段就更難了。

探探、陌陌上匹配了好多人

百合網、世紀天成也都註冊了賬號

然而就是找不到心儀的另一半？

互聯網+時代讓我們利用「大數據」這個黑科技

幫你找到匹配度100%的精準伴侶

本期男主角，35歲的頹廢理工男麥金利

凌晨三點，在加州大學洛杉磯分校（UCLA）數學系大樓五樓的一個擁擠小隔間里，只有一隻燈泡和一台計算機的屏幕發出光亮。克里斯·麥金利（Chris McKinlay）正在為他的博士論文《大規模數據處理和並行數值方法》跑程序。計算機發出嘎嚓聲，他點擊打開第二個窗口，檢查了一下他在交友網站OkCupid的收件箱。約有4000萬美國人使用Match.com、J-Date和e-Harmony等交友網站尋找浪漫戀情，35歲的麥金利就是其中之一。他身材瘦高，頭髮凌亂，自從九個月前跟前女友分手之後，他就一直都在尋找新戀情，但迄今為止都是徒勞無果。

OkCupid號稱可以用演算法找到跟你匹配的約會對象，麥金利已經向數十位匹配度不低的女性發送了私信，但大多石沉大海。只有6個人跟他見過面。

1.交友平台的運作方式 2012年6月的那個清晨，當麥金利的編譯器在一個窗口中顯示機器代碼，他的交友賬號在另一個窗口中默默發獃時，他突然意識到自己做錯了一件事：他之前就像其他普通用戶一樣使用網上交友服務。這時他覺得，自己應該像一個真正的數學專家那樣去尋找約會對象。OkCupid是哈佛大學數學專業的學生在2004年創建的，它最初吸引用戶的地方是可以使用演算法來匹配會員。會員需要做大量的多項選擇題，這些問題涵蓋了包括政治、宗教、家庭、愛、性、智能手機在內的方方面面。比如：「以下哪項最有可能吸引你去看一部電影？」「宗教或神對你的生命有多重要？」

問題總共有數千個之多。平均而言，一個用戶會挑選其中350個問題來回答。此外用戶還可以指定只接受潛在伴侶的何種回答，並用打分的方式說明這個問題對自己有多麼重要：0代表「不重要」，5代表「必不可少」。然後OkCupid的匹配引擎就會使用這些數據來計算兩個人的匹配度。百分比越接近100%就越匹配。100%表示你們是靈魂伴侶。

2.麥金利為什麼找不到女朋友？ 麥金利跟洛杉磯女性的匹配度簡直糟糕透頂。因為OkCupid演算法所使用的問卷問題，僅僅是雙方都選擇回答了的問題，而麥金利在選擇回答哪些問題時比較隨性。事實證明，他選擇回答的這些問題很多人都不會選。洛杉磯大約擁有200萬女性，其中約有8萬人使用OkCupid交友服務。但是查看一下麥金利的匹配列表，只有不到100名女性跟他的匹配度達到90 %以上。在交友網站上，匹配度就相當於可見度，麥金利的可見度如此之低，跟鬼魂也差不多少。麥金利意識到，他必須增加跟他匹配度在90 %以上的女性人數。如果可以用統計抽樣來確定哪些問題對他喜歡的那類女性來說很重要，他就可以修改自己的個人賬戶資料，老老實實地回答這些問題，不再去操心其他問題了。這樣一來，可能適合他的每個同城女性都會出現在匹配列表裡，而不適合他的女性一個都不會出現。

3.像個數學家一樣收集數據 首先，麥金利需要數據。就在那天凌晨，他的論文任務繼續在另一個窗口裡跑的同時，他設置了12個OkCupid假賬戶，並編寫了一個Python腳本來管理它們。這個腳本會搜索麥金利的目標人群（25至45歲之間的異性戀和雙性戀女性），訪問她們的網頁，並在她們的個人資料里搜集所有可用信息：種族、身高、是否吸煙、星座，所有一切。為了獲取問卷數據，他必須做更多的偵查活動。在OkCupid上，只有當你自己回答過某個問題時，你才可以看到別人對這個問題的回答。於是麥金利編寫了bot機器人來隨機回答每一個問題（假賬戶的目的不是用來吸引約會對象，所以它們是怎麼回答問題的並不重要），然後把目標人群的回答搜集到自己資料庫中。麥金利滿意地看著機器人忙忙碌碌。但是，在搜集了約1000份個人資料之後，他遇到了第一個障礙。 OkCupid採用了一個系統來防止這種數據收集活動：它可以輕而易舉地發現這種連續、快速的活動。麥金利的機器人一個接一個地被禁了。

Chris McKinlay 用 Python 腳本分析 OkCupid 的調查問題，並且把女性分成七大類，比如：「Diverse」 and 「Mindful,」，每類都各具特點。4.先立一個小目標 他必須訓練這些機器人，讓它們的活動顯得有人味。麥金利找到了他的朋友山姆·托里西（Sam Torrisi）。托里西是個神經學家，最近跟麥金利進行了「技能交換」：他教麥金利音樂理論，麥金利教他高等數學。托里西也是OkCupid的用戶，他同意讓麥金利在自己的計算機上安裝間諜軟體，跟蹤自己使用這個網站的方式。有了這種數據，麥金利就可以模仿托里西的點擊和打字速度給機器人編程了。

麥金利從家裡搬來了第二台計算機，把它接到數學系的寬頻上，讓機器人每天24小時不間斷地運行。三周後他就從全美各地2萬名女性用戶那裡搜集了600萬條問題和回答。麥金利現在一頭扎進了這些數據，完全把博士論文當成了副業。本來他就已經常常在小隔間里過夜，現在他幾乎不回公寓了，完全搬進了這個小隔間。到了睡覺的時候，只要在辦公桌上鋪上薄薄的床墊，就可以躺上去了。

5.把姑娘們都分個類

麥金利的計劃要想奏效，就必須找出問卷數據中的規律——根據數據的相似性，把女性分為大致幾個類型。

貝爾實驗室（Bell Labs）有個名叫K-Modes的演算法，最早是在1998年投入使用，用來分析病變的大豆作物，它可以把具有相似性的數據凝結在一起。

麥金利對它做了一些微調，以便調整結果的粘度。然後他用這個修改後的演算法來處理搜集到的問卷數據。

他調整刻度盤，發現了一個點，可以根據2萬名女性的問題和答案，把她們分成七個在統計學上具有明顯區別的類型。「當時我欣喜若狂。」他說。他給機器人重新分派了任務，以便搜集另一個樣本： 5000名在過去一個月內登陸過OkCupid的洛杉磯和舊金山女性。然後他再用修改過的 K-Modes演算法處理她們的問卷數據。結果這些女性用戶也以同樣的方式被劃分成七個類型，證實他的統計抽樣方法確實有效。

6.擼起袖子加油干

在這一步，麥金利的任務是選擇最適合自己的類型。他從每個類型中抽取了一些個人資料來查看。有一個類型太年輕，有兩個類型太年長，還有一個屬於基督教徒類型。有一個類型讓他很感興趣：她們大多二十多歲，看上去特立獨行，參與音樂和藝術活動。麥金利希望在這個類型中大海撈針，找到他的真愛。實際上，還有一個類型看起來也很酷——年齡稍大的女性，是創造性工作專業人士，比如編輯、設計師。他決定兩個類型都試試。於是他創建了兩份個人資料，分別為兩個類型做了優化。他對這兩個類型女用戶的文字信息進行了挖掘，以便了解她們對什麼東西感興趣。他發現教學是一個熱門話題，於是他寫了一篇自我介紹，強調自己是一名數學老師。

要引起這些女性的注意，麥金利還需要做另一件事。在OkCupid上，每當有人瀏覽你的個人資料時，你就會收到提醒。所以麥金利寫了一個新程序，專門去查看跟他的匹配率最高的女性用戶的頁面。這個程序按照年齡順序進行瀏覽：周一瀏覽1000名41歲女性的頁面，周二瀏覽1000名40歲女性的頁面，以此類推，一直到兩個星期後，瀏覽1000名27歲女性的頁面。在這些用戶中，有大約400名女性也反過來查看了麥金利的個人資料。結果私信滾滾而來。「我到現在為止還沒有遇到過算牌很厲害的人，我覺得你的個人資料很有意思。」一位女性用戶寫道。「我想跟你打個招呼。」「嗨，你的個人資料確實打動了我，我想跟你打個招呼。」另一位寫道。「我認為我們之間有相當多的共同點，也許不是數學，但肯定有很多其他方面！」「你真的能翻譯中文嗎？」還有一位問道。「我參加過一個中文培訓班，但效果並不好。」

7.約會，也要講究效率~

麥金利還為這場馬拉松式的戀情搜尋行動制定了一套個人規則，比如不要喝酒；時間到了就結束約會，不要拖拖拉拉；不要去聽音樂會或看電影。「把注意完全放在對方身上。」他說。「否則效率很低。」在第一個月，他同時約會A組和B組女性。一個月後，他不想再約會有紋身、住在洛杉磯東部的女性了，因為不想花太多時間在路上。於是他刪除了面向A組的個人資料。這下子他的效率提高了，但結果還是一樣。夏季即將結束，他赴約的次數超過了55次。每一次約會都被他盡職盡責地記錄在了一個實驗室筆記本上。只有三個人進行了第二次約會，只有一個人進行了第三次約會。大多數不成功的交友者都會覺得自尊心受損。對於麥金利來說，情況更是雪上加霜。他對自己的計算思路產生了些許懷疑。

8.真愛降臨

這時，他收到了王婷（Christine Tien Wang，音譯）的私信。她28歲，是一名藝術系學生，支持廢除監獄的活動，希望尋找一位6英尺（1.82米）高，藍眼睛，住在加州大學洛杉磯分校附近的男伴。她在這所學校攻讀美術碩士學位。他們的匹配度是91%。兩人在學校里的雕塑園見了面，然後從那裡步行到了校園裡的一間壽司店。他一開始就感覺跟王婷很投緣，兩人談論了書籍、藝術和音樂。王婷承認，在給麥金利發私信之前，她對自己的個人資料進行了調整，而這時，麥金利就把自己用程序和演算法尋找女伴的過程原原本本告訴了王婷。「我覺得這有點黑暗，有點玩世不恭。」她說，「我喜歡。」這就是麥金利跟88號女士的第一次約會。很快他們又進行了第二次約會，第三次約會。兩個星期後，他們各自暫停了OkCupid上的帳號。「我覺得，跟OkCupid上其他所有用戶做的事情相比，我只不過多用了一點演算法，活動規模更大一點，還使用了一些機器學習技術。」麥金利說。每個人都試圖創建最佳版本的個人資料——他只不過是擁有一些數據來幫助他做到了這一點。

更多好玩資訊，請關注大數據家Datatist微信公眾號碼字很累點個贊吧~

這兩年，「大數據」概念確實熱門，然而在國外的社交媒體卻出現了一段猶如神來之筆的描述：「Big Data is like teenage sex: Everyone talks about it, nobody really
knows how to do it, everyone thinks everyone else is doing it, so everyone
claims they are doing it too.」這段話雖然有些調侃的意味，但是也折射出當前人們對大數據依然了解不多的現象。中國人說外行看熱鬧，內行看門道。

題主覺得大數據

就是收集很多用戶數據，用機器進行處理嘛……傳統行業的數據，收集和分析慢，互聯網時代特別是移動互聯網時代，數據收集和分析都變得更快更智能，僅此而已吧

以下提一些自己的拙見。作為一個學渣小姑娘，在這兒答非所問還望前輩們海涵！

大數據到底牛不牛？

我覺得挺牛的，不然我的老師們以及小夥伴兒們以後怎麼混飯吃呀？

大數據對傳統統計學提出了挑戰，數據在海量增長的同時，我們熱駕馭數據的能力卻增長得沒那麼快。在數據有限的傳統統計學中，難點在於如何獲取數據，如何通過十分有限的數據得出結論，我們強調「以小見大」；而大數據時代，由於數據非常嘈雜，如何分離信息與雜訊就顯得至關重要，也就是說應該強調「由繁入簡」。同時，一些傳統的方法也不見得適用：首先，傳統的統計學很注重樣本的隨機性，這使得我們得到的數據不會有太多雜訊的衝擊。但是到了大數據時代，樣本等於總體，統計處理將面臨許多非隨機數據，如何剔除雜訊就成了十分突出的任務。其次，人們總是受到現有測量、認知和分析工具的局限，我們現在所擁有的知識較之明天就顯得微不足道了。我們今天所使用的傳統的統計方法，可能在大數據的背景下就存在著缺陷，如何改進現用方法，發掘新的方法仍是統計人需要探索的問題。不僅如此，大數據還強調以相關分析替代原來的因果分析的趨勢，而且大數據研究的相關關係不僅是最簡單的線性相關，還能能是非線性的、甚至函數形式不明確的相關。

在之前參加的建模比賽或者寫論文的過程中我發現，因為有些變數雖然對被解釋變數起到一定的影響，但是由於該變數的數據是從近些年才有的，無法跟其他更為重要的解釋變數保持時間上的一致性，就不得不將這個變數捨棄。也就是說，傳統的計量經濟學建模中，數據的收集實在關鍵，不管之前對於解釋變數的選擇如何自認為合理，如果找不到數據也是悲劇。但是在大數據時代下，基礎數據的收集的問題就不是那麼明顯，關鍵在於統計數據的處理。這種轉變也是革新方法的重要性的體現。拿得到數據固然好，關鍵是要懂得用才行啊。

大數據還有一點好處就是它轉變了我們傳統研究問題的思路。因為在上學期計量經濟學課上，我們就學習到了所謂計量經濟學其實本質上還是一門基於經濟理論的學科。在建模設定變數的時候，首先要從現實生活的角度考慮變數之間的因果關係以及相互影響關係，然後才是收集數據。但是大數據時代應該是反過來，是數據驅動研究問題。因為現實生活中我們可能有很多問題都無法用現有的科學來解釋，但是數據中可能蘊含著我們沒能解釋的信息。未來可能會出現統計學家、數據科學家之類的人即使自身缺乏例如生物、語言文學等方面的專業知識，也能通過數據驅動解決相關問題的現象。

即便大數據呼聲甚高，我對大數據持有一些保留意見：

首先，我並不認為數據的海量增長是好事。因為數據的存在是幫助人們分析與決策，但是事實上，有論文聲稱數據中雜訊的增長速度要比信號快得多。人們研究分析方法的速度趕不上信息增長的速度，要說駕馭數據，談何容易？而且數據只是得到真相的必要條件，而不是充分條件。無數據則無真相，不代表有數據便有真相。因為如果你無法分離數據中的有用信息與雜訊，就很可能被雜訊干擾，得到虛假信息自己卻不知情。由於團隊分工導致並不是團隊中的每一個人都對研究總體都有把握，可能收集數據的人並不清楚使用數據的人要做什麼；而使用數據建模的人也不一定明白這些數據到底是怎麼得到的；最後使用模型的人也許不一定清楚中間的步驟包括數據的來源和模型建立的過程。所以我覺得出現「小數據戰勝大數據」的現象不是不可能的，就像之前有答主表示：

我聽說我們這裡有個做hadoop的team被一個用Sql的team虐了

竊以為數據的量不是本質，本質在於數據所承載的信息。但由於大數據具有稀疏性，數據往往非常嘈雜，很難從數據中將信息與雜訊分離。那麼就很可能出現通過大數據做出的判斷與結果背離的情況。比如收到雜訊的干擾會做出過擬合的選擇。因為數據不代表真相，只有有用的信息才是決策的關鍵所在。

其次，我覺得大數據的信息來源還存在著局限性。首先，目前網路並不能覆蓋生活的全部。依然存在一部分人群與網路的聯繫不密切。如果單憑網路數據就對信息做判斷，其實是很片面的。

還有關於在不少關於大數據的書籍或是論文中強調的以相關關係替代因果關係的說法。作為一個學渣，我表示不太明白這點。因為目前計算機所作出的都是相關關係的判斷，而無法提供給人類明確的因果關係。這個當然很可能是因為我的孤陋寡聞不知道。但是基於我自己當前的知識積累，感覺人類在利用計算機進行數據處理的時候，基本上都是由計算機給出的基礎之上再加以人為的因果判斷。哪怕是格蘭傑因果檢驗，雖然沒學過，但是我個人理解其實質也不是反映兩個變數之間的因果關係，而是「依賴於使用過去某些時點上所有信息的最佳最小二乘預測的方差」。因此在多數情況下，比如在學習多元統計、計量經濟課程的時候，我們還是考慮變數之間的相關性。但是相關不代表因果。這就跟女士的裙長和股市漲跌一樣，不是說女士裙子越短股市就越能往上走的。而大數據就真的沒運用到因果關係嗎？我覺得也不是這樣。比如說之前谷歌通過大數據做的流行病預測，其實還是運用了因果關係。谷歌就是假定人們去網上進行相關搜索的原因是人們自己或者身邊的人出現了相關癥狀。我覺得這個世界是不可能單純地依靠「相關性」來決策的，因為這違背了人類的好奇心。事物之間相關性越大，就越是讓人想要知道這背後的原因。對我來說，僅僅基於相關關係而不考慮背後的因果關係的決策有點空中樓閣，不太靠譜。因此我不認為因果關係會退出歷史舞台。

所以說大數據到底牛不牛？我覺得挺牛，但是牛得有缺點。：）

占坑慢慢答。我就是從事DT行業的。

從你的表達上能看出，你只認識到它的量變沒認識到質變。

如果針對消費者市場，DT的目標是對每個消費者有清楚的認知和跟蹤。你年齡、身高、家庭背景、收入水平、信用水平等等這些表面的客觀的信息自不必說，你此刻在哪裡喜歡什麼顏色喜歡什麼風格想要什麼東西，我們都想知道。我們會在你正在路過的廣告屏、正在看的視頻網站、正刷的APP，所有這些界面上呈現信息，引導你消費。甚至是當你想買一個東西下單二十分鐘就到你家門口了，因為我早就預測到你什麼時候想要什麼了，所以幾天前預測到就提前發貨到你小區的提貨點了。

這樣的精準的服務，以後對消費者而言當然是習慣了就不再記得它有多偉大。就像過去的工業革命，只有經歷那個時代的當事人那個時代的締造者們才會對那些創造充滿激情，而我們對隨手可得的電和各種電器還會有什麼驚喜嗎。

傳統的數據行業，一沒有足夠強的數據獲取能力，二沒有足夠強的數據加工能力。包括以前靠預測總統大選起家的那家公司，他們的採樣是局限的，比如寄調查問卷，調查問卷這種採樣是難以重現真實的（口是心非），而且基於傳統的小樣本統計方法。而且他們的數據處理能力也實在太有限了，有限的計算能力和能力有限的模型（模型也是被計算能力制約的，大規模複雜的模型只能靠現代的甚至未來的大計算能力）。

我們的採樣是你無法說謊的，你點擊、瀏覽、地理信息等等這一切行為都在眼皮底下發生。這是大數據的第一個「大」，維度大。

我們的採樣是覆蓋幾億人口全天候的。這是大數據的第二個「大」，數量大。相對傳統的抽樣小樣本集而言，我們這叫全樣本。

單就這兩個「大」，就帶來了數據的質變。

再看數據加工。傳統的加工，恐怕多數人靠Excel吧（所以能用Excel搞的都不要吹成大數據，每次郎咸平說「看我們大數據」，我就「呃……」）。我們采一天的數據就能撐爆幾萬台你們家裡的電腦硬碟。至於計算嘛，你想像一下對這個數量級的數據矩陣做個最簡單的矩陣分解要怎麼實現。這是機器的能力。人的方面，現在很多傳統的搞這些的統計方向的人經常會說，「唉，現在都搞演算法去了」。沒錯，演算法就是人與機器協作的溝通方式，所以我們的外號叫「機器鼓勵師」。只有和機器深度合作，才能得到更高的生產力。

這一切，在消費者的眼裡，也許也不是那麼的了不起，不就是一下單馬上就到嘛，不就是各種方便嘛，怎樣還不是一樣的活。但是這對商業而言卻是驚天動地的。過去你賣衣服的，你的周轉庫存和滯銷庫存恐怕吃掉了你一半的利潤都不止；一旦有了這個精準大殺器，你的庫存幾乎可以忽略了。過去你搞設計的，你耗盡心力設計出來的作品很可能在市場上得不到認可；一旦有了這個精準大殺器，其實消費者的數據會告訴你他們要什麼，你設計師錦上添花就好，真正的設計者其實是消費者自己。過去你搞營銷的，投入一大筆錢搞個營銷方案，結果收效甚微；一旦有了這個精準大殺器，營銷的投入風險就低多了。大數據帶來的精準對商業的影響是方方面面的。你和我都賣衣服，我價錢甚至比你低三分之一，利潤都可以比你厚。這簡直是碾壓，是新時代對舊時代的淘汰。

除了商業，還有大量別的用處，都將深刻地改變世界。比如個人徵信，這會使個人和小商家的融資成本降到接近地面；反洗錢；反金融作弊；打擊恐怖組織；保障國家安全（911事件不要再發生）。太多太多，這些都會深刻地改變世界的運作方式。

與其把大數據看作處理很大數據集的技術，我更傾向於這樣描述「大數據」：

當數據增長速度超過了計算機處理能力的增長速度，這時就產生了「大數據」問題，好比馬車怎麼也趕不上汽車，更別看汽車後備箱裡面裝了什麼東西。當前流行的Hadoop等工具集、MapReduce等方法有效地形成一套可以靈活擴展的解決方案，允許用空間（集群規模）換取時間（運算時間），通過良好地管理，集群的處理能力能夠跟得上數據的增長速度，由此允許人們處理更大的數據（趕上汽車），從中提取出小數據所無法獲得的信息與價值（發現汽車後備箱裡面藏的東西）。

然而，集群可不是那麼好管理的，其中涉及到大量的技術問題，比如如何存放這些數據？我們如果關心數據安全，就要考慮如何管理和處理數據冗餘，如何讓集群的協同運行更加高效等等。事實上，這整套工具集仍然在不斷地發展、擴充，可以看看社區的進展，新的工具層出不窮，這就在技術上為人們處理增長速度這麼快的數據提供了可能性。

但是光有這種技術保證是不夠的，就好像你也開了一輛車追上了那輛汽車，但不代表你就能發現那輛車後備箱裡面藏的東西。「大數據」真正發揮作用的，是數據中的信息，這些信息才是有價值的，難點就在於，在有技術能力的前提下，如何能夠更「科學地」提取出這麼大堆數據中的信息？統計模型？數據挖掘？工具的使用，往往伴隨著濫用，得出似是而非的結論，導致做出錯誤的決策。這些都是人們需要解決的問題，而計算機目前是不會自動去解決這些問題的。

從技術實現上來講是非常牛的。

從分析結果上來講還是有待進步……

謝邀

把真相都說出來，讓我們怎麼出來賣！

我不一定吧，我聽說我們這裡有個做hadoop的team被一個用Sql的team虐了。。

原因當然是因為數據少。。。。。。。。。。逃)。。。

就像上面所說，如果上tb級別的數據排個序，你在用sql試試

青少年的性活動聽起來很牛嗎？實際上很牛嗎？

大數據是近兩年被反覆吟唱的一首驪歌。自從1980年，著名未來學家阿爾文·托夫勒在《第三次浪潮》一書中將大數據熱情地讚頌為「第三次浪潮的華彩樂章」開始，IT界就不斷的為之傾倒。不過，「大數據」真的闖入凡人世界成為這個時代的流行辭彙還是從2012年開始。從baidu指數當中可以清晰地看到，「大數據」在2012年6月之前還處在默默無聞階段，自此之後「大數據」指數一路飆升。

對「大數據」概念的解讀卻一直不停的變化和遊離，直到今天，仍然有很多解釋讓人摸不著頭腦。Gartner給出了這樣的定義：

「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

高大上的諮詢公司給出的定義永遠是那麼不明覺厲,這個定義把「大數據」描述成了未來的模式，但又不去闡明，簡直是地地道道的胡扯。

在我的認識中，「大數據」不過是世界信息化的一個新階段。當我們了解到，世間的一切從本質上都是信息的時候，通常意義上所講的「信息化」就是信息的數據化。從早期的文字和珠算時代開始，數據在刻畫世界的路途中走過了漫長的低速時代。隨著印刷術、造紙術的發展，信息化就已經提速了，當其傳播和儲存仍然是依靠低速轉移低密度存儲的物理介質。直到上世紀50年代，隨著計算機的發明，數據以更本質的0-1編碼方式存儲在高密度的電磁介質上。互聯網的到來，將數據的移動速度從步行變為了光速。越來越多的「信息」被轉化為「數據」加以存儲、傳輸和處理。這項工作，最開始人們感覺到可以掌控並加以利用。但是，當傳統意義上世間萬物以驚人的速度「數據」化，並以無法預期的路徑傳輸的時候，人們被四面八方呼嘯而來的數據所震驚，並陷入了無盡的恐慌，隨之發出本能的吶喊——我們要處理它、利用它！

這個呼嘯而來的無窮無盡的數據災難，以及對它的分揀、分析、處理，成為新的時髦。當我寫下這段文字，並傳送到網路上，由各種雲計算的演算法和平台分發到全球。在此過程中，我的讀者和文章的分享者如果不停的在轉發和評論，這一切沒有邊界、沒有終點。無數個我出現在網路上成為信息源，也有無數個我出現在網路中成為信息宿，而那些網路中的平台不但負責傳遞，同時也負責處理，並成為信息源和信息宿。在這個大而無界的網路當中，信息失控成為「大數據」。

正如凱文凱利所提到的活系統的普遍規律：低層級的存在無法推斷出高層級的複雜性。實際，這個世界已經在互聯網的擺布下自組織成了新的「大數據」活系統。而當我們妄圖以個體的視角去定義「大數據」的時候，我們頓時語塞無以表達了。

換而言之，我們去破解「大數據」密碼的時候，是否有考慮過我們是否需要這些「大數據」。這裡面隱含的文化因素是我們要以創造者的身份去利用和駕馭這些滾雪球般噴發出來的「大數據」。然而，我們這種「他組織」的想法就會陷入無盡的混亂和嵌套中，在沒有邊界的數據中尋找規律，在沒有終點的數據中挖掘邏輯。這是荒謬而錯誤的。

我武斷的認為，「大數據」應該這樣玩：

1.找到最簡單的需求

面對「大數據」的時候，控制的慾望讓我們忽略了我們真正需要和關心的需求，在無窮無盡的數據海洋中貪婪的捕捉。在「大數據」的時代，任何基於簡單需求的技術發明或應用程序都是有效的，但任何廠商或個人也都無法形成「大數據」的一站式解決方案。

2.找到最低限度的數據邊界

在海量數據當中，基於簡單的需求用直覺找到你所需要的數據邊界。那些你認為無用的數據就不要過於操心了，因為你根本處理不了那些看似相關，而你卻無法理解的數據信息。如果你是個倉庫主管，那麼品類、數量、貨位、需求計劃、採購計劃這些信息已經足夠了。如果，你了解數學和協同學的一些知識，你可以用序參量的角度來分析這個問題，在一個複雜函數中，對函數結果起主導作用的是少數變數——序參量。

3.快速的處理數據

當最低限度的數據邊界找到後，保證數據的快速處理就是你的能力所在。盡你的最大可能快速與客戶、設備、平台基於這些數據進行接受和反饋，將分析和決策工作與執行行動實時對接。

4.人的參與

「大數據」的天書中充滿了對演算法和技術的痴迷——但如果你希望解決的是你的問題，那麼你就必須參與其中。因此，妄圖讓「大數據」消滅自我存在意義的懶漢們可以醒醒了，你必須參與到數據的處理當中，同時能夠理解這些數據和數據處理的意義，才能放心的處理它們。

懷著好奇心，我又在baidu關鍵詞中對比了「大數據」和「雲計算」的近幾年趨勢，發現了一個有意思的曲線，2012年「雲計算」熱度消退後，「大數據」走上了前台，但卻再也沒有恢復到「雲計算」的高度。這是不是表示「大數據」是「雲計算」概念落空後的一餐冷飯呢？也許，誰知道呢。

二維碼是一個入口，很多人刷過二維碼。

現在有人刷人臉，人臉也是一個入口。將人臉識別和大數據結合起來，可以得到下面的挖掘結果：

左側是在公交上拍攝陌生人的人臉，然後通過大數據將人臉匹配，可以得到陌生人社交信息，然後就不是陌生人了。

引用地址：

Конец анонимности: Идентификация случайных попутчиков

我感覺現在大家說它牛主要指兩個方面：

第一是傳統的技術搞不定大數據了，有新的工具技術出來了，這些技術很牛；

第二是當大家發現基於以上的工具可以處理大數據了，原來不敢想不敢做的現在敢了，敢收集更多的數據（包括隱私）了，會得到原來意想不到的挖掘效果，知識發現能力提升了，這個牛；

在萬物互聯的今天，數據本身作為企業的資產，如何運用起來將是核心議題。而且大數據在很多領域都涉足到了。

1、政府機關

實時跟蹤、採集與業務工作相關的信息。
全面滿足內部工作人員對互聯網信息的全局觀測需求。
及時解決政務外網、政務內網的信息源問題，實現動態發布。
快速解決政府主網站對各地級子網站的信息獲取需求。
全面整合信息，實現政府內部跨地區、跨部門的信息資源共享與有效溝通。
節約信息採集的人力、物力、時間，提高辦公效率。

2、企業

實時準確地監控、追蹤競爭對手動態，是企業獲取競爭情報的利器。
及時獲取競爭對手的公開信息以便研究同行業的發展與市場需求。
為企業決策部門和管理層提供便捷、多途徑的企業戰略決策工具。
大幅度地提高企業獲取、利用情報的效率，節省情報信息收集、存儲、挖掘的相關費用，是提高企業核心競爭力的關鍵。
提高企業整體分析研究能力、市場快速反應能力，建立起以知識管理為核心的「競爭情報數據倉庫」，提高核心競爭力。

3、新聞媒體

快速準確地自動跟蹤、採集數千家網路媒體信息，擴大新聞線索，提高採集速度。
支持每天對數萬條新聞進行有效抓取。監控範圍的深度、廣度可以自行設定。
支持對所需內容的智能提取、審核。
實現互聯網信息內容採集、瀏覽、編輯、管理、發布的一體化。
4、應用信息系統
- 垂直搜索引擎
- 網路輿情監控系統
- 競爭情報分析系統
- 行業知識庫

一、大數據的應用

大數據挖掘商業價值的方法主要分為四種：

客戶群體細分，然後為每個群體量定製特別的服務。
模擬現實環境，發掘新的需求同時提高投資的回報率。
加強部門聯繫，提高整條管理鏈條和產業鏈條的效率。
降低服務成本，發現隱藏線索進行產品和服務的創新

二、大數據的定義

大數據(Big Data)是指「無法用現有的軟體工具提取、存儲、搜索、共享、分析和處理的海量的、複雜的數據集合。」業界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數據的特徵。

三、大數據的價值

了解了大數據的典型應用，理解了大數據的定義。這時相信在每個人的心中，關於大數據的價值都有了自己的答案。

2010年《Science》上刊登了一篇文章指出，雖然人們的出行的模式有很大不同，但我們大多數人同樣是可以預測的。這意味著我們能夠根據個體之前的行為軌跡預測他或者她未來行蹤的可能性，即93%的人類行為可預測。

Limits of Predictability in Human Mobility
A range of applications, from predicting the spread of human and electronic viruses to city planning and resource management in mobile communications, depend on our ability to foresee the whereabouts and mobility of individuals, raising a fundamental question: To what degree is human behavior predictable? Here we explore the limits of predictability in human dynamics by studying the mobility patterns of anonymized mobile phone users. By measuring the entropy of each individual』s trajectory, we find a 93% potential predictability in user mobility across the whole user base. Despite the significant differences in the travel patterns, we find a remarkable lack of variability in predictability, which is largely independent of the distance users cover on a regular basis.

而大數定理告訴我們，在試驗不變的條件下，重複試驗多次，隨機事件的頻率近似於它概率。「有規律的隨機事件」在大量重複出現的條件下，往往呈現幾乎必然的統計特性。

舉個例子，我們向上拋一枚硬幣，硬幣落下後哪一面朝上本來是偶然的，但當我們上拋硬幣的次數足夠多後，達到上萬次甚至幾十萬幾百萬次以後，我們就會發現，硬幣每一面向上的次數約佔總次數的二分之一。偶然中包含著某種必然。

隨著計算機的處理能力的日益強大，你能獲得的數據量越大，你能挖掘到的價值就越多。

實驗的不斷反覆、大數據的日漸積累讓人類發現規律，預測未來不再是科幻電影里的讀心術。

如果銀行能及時地了解風險，我們的經濟將更加強大。
如果政府能夠降低欺詐開支，我們的稅收將更加合理。
如果醫院能夠更早發現疾病，我們的身體將更加健康。
如果電信公司能夠降低成本，我們的話費將更加便宜。
如果交通動態天氣能夠掌握，我們的出行將更加方便。
如果商場能夠動態調整庫存，我們的商品將更加實惠。

最終，我們都將從大數據分析中獲益。

四、結束語。

Here"s the thing about the future.關於未來有一個重要的特徵

Every time you look at it,每一次你看到了未來

it changes because you looked at it.它會跟著發生改變因為你看到了它

And that changes everything else.然後其它事也跟著一起改變了

數據本身不產生價值，如何分析和利用大數據對業務產生幫助才是關鍵。

祝每一個DMer都挖掘到金礦和快樂：）

謝邀！

我這麼跟你說吧！喝醉酒的人一般說：「我沒醉。」

天天大數據掛嘴邊的人，事實上未必真了解這個行業。

沒看很多回答，但小弟還是先來佔個坑。

大家還沒有說大數據的時候，人們其實已經用那些技巧用了很久，如建模、機器學習等，這些都不是什麽新東西，都是用來處理數據。為什麽處理理數據？因為要解決科學或商業上的問題。

能否解決這些問題，還是看那人對問題的了解和洞見，而不是技術。

後來，因為科技日新月異，大家拿到了更多數據，如Google和Facebook有大量數據要處理，天文學在上世紀末也留下天文數字計的數據要分析。如何用那些數學工具，方便地做並行計算，便成了問題。這也是為什麽Hadoop之類的東西火紅起來的原因。我們在這時候才開始說「大數據」的。

「大數據」是一個buzzword，我也答不上什麽牛不牛。如果你說自己做大數據但說不了自己實際是做什麽問題的話，那你是有點問題的。

還有，「大數據」這個字人人了解都不同，我聽說過有人說做deep learning才算做大數據，我心裡就呵呵了??

我說個實驗吧

我手頭有1400萬條6個column的記錄。每條平均250B。

我i3+8GB+普通機械硬碟。從csv倒入數據到自己的本地mysql用了40分鐘。這還是拆成100萬一包弄的。（提一句，系統自帶的記事本無力打開25萬條的數據，notepad++無力複製粘貼超過40萬的數據）

一個簡單的顯示1000條數據需要1秒多。。

datafile才4GB左右吧。沒細看。

---------

增刪改之類的這幾天會做數據清洗。到時候我來更新。

------------

這對於百度醬連小兒科都不是。

大數據我認為最重要的用途就是行為分析和預測。如果你掌握一個人或事情的精確過往生活記錄，你不難去預測這個人或者事情的下一步行為。但一個人的全部過往記錄可能動輒10GB以上。而如果你掌握了中國1億主流網民的記錄，那麼預測這個網路的未來也不是難事。

不過還需要注意的是預測運算速度，為了預測下一分鐘的事情，要花掉1個月去運算，顯然並沒有價值。

數據量+預算速度=可感知的未來

如果未來一個人的全部記錄乃至部分想法都會電子化，並且機器學習理解了人的感情這一重要變數。

那麼

數據量+預算速度+一定的環境操控=可定義的未來