什麼是大數據？

12-29

大數據只是一個空洞的商業術語，就跟所謂的商業智能一樣空洞無物。當然，這並不是說大數據沒有意義，只是對於不同的人有不同的含義。

對於投資人和創業者而言，大數據是個熱門的融資標籤。就和前幾年流行的 SoLoMo，這幾年火爆的 P2P 一樣，大數據是資本泡沫的催化劑。如今任何一家（移動）互聯網公司都忙著把自己標榜為大數據公司，或者乾脆說自己是一家數據公司。遺憾的是，大多數中國的互聯網公司都是流量驅動的企業。與其說這些公司是大數據公司，不如說它們是數據採集公司。是的，每一家互聯網公司都是數據公司，因為數據（Data）是比信息（Information）要狹隘得多的辭彙。換句話說，任何一家 IT 行業的公司天然地都是數據公司。但是非 IT 公司同樣可以是數據公司，例如房地產企業和汽車銷售公司——畢竟他們優質低價地將顧客的信息轉賣給任何感興趣的個人或實體。遺憾的是，中國並沒有幾家 Pure-Play 的數據公司，因此中國不太可能出現 Palantir 這樣偉大的企業。我不幸見過一兩家國產獨角獸企業的技術/數據負責人，他們似乎並不了解這家 CIA 投資的創業公司，但這並不妨礙他們把自己的公司定位為世界級的大數據公司。我可以臆測，國內這些獨角獸企業的道德底線遠遠低於（為美帝情報機構服務的） Palantir，只是它們還沒有足夠的人才和技術來充分挖掘數據中的有效信息。

對於大多數互聯網公司或者工程師而言，大數據實際上只有一個意思，就是把一堆亂七八糟的數據扔到 HDFS 上面然後進行計算。計算的工具有很多，最常見的是 Map-Reduce，但是技術一直在演進，現在還流行 Impala、Spark、Presto 什麼的。對於這些搞大數據的工程師而言，這是一個非常好的事情，因為要把這麼多異構的數據和系統跑起來，需要很多人寫很多代碼，還需要有人來做運維。這麼一個部門總得需要幾十台機器否則還不如單機計算能力強，工程師也得有十來人。然後可能還需要數據分析師，否則這部門跟擺設也沒什麼區別。如果系統做得不錯數據量也有了，總得配個數據科學家搞點數據挖掘或者機器學習什麼的吧。所以大數據這件事情可以解決很多就業問題，畢竟很多上了規模的互聯網公司都想搞大數據。

但是對於消費者或者互聯網所謂的「用戶」來說，大數據卻是另外一個意思。大數據的意思就是儘可能地搜集跟終端消費者相關的隱私，然後進行營銷。從理論上說，大數據公司通過搜集用戶行為，可以更好地了解消費者的需求，增強用戶體驗。但是在實踐上，這些所謂的智能推薦還停留在很初級的階段，因此會有人在淘寶上搜索棺材結果在微博上不停地看到跟喪葬相關的廣告。對於微博這樣的公司，還意味著它會傾向於通過直接或者間接地暴露你的隱私來獲得商業利益。據說，評價一家國內公司的大數據能力是跟被查水表的頻繁程度正相關的。就目前而言，大數據對於終端消費者更多的是「被實名」。舉一個例子，如果你在 Android 手機上使用 Facebook 賬號訪問某個 App，那麼對不起，你在這個手機上的所有行為都有可能被 Facebook 關聯到你真實的身份上。在這種能力上，國內的三巨頭排序大概是 T &> A &>&> B。所以最後這家公司的 App 特別流氓甚至超越了數字公司，如果你想幫幫這家公司就多用用他家的地圖或者訂點外賣。

關於大數據和隱私，最核心的問題在於標識（Identity），尤其是所謂的 PII （Personal Identifiable Information）。但是要對用戶進行追蹤並不一定需要 PII，任何一個強度足夠高的隨機數都可以用來追蹤單個用戶。在 Web 時代，由於 Cookie 的生命周期問題，對用戶進行長期追蹤並不是很容易。但是最近幾年，越來越多的公司使用 Flash 來進行追蹤，最終演進成一種叫做數字指紋的技術。要解釋這些技術需要一些應用數學背景，知乎上應該可以找到相關的問答，我就不贅述了。我很想系統地講述在使用桌面瀏覽器上如何保護自己的隱私，但是似乎離題太遠了。但是我還是想提醒一句，在桌面瀏覽器上最有效的安全習慣就是禁用 Flash（當然，如果你出於安全裝了數字公司的軟體，那麼你可以假裝我說的都是廢話——畢竟數字公司連你開機時間這種信息都不放過，更何況這家公司可是以所謂的「厚數據」而聞名的）。

身份到底有多重要呢？我可以說說我自己的一些非理性的習慣。大多數地鐵一卡通都是不記名的，但是我以前會定期地破壞一卡通，從而避免在一卡通里積累過多的數據。但是由於我並不能很頻繁地換卡，所以我這樣的非理性行為是毫無用處的——你只需要讀讀我的卡就知道我住在哪裡又在哪裡上班，誤差不會超過兩公里。從技術上說，任何一張非接觸卡都可以可能用於追蹤我的身份，以及我所在的時空坐標。雖然我知道目前的技術並不能在超過一米的距離上讀出我隨身攜帶的卡片，但是我仍然把我身上所有的非接觸卡放在一個金屬的名片盒中。作為一個足夠偏執的人，我更相信物理隔離。遺憾的是，這些非理性的習慣在移動時代都是徒勞的。

在移動時代，身份問題變成了最嚴重的問題，因為智能手機在很大程度上是私人設備。大多數人都隨身攜帶這些設備，這就意味著設備的標識和個人幾乎是一一對應的。在這個問題上，就連蘋果公司都沒能意識到其嚴重性，以至於在早期的蘋果設備上有一個接近完美的唯一硬體標識（UDID）。這就意味著所有的 App 開發者都可以使用這個標識來追蹤設備和交換數據。換句話說，只要你在一個 App 中使用了 Facebook 賬號或者提交了電話號碼，那麼你在這個設備中的所有行為都有可能被關聯到你的 PII。蘋果直到兩年以前才堵上這個漏洞，並通過所謂的 IDFA 來替代 UDID。我並不喜歡蘋果公司，但是我在這裡提這個案例並不是為了貶低蘋果公司。事實上，蘋果公司是所有的智能手機製造商中最尊重用戶隱私的那一家，沒有之一。原因很簡單，蘋果公司並不是一家互聯網公司，它是通過向消費者出售手機來獲利的。蘋果公司的硬體利潤非常高，它不需要通過 App Store 和廣告來獲利，因此 Tim Cook 才會有底氣地討論消費者的隱私問題。而 Google 則不同，它是一家廣告公司，它甚至會通過分析用戶的郵件來進行精準廣告投放。我並不想把 Google 妖魔化成一個侵犯消費者隱私的寡頭，但是 Google 的不作為讓 Android 成為了地球上最偉大的監控平台。Android 上的確沒有 UDID 這麼高質量的標識，但是它允許開發者直接獲取 IMEI——利用 IMEI 理論上可以通過運營商獲取手機號碼，並且進行實時的監控。此外 Android 還允許開發者獲取 MAC 地址和 Android ID 這些標識，而前者可以用於基於 Wi-Fi 的地理位置定位。這些看起來很糟糕，但還不是最糟糕的，因為 Android 還允許開發者獲取安裝應用列表、正在運行應用列表。換句話說，Android 不僅允許開發者監控自己的 App 使用情況，還可以監控其他的 App 的使用情況，這可是字面上的情報工作。這些在技術層面上都是 Android 允許的，對於已 Root 設備或者能夠利用漏洞提權的 App 而言，Android 提供的想像空間幾乎是無限的。

有些讀者評論扯 Google 的 IDFA 對應物，那我舉個 Google 平台上的栗子吧：

近日，多個與TalkingData合作的廠商表示在Google Play發布的產品於2016年5月25日凌晨陸續被下架。且下架的說明郵件里稱：「違反了開發者條款」並指出是TalkingData的SDK的問題所導致。
TalkingData回應SDK導致下架：GooglePlay審核調整

這家公司更是毫不掩飾地展示自己侵犯隱私的能力：

TalkingData-行為地圖

那麼問題來了，大家覺得他們的數據是哪裡來的呢，是蘋果用戶還是安卓用戶呢？

為了避免引起恐慌，這家公司的客戶主要是某些銀行和遊戲，市場覆蓋率並不是特別高。BAT 任何一家擁有的隱私數據都能秒殺這家公司，所以大家請保持內心的平靜，睡覺前多玩玩手機。

想像有這麼一家智能手機廠商，它以極低的價格出售 Android 智能手機，它還聲稱自己是一家互聯網公司，並且標榜自己是一家大數據公司。那麼，這樣的公司為什麼會銷售無線路由器呢？其實我說的不是國內的公司，而是 Google。當然這並不是什麼秘密，有一段時間所有的互聯網公司都想為用戶提供所謂的智能路由器。

理由很充分，Wi-Fi 技術是以兼容乙太網為目的區域網組網方案，它從來沒有考慮過隱私和所謂的大數據帶來的問題。乙太網提供了一個高強度的網卡標識（即所謂的 MAC），理論上能提供 48 位的地址空間，從實際來說也足夠所有的網卡製造商唯一地標識每一張網卡。最初這個網卡標識的設計目的是為了區分不同的設備，將衝突降到最低，因此對於給定的網卡，這個標識應該是永久不變的。這個標識在有線網路時代從來都不是一個真正的問題，因為 MAC 僅用於區域網通訊，任何設備在互聯網上只會暴露 IP。為了無縫地兼容乙太網，Wi-Fi 設備繼承了這個標識，並且在掃描無線接入點的時候廣播這個標識。換句話說，你隨身攜帶的智能手機有一個幾乎獨一無二的永久標識，並且傾向於廣播這個標識。因此對於很多大數據公司而言，這比你在臉上寫著自己的姓名還要好得多。所以，蘋果在最近的一次升級中改變了策略，所有的蘋果手機在掃描熱點的時候都會使用一個臨時的 MAC。蘋果這樣做對於保護消費者的隱私很有幫助，但是離解決這個問題還很遠。當蘋果設備連接一個熱點（例如咖啡廳里的免費熱點）的時候，它依然會使用一個固定的網卡標識。

一個平庸的無線網卡標識為什麼會跟大數據扯上關係呢？出乎標準設計者的意料，Wi-Fi 已經成為了一種主流的互聯網接入方式，並且成了一種重要的輔助定位技術。不同於智能設備，大多數無線熱點都是固定不動的，並且覆蓋了都市的大多數區域。利用無線熱點的 SSID 和 MAC，加上從智能手機採集的 GPS 信息，地理信息服務商可以利用這些信息完成誤差在百米以內的定位。在 GPS 不能覆蓋的室內，Wi-Fi 定位幾乎是首選的解決方案。從這個角度來看，Wi-Fi 定位是一個方便消費者的福音。但是 Wi-Fi 的技術設計決定了它不是一個匿名的定位技術，在定位的過程中 Wi-Fi 熱點同樣可以獲得智能手機的無線標識。因此從另一個角度來看，Wi-Fi 熱點的運營商可以獲得智能手機的一個時空坐標。這樣第三方就有可能追蹤智能手機在城市中的軌跡，其效果甚至可以超越運營商的監控手段。但是這並不是最糟糕的，出於統計的需求，很多 Android App 還會採集手機的 Wi-Fi 網卡標識。這些數據有可能將用戶的行為和時空軌跡聯繫在一起，從而造成嚴重的隱私風險。正如 Facebook 一樣，智能手機的普及是 CIA/NSA 做夢也想不到的好事。現代人進入了一個自願監控自己的偉大時代，A Brave New World。

Snowden 在討論 XKeyscore 的時候，其實提到過 NSA 非常喜歡這一點：

EDITED TO ADD (9/18): Marcy Wheeler comments on the second story, noting that the NSA uses this capability to map MAC addresses.
Two New Snowden Stories

當然，得益於 Palantir 的支持，NSA 的 SIGINT 能力已經不再是 Snowden 能夠想像的了。

讓我用一個思維實驗來展示一個
Android 用戶在這個大數據生態鏈中的位置吧（當然任何一個讀者都可以親自嘗試，用 iPhone 手機效果會大打折扣）。某個周末，你來到了某個商場，在一個咖啡廳裡面點了一杯咖啡，然後開始用智能手機上網。咖啡廳提供了免費 Wi-Fi 網路，由於法規要求需要你提供手機號進行實名認證，你毫不猶豫地輸入了手機號。於是免費 Wi-Fi 的服務商知道了你的信息：你的手機號和智能手機的 MAC。然後你開始刷微博，由於微博的 API 通常不使用加密信道，於是 Wi-Fi 熱點通過偷窺 HTTP 請求獲得了你的微博賬號。通過你的微博，Wi-Fi 服務商有可能了解你的性別年齡工作等信息。此外通過該熱點請求的很多元信息都會被服務商保留，雖然它們未必知道怎麼挖掘這些元信息，但是它們會盡量將你的身份和這些信息關聯在一起並長期保留。喝完咖啡，你開始逛街，這時候你的手機會開始掃描熱點，商場可以通過 Wi-Fi 探針追蹤你的位置。如果商場使用的 Wi-Fi 服務商和咖啡廳是同一家，或者與服務商建立了數據交換的協議，那麼商場有可能實名地追蹤你的軌跡。商場的 Wi-Fi 服務商同樣會非常有耐心地存儲你的信息，以備不時之需。在逛街的過程中，你打開了一些購物 App 用於比價，順便拍了一些照片發給好友。其中一些 App 會把你的 MAC 地址和通過 Wi-Fi 完成的定位信息也發送出去。如果存在一個完備的數據交易網路，任何對你感興趣的人都有可能獲得以下信息：你的電話號碼、手機的 MAC、微博賬號，何時出現在這個商場，在商場停留了多久，其間使用了哪些 App，在咖啡廳訪問了哪些網站。而這一切都離不開 Wi-Fi 和 MAC。如果更極端一點，你使用了專車軟體來這個商場，並且你經常來這家商場，那麼你很可能已經在商場的常客資料庫里了，你的家庭住址也不再是個秘密。

這個思維實驗當然是虛構的，因為利益衝突無關公司之間很難達成信任，它們很少進行實質性的數據交換。但是寡頭們可以通過收購和戰略投資將第三方變成第二方，甚至親自介入 Wi-Fi 熱點的服務。利用這些數據和技術，大數據公司事實上可以將營銷做到無孔不入。例如，利用上述信息，商場中的餐廳可以針對最近到過商場的用戶推送折扣信息，並且根據情況選擇簡訊或微博作為送達渠道。當然現實社會中的餐廳並不會走得這麼遠，它們更傾向於使用微信服務號一類的技術來建立會員機制。各種 P2P 金融公司、討債公司對數據更加饑渴，它們會願意為你的信息（尤其是位置信息）付大價錢。所以從某種意義上說，數據寡頭更可能看重你的隱私的長期價值。

正因為如此，中國的三大寡頭都參與了商業 Wi-Fi 的布局。除了微信 Wi-Fi，相信大多數人都沒有注意過相關的報道。事實上新聞報道披露的僅僅是冰山一角。

本報訊公共交通領域最大的WIFI建設運營商16WIFI日前宣布，已完成由百度領投、榮之聯等跟投的A輪融資，融資金額超過1億元。這也標誌著在商業WIFI領域，BAT（即百度、阿里、騰訊）再次到齊。
百度戰略投資殺入商業WIFI_新浪新聞

還是來點輕鬆的吧，看看 Google 是怎麼利用大數據投放精準廣告的：

莫非喜歡 Fallout 的死宅更容易接受某教？我並不是想諷刺 Google 的演算法或者宗教佈道者的 SEM 策略，只是覺得這對於下面討論的計算神學而言，是一個絕佳的隱喻。

計算神學是一種對計算的絕對信仰，其基本教義派別甚至認為整個宇宙都是一台量子計算機，可以用 Universal Wave Function 來完備地描述。在大數據流行起來之前，計算神學屬於邊緣學科（或者說偽科學），幾乎無人問津。但是在大數據時代，計算能力和數據量都不再是問題，計算神學一下就成了主流的意識形態。經過大數據修正過的計算神學摒棄了科學的實證主義傳統，試圖將一切問題簡化成數據處理。弔詭的是，很多計算神學的信徒獲得了數據科學家的稱號，這無異於將佔星師當作天文學家，或者將鍊金術士稱為化學家（sadly, it was true before we had hard science）。

這些年我還真見過不少計算神學的佈道者，他們開始張口就是大數據和機器學習，後來開始扯深度學習和人工智慧。然而有一次我問某個信徒，他用的模型對性別的預測精度有多高，他居然誠實地回答接近 60%。如果需要考慮 Facebook 那麼多種非常規的性別，這 60% 還是相當不錯的，比扔硬幣強不少呢。我之前的公司不幸跟某寡頭有非平凡的合作，有幸跟對方的祭司階級聊了幾句，我發現這幫人對數據的理解連頻率主義者都不如，連什麼是信號什麼是雜訊都分不清楚。當然這圈子裡面也有聰明人，並不是真誠地相信這些鬼話——據說某公司做了兩三位數樣本的問卷攢了份報告就賣了很多錢。

大數據是個系統工程，從採集數據到計算到應用到決策有很長的流水線。在這個流水線上的每一個環節，都存在嚴重的人才空缺。當然，更稀缺的是搞清楚整個流水線的綜合性人才。計算神學的信徒們根本沒有意識到這一點，或者他們也不關心。幸運的是，官僚們欣賞這些人的盲目樂觀。所以這是個讓人寬慰的好消息，這些個大數據公司裡面還是以蠢貨和官僚為主。

短期來說上述判斷應該是靠譜的，至於更長期的我就不杞人憂天了。畢竟某位大師說過，in the long run, we are all dead.

所以，天朝把 Google 擋在外面是多麼的英明神武啊。如果國內的公司都有了 AlphaGo 這樣的暴力計算系統來搞大數據，我也該洗洗睡了改行做水管工算了。總體來說我還是一個悲觀的存在主義者，要不了多久所有的 CCTV 都會成為面部識別演算法的數據源。我感覺，計算神學訓練出來的 AI 都是些反社會的自閉症患者，而不再是充滿浪漫主義氣息的面盲症患者。

我毫無痕迹地插入了一條原生公益廣告：什麼是自閉症？（請不要被我的修辭手法誤導，自閉症患者幾乎不可能反社會，而任何互聯網廣告系統都是天然反社會的。）。

評論裡面有人問大數據有什麼不侵犯隱私的用途，我覺得有必要澄清一下，我並不是在寫一篇討伐大數據的檄文。數據和分析能解決很多實際的問題，而且並不總是需要以隱私作為代價。但是技術幾乎總是雙刃劍，風險與機遇並存。說個相對遠一點的，如果新的基因測序技術能將全基因組測學成本降到足夠低，利用大數據技術將有可能定量地測量很多遺傳疾病的基因風險，這可是造福人類的善舉。但是，這也意味著保險公司可以更加精確地估計投保人的健康狀況，換句話說可以利用這些信息來進行歧視(美國已經有相關的立法，禁止保險公司利用基因相關的隱私)。再說一個相對近一點的，某公司壟斷了天朝的搜索市場，幾乎是躺著在掙錢，但是為了追求利潤什麼騙子廣告都願意打，還會往用戶的電腦上裝幾乎無法卸載的全家桶。幾乎所有的人都在說大數據是一座金礦，但是很少有人意識到提煉金子是個技術活，而且現在很多礦山的黃金生產成本已經高於期貨價格了（寫於黃金價格低點 $1000 左右）。利用數據變現還是頗有技術含量的，用常理就可以推斷守著金礦不能賺錢是個什麼樣的感覺。至少在天朝，真正的問題在於有很多沒有技術的公司守著大量的數據干著急——它們其實也很想賣點假藥什麼的，但是它們能賣的也僅僅是用戶的隱私。

據說，某些輸入法會把你所有的輸入都送回伺服器，這樣你也為大數據事業做出了貢獻。現在大家應該很清楚，這些大數據都是從哪裡來的了吧。

搜狗和百度輸入法被爆泄露用戶隱私

一、大數據概念

　　"大數據"是一個體量特別大，數據類別特別大的數據集，並且這樣的數據集無法用傳統資料庫工具對其內容進行抓取、管理和處理。 "大數據"首先是指數據體量(volumes)?大，指代大型數據集，一般在10TB?規模左右，但在實際應用中，很多企業用戶把多個數據集放在一起，已經形成了PB級的數據量；其次是指數據類別(variety)大，數據來自多種數據源，數據種類和格式日漸豐富，已衝破了以前所限定的結構化數據範疇，囊括了半結構化和非結構化數據。接著是數據處理速度（Velocity）快，在數據量非常龐大的情況下，也能夠做到數據的實時處理。最後一個特點是指數據真實性（Veracity）高，隨著社交數據、企業內容、交易與應用數據等新數據源的興趣，傳統數據源的局限被打破，企業愈發需要有效的信息之力以確保其真實性及安全性。

　　"大數據"是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看，"大數據"指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理範圍和大小、迫使用戶採用非傳統處理方法的數據集。
亞馬遜網路服務（AWS）、大數據科學家JohnRauser提到一個簡單的定義：大數據就是任何超過了一台計算機處理能力的龐大數據量。
研發小組對大數據的定義："大數據是最大的宣傳技術、是最時髦的技術，當這種現象出現時，定義就變得很混亂。" Kelly說："大數據是可能不包含所有的信息，但我覺得大部分是正確的。對大數據的一部分認知在於，它是如此之大，分析它需要多個工作負載，這是AWS的定義。當你的技術達到極限時，也就是數據的極限"。大數據不是關於如何定義，最重要的是如何使用。最大的挑戰在於哪些技術能更好的使用數據以及大數據的應用情況如何。這與傳統的資料庫相比，開源的大數據分析工具的如Hadoop的崛起，這些非結構化的數據服務的價值在哪裡。

二、大數據分析

　　從所周知，大數據已經不簡簡單單是數據大的事實了，而最重要的現實是對大數據進行分析，只有通過分析才能獲取很多智能的，深入的，有價值的信息。那麼越來越多的應用涉及到大數據，而這些大數據的屬性，包括數量，速度，多樣性等等都是呈現了大數據不斷增長的複雜性，所以大數據的分析方法在大數據領域就顯得尤為重要，可以說是決定最終信息是否有價值的決定性因素。基於如此的認識，大數據分析普遍存在的方法理論有哪些呢？

1、可視化分析

大數據分析的使用者有大數據分析專家，同時還有普通用戶，但是他們二者對於大數據分析最基本的要求就是可視化分析，因為可視化分析能夠直觀的呈現大數據特點，同時能夠非常容易被讀者所接受，就如同看圖說話一樣簡單明了

2、數據挖掘演算法

大數據分析的理論核心就是數據挖掘演算法，各種數據挖掘的演算法基於不同的數據類型和格式才能更加科學的呈現出數據本身具備的特點，也正是因為這些被全世界統計學家所公認的各種統計方法（可以稱之為真理）才能深入數據內部，挖掘出公認的價值。另外一個方面也是因為有這些數據挖掘的演算法才能更快速的處理大數據，如果一個演算法得花上好幾年才能得出結論，那大數據的價值也就無從說起了。

3、預測性分析能力

大數據分析最終要的應用領域之一就是預測性分析，從大數據中挖掘出特點，通過科學的建立模型，之後便可以通過模型帶入新的數據，從而預測未來的數據。

4、數據質量和數據管理

大數據分析離不開數據質量和數據管理，高質量的數據和有效的數據管理，無論是在學術研究還是在商業應用領域，都能夠保證分析結果的真實和有價值。
大數據分析的基礎就是以上五個方面，當然更加深入大數據分析的話，還有很多很多更加有特點的、更加深入的、更加專業的大數據分析方法。

三、大數據技術

　1、數據採集：ETL工具負責將分布的、異構數據源中的數據如關係數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成，最後載入到數據倉庫或數據集市中，成為聯機分析處理、數據挖掘的基礎。

　　2、數據存取：關係資料庫、NOSQL、SQL等。

3、基礎架構：雲存儲、分散式文件存儲等。

　　4、數據處理：自然語言處理(NLP，NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言，所以自然語言處理又叫做自然語言理解(NLU，NaturalLanguage Understanding)，也稱為計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支，另一方面它是人工智慧(AI, Artificial Intelligence)的核心課題之一。

　　5、統計分析：假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析（最優尺度分析）、bootstrap技術等等。

　　6、數據挖掘：分類
（Classification）、估計（Estimation）、預測（Prediction）、相關性分組或關聯規則（Affinity grouping or
association rules）、聚類（Clustering）、描述和可視化、Description and Visualization）、複雜數據類型挖掘(Text,
Web ,圖形圖像，視頻，音頻等)

　　7、模型預測：預測模型、機器學習、建模模擬。

　8、結果呈現：雲計算、標籤雲、關係圖等。

四、大數據特點

　　要理解大數據這一概念，首先要從"大"入手，"大"是指數據規模，大數據一般指在10TB(1TB=1024GB)規模以上的數據量。大數據同過去的海量數據有所區別，其基本特徵可以用4個V來總結(Vol-ume、Variety、Value和Veloc-ity)，即體量大、多樣性、價值密度低、速度快。

1、
數據體量巨大。從TB級別，躍升到PB級別。

2、
數據類型繁多，如前文提到的網路日誌、視頻、圖片、地理位置信息，等等。

3、
價值密度低。以視頻為例，連續不間斷監控過程中，可能有用的數據僅僅有一兩秒。

4、
處理速度快。1秒定律。最後這一點也是和傳統的數據挖掘技術有著本質的不同。物聯網、雲計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的感測器，無一不是數據來源或者承載的方式。

大數據技術是指從各種各樣類型的巨量數據中，快速獲得有價值信息的技術。解決大數據問題的核心是大數據技術。目前所說的"大數據"不僅指數據本身的規模，也包括採集數據的工具、平台和數據分析系統。大數據研發目的是發展大數據技術並將其應用到相關領域，通過解決巨量數據處理問題促進其突破性發展。因此，大數據時代帶來的挑戰不僅體現在如何處理巨量數據從中獲取有價值的信息，也體現在如何加強大數據技術研發，搶佔時代發展的前沿。

五、大數據處理

大數據處理之一：採集

　　大數據的採集是指利用多個資料庫來接收發自客戶端（Web、App或者感測器形式等）的數據，並且用戶可以通過這些資料庫來進行簡單的查詢和處理工作。比如，電商會使用傳統的關係型資料庫MySQL和Oracle等來存儲每一筆事務數據，除此之外，Redis和MongoDB這樣的NoSQL資料庫也常用於數據的採集。

在大數據的採集過程中，其主要特點和挑戰是並發數高，因為同時有可能會有成千上萬的用戶來進行訪問和操作，比如火車票售票網站和淘寶，它們並發的訪問量在峰值時達到上百萬，所以需要在採集端部署大量資料庫才能支撐。並且如何在這些資料庫之間進行負載均衡和分片的確是需要深入的思考和設計。

大數據處理之二：導入/預處理

雖然採集端本身會有很多資料庫，但是如果要對這些海量數據進行有效的分析，還是應該將這些來自前端的數據導入到一個集中的大型分散式資料庫，或者分散式存儲集群，並且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算，來滿足部分業務的實時計算需求。

導入與預處理過程的特點和挑戰主要是導入的數據量大，每秒鐘的導入量經常會達到百兆，甚至千兆級別。

大數據處理之三：統計/分析

統計與分析主要利用分散式資料庫，或者分散式計算集群來對存儲於其內的海量數據進行普通的分析和分類匯總等，以滿足大多數常見的分析需求，在這方面，一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata，以及基於MySQL的列式存儲Infobright等，而一些批處理，或者基於半結構化數據的需求可以使用Hadoop。

統計與分析這部分的主要特點和挑戰是分析涉及的數據量大，其對系統資源，特別是I/O會有極大的佔用。

大數據處理之四：挖掘

　　與前面統計和分析過程不同的是，數據挖掘一般沒有什麼預先設定好的主題，主要是在現有數據上面進行基於各種演算法的計算，從而起到預測（Predict）的效果，從而實現一些高級別數據分析的需求。比較典型演算法有用於聚類的Kmeans、用於統計學習的SVM和用於分類的NaiveBayes，主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用於挖掘的演算法很複雜，並且計算涉及的數據量和計算量都很大，常用數據挖掘演算法都以單線程為主。

整個大數據處理的普遍流程至少應該滿足這四個方面的步驟，才能算得上是一個比較完整的大數據處理

六、大數據應用與案例分析

　　大數據應用的關鍵，也是其必要條件，就在於"IT"與"經營"的融合，當然，這裡的經營的內涵可以非常廣泛，小至一個零售門店的經營，大至一個城市的經營。以下是關於各行各業，不同的組織機構在大數據方面的應用的案例，在此申明，以下案例均來源於網路，本文僅作引用，並在此基礎上作簡單的梳理和分類。

大數據應用案例之：醫療行業

[1] Seton Healthcare是採用IBM最新沃森技術醫療保健內容分析預測的首個客戶。該技術允許企業找到大量病人相關的臨床醫療信息，通過大數據處理，更好地分析病人的信息。

　　[2] 在加拿大多倫多的一家醫院，針對早產嬰兒，每秒鐘有超過3000次的數據讀取。通過這些數據分析，醫院能夠提前知道哪些早產兒出現問題並且有針對性地採取措施，避免早產嬰兒夭折。

　　[3] 它讓更多的創業者更方便地開發產品，比如通過社交網路來收集數據的健康類App。也許未來數年後，它們搜集的數據能讓醫生給你的診斷變得更為精確，比方說不是通用的成人每日三次一次一片，而是檢測到你的血液中藥劑已經代謝完成會自動提醒你再次服藥。

大數據應用案例之：能源行業

　　[1]　智能電網現在歐洲已經做到了終端，也就是所謂的智能電錶。在德國，為了鼓勵利用太陽能，會在家庭安裝太陽能，除了賣電給你，當你的太陽能有多餘電的時候還可以買回來。通過電網收集每隔五分鐘或十分鐘收集一次數據，收集來的這些數據可以用來預測客戶的用電習慣等，從而推斷出在未來2~3個月時間裡，整個電網大概需要多少電。有了這個預測後，就可以向發電或者供電企業購買一定數量的電。因為電有點像期貨一樣，如果提前買就會比較便宜，買現貨就比較貴。通過這個預測後，可以降低採購成本。

　　[2]　維斯塔斯風力系統，依靠的是BigInsights軟體和IBM超級計算機，然後對氣象數據進行分析，找出安裝風力渦輪機和整個風電場最佳的地點。利用大數據，以往需要數周的分析工作，現在僅需要不足1小時便可完成。

大數據應用案例之：通信行業

[1] XO Communications通過使用IBM SPSS預測分析軟體，減少了將近一半的客戶流失率。XO現在可以預測客戶的行為，發現行為趨勢，並找出存在缺陷的環節，從而幫助公司及時採取措施，保留客戶。此外，IBM新的Netezza網路分析加速器，將通過提供單個端到端網路、服務、客戶分析視圖的可擴展平台，幫助通信企業制定更科學、合理決策。

　　[2] 電信業者透過數以千萬計的客戶資料，能分析出多種使用者行為和趨勢，賣給需要的企業，這是全新的資料經濟。

　　[3] 中國移動通過大數據分析，對企業運營的全業務進行針對性的監控、預警、跟蹤。系統在第一時間自動捕捉市場變化，再以最快捷的方式推送給指定負責人，使他在最短時間內獲知市場行情。

　　[4] NTT docomo把手機位置信息和互聯網上的信息結合起來，為顧客提供附近的餐飲店信息，接近末班車時間時，提供末班車信息服務。

大數據應用案例之：零售業

[1] "我們的某個客戶，是一家領先的專業時裝零售商，通過當地的百貨商店、網路及其郵購目錄業務為客戶提供服務。公司希望向客戶提供差異化服務，如何定位公司的差異化，他們通過從 Twitter 和 Facebook 上收集社交信息，更深入的理解化妝品的營銷模式，隨後他們認識到必須保留兩類有價值的客戶：高消費者和高影響者。希望通過接受免費化妝服務，讓用戶進行口碑宣傳，這是交易數據與交互數據的完美結合，為業務挑戰提供了解決方案。"Informatica的技術幫助這家零售商用社交平台上的數據充實了客戶主數據，使他的業務服務更具有目標性。

　　[2] 零售企業也監控客戶的店內走動情況以及與商品的互動。它們將這些數據與交易記錄相結合來展開分析，從而在銷售哪些商品、如何擺放貨品以及何時調整售價上給出意見，此類方法已經幫助某領先零售企業減少了17%的存貨，同時在保持市場份額的前提下，增加了高利潤率自有品牌商品的比例。

造數 - 跟新一代智能雲爬蟲一起探索大數據的樂趣

大數據 Big Data

據說，詞源出自Alvin Toffler，上世紀70年代的作品《第三次浪潮》。

逝者 | 阿爾文·托夫勒：如何化解未來的衝擊

雖然大數據是一個泛泛的概念詞，但是關於大數據，關於大數據處理分析的話題近來持續升溫，現在基本成了新一輪工業革命級別的話題。

大數據是什麼，作為數據採集團隊，我們很長的時間裡一直也在思考，什麼是大數據，大數據的前景和價值在哪裡。

這篇文章里，我會跟大家一起分享我的看法以及各種有趣的內容和資源，它們關於:

什麼是大數據
大數據的實踐
大數據的應用場景

硬廣：我們團隊的幫助你零門檻採集數據：

造數 - 最好用的雲爬蟲工具 進擊的爬蟲工具！

最近都在說裁員，如果想知道互聯網裁員潮對就業薪資是不是真的產生了持久的負面影響，可以用我們的工具，幫你定時每天採集幾次生成列表看一看。

（一）什麼是大數據

先聽聽行家的說法：

大數據就是多，就是多。原來的設備存不下、算不動。

————啪菠蘿·畢加索

大數據，不是隨機樣本，而是所有數據；不是精確性，而是混雜性；不是因果關係，而是相關關係。

_______Sch?nberger

移步ted：Kenneth Cukier: Big data is better data

America"s favorite pie is?
Audience: Apple. Kenneth
Cukier: Apple. Of course it is. How do we know it? Because of data. You look at supermarket sales. You look at supermarket sales of 30-centimeter pies that are frozen, and apple wins, no contest. The majority of the sales are apple. But then supermarkets started selling smaller, 11-centimeter pies, and suddenly, apple fell to fourth or fifth place. Why? What happened? Okay, think about it. When you buy a 30-centimeter pie, the whole family has to agree, and apple is everyone"s second favorite. (Laughter) But when you buy an individual 11-centimeter pie, you can buy the one that you want. You can get your first choice. You have more data. You can see something that you couldn"t see when you only had smaller amounts of it.

曾經人們以為最愛吃的派都是蘋果派，不過當你有了更細緻的數據，你會發現，蘋果派受歡迎其實是一種妥協的結果：蘋果派是每個人第二喜歡的口味。

拿到小尺寸派的數據以後你更發現，其實蘋果派只能排到第四,第五位的樣子了。

你有了更多數據，你就能看到之前你看不到的信息。

大數據最核心的價值是什麼？ - 商業 - 知乎推薦@Han Hsiao這篇內容的結構十分清晰，對大數據的正面意義提出了非常清晰地探討。

大數據聽著很牛，實際上也很牛嗎？ - 人工智慧 - 知乎這裡 @陳萌萌說的也特別好，懷疑她是不是真的是一個ai。

大數據最核心的價值是什麼？ - 商業 - 知乎，依然是這個問題， @劉飛的文章。

大數據是大數據的採集

大數據行業，本身是依託於數據源存在的服務性行業。

大數據最根本之處在於信息收集方式出現了重大變化與革新。大數據的出現與大量信息直接在網路呈現關係非常緊密。

微博、天貓、淘寶、微信等等都直接產生了大量包括定位、消息記錄、消費記錄、評價、閱讀等等殊為龐大的信息，可以說互聯網企業都自然的帶有數據企業的標籤。不過如果我們從數據的源頭看的更仔細一些，還是會發現，其實很多數據依然是有巨大的採集與歸類的需求。

Joel Selanikio:Transcript of amp;quot;The big-data revolution in healthcareamp;quot;

There"s a concept that people talk about nowadays called "big data." And what they"re talking about is all of the information that we"re generating through our interaction with and over the Internet, everything from Facebook and Twitter to music downloads, movies, streaming, all this kind of stuff, the live streaming of TED. And the folks who work with big data, for them, they talk about that their biggest problem is we have so much information. The biggest problem is: how do we organize all that information?

現在人人都說大數據，但其實大家說的是 facebook，twitter，streaming 等等站點上每天產生的信息，做大數據的人呢，會覺得我們有的數據量實在太大了。

（組織信息仍然是最難的問題）

I can tell you that, working in global health, that is not our biggest problem. Because for us, even though the light is better on the Internet, the data that would help us solve the problems we"re trying to solve is not actually present on the Internet. So we don"t know, for example, how many people right now are being affected by disasters or by conflict situations. We don"t know for, really, basically, any of the clinicsin the developing world, which ones have medicines and which ones don"t. We have no idea of what the supply chain is for those clinics. We don"t know -- and this is really amazing to me -- we don"t know how many children were born -- or how many children there are -- in Bolivia or Botswana or Bhutan. We don"t know how many kids died last week in any of those countries. We don"t know the needs of the elderly, the mentally ill. For all of these different critically important problems or critically important areas that we want to solve problems in, we basically know nothing at all.

許多有效的數據還完全不在網路上，要依靠原始的方法來收集。數據方面還有很多基本層面的問題在非常多的領域非常明顯。

有哪些「神奇」的數據獲取方式？ - Liu Cao 的回答 - 知乎看到這裡推薦一個 @Liu Cao

的回答。

嚴瀾(lanceyan)的博客 - 技術分享框架交流大數據處理架構搭建機器人

強烈推薦：如何用形象的比喻描述大數據的技術生態？Hadoop、Hive、Spark 之間是什麼關係？其中 @Xiaoyu Ma

（二）大數據的實踐

工具看這裡：大數據分析一般用什麼工具分析？ - JavaScript - 知乎

最近看到個例子，說pokemon go 帶給玩家運動量上的變化：

1、應用中的數據分析示例：·

六個月以後，大部分pokemon go 的玩家的運動量逐漸和 non-player基本一致了。

看來確實是一個能用相當效果的遊戲。

2、交通狀況大數據分析示例：

Susan Etlinger: What do we do with all this big data?

Now, there"s a group of data scientists out of the University of Illinois-Chicago, and they"re called the Health Media Collaboratory, and they"ve been working with the Centers for Disease Control to better understand how people talk about quitting smoking, how they talk about electronic cigarettes, and what they can do collectively to help them quit. The interesting thing is, if you want to understand how people talk about smoking, first you have to understand what they mean when they say "smoking." And on Twitter, there are four main categories: number one, smoking cigarettes; number two, smoking marijuana;number three, smoking ribs; and number four, smoking hot women.

這裡非常有趣

（三）大數據的應用場景

先貼兩個新聞觀察：

京津冀大數據產業發展現狀 | 報告 | 數據觀 | 中國大數據產業觀察_大數據門戶數據觀 | 中國大數據產業觀察_大數據門戶

如今，在政策上，國家戰略層面上，大數據受到的重視程度都越來越高。

應用場景上，現在分布在：

供應鏈和渠道分析優化
定價分析與優化
欺詐行為分析檢測
設備管理
社交媒體分析客戶分析

《大數據時代》一書作者維克托認為大數據時代有三大轉變：
「第一，我們可以分析更多的數據，有時候甚至可以處理和某個特別現象相關的所有數據，而不是依賴於隨機採樣。更高的精確性可使我們發現更多的細節。
第二，研究數據如此之多，以至於我們不再熱衷於追求精確度。適當忽略微觀層面的精確度，將帶來更好的洞察力和更大的商業利益。
第三，不再熱衷於尋找因果關係，而是事物之間的相關關係。例如，不去探究機票價格變動的原因，但是關注買機票的最佳時機。」大數據打破了企業傳統數據的邊界，改變了過去商業智能僅僅依靠企業內部業務數據的局面，而大數據則使數據來源更加多樣化，不僅包括企業內部數據，也包括企業外部數據，尤其是和消費者相關的數據

據野史記載，中亞古國花剌子模有一古怪的風俗，凡是給君王帶來好消息的信使，就會得到提升，給君王帶來壞消息的人則會被送去喂老虎。從前的人喜歡批評這位君王的天真品性，以為獎勵帶來好消息的人，就能鼓勵好消息的到來，處死帶來壞消息的人，就能根絕壞消息。

在今天這個信息爆炸的時代，我們不一定能讓信使一定送來好消息，但你可以讓我們的爬蟲定時給你送來最有用最合你需求的信息。

硬廣

造數 - 新一代智能雲爬蟲

某披薩店的電話鈴響了，客服人員拿起電話。

客服：您好，請問有什麼需要我為您服務？

顧客：你好，我想要一份……

客服：先生，煩請先把您的會員卡號告訴我。

顧客：342623***。

客服：陳先生，您好！您是住在安瀾路一號12樓1205室，您家電話是6333***，您公司電話是2888***，您的手機是1390553****。請問您想用哪一個電話付費？

顧客：你為什麼知道我所有的電話號碼？

客服：陳先生，因為我們聯機到CRM系統。

顧客：我想要一個海鮮比薩……

客服：陳先生，海鮮比薩不適合您。

顧客：為什麼？

客服：根據您的醫療記錄，你的血壓和膽固醇都偏高。

顧客：那你們有什麼可以推薦的？

客服：您可以試試我們的低脂健康比薩。

顧客：你怎麼知道我會喜歡吃這種的？

客服：您上星期一在國家圖書館借了一本《低脂健康食譜》。

顧客：好。那我要一個家庭特大號比薩，要付多少錢？

客服：99元，這個足夠您一家六口吃了。但您母親應該少吃，她上個月剛剛做了心臟搭橋手術，還處在恢復期。

顧客：那可以刷卡嗎？

客服：陳先生，對不起。請您付現款，因為您的信用卡已經刷爆了，您現在還欠銀行4807元，而且還不包括房貸利息。

顧客：那我先去附近的提款機提款。

客服：陳先生，根據您的記錄，您已經超過今日提款限額。

顧客：算了，你們直接把比薩送我家吧，家裡有現金。你們多久會送到？

客服：大約30分鐘。如果您不想等，可以自己騎車來。

顧客：為什麼？

客服：根據我們CRM全球定位系統的車輛行駛自動跟蹤系統記錄。您登記有一輛車號為SB-748的摩托車，而目前您正在鐵山路右側騎著這輛摩托車。

顧客：當即暈倒……

有對大數據感興趣的歡迎加我公眾號：大數據二三事

什麼是大數據？

這問題看似簡單，實際不簡單，也許一千個人會有一千個答案。是的，每個人對大數據都有自己的理解，就像小智問朋友，「重慶什麼菜最好吃？」分分鐘都能收穫上百個答案。

今天，小智嘗試從吃貨的角度，給大家舉栗說明一下，什麼是大數據？

*舉個栗子

1.大數據是什麼？怎麼理解大數據？

如果把數據比作地球上的水，個人的數據（電腦里的各種文檔、歌曲、電影、程序等等），就好像一顆小水珠，最多能在累的時候解解渴；企業級的數據略有些不同，根據規模的大小，有些可以算作水坑、有些是池塘，已經可以養些小魚小蝦打打牙祭了；還有一些企業的數據（比如Facebook，2012年每天需要處理的數據量就達到了500TB）已經算得上是一個大的湖泊了，可以實現大型的捕撈、規模化的養殖。但是，在湖泊之外，還有更廣闊的世界，也就是說還有更多的數據值得我們去發現。

比如，外國人常常埋怨中國菜不夠「精確」，很多配料都用「少許」「適當」「足量」粗略地進行描述，實際操作起來很難學到精髓。有了大數據以後，主材、配料的數量、比例，油鹽醬醋的多少，都可以進行精準地記錄，甚至哪裡產的豬肉，配上哪裡的青椒、豆瓣做出來的回鍋肉最好吃，都可以形成數據被記錄下來。這些以前不被重視、不被採集的數據，就是我們大數據領域隱藏的「水滴」「池塘」「湖泊」。已有的大量數據，以及尚未被發現、記錄的數據，共同構成了大數據時代的發展基礎。

水滴、池塘、湖泊發現得多了，就能夠匯聚成海洋。大數據海洋裡面的水（數據），多到數不清楚，裡面的物產、資源（大數據產生的價值）也豐富到無以復加。原來我們在湖泊裡面養養「青草鰱鱅」四大家魚，有了數據海洋，想吃生蚝、鱈魚、金槍魚等等都可以輕鬆搞定。

這麼說，你明白大數據了嗎？就是把超級多數據信息彙集到一起，然後在裡面「釣大魚」。

*數據海洋裡面「釣大魚」

2.都說大數據有4V的特徵，是什麼意思？

大數據的4V，就是「容量大Volume」「多樣性Variety」「價值高Value」「速度快Velocity」，同樣以海洋和裡面的美食進行類比：

A.容量大：地球表面有70%左右都是海洋，想想裡面都有多少水滴，有多少好吃的？大數據時代，每一個人、每一種食材、甚至每一秒風味與口感的變化關係，都能夠形成一系列隨時更新的數據，數據規模空前龐大，其中隱藏的價值也遠遠超出大部分人的預期。

B.多樣性：海洋裡面的物質非常多樣化，有資源、也有雜物；有海膽、生蚝、象鼻蚌等小而鮮嫩的海產，也有黃魚、鱈魚、金槍魚等大型魚類……大數據的結構也和海洋一樣複雜，僅僅以文件類型為例，就有圖片、文字、聲音、視頻等等，還有各種非結構化數據，所以在利用這些資源之前，需要把他們「排排站」進行分類、處理，才能「吃果果」。

C.價值高：這個就不用說了，鰻魚、龍蝦、三文魚……動輒每100克3~4萬元的黃唇魚，還有危急時刻能救人命的秋刀魚。（前幾年就出過一個日本青年因吃到炭烤秋刀魚而放棄輕生的新聞，小智會亂說？）在實際應用中，大數據可以用於提升優化企業的管理效率，發現新的商業機會，也能夠對事物的發展做出準確的分析、預測等等，各種商業價值就看你怎麼用；

*傳說中的炭烤秋刀魚

D.速度快：先來吃肉、後來喝湯，這個道理想必大家都懂。數據海洋很大，想要比別人搶先一步找到美味，速度一定要快，這就要求我們要能對整個數據海洋進行快速的掃描、篩選、處理。如果只有兩條小漁船，就算給你整個太平洋，也不見得能奔上小康。

PS：第4個V的比喻有點牽強，但不影響小智的發揮哈，他們說「想要吃肉，臉皮要厚」……

3.對大數據的處理，還是以在大海裡面抓魚為例：

通過技術手段，發現隱藏在海水中的豐富物產的過程，就是數據挖掘；（從大量的數據中通過演算法搜索隱藏於其中信息）

找到的東西裡面，哪些是有用的，哪些是雜草、沙石先大概做一個分析，順手把錯誤的、不合適的、沒價值東西排除掉，這是數據清洗；（發現並糾正數據文件中可識別的錯誤）

在進行過初步篩選的「海域」里，進一步掃描出哪些是礦產、哪些是漁產，漁產裡面有哪些魚類，分別的種類劃分、經濟價值如何、數量多少……這是數據分析；（對收集來的大量數據進行分析，提取有用信息和形成結論）

把一眼看起來有些面目猙獰的海鮮（各種數字、表格）進行加工、處理，做成精美的大餐送上餐桌，色香味俱全地呈現在用戶面前（精美、直觀的圖表），就是我們說的數據可視化。

*客官，您要的「數據可視化」已經上齊了

4.IaaS，PaaS，SaaS？

IaaS是基礎設施服務。IaaS是所有計算基礎設施的利用，包括處理CPU、內存、存儲、網路和其它基本的計算資源，用戶能夠部署和運行任意軟體，包括操作系統和應用程序。就好像給你一個碼頭，配備好了各種硬體設備。機會和能力給了你，還需要靠自己的平台、工具，到海洋裡面獲取資源。

PaaS是平台服務。提供給消費者的服務是把客戶採用提供的開發語言和工具（例如Java，python,.Net等）開發的或收購的應用程序部署到供應商的雲計算基礎設施上去。除了碼頭，又給了一艘船，還給你配齊船長、大副、水手，有了一個系統可以直接面對海洋的各種資源了。不過怎麼抓魚，用什麼工具抓魚，還是你自己的事情。

SaaS是軟體服務，提供給客戶的服務是運營商運行在雲計算基礎設施上的應用程序，用戶可以在各種設備上通過客戶端界面訪問，如瀏覽器。這次就落實到具體的工具上面來，捕撈方案、抓魚的網、開船路線都配齊了，只需要安排下去：去哪片海域抓什麼魚就行。

*你想在數據海洋裡面撈什麼魚？

5.這幾年說大數據，必定說Hadoop，後來又多了個Spark，是什麼意思呢？

假如我的家族世代以打魚為生，以前都是聚集在一個島上，駕駛一艘大船出海打魚，整個家族能打到多少魚就和這艘船的航行速度（計算能力）、裝載數量（存儲能力）有關。它的速度再快、撈得再多，由於只有一艘船，能夠搜尋的海域就相當有限。

現在我們改變了策略，一艘船的能力不行，就找N多艘船一起。整個家族的人分散到世界海洋各地，和其他家族一起共同分享各自的船隻。必要的時候，我們可以聯合幾百艘船一起出動捕撈，由於覆蓋的海域足夠廣，能夠裝載的收穫足夠多，對應的捕撈能力也可以實現指數式的增長。

hadoop就是這樣一個分散式系統的基礎構架，通過將文件進行分散式（切塊、分散）管理，充分利用集體的威力進行高速運算和存儲。

*Hadoop生態系統 2.0時代

至於spark嘛，就是船上以前有艘快艇，本來是用來逃生的，如今也被利用當成抓魚的主要工具。（Spark是一種與hadoop類似的開源計算集群環境，啟用了內存分布數據集，直接從內存讀數據，運算速度最快能比從硬碟讀取數據提升10倍水平）。

6.大數據用來做什麼？

大數據有很多應用場景，比如精準營銷，就是打魚的人通過多年海上經驗，知道哪片海域的海鮮多又能賣好價錢；比如輿情分析，就像海嘯預警，通過對海量信息的分析、比對，找出可能產生海嘯災害的區域……當然，最大的用處還是「預測」，比如通過分析多年的洋流運動，能夠分析出你今天在好望角錯過的魚群下個月會出現在哪裡。什麼？你說魚對你沒有吸引力？那如果預測的是未來股票的漲跌呢？如果預測的是未來行業的風口呢？

*谷歌嘗試通過大數據進行流感爆發趨勢預測

7.大數據企業都提供哪些服務？

第一類，雲平台服務商，像亞馬遜、阿里雲這些，就好比世界上一個個國家，管理各自的海域，你可以去他的海域裡面捕魚，可以將你的海域交給他們管理，也可以直接買他們捕撈到的成品；

第二類，數據交易中介，他們自身提供一些數據，更主要的是搭建一個交易平台，撮合數據提供者與數據使用者實現數據交換，促成數據價值的實現，這有點像買賣各種湖泊、海洋的商人，買家拿到這些數據後，可以融合到自己的「海洋」裡面去，讓自己的海洋變得更大，物產更豐富；

第三類，大數據解決方案提供商，就是在數據海洋的各個角落派遣捕魚船隊，提供海洋開拓、資源掃描、採礦捕撈、加工銷售的一系列服務，你想在數據大航海時代做的所有事情，他們都能幫你處理。

*智慧思特數據云平台

悄悄說一句，小智的公司——智慧思特就是提供大數據解決方案的企業，提供數據關聯分析、數據深度挖掘、定製化大數據解決方案。哈哈哈，說了這麼多，你對大數據的認識有沒有增加一些？如果有的話，下次來重慶一定記得請小智吃飯吶！

哇哈哈哈……

舉個經常用到的栗子

2009年出現了一種新的流感病毒。這種甲型H1N1流感結合了導致禽流感和豬流感的病毒的特點，在短短几周之內迅速傳播開來。全球的公共衛生機構都擔心一場致命的流行病即將來襲。就在甲型H1N1流感爆發的幾周前，互聯網巨頭谷歌公司的工程師們在《自然》雜誌上發表了一篇引人注目的論文。它令公共衛生官員們和計算機科學家們感到震驚。文中解釋了谷歌為什麼能夠預測冬季流感的傳播——不僅是全美範圍的傳播，而且可以具體到特定的地區和州。谷歌通過觀察人們在網上的搜索記錄來完成這個預測，而這種方法以前一直是被忽略的。谷歌保存了多年來所有的搜索記錄，而且每天都會收到來自全球超過30億條的搜索指令，如此龐大的數據資源足以支撐和幫助它完成這項工作。

發現能夠通過人們在網上檢索的詞條辨別出其是否感染了流感後，谷歌公司把五千萬條美國人最頻繁檢索的詞條和美國疾控中心在2003年至2008年間季節性流感傳播時期的數據進行了比較。其他公司也曾試圖確定這些相關的詞條，但是他們缺乏像谷歌公司一樣龐大的數據資源、處理能力和統計技術。

雖然谷歌公司的員工猜測，特定的檢索詞條是為了在網路上得到關於流感的信息，如「哪些是治療咳嗽和發熱的藥物」，但是找出這些詞條並不是重點，他們也不知道哪些詞條更重要，更關鍵的是，他們建立的系統並不依賴於這樣的語義理解。他們設立的這個系統唯一關注的就是特定檢索詞條的頻繁使用與流感在時間和空間上的傳播之間的聯繫。谷歌公司為了測試這些檢索詞條，總共處理了4.5億個不同的數字模型。在將得出的預測與2007年、2008年美國疾控中心記錄的實際流感病例進行對比後，谷歌公司發現，他們的軟體發現了45條檢索詞條的組合，一旦將它們用於一個數學模型，他們的預測與官方數據的相關性高達97%。這是一種可視化的呈現手段，和疾控中心一樣，他們也能判斷出流感是從哪裡傳播出來的，而且他們的判斷非常及時，不會像疾控中心一樣要在流感爆發一兩周之後才可以做到。

所以，2009年甲型H1N1流感爆發的時候，與習慣性滯後的官方數據相比，谷歌成為了一個更有效、更及時的指示標。公共衛生機構的官員獲得了非常有價值的數據信息。驚人的是，谷歌公司的方法甚至不需要分發口腔試紙和聯繫醫生——它是建立在大數據的基礎之上的。這是當今社會所獨有的一種新型能力：以一種前所未有的方式，通過對海量數據進行分析，獲得有巨大價值的產品和服務，或深刻的洞見。基於這樣的技術理念和數據儲備，下一次流感來襲的時候，世界將會擁有一種更好的預測工具，以預防流感的傳播。

除了在公共衛生領域，大數據引起社會生活巨大變革的例子數不勝數，大數據（bigdata）一詞也越來越多地被提及。人們用它來描述和定義信息爆炸時代產生的海量數據，並命名與之相關的技術發展與創新。因為不再追求精確度，不再追求因果關係，而是承認混雜性，探索相關關係，數據被巧妙地用來激發新產品和新型服務。數據正成為巨大的經濟資產，成為新世紀的礦產與石油，將帶來全新的創業方向、商業模式和投資機會。

當前，整個互聯網正在從IT時代向DT時代演進，大數據技術也正在助力企業和公眾敲開DT世界大門。當今「大數據」一詞的重點其實已經不僅在於數據規模的定義，它更代表著信息技術發展進入了一個新的時代，代表著爆炸性的數據信息給傳統的計算技術和信息技術帶來的技術挑戰和困難，代表著大數據處理所需的新的技術和方法，也代表著大數據分析和應用所帶來的新發明、新服務和新的發展機遇。

為了幫助大家更好深入了解大數據，雲棲社區組織翻譯了GitHub Awesome Big Data資源，供大家參考。本資源類型主要包括：大數據框架、論文等實用資源集合。史上最全的「大數據」學習資源（上）-博客-雲棲社區-阿里雲

這幾年對大數據的炒作，鋪天蓋地的概念，讓很多人都被大數據的概念嚇到了。以為大數據是很高端和很神秘的東西，其實這是一個白馬非馬的問題，大數據仍然是數據，只不過是「大」一點的數據。

大數據和傳統的數據分析或者商務智能的區別我們可以從以下四個方面來理解：

第一，數據本身，比以前更大、更多、更低、更快

也就是我們常說的大數據的4V特性，上面很多答案都提到了，我在這再啰嗦兩句，

1.更大：數據量更大了，以前可能是TB級數據，現在是PB級甚至於ZB級；

2.更多：數據類型更多，以前主要是結構化數據，現在還有大量的文本、語音、圖片、視頻等非結構的數據；

3.更低：數據的價值密度很低，這也是上面兩個「更」帶來的副作用；

4.更快：白熱化的商業競爭對數據分析和處理的速度提出了更快的要求。

第二，業務上，重構組織決策模型，從拍腦袋到數據驅動決策

數據倉庫、商業智能等利用數據進行決策的概念早在上世紀80年代就有了，此前，很多組織沒接觸過這個概念或者不重視數據決策，但隨著大數據的炒作，讓很多組織越來越重視利用數據來決策或分析問題，甚至於有「數據是核心生產資料「，「將帶來第四次工業革命「，「未來是DT時代「等等理念的提出。

第三，技術上，重構數據存儲和計算模式。從單機計算到分散式計算

大數據的海量對技術提出了更高的要求，以前單機很難處理海量、龐雜的數據，且需要高端的伺服器和存儲，成本非常高，而當前大數據可以使用幾百幾千台普通的PC組成的集群存儲和計算數據（如Hadoop、Spark），計算性能非常高，為大數據的廣泛應用奠定了技術基礎。

第四：思維上，重構數據分析模式

大數據的應用思維的變化在《大數據時代》這本書寫得很清楚，思維的變化主要體現在：

1.不是隨機樣本，而是全量數據

以前，數據分析採用的數據，由於技術的局限，經常採取隨機抽樣的方法，以小見大。但隨機抽樣可能帶來「以偏概全」的問題，而大數據時代，因為分散式計算的出現，有了分析全量數據的能力，大數據的簡單演算法比小數據的複雜演算法更有效。全量大數據更能還原客觀事實。

2.不是精確性，而是繁雜性

適當的放寬精確性，掌握事物的大體發展方向。

3.不是因果，而是相關性

通過數據先知道「是什麼」，再分析「為什麼「

思維方面的以上3個觀點，個人認為不是絕對的，需要考慮成本和效率兩個因素，具體情況具體分析。

以上，謝謝！

引用一下資料：大數據

簡單的一句話說來：一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力範圍的數據集合

1.
大數據和物聯網、雲計算同時出現，三個名詞分彆強調不同內容。物聯網是主謂構詞，主體是物，連接是客觀動作，詞語本身描述了一種人類世界的行為，不具有引申義；雲計算和大數據是「形容詞+名詞」構詞，表明新事物區別於舊事物，但彼此仍有聯繫。因此從構詞法的角度看，物聯網是新的人類行為，就像坐汽車、坐飛機、乘輪船，大數據是新的科學知識，就像牛頓第一定律、阿基米德定律

2.
既然是新的科學知識，一旦被合理利用，就能改變世界。像人類利用牛頓第二定律，造出火箭進入太空；利用萬有引力定律，生產人造衛星環繞地球；利用麥克斯韋方程組，造出手機開始通訊。也許幾百年後，大數據和數學一樣成為九年義務教育基礎課程。

通過精準的分析能夠知道未來經濟走向以及生財之道就是大數據。

如果根據歷史數據的精準分析，能夠在04年的時候得知未來十五年房價要大漲，你還會在這裡問這種不著調的問題嗎？

首先要數據量大、雜，其次要有一個分析模型，這牽扯的學問就多了，跟技術幾乎沒任何關係。

大數據是一種技術，數據倉庫是個架構。

No thanks.

碼農來說一下吧。

大數據就是

1) 很多台機器一起幫忙 (分散式計算, mapreduce, hadoop...)

2) 從雜七雜八的數據中 (NoSql...)

3) 找規律 (統計學、機器學習、數據挖掘、IR、推薦系統...)

有的領域是存在半個世紀了的，穩步前進但也沒有什麼重大突破（比如3）。

有的領域是在近5年內有一些觀念性變革的，但也不關外人什麼事兒（比如2和1）。

所以你看，這本來是我們碼農內部自high的小事。

也因此一直不理解為什麼大數據就紅了，別的碼農黑科技就沒有。

直到我重新認識了「情懷」...

對了，

雲計算也是這樣的，但比大數據更水一些。

物聯網也是這樣的，但比雲計算又水很多。

就這樣，最後祝大家「概念股」買的愉快。

不管是行業術語還是麥肯錫給出的定義，都是從大數據本身出發，從數據的特徵與處理解讀。大數據之所以「大」，是因為要處理的數據量從樣本數據變成了全量數據，從存量數據變成了流式數據。從數據價值來說，不管是現在還是未來，數據已經成為一種戰略性資產。大數據的價值不單單體現在數據本身的價值，更是體現在數據的應用價值上，是一個系統性的工程，而不是數據的簡單集合。

通過長期的實踐，我們對大數據的理解是：大數據是以海量多維數據為資產，價值挖掘為導向，集合信息技術、數據科學、數據思維、數據能力、數據應用的數據工程體系。

摘自：《大數據分行業大解析》一書

羅伯特·墨菲提出：經濟學可以被定義為關於交換的研究。所有關於交換的例子中，都貫穿著稀缺這一共同主題。稀缺：資源是有限的，慾望是無窮的。所以稀缺是普遍存在的。所以經濟問題的源頭在於稀缺。經濟學的基礎因而既不是理性也不是自私，而是稀缺！

在海量的業務和行為數據中淘出有價值的數據資產，用於具體的業務場景，本身就是非常稀缺的資產。而對於這些數據資產的收集、管理、應用與交易在2017年也出現了營銷級Saas化的大趨勢，尤其和廣告系統的產品結合，用於精準營銷。

狹義的廣告DMP，主要是接受數據擁有者（可能是廣告主、也可能不是）的委託，按照其需求進行數據加工，並將加工結果用於指導運營優化、廣告投放等任務。其商業模式上做的關鍵，是「來料按需加工」，收取加工費用。

在非專業人看來，中國很多做大數據的公司，追求的是什麼？追求的就是Data，追求的就是數量。

有一天有一個哥們把一個朋友介紹到我們公司來了，他說你們不是做大數據的嗎？我們這兒有很多數據你買不買？我說啥數據？這個哥們從包里整出一個硬碟說，「80G，賣給你」。我覺得很好笑，大數據追求的不是數據的數量，追求的是數據的實時性，數據的維度、豐富度和特點。所以我們做大數據的時候，很多企業走了第一個誤區就是像這個圖顯示的一樣，追求的是多，但沒有抓住大數據的內涵，這是第一個誤區。

第二個，我們做大數據的時候需要對數據做處理和加工，分門別類的找出它每一個屬性，你這個屬性的實體代表什麼，後面的屬性是什麼，你都要去做一些處理，而不是說數據就放在硬碟裡面而已。這些數據的加工和處理意味著什麼？意味著你對它背後所代表的數據屬性的理解和洞察，對於數據演算法能力的了解，如果沒有的話，這些數據也僅僅是數據，它上升不到Information的階段。

第三個，我跟很多人聊他們用DMP做什麼，他們用DMP僅僅做數據的收集和統計，變成了KPI系統，每天看的是新增、留存、激活、渠道和數據，其他都不看了。我說各位老大，DMP不是一個KPI報表，系統里有自定義事件，有漏斗模型，有AARRR模型，有渠道質量評估，有各種能幫你降低成本的東西，能形成一套知識方法論幫助你，你為什麼只看數字這一點？只看表面浮華的，誇張的數字，僅此而已。那你可以想像他對這個產品的運營粗略到什麼程度，如果一個企業老闆這樣運營和看自己的數據，那你能想像這個運營團隊是怎麼樣使用他的數據，不可能做得很深！

我用了這個DMP對我的業務就能好了嗎？不僅如此。有了這個之後你還要做Insight。很多人都以為有了大數據就可以做預測，其實不是這樣的，那是我們的夢想和理想，事實遠不到這個地步，事實是什麼？事實是我們先要用數據的方法解決我們的現有業務問題，幫助我們做產品優化和運營，我們才有可能說通過這些數據的理念和方法去預測我們產品的下一步和市場的下一步，去做一些決策，其實我們要做紮實的是第一步。第二步（預測）只停留在大部分科普作家的書中。當然你想做到最後一步是很艱難的，通過數據的洞察最後能形成某種智慧，對你所在的行業做高屋建瓴的指導和分析，這需要持續的行業積澱和思考。

拿我們的城市地圖為例，一個城市裡面所有的建築物，這些不同的點之間可能有路的聯網，最後哪兩個點距離最短，哪兩個點距離最長會變成知識，變成現在大家看到的導航系統，其實它的內核就是對大數據的合理運用。

聊完成這些，對一個企業而言，需要有真正願意為數據做分析做模型的人，真正願意去挖掘業務場景和分析用戶需求，他們認為數據是好玩有趣的，能夠幫助企業解決問題，發現各種類型帶有小趨勢的人群，先分析大的群體，再從裡面找到更關鍵的人群，分析這些關鍵的人能提供什麼價值，是不是可以用於精準營銷，是不是可以用於人群標籤的交易和交換等等，去幫助相應企業解決業務問題。

更需要有對業務理解很深的人，他能夠把產品和數據結合起來，幫助你對產品做一些優化、迭代、升級，甚至顛覆。你還需要一些領域工程師，這個更多的是指對大數據企業而言，你的數據要發揮作用，發揮價值，你不能對客戶說我有10億、8億、20億數據，你買我的數據吧，這些企業不會理你的。所有的企業，無論是金融還是互聯網，無論是房產還是電商，他只會說我有一個風控問題，有一個這樣的業務漏洞問題，有一個營銷的困境，你們是做大數據的，你能幫我解決嗎？問題就來了。數據公司只有數據、有演算法，有模型。具體行業的公司它有什麼？它有需求，所以你要和它結合，幫助它解決問題才能真正的發揮價值。

那麼問題來了，對大多數企業而言，並沒有能力駕馭以上領域的人員。為什麼企業的老闆只把數據統計系統當成KPI系統，是因為它沒有有效銜接的能力，公司沒有把前端業務和後端數據銜接，沒有人去幫助它分析問題、解決問題，所以它也只能去看數據，而不能用數據。

所以很多企業開始意識到數據資產重要，而又不懂如何應用，DMP領域的知識又非常封閉稀缺。

正是這樣的背景下，作為一個廣告DMP愛好者，我創建了一個付費知識社區，將DMP全面開放到底。

本期聊的知識點

2個月前創建以來，目前有超過200位愛好者加入，大多數是互聯網廣告領域的產品人員，技術和運營人員，有來自騰訊、百度、阿里、滴滴、小米、璧合、億瑪、品友、58、京東和谷歌等一些海外從業者。

其實，最關鍵的一點是，如果你關心廣告DMP知識社群和願意為有價值的內容付費，無論琢磨多久，都沒用。行動起來，加入我們，你的理解必然更加深刻。

掌握未來語言，IT從小抓起，關注微信公眾號：小鳥編程（O2Opark _GZ )，加入"廣告DMP"圈子，和伊姐（谷歌大數據產品）一起終身學習。

什麼是大數據？不要再舉例說啤酒和尿布的例子了，Gartner的分析師Doug Laney在講解大數據案例時提到過8個更有新意更典型的案例，可幫助更清晰的理解大數據時代的到來。

1. 梅西百貨的實時定價機制。根據需求和庫存的情況，該公司基於SAS的系統對多達7300萬種貨品進行實時調價。

2. Tipp24 AG針對歐洲博彩業構建的下注和預測平台。該公司用KXEN軟體來分析數十億計的交易以及客戶的特性，然後通過預測模型對特定用戶進行動態的營銷活動。這項舉措減少了90%的預測模型構建時間。SAP公司正在試圖收購KXEN。

3. 沃爾瑪的搜索。這家零售業寡頭為其網站http://Walmart.com自行設計了最新的搜索引擎Polaris，利用語義數據進行文本分析、機器學習和同義詞挖掘等。根據沃爾瑪的說法，語義搜索技術的運用使得在線購物的完成率提升了10%到15%。「對沃爾瑪來說，這就意味著數十億美元的金額。」Laney說。

4. 快餐業的視頻分析。該公司通過視頻分析等候隊列的長度，然後自動變化電子菜單顯示的內容。如果隊列較長，則顯示可以快速供給的食物;如果隊列較短，則顯示那些利潤較高但準備時間相對長的食品。

5. Morton牛排店的品牌認知。當一位顧客開玩笑地通過推特向這家位於芝加哥的牛排連鎖店訂餐送到紐約Newark機場（他將在一天工作之後抵達該處）時，Morton就開始了自己的社交秀。首先，分析推特數據，發現該顧客是本店的常客，也是推特的常用者。根據客戶以往的訂單，推測出其所乘的航班，然後派出一位身著燕尾服的侍者為客戶提供晚餐。

6. PredPol Inc.。PredPol公司通過與洛杉磯和聖克魯斯的警方以及一群研究人員合作，基於地震預測演算法的變體和犯罪數據來預測犯罪發生的幾率，可以精確到500平方英尺的範圍內。在洛杉磯運用該演算法的地區，盜竊罪和暴力犯罪分布下降了33%和21%。

7. Tesco PLC（特易購）和運營效率。這家超市連鎖在其數據倉庫中收集了700萬部冰箱的數據。通過對這些數據的分析，進行更全面的監控並進行主動的維修以降低整體能耗。

8. American Express（美國運通，AmEx）和商業智能。以往，AmEx只能實現事後諸葛式的報告和滯後的預測。「傳統的BI已經無法滿足業務發展的需要。」Laney認為。於是，AmEx開始構建真正能夠預測忠誠度的模型，基於歷史交易數據，用115個變數來進行分析預測。該公司表示，對於澳大利亞將於之後四個月中流失的客戶，已經能夠識別出其中的24%。

優質回答很多，拿自家老大的內容借花獻佛。

文章摘自：神策數據創始人CEO 桑文鋒所著《數據驅動：從方法到實踐》。

在這一行業浸泡了近十年，不斷會有人問我什麼是大數據？結合我看過的一些書籍，包括《大數據時代》、《數學之美》第二版、《矽谷之謎》以及吳軍老師的演講等，我站在巨人的肩膀上，結合多年工作實踐，形成了自己的一些認知。

我把大數據的概念總結為四個字：大、全、細、時。

一、大數據之「大」

我們先來看一組數據：

百度每天採集的用戶行為數據有 1.5 PB 以上

全國各地級市某天蘋果價格的數據有 2 MB

1998 年 Google 抓取的互聯網頁面共有 47 GB（壓縮後）

一颱風力發電機每天產生的振動數據有 50 GB

百度每天的行為數據超過 1.5 PB（2015 年），我們毫不懷疑這是大數據。但全國各個地級市今天的蘋果價格的數據大小只有

2 MB，相比前者可以忽略不計。如果我們基於這個數據，做一個蘋果分銷的智能調度系統，這就是前沿的大數據應用了。Google

剛成立時，其創始人謝爾蓋·布林和拉里·佩奇抓取了整個互聯網的頁面，壓縮後僅 47 GB，Google 搜索顯然是個大數據的應用。而一颱風機一天的振動數據大約 50 GB，但這個數據只是針對這一颱風機的，因為覆蓋面狹小，所以不能叫大數據。

因此，大數據的「大」強調宏觀的「大」，而非一味追求數據量的「大」。

在 2014 年 8 月 24 日，美國南加利福尼亞發生了一場地震。傳統的地震監測方法是在全國各地放一些地震監測設備，以此來監測地震的幅度。但由於部署的監測設備較少，導致無法精確分析地震的影響。這次不同的是，隨著運動手環的普及，分散在全國各地的手環，成了很好的振動採集設備。

圖 Jawbone 手環公司收集到的振動數據圖片來源互聯網

如圖是 Jawbone 手環公司在此次地震中收集到的振動數據。我們可以清楚地看到各城市振動的幅度差異以及震中的位置。這就是一個典型的「大」數據應用。

二、大數據之「全」

我們再來看關於美國大選的三次事件：

1936 年《文學文摘》收集了 240 萬份調查問卷，預測錯誤

新聞學教授蓋洛普收集了 5 萬人的意見，成功預測羅斯福連任

2012 年 Nate Silver[1] 通過互聯網採集社交、新聞數據，成功預測大選結果

《文學文摘》所收集的問卷有 240 萬，數據夠大，但為什麼預測錯誤了呢？當時《文學文摘》是通過電話調查的，能夠裝電話的只有富人，這類人群本身就有不同的政治傾向，調查結果本身就是偏的。而蓋洛普只收集了 5 萬人的意見，但是他採用按照社會人群按照比例抽樣，然後彙集總體結果，反而預測正確了。因為這次預測，蓋洛普一炮而紅，並成立一家著名的調研公司。當然，後來蓋洛普也有預測失敗的時候。到了 2012 年，一個名不見經傳的人物 Nate Silver 通過採集網上的社交、新聞數據，這是他預測的情況和真實的情況，如圖。

圖 Nate Silver做的競選預測

兩者是驚人的接近。當然，2016 年的大選，由於共和黨的選民許多都是社會中下層，並不使用網路，導致這次所有基於網路數據的預測失效，Nate Silver 本人也不例外，可見網路本身也是有偏的數據。

總之，我想強調的「全」是全量，強調多種數據源，包括前端、後端的數據，包括日誌、資料庫數據等。大數據時代有了更前沿的數據採集手段，讓獲取全量數據成為可能。

三、大數據之「細」

在 2013 年 9 月，百度知道發布了一份《中國十大吃貨省市排行榜》，在關於「××能吃嗎？」的問題中，寧夏網友最關心「螃蟹能吃嗎？」內蒙古、新疆和西藏的人最關心「蘑菇能吃嗎？」浙江、廣東、福建、四川等地網友問得最多的是「××蟲能吃嗎？」而江蘇、上海、北京等地網友最愛問「××的皮能不能吃？」如圖是全國各地關心的食物。

圖各省市最喜歡吃的東西圖片來源於網路

用戶在問「××能吃嗎？」的時候，並不會說「我來自寧夏，我想知道螃蟹能吃嗎？」而是會問「螃蟹能吃嗎？」但是伺服器採集到用戶IP 地址，通過 IP 地址就能知道他所在的省份。這就是多維度數據的威力。而現有的採集手段，能夠讓我們從多個維度獲取數據，再進行後續分析的時候，就能對這些維度加以利用，就是「細」。

總之，「細」強調多維度數據，包括事件、商品的各種維度、屬性、欄位等。

四、大數據之「時」

我們現在對 CPI 已經不再陌生，是居民消費價格指數（Consumer Price Index）的簡稱。它反映居民家庭一般所購買的消費價格水平變動情況的宏觀經濟指標。

圖 2008 年 1 月 – 2017 年 3 月，全國居民消費者價格指數情況圖片來源網路

你知道 CPI 是怎麼統計的嗎？實際包括兩個階段：一個是收集商品價格數據，一個是分析並發布數據。我從百度百科上了解到，中國 CPI 採樣涉及 500 多個市縣，采價調查點 6.3 萬個，近 4000 名采價員，次月中旬發布報告。我還曾找國家統計局的朋友確認過此過程。

而在美國有一家創業公司叫 Premise Data[2]。它通過眾包方式，25000 位采價員（學生、收銀員、司機等），通過手機 APP 採集數據，每條 6 ～ 40 美分，比美國政府數據提前 4 ～ 6 周發布。如果企業或個人提前知道這些數據，就可以提前做空或做多一些股票。據說 2008 年的金融危機，阿里巴巴更早的通過交易數據而有所感知。

這就是「時」，強調實時數據採集和實時數據分析的價值。在 CPI 的例子中，我們可以讓價格上報工作更智能一些，不需要人工的方式。

從「大」、「全」、「細」、「時」四個字，我們就可以對大數據的概念有較為清晰的認識。這四點主要強調的數據在獲取和規模上和以往傳統數據時代的差異。我把這四個字定為神策數據為客戶進行數據採集的「四字法則」。企業有了夯實的數據基礎，才能對大數據加以利用。

注釋：

[1] Nate Silver，號稱為美國公眾眼裡政治圈內完美的「預言帝」，他的「預言」被稱為競選預測之神諭。有媒體評論，其選情分析被極度精妙的美國政治評論圈認為是達到了前所未有的水平，但因為他所使用的是被學界稱為「巫術統計」的貝葉斯理論，也招惹來頻率學派和一些保守的統計科學家們質疑。

[2] Premise Data，一個結合線上線下數據提供新鮮的經濟觀點的公司，比政府機構更準確地預測經濟，並將有用的數據、指數和工具賣給有需要的公司。

《數據驅動：從方法到實踐》一書將作為2017神策數據驅動大會訓練營教材，並將有電子工作出版社正式出版。

我只知道近年來廣告投放越來越準確了。

從最初的 web analytics 到 real-time 再到現在的 big data 都是*商業上*唬人的 buzzwords

但有些人就喜歡用這種空洞的詞

大家應該離那些天天口頭上帶著「大物移雲智」的人遠一些。