今天,談談大數據。(2)

本文責編/作者: @劉彥宏 (@小油)

修正:@Akira(at不出來我也很絕望啊) @Copper菌

回顧上一章:

  • 大數據,不是一個「新概念」,卻是火起來的「新玩意」
  • 數據決定生死,分析能力也決定生死,這是一句真話

總的來說,上一章,我們講的是「大數據的概念」與「大數據的發展形成」。

閱讀提示:本文涉及主觀的觀念,為的是培養一種基礎的認識,並不是嚴謹的概論。關於大數據的事情,多是見仁見智。


大數據的特點

說到大數據的特點,我們就不得不來說一下由IBM提出的經典的「5V特點」:

  • Volume(大量)
  • Velocity(高速)
  • Variety(多樣)
  • Value(低價值密度)
  • Veracity(真實性)

(本文斜體字,均摘自百度百科)

這個「5V特點」,我們要從哪裡入手呢?我覺得,首先要從互聯網已經固有的兩個特點入手:

Volume(大量) Velocity(高速)。

  • 容量(Volume):數據的大小決定所考慮的數據的價值和潛在的信息;
  • 速度(Velocity):指獲得數據的速度。

這兩個很好理解。我們把大數據和傳統的問卷調查進行一個對比,就能發現大數據在數據大小上的優勢。大數據的收集和整理源於每一次點擊操作、每一次瀏覽操作;而問卷調查是讓用戶告訴你,理論上來說不可能會獲得特別多的數據,至少沒有大數據這個龐大的「資料庫」多。而大數據每次收入的是微量的數據,所以速度快,但是整理出來就有龐大的數量,所以稱之為「大數據」。問卷調查短則幾分鐘,慢則半小時,視要收集的數據的大小和複雜程度而定。我們這裡還提及了「數據的價值」和「潛在的信息」,這個在後文分析。

然後,我們再說說大數據所特有的真正的「特點」:Variety(多樣)Value(低價值密度)Veracity(真實性)。

  • 種類(Variety):數據類型的多樣性;
  • 價值(Value):合理運用大數據,以低成本創造高價值;
  • 真實性(Veracity):數據的質量。
  • 複雜性(Complexity):數據量巨大,來源多渠道(註:複雜性不屬於「5V特點」,但我們放在這裡,方便大家理解)

這裡所說的多樣,其實指的就是大數據的數據採集點較多;前文也說過,你每一次觸發的操作,都有可能進入大數據這個龐大的「資料庫」。有了多種多樣的數據,才方便更好的描繪用戶畫像嘛。大數據的三個特性:大量、多樣、複雜性,其實都是合而為一的!我們一直都在強調一個問題:大數據是無價的!大數據所代表的是一類人,一種人,而不僅僅是一個人。一個人的信息可能很渺小,但是一群人的數據就很重要了。掌握了大數據,就能夠掌握市場的趨勢,社會潮流的趨勢;尤其對於在線購物行業,就能夠知道你要買多大的衣服,你要買什麼,你是肥宅還是數碼愛好者,是個職場精英還是個全職媽媽,又再根據這些種類,這些標籤,給你量身定製推薦內容。這就是「低成本創造高價值」:因為已經有了一定的數據基礎,所以不需要使用過多的資源,過大的人力就可以給你提供準確友善的體驗,從而促進經濟效益層次上的轉化。至於真實性,前文已經有所提及:既然用戶會在我的網站上有所行動,有所行為,有所表現,為什麼我要刻意地去追問他,而不把他的行為記錄下來,再進行分析呢?人不是都那麼地「誠實地對待別人」,但是為了自己的事情,人並不需要「自欺欺人」。如果你喜歡迷彩軍裝,你總不會特地去買一套特別小氣的服裝去迷惑系統吧?大數據從用戶行為的層面上,就保障了數據的真實性,高質量;這也是「有些話我不說,但是行動上會表達」的道理。


大數據的缺點

說完人們老生常談的「5V特點」,我們其實不難發現,這概括的都是大數據的優點!對於,一件事物,我們總要一分為二地看待。大數據和他的老前輩——問卷調查,都有一個逃脫不掉的弊端。

可變性、多變性。

這個又要和前文的複雜性聯繫在一起了。因為數據很複雜,來源很多,所以導致大數據和與其相關聯的用戶畫像常常不穩定。有可能你昨天見到的年輕人還在高呼「李澤言是我老公」,今天他們就在念叨「我的崽崽怎麼還沒回家」了。這時候也會導致推薦內容和營銷策略的劇變。這些變化總有可能會廢了一些具有時代潮流特徵的數據:因為新的時代、新的潮流又來了!可是也有一些觀點認為,這種數據是廢不得的:正是因為從他們喜歡什麼的角度著手,才能預測下一次的潮流將會是什麼,以做好應變準備。

總而言之,可變性和多變性妨礙了處理和有效地管理數據的過程

大數據是一個龐大的資料庫,所以數據量如果不夠,連大數據的資料庫都無法構成。這又是和問卷調查都有的同一個弊端:

如果樣本量不足,對結果、判斷和用戶畫像會有驗證的影響。

假如說你把一位堪比「陳獨秀」一樣秀氣、特別的年輕人,丟在幾千個年輕人裡面,你很可能認不出他;假如把他放在十個年輕人,甚至五個年輕人裡面,他就很扎眼了,堪比「蒂花之秀」。這個時候系統可能就認為:年輕人有一些特點,都會和他的差不多。(要是系統沒有見過年輕人的話)

但是實際上這麼特殊的人只是少數,應該特殊地隔出來處理,而不應該把他直接放到數據大流裡面,任他「污染數據」!

回到問卷調查,如果你只知道一個人的心聲,那肯定是不足夠的;只有把數據整合在一起,才能得到趨勢。

大數據還有別的缺點,並且,我們所說的「如果樣本量不足,對結果、判斷和用戶畫像會有驗證的影響」這個缺點實際上是不構成的:沒有龐大的數據量,連大數據都無法組成。這裡就不再做贅述,請讀者朋友們自己斟酌。

(註:①相關文獻參考請看後記)

(未完待續……)


後記

(整個系列都沒寫好,你寫後記幹嘛)

實際上,作者的觀點並不完善,還請讀者們理解。事物的正確答案不止一個,至於大數據相關的問題,還有很多爭議,這裡我只說到了一些基礎的內容,只是為了讓大家有一個簡單的理解。未來的天空還很廣闊,等著我們去自由探索。有任何意見、建議,或者是討論問題,歡迎在評論區發表。

今天美工不在家,不要吐槽為什麼今天沒有圖片了

工作室官網:www.ingee.online

視頻連載(主要):space.bilibili.com/8560

直播間(主要):live.bilibili.com/33768

「大數據的缺點」部分文獻參考:

《白話大數據與機器學習》/高揚


推薦閱讀:

中東富裕國家如沙烏地阿拉伯有哪些拿得出手的現代科技?
為什麼現在的手機把正面的兩邊塗黑了就叫無邊框手機了?他們是真的認為這樣能蒙人還是無邊框本來就是這樣?
開滴滴太坑人了,註銷不了,怎麼辦?

TAG:互联网 | 科技 | 大数据 |