大家都在搞大數據,可是數據從哪來?能否堅持到數據足夠大那天?

我感覺好多人談大數據都是在炒概念,大數據這事真不是屌絲創業能幹的,沒錢,沒盈利的話。能耗到數據大的那天么?怎麼想都有點扯淡。多數人都是拿這個概念糊弄投資賺錢吧?


我非常認同提問者的觀點,目前很多項目確實在藉助大數據的概念熱炒!

這很簡單,因為大數據很火,所以把自己的創業項目盡量往大數據上面貼,一方面能夠增加曝光度,一方面也增加吸引投資的能力。

當然,大數據也已經在應用層面出現了。

比如說現在大家炒股和炒期貨用的量化交易,其實核心就是大數據。

比如我們打開電腦總是有很多與自己隱私相關的一些產品廣告,這也是大數據在做的精準營銷。

再比如,百度時常發送的百度大數據預測報告,就是基於我們搜索信息對當下市場的一些預測。

其實,這方面的產品已經很多很多,當然,炒概念的也很多很多,導致我們有時候覺得做大數據創業就是在炒概念。如果你對大數據感興趣,歡迎加我們信微 idacker


在回答問題前,先貼一句幾年前看到的一句話:

Google"s geographic data may become its most valuable asset. Not
solely because of this data alone, but because location data makes everything
else Google does and knows more valuable.

大數據的來源:

就說國內BAT三家公司大數據的來源,之前阿里和騰訊(不像百度)其實是沒有用戶的即時定位信息的(因為這兩家的地圖軟體其實還是沒有什麼人用的吧。,如果有人想問衛星是不是LBS信息的來源,提前回答,其實微信如果你不開附近的人或者搖一搖的話是不會有定位許可權的。。。即使是開了許可權,大多數情況下提供的 lat/lon
pair
也是基於 cellular
positioning
而不是 satellite
positioning
,精確度不夠。)

在打車軟體這裡介入之後,恰好幫阿里和騰訊補上了用戶模型里缺失的最後一環,在拓展了打車應用後,現在阿里和騰訊就拿到了每個用戶的大量在不同時間,地點(很可能還是連續的)的地理定位(LBS)信息(更贊的一點在於這個信息其實不光是 spatial,而是 related to other things 的)。

再考慮到阿里依靠支付寶擁有的每個用戶的信用記錄、購買記錄、實名、shopping address(準確性最高的一種信息沒有之一)以及騰訊有的每個用戶詳盡準確的關係網……補上即時定位信息這個短板之後,這兩家對用戶信息掌握的程度又上了一個巨大的台階。

結合LBS數據後的大數據有什麼用:

從用戶的地理信息數據里能夠挖出來的信息是難以想像的,尤其是如果公司本身還擁有與該用戶相關的其他大量信息的話,配合用戶的地理定位信息使用效果奇佳。想像一下如果很多 industry 的公司拿到詳細的地理信息與用戶其他行為的關聯的話..世界真是太可怕了麻麻我要回火星。

說的太晦澀了,舉個例子來說明今後BAT對大數據的應用:

比如假設我最後發現好多所有半夜兩點鐘在人民廣場打車回家,平時在淘寶上給網遊充值的,淘寶送貨地址在外環以外合租房的屌絲如果半夜兩點鐘還不回家的話有極大的可能性是在吃烤串。結合大數據的 recommend system ,微信就會推送一條消息,說周邊有一家烤串店很好吃,如果資料顯示你有喝啤酒習慣的時候,等你吃烤串的時候再推薦一瓶某品牌的啤酒。(真的只是假設…求不吐槽..)

在談完大數據如何獲得,以及大數據如何使用後,我們再談談大數據是否能在合適的場景以合適的方式準確地把靠譜的數據以靠譜的方式推送給靠譜的人。

大數據會不會因為採集了一群奇葩的人的數據而導致會有bias

再拿 recommend system 來說,就好像 personalized
collaborative filtering 一樣,不會因為你採集了一大坨奇葩的人的數據,就對其他人群的推薦結果產生任何影響。相反,你對於任意一個單體user(item)掌握的數據越多,那麼針對該user(item)以及其 nearest
neighbors 的 prediction 的性能就會越好】

然後採集到的 lat-lon pair 可以用各種分法來 clustering/classifying(舉例:可以判斷用戶此次打車是上班還是下班還是粗去玩...)

未來大數據的使用方法就是:

把現實事件抽象成數據,進行合理的處理之後給出結果數據,然後再把結果數據還原成為行為建議。

最後講個故事,如果大數據應用到生活中,未來會怎麼樣:

你一早起來,發現快遲到了。琢磨著今天是開車呢還是擠地鐵去上班比較快。聽各種廣播、看各種地圖上的路況,你只能知道堵不堵,可是真不知道得多長時間。

這時候,你拿出手機,選擇目的地之後,收集上周本日,上上周本日,同時段,同路段的N輛計程車的運行時間,經過各種演算法處理,給了你一個平均開車花費的時間。你一看,我去咧,開個車比地鐵都慢,果斷走向地鐵站。

你到了公司,經過一上午的辛苦 working,中午想改善個伙食,周圍的飯店已經吃膩,遠的地方又不知道味道如何。於是你又拿出手機,看看中午時段,自己周圍有多少人打車出行,都是去哪的,多少人是往返,也就是去吃飯的,他們對自己吃的這頓飯評價是幾顆星……

吃完了,你深感滿意,於是你對這頓飯進行了評價,同時又叫了回程的計程車,兩次叫車記錄,加上你添加的「吃飯」標籤,以及餐館信息和評價,作為一次完整的出行,被某台伺服器記錄在案。

下班了,哥們兒幾個商量周末聚餐的事情,有關在哪裡聚餐的事,愁破了頭。陸家嘴?住松江的不幹,徐家匯?住五角場的不幹……有車的人,對於是開車還是坐地鐵也都是「IFXXX」式敘述。

經大家討論,你們這一群棲息在上海各個區的傢伙決定,為了大家都不跑太遠,大家只好在 people square 鋪個席子吃飯(玩笑莫噴…………)

糾結之後,你又拿出手機,打開App,輸入了若干人人等的手機號碼,對於誰可以開車,誰只能公交也進行了標記。幾秒鐘之後,凝聚了工程師無數心血的演算法,根據那些手機號碼平常的打車記錄,劃定了這幾個貨最有可能的,家的位置,然後基於以上,列舉出了若干聚餐的最佳選擇,並對誰開車,誰地鐵,誰打車都進行了安排。

大家驚為天人,全票通過。你點擊接受方案,然後針對每個人的建議行程安排,就被發送至每個人的手機,需要叫車的,也自動進行了預約。

注釋:related to other things 是一個cognitive的概念,其中包含的更多是人類本身對於這個地點的認知。。。比如假設在一個地圖軟體里,一個& 點, 包含了經緯度,名字(假設是「小楊烤串」)然後可能有其他一些信息,比如能不能停車啊,人均消費啊什麼的。。。這都是spatial的【然後這些信息在GIS資料庫上都是 referenced by 點或者線或者 polygon】。。。。但是每一個具體的用戶對於小楊烤串的信息 【比如 review 啊, 他們為什麼要來小楊烤串的原因啊,喜歡點的菜啊,甚至於在小楊烤串表白被拒的記憶啊什麼的。。都是 related to other things 的】 【 related to other things Data 在這裡有一個有趣的特性是,他們是不一定與一個特定的地理對象相連。。因為每個人對同一個概念,對應的地理對象不一定相同。就像【上海市中心】這個概念,大家對應的地理對象就不一定是同一個。

順便加個二維碼,有很多關於這類的文章


大數據來源:

1、互聯網;

2、企業過去所做的BI


大數據不能單調的認為是數量大,其實大數據的大,除了數量更重要的是維度「大」,也就是引起某種結果的條件是很多的。如計算一個化工廠的安全係數,單調的從一兩個感測器得到數據來判定,即使這數量再大那也只是計算速度的問題,非複雜度的問題。綜合多方數據甚至外部數據,並計算是哪些因素可能引起某些問題,才能稱得上大數據。

我也是瞎扯的,隨便噴,我臉皮厚。


大數據,現在都上大數據了么,我感覺還是在炒作的階段,真的做出什麼成績來的了,沒幾家吧,除了BAT,其他都在摸索階段;

現階段,把數據倉庫搞好就笑了,大數據,這個大在於精,不在於量啊;

那麼多非結構化的數據,分析起來,成本太高


1984


你一輩子做的所有事情,事無巨細,夠大嗎?

你所有的上網行為數據量夠大嗎?

數據,無處不在,誠然現在大數據的概念是很火,但是運用的方面並不是很多。

但是換一個方面,我們就拿用戶行為分析來說吧,計算機可能要經過「無數次」的分析才能發現你喜歡什麼,當你遊覽網站的時候網站給你推薦的物品,都是經過無數次運算分析而得到的。

網易音樂的推薦演算法你可以看看,都是以數據為基礎。

大數據是以後發展的一個趨勢,如果不憑藉計算機,人類是沒法處理巨大的信息量的。

由此,大數據應運而生,現在國內很大一部分公司都在進行大數據的研究,其運用領域之廣泛。至於如何廣泛就看你自己去發現了。

我想,其實每個人都是一段二進位代碼。你的用多大的空間來存儲?


big data

大數據這個東西並不是在炒概念

舉個例子

速度與激情7裡面 提到一個天眼系統 可以在很快的時間內找到你要找的人

在貴陽有個大數據系統和這個天眼非常相似 貴陽這個是一個抓套牌車系統 在貴陽很多個路口都會有攝像頭 並且每當經過一輛車都會拍照下來 存在資料庫裡面 如果同時出現兩輛一樣號碼的車 那麼雲計算系統就會在極限時間內計算 指出那一輛是套牌車

我的表達可能不是很清楚 http://m.v.qq.com/page/i/z/n/i0017cvduzn.html?ptag=v_qq_com%23v.play.adaptor%233from=timelineisappinstalled=1 你可以看一下這個視頻 你就會明白

說句實在的 國內很多互聯網巨頭都是在使用大數據

再舉個例子 不知道你平時上百度的時候會不會發現 電腦屏幕旁邊會出現很多話題 這些話題就是百度根據你平時上網的習慣 合成數據 雲計算分析出來的一些你感興趣的話題

數據的收集是個非常漫長的過程 所以現在貴陽有大數據交易中心


推薦閱讀:

凝結在時間裡的枯萎之花 | 評《上海堡壘》
什麼是屌絲!屌絲有哪些特徵?
「高富帥」三者集中在一人身上的概率有多大?
屌絲而論,牛小偉、賈志新、條子、燕小六、賈隊長,誰才是屌絲之神?

TAG:創業 | 屌絲 | 大數據 | 大數據量 |