阿里巴巴的大數據水平在業內如何?
阿里集團透露,在阿里數據平台事業部的伺服器上,攢下了超過100PB已處理過的數據,等於104857600個GB,相當於4萬個西雅圖中央圖書館,580億本藏書。這個是什麼概念呢?對於商業化有什麼幫助呢?BAT里,百度和騰訊好像說的不多啊,難道是做的不行嗎?
吐個槽。真實案例,某startup,team(2個人)做的類似Hive的數據分析平台,一個月處理超過100PB的數據,平台是做給業務人員用的,如果加上正經給工程師用的MapReduce Job,一個月超過200PB。公司在矽谷大數據處理圈裡小有名氣。所以?沒有所以。數據多大沒有很大意義。給我幾百台機器,每台機器跑往HDFS(Hadoop的分散式文件系統)上寫隨機數,數據量上我也能妥妥爆阿里的菊。但是我會賺錢么?肯定虧到內褲都不剩。
數據要看有多大含金量,也看怎麼處理,還看業務模式。100PB這個數字本身沒有多少意義。
但是Alibaba的數據本身,很多應該是用戶採購相關的行為數據,這屬於富礦了。不管是廣告還是推薦,還是今後O2O和移動端的戰略,用戶數據都是無價之寶。正好在現場,拍了點內容,貼上來。
1,大數據的三個維度:
大數據從4個V的年代,Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)延伸至三個維度,可實時性、可解釋性、數據準確/穩定性。這三個維度是現在到底數據能不能用上的很重要的三個維度。
2,大數據的十誡打個比方:比你要統計全國各地女性罩杯的數據,你去街頭派發問卷調查,收上來的答案肯定是有水分的,但你通過淘寶購買胸罩的消費得出的答案肯定是幾乎沒有水分的
阿里巴巴的大數據確實很牛!阿里是第一家把數據分析職位部門化、職級化和規範化的互聯網公司,併產出了很多數據分析方法論特別是電商行業的方法論,下邊是網傳的阿里數據分析師職級和要求
現在說大數據太土了!美國大部分人已經開始停止講大這個詞了,開始說Data。這個詞是非常有意思的,我們把數據工程化,裡面必須要有一個標準要出現,而且在有標準要出現之後,還有一些樓層要出現。
大數據已經從4個V的年代,Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)延展至三個維度,可實時性、可解釋性、數據準確/穩定性。這三個維度是我們現在到底數據能不能用上的很重要的三個維度。
我們現在整個數據裡面的問題是什麼呢?整個數據的問題是,業務的人不知道數據怎麼用?做數據的人不知道別人怎麼用?所以裡面是有一個很大的障礙在中間的,所以這是大數據鋪普遍存在的一個現象。如果今天我們有很多的大數據,我們不是認為有一個問題說要找數據來解決一個問題,而是我們運營數據,我們搜集很多數據的數據可以幫我們解決很多未來的問題,這個才叫大數據。
真正懂數據的人不會覺量大是個優勢。百度,移動聯通電信,騰訊。。。的數據量絕對比阿里的大。只是前幾個數據要麼就是半結構化,非結構化及單一的,挖掘難度非常大。而阿里的不同,數據是結構化了的,而且數據的意義也很明確,可利用度高。
舉個簡單的例子,以前不是有淘金熱么?我這裡偷個懶,網上找了個我所指的淘金的意思:
淘金,指淘金者們打撈起河裡或湖裡的淤泥後,在淘盤將淤泥洗滌,以便找出淤泥里的天然金沙。淘金曾是眾多冒險家眼中的致富手段,歷史上曾經掀起過幾度的淘金浪潮。在河裡、湖裡淘金與金礦淘金誰能挖掘出更多的黃金?答案應該不用我說吧。對於百度等公司,數據差異大,就好比在河裡、湖裡一樣,而阿里的差異不大則如同在金礦。所以在某種程度上說阿里大數據牛,主要是因為其數據來源可利用度高,數據相對而已更加真實。但是從技術角度來說,我覺得阿里可能還不如百度、騰訊,因為它們在想方設法最大限度利用它們的數據。說一下騰訊吧,我記得最早之前,我們的聊天記錄是沒有存儲在騰訊伺服器上的(我沒考證過,有點道聽途說),現在不用說了肯定存在伺服器上。我最近也發現,qq聊天的時候上面的廣告會和你聊天記錄相近。但是分析我們的聊天記錄相對而言是比較難的,比如某消息「我葯克翻便一下(我要去方便一下)」,這樣分析難度是比較大的,我相信還有比這更複雜的。如果今後數據挖掘/機器學習達到一定的程度,百度,移動電信聯通,騰訊等公司的數據價值就體現出來了,只是時間問題。也許有一天,電信把你的語音通話都分析出來了,這個價值對商業還是zf都是巨大的。也許有人正在謀劃一起犯罪,通過電話和同夥聯繫,而電信把這段語音分析結果自動提交給zf,那麼zf能在犯罪為發生前就能把歹徒控制住。扯得有點遠,其實我只是在說一個問題,數據的價值決定於來源和工具。剛剛參加完阿里巴巴在北大的技術論壇。有些可以作為回答而分享。阿里巴巴在08年就把大數據作為一項公司基本戰略,要知道那個時候甚至還沒幾個人開始談論「大數據」,可以說在大數據方面相比於國內其他互聯網公司,阿里是走在前面的。
按馬雲的話講,我們正從information technology轉向data technology。數據是靈魂。也許並不能保證大數據能給阿里巴巴賺很多錢,但是阿里認為數據對人類有用,所以他們做了。
舉一個阿里CTO認為大數據應用和價值的例子:淘寶小貸團隊,很小的隊伍,完全依賴數據對客戶的信用程度作分析,將數據轉化為信用,將信用轉化為財富,這是傳統商業銀行冗雜的審核程序,低效和高成本所不能比的。更重要的是,這個項目給近百萬的小商戶提供了生命線,哪怕只貸一元錢。沒有哪個銀行會這麼做。我認為阿里巴巴已經是國內互聯網大數據的先驅,他們在做有意義的事情。從技術應用上來說,阿里大數據挺牛的,但是主要也是因為有應用場景,發揮了hadoop的能力。其實在國內hadoop最厲害的還是華為,它一家向hadoop貢獻的代碼就比BAT三家加起來還多。
至於商業上的幫助,從業務應用上來說,其實重要的還是數據的相關性而不是大小。數據量大不一定能解決問題。例如淘寶儘管積攢了100PB的數據,但是對商家的評價還是嚴重依賴好評/差評這一個簡單指標,以至於圍繞好評差評出現各種亂象。你交易數據再多也替代不了好評差評這一個簡單數據的作用。所以我覺得大數據的價值其實被嚴重誇大了。今天去溜達進去了,人山人海,來了很多國際上的大拿,比如linkedin的大數據主管,FB的,還有ebay,還有神奇的唯品會的副總裁也來了。。。廢話不多說。我拍了幾張linkedin的PPT,是他們一整套的額,絕對正點。供大家參考。
前面有很多人都回答的挺有意思,但其實都並沒有真正客觀回答阿里大數據牛不牛的問題。
首先,阿里牛不牛要看和誰比。。。
1)和非下面提到的任何企業比,阿里都可以甩開大多數企業幾條街(包括寶潔,可口可樂之流),差距體現在和數據來源、IT基礎架構和數據分析能力(模型、理念等),都不在一個層面上
2)國內除BAT以外的,能說的上在搞大數據,大概也就是三大電信運營商和銀聯等,這些公司和前一類公司的不同點在於他們已經有海量的數據,並且IT實力基本掌握(雲計算等)。但此類公司目前的研究重點是國家安全類的方向,在商用方便考慮較少,加上國企的一些常見的毛病,對大數據的核心分析能力掌握不深,或者是沒學習動力,基本是在等別人搞完了再拿過來,這是他們和阿里的差距。
3)BAT,這三家裡,水平基本差不多,但各有特色。其中,阿里的數據量最小,但有高價值,而且多數是結構化的數據。百度和騰訊的數據量都比阿里多很多(準確說,高出了數量級)。騰訊是以社交和遊戲為主,而且基本給內部用。百度則是量最大的,主要是為提高用戶的搜索體驗和廣告主的精準營銷。說到底,三家的差別主要是數據來源和商業用途上的差別,核心能力差不多,都基本可以靠Hadoop搞定半結構化數據。
4)和Google, Amazon等矽谷企業比,阿里要差挺多,主要差距是在對數據分析的基礎研究(Google和頂級數據科學研究機構的發文章的理念基本在一條線上,但阿里至少慢3年)和大數據分析人才儲備上(國內在大數據人才數量和質量上都和美國差不少,畢竟起步晚了)。但大家的發展方向和架構沒有本質上的差別。
話又說回來,其實今天的大數據分析更多是一個市場熱點,距離真正形成完整的產業並創造價值還有很長的路要走。個人認為,美國的話,可能還有3-5年,國內的話,估計有5-10年。現在有很多的文章提到的比如亞馬遜的廣告多精準啊之類的事,雖然說明大數據很牛逼,但普遍以偏概全,掩蓋了成本投入和創造價值的問題。簡單來說,就是把那些牛逼的案例用在你我身邊的路人企業上,技術上很難實現,前期投入巨大,而失敗的風險也很高。所以,目前多數企業都處在理性的摸索階段(比如內部成立個小團隊研究研究),具體大規模使用還有一段距離。
簡而言之,大數據要騰飛,可能還需要一個跨時代的應用出現(類似蘋果iPhone於智能手機的發展),來拉動整個產業鏈。只看今天的話,大家都還處於一個燒錢的階段。
期待大數據時代
: )論技術,正規的大公司都有。
但論數據,只有阿里才能擁有如此豐富且龐大的數據。當然,後起之秀,例如京東,數據量也是不小的,但和阿里巴巴比,就弱多了。有業務場景,有技術能力。
阿里系的大數據是有其紮實基礎的,算是目前國內最龐大的經濟數據吧,較精準,時效性也高。這樣的數據無疑是非常有挖掘利用價值的。經濟是可量化的,在這樣的領域,大到社會的經濟走向、小到個人的投資理財,這些數據總是能為你發揮作用。我想阿里推大數據,第一是告訴我們,它有這個資源且只有它有;二是大數據還處在混沌初期,無論是數據的條理性、挖掘程度、利用方式都還和未來的場景相差甚遠,還有N巨大的空間可挖掘;三是開放,大家一起來,推動大數據發展。
騰訊的數據可能更側重呈現人的行為以及與社會的關係等軟信息方面吧,屬於量化程度差些的數據,但是它在社會學那些數據關係模糊的領域,應該有N巨大的潛力吧。比如恐怖襲擊的預測。。。
百度的大數據,嗯,百度有大數據嗎?讓我想想。。。
有的,比如中國假藥市場趨勢,這個應該需要百度大數據。未來無疑是數據的時代,無處不在的網路硬體使得採集微量的世界數據變得成為現實。這些數據都需要大數據平台來採集利用。比如黑客帝國,那就是個N牛叉的大數據平台。數據不在多,大數據也不在「大」,而在於用數據解決營銷的問題,從原來的產品為中心,到後來的用戶為中心,現在以及未來將是以數據為中心,用數據來解決:在合適的時間合適的地點用合適的方式提供給一個目標的用戶當前最需要的產品,這就是未來,數據更加了解你。
BAT有那麼多有價值的數據,早就在琢磨著變現了,現在都有成型的數據產品,不過大部分都收費:
騰訊:
騰訊雲分析百度:
百度指數百度數據研究中心 提供行業研究報告、行業分析報告百度司南阿里巴巴:數據魔方 - 淘寶官方數據產品淘寶指數 - 淘寶消費者數據研究平台淘寶賣家服務個人觀點,bat三家公司中,數據體積都差不多,不會相差到數量級的,但是數據的聚集度有很大區別,百度的數據最廣,畢竟它是搜索為核心,騰訊的核心數據業務也在社交、遊戲這塊,數據也很雜,阿里的核心業務在電子商務上,數據比較聚集,也就更容易做分析,所以這也是這幾年阿里傳出的大數據技術很多的一個重要原因。不過真按技術複雜度來說,百度的應該要更複雜些,畢竟數據的廣度和多樣性上阿里比不上的。同樣,bat跟國外的google、facebook、twitter、amazon這些一流互聯網公司又不能比,我們還處在把hadoop、spark這些工具拿過來應用再改造下的水平,人家可以開發新工具、新演算法的,核心技術更新基本上都在那邊。
處理數據量的多少和快慢並不能代表大數據,而是針對有價值的資料庫進行分析得到預測性分析結果。就好比有一個效率極高的挖掘機去挖礦,如果你不在一座礦山上挖掘,再快也沒用。找准挖掘點才是關鍵。
不知道那麼多說阿里技術牛逼的有沒有真正體驗過阿里,對於阿里的技術我只能呵呵,不過他們的宣傳包裝是很牛逼。
參加過一次阿里的招聘會,在阿里上買過東西的人,你的信息阿里都會記錄下來。你的住址,手機號碼,喜歡的東西,以及你給你的親人買的東西,你親人的信息等等,甚至可以推斷你的身份、收入,銀行存款。現在一個單純的電話號碼和姓名都可以賣錢,那這些資料是不是更加有價值呢。這或許只是大數據的一個方面。阿里遠不是我們想像的那麼簡單...
大數據的價值取決於數據源與行業屬性。
弱弱問一句:阿里在使用這些數據是不是,應該給我們這些用戶付錢…畢竟我們提供這些數據
推薦閱讀: