從幫助特朗普勝選的公司CA談起,看中國大數據行業
原文鏈接: https://www.aganjinrong.com/post/267 來源:阿甘社區 著作權歸作者所有。商業轉載請聯繫作者,非商業轉載請註明出處。
加阿甘 live(aganjinrong2017)為好友,參與每周五阿甘live,和3000小夥伴一起拓展知識邊界。
本期Live君:麥采堯
馬達數據創始人、CEO,畢業於美國斯坦福大學,獲得計算機科學學士和工程管理與科學碩士學位,曾在矽谷工作。歡迎關注馬達數據微信公眾號,ID:madadata
「本期策劃/倪琛」 ? 寫在前面
從2010年到2020年,數據量以每年大約42%的速度成指數增長。
到2020年,全球累計儲存的數據將獨到40ZB,相當於40萬億GB。
最近幾年,人們對大數據產業的關注熱情高漲。但事實上,很少有人真正清楚它的影響和威脅,以及未來又將走向何方。
人人都在談論大數據,可你真的了解它嗎?
1、用OCEAN模型幫助特朗普勝選的公司:CA
去年美國大選結束之後一個月,瑞士媒體刊發了一篇文章,指出一家叫做Cambridge Analytica(劍橋分析)的大數據公司在特朗普競選陣營的勝利中起到了不容小覷的作用,通過結合心理分析和線上營銷,操縱了美國選民的政治傾向。雖然CA對選舉結果產生的實際影響無法判別,但它確實利用大數據的力量讓競選宣傳更有效了。
CA總部位於倫敦,也曾參與了去年的英國脫歐運動。在這次美國大選中,CA的使命之一是搜集對競選對手不利的各種材料,然後精準投放給敏感人群。舉例來說,在邁阿密地區的海地移民小社區,線上廣告會告訴你,海地地震後柯林頓基金會沒能做到信息公開透明;與此同時,非洲裔美國人收到了一段新聞視頻,視頻中的希拉里將黑人比做了捕食者。通過一些類似的辦法,CA儘可能地讓希拉里的支持者遠離了投票箱。
除了利用這些傳統方法之外,CA還善於抓住目標人群的心理弱點進行突破。以第二修正案持槍權利為例,對於情緒不穩定並且道德責任感強的人群,一張盜竊者破窗而入的圖片更能夠吸引點擊;而對於性格內向並且親和度高的人群,夕陽下父親帶孩子背著獵槍守望野鴨的圖片則更有說服力,因為他們通常更加關心傳統、習慣和家庭。通過類似的嘗試,CA會調整每一條廣告的措辭、色調和配圖,更好地符合目標人群的心理特質。
這種顛覆性方法背後的理論依據,是一個被稱為"OCEAN」的心理測量模型。OCEAN模型對人的五種心理特徵進行評價,分別是對新經驗的開放程度、道德責任感強度、外向程度、親和度和情緒不穩定的程度。
那麼,OCEAN模型和大數據分析技術又是如何被結合在一起的呢?首先,CA在Facebook上發起問卷調查,以獲得樣本量足夠大的用戶信息和他們的OCEAN心理模型檔案。基於這個訓練數據集,CA就可以用演算法建立心理特徵和行為數據之間的關聯。如果將這種關聯推廣到所有人身上,CA就能夠通過分析個人數據,例如你點贊的行為,推斷出你的心理特徵。
引用原文中的觀點,只需要Facebook上的10個「喜歡」就能比工作同事更好地評價一個人;70 個「喜歡」能勝過朋友對他的了解,150個「喜歡」能勝過父母對他的了解,而300個「喜歡」能勝過他的伴侶,更多的「喜歡」甚至可以超越這個人對自己的認知。如果是這樣,那麼回過頭來看Facebook自己,或者Google、百度、騰訊這樣的互聯網巨頭,他們能搜集到的個人行為數據量和精細程度,可以做到完全針對個人展示高度定製的內容。
報道CA的這篇文章,現在已經引發了一系列的討論和爭議,我對文中的一些觀點實際上也是存疑的。下面來給大家講一下我比較了解的,大數據領域的一家更為出名但又非常神秘的公司,Palantir。
2、Palantir:彼得?泰爾的另一隻「獨角獸」
Palantir是一家估值超過200億美元的矽谷獨角獸,美國從政府到軍方都用到了它的產品(包括在追捕本拉登的行動之中),但是網上關於它的報道卻少之又少。我對這家公司了解得比較多,因為我們合伙人CTO曾經在那裡工作,我在斯坦福大學的時候也和它有些接觸。
Palantir的創始人是以前PayPal的CEO,Peter Thiel,最早的三個合伙人也是Paypal的員工。他們為Paypal開發了一套反欺詐系統,效果非常好,就單獨成立出來了這家公司。它最早接受的是CIA的投資,做了四五年政府項目,後來又涉入金融行業,早期客戶包括有J.P.Morgan。目前,Palantir的客戶分布在政府、軍方和金融領域,還包括一些大的能源公司和快消企業等等。
那麼,Palantir具體做的是什麼呢?簡單來說就是大海撈針。比如說政府現在想從美國三億人口中抓某幾個壞蛋,銀行想從每天上百萬筆交易中抓幾筆異常的交易,或者石油公司想從鑽機感測器採集的數據中發現產生問題的那一毫秒。這些工作需要從浩如煙海的數據中識別某些細微的不規律,目前的演算法還無法勝任,必須要由經驗豐富的數據分析師完成才行,而Palantir的任務就是整合數據源,將數據快捷並友好地呈現給分析師。
Palantir提自己是「增強人的智能」(Augmented Human Intelligence),就是講,什麼機器學習,人工智慧,在解決上述問題時都沒什麼用。道高一尺魔高一丈,問題還得人來解決。其實Palantir就是一個數據平台,幫助分析師更好地分析數據,分析過程中,想要什麼工具,Palantir都有。不光有特別高效穩定的標準化數據平台,也有一支頂尖的服務團隊,來解決客戶使用數據中的問題。
從數據接入系統來說,很多客戶的數據源非常龐大複雜,特別是政府機構,用著最陳舊的IT系統,還有很多紙質材料。但Palantir聘請的都是頂級學霸(它的面試難度遠遠要高於Facebook和Google),這些人善於臨時寫代碼解決重複性工作,比如說寫一個app通過照相的方式上傳紙質文件數據。導入數據之後,Palantir的諮詢人員會針對業務建立一個數據模型,把客戶獨特的數據關係,轉換成Palantir數據平台的數據格式。最後再精心打造出一個既炫酷又科學的可視化操作界面,來服務那些通常並不懂技術的分析師們。
3、大數據產業:未來百家爭鳴
大數據領域有個說法叫做3個V,Volume,Velocity,Variety,就是數據量大,數據產生速度快,數據格式多樣。這些新的「大」數據,大家都想著從中挖出Value,就是第四個V,價值。所以大數據領域的商業機會,就是圍繞著這四個V。
一類是解決技術問題的公司。數據量變大了,以前的服務商算得慢,管不下來了;數據生成速度快了,一秒幾萬條,以前的服務處理不過來;數據格式變多了,什麼圖片,音頻,文本,視頻,沒法存在傳統資料庫里處理。有些新公司就解決其中一個技術問題,比如像Cloudera,就是幫客戶把海量數據存下來算快一點。也有公司在某個具體場景中解決幾個技術問題的結合,比如像Splunk,專門處理機器產生的數據,數據產生地特別快,格式也不是特別規範,但它能做到數據進入系統幾秒鐘就能顯示統計結果,還不用人工去清理。這一類解決技術問題的公司,沒什麼行業限制,就是解決好技術問題,比較能出現壟斷性的巨頭。
二類就是解決業務問題的公司。這個領域,百家爭鳴。對於每一個行業細分領域,企業都需要專門的數據分析服務。
從數據發起,幾乎任何一種數據源,配上一個行業,都能挖出一些商業機會。以天氣數據為例,快消企業會需要根據全國不同地區的天氣情況來鋪貨,物流企業則參考天氣情況進行物流調度;僅僅在農業方向上,雖然都是使用天氣數據預測收成,農場主和保險公司的需求又不太一樣。看到這個機會,就有公司去專門搜集天氣數據賣,也有公司專門來研究把天氣數據建成可轉化為實際業務建議的模型。
從行業的角度看,各式各樣的數據源也都有機會產生價值。金融行業應該是目前大數據商業化應用最成功的領域,在美國,很多人用大數據分析去做股票的高頻交易。如果你去看華爾街日報,每支股票下面有一個Twitter指數,就是通過分析Twitter用戶對這個股票的評價得到一個分數。Twitter這件事情大家都學會了,但是還有很多其他可以用的信息,比如有金融機構向衛星照片公司,買某個港口集裝箱的數量,或者是沃爾瑪停車場的停車數量,然後根據這些數據去預測股票。
像這樣的細分化領域之間通常都有比較大的壁壘,造成的結果就是大數據產業很難被壟斷。目前大數據行業使用很廣的機器學習技術,在演算法上往往不見得有多先進,關鍵是在具體的操作中用數據不斷地去調參數,直到調出一個好的模型。這個過程主要是一個經驗上的問題,很難得到一個能服務不同行業的模型。因此,大家也就願意更多地做自己的細分領域,通過一些細微的差別服務不同的客戶。
這些因素註定了大數據產業很難出現一家獨大的局面。以去年國內SaaS領域的銷售為例,Oracle排名第一,但是也只佔百分之幾的市場。不像其它的領域,比如說搜索,大數據行業很難有一家公司可以佔到百分之五十或六十以上的市場。
4、我為什麼選擇從矽谷回國做BI?
2015年,我從矽谷回到北京,創建了馬達數據,開發一種類型的BI(商業智能)服務。我們做的服務和Palantir有些相似,就是幫助用戶快速地從一堆亂糟糟的數據之中看到自己想看的東西。不同的是,Palantir主要服務於大型的政府、軍方、銀行等機構,每次根據項目要求做定製化開發,而我們服務的是中型的商業公司,希望做出一個更通用的平台。這個平台可以接各種類型的數據源,不管是來自本地系統,還是SaaS平台,不管數據量多大,然後可以通過公式編輯器自定義中間運算,最後會輸出出色的數據可視化和分析表現。這樣,只需做一些簡單的配置,企業就可以直接使用我們的產品,公司的各級管理人員,都能在我們平台上實時監測企業的運營狀況。
至今已經將近兩年的創業經歷,讓我們對國內的大數據產業有了很多體會。接下來我就講一下,投資大數據公司需要特別注意哪幾個方面。
首先,每個國家的數據環境都是不一樣的。例如相比歐盟國家,美國的法律對發布個人數據的管制就比較寬鬆,這也是CA作為一家源於英國的公司選擇在美國註冊的原因。在美國,通過像Axciom這樣的數據經紀公司,幾乎可以買到所有類型的個人數據,包括土地登記、汽車、購物方面的信息,以及用戶的各種數字足跡。如果對做某種細分領域的大數據公司感興趣,就應該了解一下國內相應領域的數據土壤怎麼樣,是否有充足的數據源支持。
然後應該注意的是業務模式。我在前面提到,Palantir的業務做得相當精湛,收入也特別高,但是VC投資者們就要小心其中的陷阱。理想的VC投資對象應該是像Facebook、Google這樣的公司,燒錢燒到一定程度之後,就開始賣一些毛利率很高的產品,保持快速增長。但如果是服務企業的話,很容易就一直停留在做項目上,收入雖然高,利潤率其實卻不高。最近Palantir的估值受到了一些質疑,很大的問題就在於其增長乏力。主要是其項目制的服務模式,從軍方,政府等領域,可以獲得很高的收入,也可以保持不錯的利潤率,但是服務商業企業,定價太高,客戶就會退單,而定價降下去,利潤又很難保證。中國成熟的企業服務公司,比如用友,一年幾十億收入,利潤只有幾千萬,運營模式也是非常項目制。其實我們這個行業也會面臨同樣的問題。一些大數據公司確實收入不低,不缺客戶,技術上也沒問題,但如果做不成一個產品化的互聯網公司,就配不上VC的那種估值,就會產生泡沫。不過對於這樣的公司,VC也有投的原因,就是這種公司破產倒閉的風險比較小一些,不會燒了很多的錢之後突然倒閉,大不了可以接項目先養活自己,再慢慢把項目發展成產品。不過,很多公司可能做項目做得舒服了,就不考慮產品化了。這其實是非常好的商業模式,能做成很龐大的有價值的企業,但是否符合風險投資的範圍,需要思考。
最後要說的一點就是,應該注意國內企業對大數據服務需求的特點。比如在美國,大中型企業的整個IT建設非常完善,通常會請專門的公司分別做數據的接入、倉庫和可視化,每個領域都是越做越精。但是從我們接觸到的中國客戶來看,更多時候就喜歡一站式的服務,希望一次性解決數據的整個問題,這也是我們馬達數據為什麼會選擇這樣的產品方向。
討論區 ? 參與live的人這樣說……
@水壺:國內很多都號稱自己是最牛的大數據公司,有了一些數據源,就號稱自己有特別牛的數據分析能力,作為投資者能夠辨識的了嗎?
@阿甘live麥采堯:我覺得首先看數據源的獨有性,比如我們業界的TalkingData,就實實在在有幾億用戶的數據;然後看把數據變成商業價值再變成現金的能力,這一點的話,從收入就能看出來吧。
@王洋:大數據按細分行業做成產品那?比如日常消費數據可以分成食品、蔬菜、個人洗護等等,類似超市的品類經營,每個領域形成一個資料庫,有相關行業客戶自行購買,數據公司負責收集、維護各個細分行業的資料庫,是否可行?
在這個領域,已經有公司做得比較好,比如聚合數據,就是專業搜集數據,在數據市場銷售。在一些細分領域,也有一些機會,比如專利數據、企業信息(企查查)等等。所以你講的點子是很好的方向。
@hufei:請問你們做數據處理和計算是採購公有雲服務還是自建數據中心?
@阿甘live麥采堯:我們是用的公有雲,建立在亞馬遜AWS上。
@雷:請問騰訊、阿里巴巴這類公司的大數據對外提供嗎?
阿里有一個叫生意參謀的平台,服務自己平台上的店家,裡面有一些淘寶的數據,但還沒有看到其他成體系對外輸出數據的例子。數據對於這樣的巨頭,是特別寶貴的資產,也是自己的壁壘,不會輕易出售。
@White swan:謝謝分享,我想了解一下國內目前的大數據公司,有哪些是做的很出色的?貌似有很多融了錢,但並沒有太多收入。
目前走在比較前面的有Talking Data、百分點、海致數據、永洪科技等等。對他們收入,因為都是私有公司,沒有公布財報,所以我也不太清楚。不過從客戶量級來看,都應該是有不錯收入的公司。
@阿夫-看三板:您好!謝謝分享!個人理解項目制的服務模式一般應該有標準產品的內核吧,個性化定製部分不是特別大。為什麼項目制的東西沒有沉澱積累成標準產品呢?另一個問題,做一個標準產品,供客戶免費使用,然後搜集產品使用數據,挖掘價值,提供服務。這種創業模式現在難度大嗎?
@阿甘live麥采堯:你的問題很好,這也就是看企業把握定製和標準內核之間的界限。一個好的內核產品,能讓定製容易,效率高,可以反饋到產品上。Palantir已經算是一個很好的例子了。但更深入來說,涉及到技術企業的管理問題,就是項目制的方式,客戶的使用反饋,不是成體系的通過自動化的方式記錄下來的,而是靠實施人員記錄的,而實施人員的KPI只是完成項目,而不是反饋產品。在實際執行過程中,很多時候,項目中的東西,可以積累的,也沒有反饋回產品部門。公司越大越有這樣的問題。
@趙永同(紅心閃閃):現在有價值的數據,基本都在政府手裡,我們能有什麼奇思妙想,順利獲取到有價值的數據呢?
@阿甘live麥采堯:這個價值,看怎麼來講。如果說商業價值,其實互聯網企業,比如阿里或者騰訊,其實有比政府更多的個人消費記錄。政務數據的公開化,其實也是在進行中的事情,一些地方政府,已經有了自己的公開數據平台。雖然只是起步,但也看到了一些希望。如何更好地利用現有的商業數據,已經夠現有的數據公司來服務了。
@White swan:是否在中國的環境下:好的數據源要比好的演算法和模型更重要?
@阿甘live麥采堯:不光是中國,全世界都是,數據源可以壟斷,技術還挺難壟斷。比如Google是全世界最牛的互聯網公司,是因為它有全世界最多的用戶數據,可以打最精準的廣告。google的廣告收入,比其他所有互聯網平台的廣告收入加起來都多。
@寧波:數據分析能力一般都認為門檻不高,馬達數據怎麼看待?或者介紹下大數據BI里真正有技術門檻的是哪些領域?
@阿甘live麥采堯:數據分析領域,特別是BI領域,要解決一個具體的問題,不是有特別大的技術難度。而設計一個好的系統,在解決不同的BI需求時,都能快速低成本地相應,是一個很難的技術問題。比如從數據計算來說,如果已經知道了要看什麼指標,那做一個實時的,上百億條處理能力的系統,不會太難。難的是,是否能面對不同客戶的不同業務需求,不同數據來源,而仍然能快速響應。
@許健:我們做金融大數據的,現在已經建立好自己的大數據系統,想問下最後的應用會是在哪些方面落地,現在從業務層面其實沒有感覺到大數據技術對效率的提升。應該說我們是金融數據的平台,用戶賬單數據會按月同步到我們平台。
@阿甘live麥采堯:在金融領域,目前比較成熟的還是信用卡這一塊,一些走在前面的比較早期利用消費者數據的銀行,在信用卡業務這一塊已經獲得了很多成果,比較成熟。目前創業領域比較火的,是根據供應鏈的數據進行企業徵信。您公司的數據是什麼,業務是什麼,這方面可以下來具體討論。
[推薦閱讀]
阿甘 live第十期|你聽過很多道理,為何依然做不好體育投資?
阿甘 live第九期|河豚毒素背後的大買賣
阿甘 live第八期|揭秘宏觀對沖基金
阿甘 live第七期|人工智慧時代已來,AI晶元路在何方?
阿甘 live第六期|8年後,你還買得起一個比特幣嗎?
阿甘 live第四期|十人投九人賠,影視投資的命門在哪裡?
阿甘live第四期|十人投九人賠,影視投資的命門在哪裡?
加阿甘 live(aganjinrong2017)為好友,參與每周五阿甘live,和3000小夥伴一起拓展知識邊界。
推薦閱讀:
※紅石咖啡館、黑客道場...那些參加普通旅行團看不到的矽谷
※2018 南灣元旦跨年
※[Event] 2017年矽谷華科武大春節聯歡晚會
TAG:大數據 | PalantirTechnologies | 矽谷 |