大數據公司 Splunk 和 Cloudera 的核心競爭力在哪裡？

12-29

最近在美國做了一個big data的presentation，接觸到了Splunk和Cloudera兩家公司後一直在思考如下兩個問題：
1. 像矽谷這種初創公司Splunk和Cloudera，他們的核心競爭力究竟在哪裡？
2. 傳統軟體巨頭SAP, Oracle, IBM等也一直在提Big data, Cloud Computing.難道會沒有類似的解決方案？

Splunk我不是很了解，只能按照我大概知道的說。Splunk面相的是細分市場，分析Machine Log，並在上面集成了完整的專用模塊。所有用例都是相對專門的領域，因此可以對這些進行專門優化。它的核心競爭力應該是領域知識和抽象，以及相關的優化和功能，而不是大數據。如果我沒搞錯的話，Splunk剛出的時候是單機的。

Cloudera以及類似的兩家Hortonworks（已上市）還有MapR都是Hadoop技術的供應商。這些都是立足於大數據平台的公司。他們提供的產品或者服務更多是通用的而非類似Splunk那樣更面相細分市場。基本上任何大數據分析的公司都多少會用到Hadoop生態圈的解決方案。他們的核心競爭力在我看來是，「Hadoop血統純正」。他們基本上都把持著Hadoop生態圈某個大型項目的話語權，體現對整個生態圈的影響力，一方面出售自己的附加服務。Hadoop生態圈已經形成氣候，大多數公司都不希望選用一個無法融入生態圈的平台作為自己的業務基礎，因為這樣任何其他生態圈的組件會很難部署和應用。因此這些公司一方面提供附加服務，一方面要保持自己在生態圈裡的話語權：貢獻和控制推廣更多開源項目，一旦旗下的解決方案得到更多市場，那用戶就會更偏向使用它們的附加服務。

SAP，IBM之類的，它們並非沒有發力。SAP有開發Hana，IBM有BigInsights集成了一整套解決方案（看起來就是只要大家買得起，Cloudera就該靠邊站了，當然我沒問過價）。Oracle前幾個月開了Big Data大會，也有Big Data系列的產品。連Intel都入股了Cloudera。

我的感覺是，以這些大公司的技術實力，玩轉這些基本是小意思。說真的，大數據平台，技術上並非有多複雜，這才造成現在群雄割據的局面，任何公司扯個大旗都能做一套可用的平台。IBM在Hadoop峰會做了BigSQL的演講，期間狠狠嘲笑了一番其他SQL on Hadoop的解決方案，說他們都跑不全TPC-H測試，更不用提和BigSQL做Benchmark了。IBM的BigSQL團隊是基於原本研發並行資料庫的團隊，Hive，Presto，Drill，Impala之類的，我相信完全無法和I社多年裡資料庫上的積累可比。不過用戶是否關心？大概並不關心。大多數客戶更需要的是一個便宜，能用，容易改，融入生態圈，演進迅速不斷適應新需求的產品。這些大公司的東西，並非不好，但是很貴，而且這個領域風雲變化太快，而且大多數用戶是互聯網公司，技術和決策變化更快，你是否願意投資在一個不知道會用多少天的產品？又或者明天MapReduce過時了大家都轉用別的了，你是否也跟進去買IBM的新產品？

現在大數據這麼火，但是真的利用它產生價值的公司還多數是互聯網公司。傳統企業也許在跟進，但是應該還不是多數。銀行電信之類有錢的大企業才是IBM之類的公司的主要客戶。可惜他們並不是很關心大數據或者大數據並不是他們的業務核心。互聯網公司以大數據為核心，但是他們要麼賺不了幾個錢，要麼自己更願意投入人力去研發，BigInsights之類的東西好處在於方便省心強大，卻並非他們所偏好的。因此傳統IT大企業想要像Cloudera那樣賺錢，並不是很容易的事情，因為Cloudera之類的，未必賺得到多少錢。

最好的辦法，除了自己投錢試水，不如控制一個開源解決方案，或者收購入股其他公司。安全又有效。

Cloudera不是很熟悉，說說Splunk吧，不僅平時一直在使用，而且以前的同事也跳槽過去了~

首先說說核心競爭力，像Splunk這種公司最主要的核心競爭力其實就是「玩數據」，說起來就是把有限且龐大的數據用到極致。其實Splunk主要就是針對於公司的日誌文件進行分析，像我們公司每天十幾個數據中心，各種測試環境等產生不下1TB的數據，而通過Splunk可以快速的通過一個Centralized Application(Splunk產品提供)進行各種條件的查詢。同時也可以產生各種報告方便Ops Team去對整個數據中心進行performance評估。所以分析到底也就發現了，Splunk就是將這種數據「玩」到極致，不僅是數據量，而且還有查詢速度，查詢方便程度，報告的種類... 等等各種各樣你能想到的功能。

同時針對不同的公司，既可以使用統一的功能interface，也可以在UI上進行自己公司的一個定製，同時只需要一個賬號即可登錄，所謂的SaaS吧！

而第二個問題就複雜很多了，簡單說來3點：

1. 船大不好調頭：這麼大的公司了，想在瞬間就想轉方向去Cloud Computing，實在是太難了，所以現在只能大量砸錢去買公司啊...

2. 流程繁瑣，執行力差：在這些大公司待過的兄弟們都知道，一個方案，一個設計想從最開始的討論到最後實現，估計創業公司的系統產品都已經到第n版本了。

3. 人才匱乏：這個估計有人不同意，但是我身邊的情況就是如此。越來越多有技術，有激情的年輕人願意去互聯網的創業公司拼搏，而留在大公司的大多數是中年有家有兒的老同志了。不是說老同志們技術不好，而主要是對於新事物的接受程度，拼搏程度等。

splunk已經比較成熟（已經上市，http://www.nasdaq.com/symbol/splk），核心能力是能搞定對海量數據的採集存儲管理，然後通過可插拔的APP來完成對特定領域的分析（搜索統計監控報警這些泛功能其實都只是splunk的一個個獨立的APP，而Nginx運維、WebAnalysis、安全事件審計、DDoS攻擊監控等具體需求很大的點也都做成了一個個APP）。因此形成了自己的生態系統，比如最近剛被splunk收購的公司Caspida(http://www.sec-un.org/chop-chop-caspidasplunk-just-190-million-purchase-of-security-startup.html)其實就是在splunk的之上自己再對數據進行安全方面的開發。強的地方就在於基本只要點點滑鼠就能接入海量數據，又擁有足夠的領域知識形成APP進行分析來解決用戶的常見的實際問題。日誌分析一個優勢是，因為日誌其只是文本而一切信息都可以歸結為文本，像Google一個最簡單的搜索框替代Yahoo編輯們精心製作的分類目錄，日誌分析在企業內部應用中，將對已有的分門別類繁多的專用小系統造成不小的衝擊，專用系統就像《大數據》書里講的傳統統計學一樣，由於之前沒有實時的處理全量數據的能力，重在領域專家應用專家知識從繁多數據中推測合理的真相，而能夠通用的處理所有數據之後，簡單的相關性已經可以解決大部分的問題。從這個角度看，splunk最強的還是能夠做出一個易用的通用系統，而那些更專家的工作（比如那個安全的收購案）也依然可以在其之上進行，SAP，Oracle，IBM來說難就難在左右手互博，他們的安全審計軟體等系統都在賣錢，一口氣將自己的領域知識轉成做splunk這樣的平台產品里，就是直接把還在贏利周期里的老產品和老格局打死了，這樣就束縛了自己這種解決方案的研發只是在做底層，而去支持原有各業務的應用，所以從用戶角度看這三家喊了這麼多年，好像還是再賣以前的東西。

IT圈外人聊一聊。我本是金融學研究生，由於研究需要涉及計量方面知識（計量屬於小數據），感覺蠻有趣，於是就研究了很多模型，總覺得缺點什麼，後來無意接觸到數據分析理論，好多東西就一下豁然開朗了。有點跑題，言歸正傳。大數據的開山之作《大數據時代》提出了一個關於大數據三層次的說法，第一級是數據本身，第二級是技巧，也就是模型和計算機技術，第三級是思維。核心競爭力也就體現在這個第三層次里，跟寫文章差不多，大家學的內容和方法都一樣，為什麼有人厲害有人不行呢？關鍵在於思維方式，信息是一直存在的，數據是信息的體現，但是不是所有人都可以將它有效組合併得出正確結論。蘋果砸在牛頓頭上結果他發現了萬有引力，要是砸在我頭上，估計就被吃了。Big data也是一樣，所謂核心競爭力，就是能發現別人發現不到的聯繫，再無其他。大數據、小數據，數據本身不具有價值，不過是世界信息的反映和記錄，只有思考出的結果才值錢。

splunk用過，用戶體驗非常贊，日誌分析平台。

1、對不同廠家的日誌怎麼理解（識別），也就是統一化、標準化問題

2、對標準化的數據，按照通用的方法分析處理

沒覺得是多有大數據特色，靠到大數據上找優點，應該是「平台」。

正好最近一直用splunk，也來回答一番， splunk說白了就是一個log搜索系統，他做的很好用，而且在log很多的情況下速度下也比較快。

至於傳統公司和他們比較，我覺得一個很重要的原因是像splunk這樣的公司 focus在一個領域，其他大公司很難在做log搜尋方面超過他們。更多是提供一整套的服務。

我個人作為developer覺得splunk是個非常有用的tool，但是還是略貴適合不差錢的大公司：）

實習期間有幸接觸了Splunk，它在日誌分析方面的用戶體驗還是不錯的。而且最近Splunk也開始做wire data的分析，提供各種protocol pcap file的導入。當然由於剛推出不久，建議使用者對傳入的數據仔細檢查，如果有的field沒有按照預期被自動提取，Splunk提供smart extractor可以對某一部的提取進行定義，或者可以在pipeline search裡面進行提取。其靜態分析的操作界面簡單易懂，pipeline search速度也比較快。此外，Splunk平台集成了許多第三方的應用，比如像Prelert這樣專門做machine learning的應用，可以對提取的數據在real-time模式下進行分析。

如果從核心競爭力的角度來說，感覺這樣的初創公司會更加value客戶的價值，一方面客戶能夠為其帶來收益，另一方面他們的產品還不是很完善，需要客戶的反饋來進一步完善。而且其組織架構比較扁平化，效率更高，工作中遇到的問題他們能夠很快的幫你解決。

看到有人在評論里問啊，國內哪家在做Hadoop平台研發？

在中國內地，在做和Cloudera一樣事情的公司是星環科技，Hadoop發行版 TDH：

TDH是基於Hadoop和Spark的分散式內存分析引擎和實時在線大規模計算分析平台，相比開源Hadoop版本有10x~100x倍性能提升，可處理GB到PB級別的數據。星環科技同時提供存儲、分析和挖掘大數據的高效數據平台和服務。

我來瞎說一下吧，splunk只能算日誌分析公司，核心就是c++寫的索引演算法（個人理解），Python寫的客戶端不評價，o開頭的一個大公司很早就發現了這個金蛋，但不知為什麼沒能收購，最後做了一個類似的，splunk以數據量收費，連不差錢的google都用不起了，Linkedin最後也放棄了，最近splunk把上海的研發全轉崗了，不知道他們什麼情況

談點我粗淺的看法。splunk主要為用戶解決海量日誌數據的存儲與分析的問題，而cloudera主要是提供更通用的底層大數據平台，當然，你也可以利用這個平台去做一個類似於splunk的產品出來。cloudera主要是為客戶去提供大數據平台的服務，當時以為cdh是免費的，賣不了什麼錢，主要是以服務為主，當了解了他們的產品之後，才知道其實有很多公司願意掏錢去買他們的大數據平台。當然，國內很多大數據公司都是用免費的cdh做的封裝，然後宣稱是自己的大數據平台為客戶提供這樣那樣的服務。

splunk不是真正意義上的大數據公司，只能算大數據概念公司，本質是提供一種工具和oracle相差無幾，他們的客戶也極其相似。真正的大數據公司其實還是google、facebook等。

Splunk主要產品：

Splunk產品：Splunk Enterprise、Splunk
Cloud、Splunk Light、Hunk、Apps Add-Ons

Splunk Light：是小型IT環境的全面解決方案，可自動日誌搜索和分析。它由分散式應用程序和基礎架構在一個地方採集的實時日誌數據，以便更強大的搜索，動態的儀錶板和警報，並實時報告功能加快了戰術故障分析，都以極具吸引力的價格，將適合您的預算。

Hunk：You"ve built a data lake, so now what? Hunk is
the big data analytics platform that lets you rapidly explore, analyze and
visualize data in Hadoop. It provides a simple, integrated experience designed
to provide insights from your big data without specialized skills, fixed
schemas or months of development.

Apps Add-Ons：Splunk的該進口平台和索引幾乎所有的機器數據，並提供強大的搜索和分析功能，為您的企業提供直接的價值。我們還提供數百種應用程序和插件，可以增強和準備使用的功能，從優化的數據採集監控安全，IT管理等延伸Splunk的平台。

Splunk主要是對海量數據的的搜索、查詢、分析，並以可視化的界面顯示出來，直白的說就是把Machine Data分析可視化為我們可以看懂的圖列或報表。

同時Kepware軟體可以給Splunk提供數據源，採集底層設備數據到上位軟體。

從技術上說，Splunk符合如下特徵：

- 多平台

- 獨特的索引和搜索

- 用戶界面

- 用戶群

Splunk是平台，不只是一個解決方案。