關於大數據最常見的10個問題

05-02

1、雲計算與大數據是什麼關係?

　　雲計算的關鍵詞在於「整合」，無論你是通過現在已經很成熟的傳統的虛擬機切分型技術，還是通過google後來所使用的海量節點聚合型技術，他都是通過將海量的伺服器資源通過網路進行整合，調度分配給用戶，從而解決用戶因為存儲計算資源不足所帶來的問題。

　　大數據正是因為數據的爆髮式增長帶來的一個新的課題內容，如何存儲如今互聯網時代所產生的海量數據，如何有效的利用分析這些數據等等。

　　他倆之間的關係你可以這樣來理解，雲計算技術就是一個容器，大數據正是存放在這個容器中的水，大數據是要依靠雲計算技術來進行存儲和計算的。

兩者關係：

　　首先，雲計算是提取大數據的前提。

　　信息社會，數據量在不斷增長，技術在不斷進步，大部分企業都能通過大數據獲得額外利益。在海量數據的前提下，如果提取、處理和利用數據的成本超過了數據價值本身，那麼有價值相當於沒價值。來自公有雲、私有雲以及混合雲之上的強大的雲計算能力，對於降低數據提取過程中的成本不可或缺。

　　其次，雲計算是過濾無用信息的「神器」。

　　首次收集的數據中，一般而言，90%屬於無用數據，因此需要過濾出能為企業提供經濟利益的可用數據。在大量無用數據中，重點需過濾出兩大類，一是大量存儲著的臨時信息，幾乎不存在投入必要;二是從公司防火牆外部接入到內部的網路數據，價值極低。雲計算可以提供按需擴展的計算和存儲資源，可用來過濾掉無用數據，其中公有雲是處理防火牆外部網路數據的最佳選擇。

　　再次，雲計算可高效分析數據。

　　數據分析階段，可引入公有雲和混合雲技術，此外，類似Hadoop的分散式處理軟體平台可用於數據集中處理階段。當完成數據分析後，提供分析的原始數據不需要一直保留，可以使用私有雲把分析處理結果，即可用信息導入公司內部。

　　最後，雲計算助力企業管理虛擬化。

　　可用信息最終用來指導決策，通過將軟體即服務應用於雲平台中，可將可用信息轉化到企業現有系統中，幫助企業強化管理模式。

　　上升到我國互聯網整體發展層面，雖然我國在互聯網服務方面具有領先的優勢，然而，越來越多的企業認識到，與雲計算的結合將使大數據分析變得更簡單，未來幾年，如能在大數據與雲計算結合領域進行深入探索，將使我們在全球市場更具競爭力，這是非常關鍵的問題。

2、大數據需要什麼人才？

　　大數據需要以下六類人才：

　　大數據系統研發工程師

　　這一專業人才負責大數據系統研發，包括大規模非結構化數據業務模型構建、大數據存儲、資料庫構設、優化資料庫構架、解決資料庫中心設計等，同時，還要負責數據集群的日常運作和系統的監測等，這一類人才是任何構設大數據系統的機構都必須的。

　　大數據應用開發工程師

　　此類人才負責搭建大數據應用平台以及開發分析應用程序，他們必須熟悉工具或演算法、編程、優化以及部署不同的MapReduce，他們研發各種基於大數據技術的應用程序及行業解決方案。其中，ETL開發者是很搶手的人才，他們所做的是從不同的源頭抽取數據，轉換並導入數據倉庫以滿足企業的需要，將分散的、異構數據源中的數據如關係數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成，最後載入到數據倉庫，成為聯機分析處理、數據挖掘的基礎，為提取各類型的需要數據創造條件。

　　大數據分析師

　　此類人才主要從事數據挖掘工作，運用演算法來解決和分析問題，讓數據顯露出真相，同時，他們還推動數據解決方案的不斷更新。隨著數據集規模不斷增大，企業對Hadoop及相關的廉價數據處理技術如Hive、HBase、MapReduce、Pig等的需求將持續增長，具備Hadoop框架經驗的技術人員是最搶手的大數據人才，他們所從事的是熱門的分析師工作。

　　數據可視化工程師

　　此類人才負責在收集到的高質量數據中，利用圖形化的工具及手段的應用，清楚地揭示數據中的複雜信息，幫助用戶更好地進行大數據應用開發，如果能使用新型數據可視化工具如Spotifre，Qlikview和Tableau，那麼，就成為很受歡迎的人才。

　　數據安全研發人才

　　此類人才主要負責企業內部大型伺服器、存儲、數據安全管理工作，並對網路、信息安全項目進行規劃、設計和實施，而對於數據安全方面的具體技術的人才就更需要了，如果數據安全技術，同時又具有較強的管理經驗，能有效地保證大數據構設和應用單位的數據安全，那就是搶手的人才

　　數據科學研究人才

　　數據科學研究是一個全新的工作，夠將單位、企業的數據和技術轉化為有用的商業價值，隨著大數據時代的到來，越來越多的工作、事務直接涉及或針對數據，這就需要有數據科學方面的研究專家來進行研究，通過研究，他們能將數據分析結果解釋給IT部門和業務部門管理者聽，數據科學專家是聯通海量數據和管理者之間的橋樑，需要有數據專業、分析師能力和管理者的知識，這也是搶手的人才。

3、大數據行業的從業者是從哪獲得數據的？

　　大數據行業的從業者有多種途徑獲得數據，也就是我們常說的數據源，具體有一下幾種：

　　1、官方數據（政府部門或企業直接提供的數據或數據介面）；

　　2、半官方數據：如各類行業協會，俱樂部；

　　3、各個平台的數據：如淘寶網、京東、唯品會，有些會免費開發數據，還有一部分是付費的數據軟體；

　　4、再然後就是從業者自己收集的數據，一般都是用一些數據採集工具或軟體，工具如：爬蟲軟體，百度蜘蛛等；

　　5、最後就是購買的數據，一般有一些專門數據採集的機構，像像艾瑞、浪潮，以及傳統的調研企業。

　　數據的獲取方式有很多種，同樣，數據的使用方式也有很多種，比如說行業銷售趨勢，有人用銷售額數據，有人用銷量數據。數據就像一個任人打扮的姑娘，使用的人會選取自己想要的數據來展示，所以考量數據的真實性，一個是數據來源，還有就是數據的選擇是否合理。

4、大數據分析的常用方法有哪些？

　　1. Analytic Visualizations（可視化分析）

　　不管是對數據分析專家還是普通用戶，數據可視化是數據分析工具最基本的要求。可視化可以直觀的展示數據，讓數據自己說話，讓觀眾聽到結果。

　　2. Data Mining Algorithms（數據挖掘演算法）

　　可視化是給人看的，數據挖掘就是給機器看的。集群、分割、孤立點分析還有其他的演算法讓我們深入數據內部，挖掘價值。這些演算法不僅要處理大數據的量，也要處理大數據的速度。

　　3. Predictive Analytic Capabilities（預測性分析能力）

　　數據挖掘可以讓分析員更好的理解數據，而預測性分析可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。

　　4. Semantic Engines（語義引擎）

　　由於非結構化數據的多樣性帶來了數據分析的新的挑戰，需要一系列的工具去解析，提取，分析數據。語義引擎需要被設計成能夠從「文檔」中智能提取信息。

　　5. Data Quality and Master Data Management（數據質量和數據管理）

　　數據質量和數據管理是一些管理方面的最佳實踐。通過標準化的流程和工具對數據進行處理可以保證一個預先定義好的高質量的分析結果。

5、央行徵信和大數據徵信的不同之處

　　1、確實有不同之處，央行徵信是傳統徵信方式，大數據徵信是伴隨互聯網金融發展起來的。

　　2、央行徵信與大數據徵信差異主要從徵信數據來源、權威性、數據完整性、用途等維度區分。

　　3、央行徵信特點：數據主要來自銀行、證券、保險、社保等體系里構成一個數據循環，權威性高，數據基本完整，主要用於資產評估、銀行放貸、信用卡額度等。

　　5、大數據徵信特點：數據主要來自互聯網各大平台，使用互聯網技術抓取或介面合作獲取徵信數據，資質再好一點的企業可以申請接入央行徵信，權威性不如央行徵信，但隨著互聯網金融的發展會越來越重要，數據完整性各大數據徵信平台不同，主要用於互聯網金融，例如P2P，如果p2p拿不到央行徵信數據風險會很大。

　　6、展望未來：隨著互聯網金融的發展，大數據徵信與央行徵信會不斷融合直至融為一體，真正的滿足數據的完整性，那違法犯罪基本就真的大大減少了，信用真的就是錢！

6、如何構建銀行業大數據分析平台？

　　一是銀行與電商平台形成戰略合作。銀行業共享小微企業在電商平台上的經營數據和經營者的個人信息，由電商平台向銀行推薦有貸款意向的優質企業，銀行通過交易流水、買賣雙方評價等信息，確定企業資信水平，給予授信額度。建設銀行曾在這方面做過有益的嘗試。此外也有銀行參股電商、開展數據合作的案例。

　　二是銀行自主搭建電商平台。銀行自建電商平台，獲得數據資源的獨立話語權。在為客戶提供增值服務的同時，獲得客戶的動態商業信息，為發展小微信貸奠定基礎，是銀行搭建電商平台的驅動力。2012年，建設銀行率先上線「善融商務」，提供B2B和B2C客戶操作模式，涵蓋商品批發、商品零售、房屋交易等領域，為客戶提供信息發布、交易撮合、社區服務、在線財務管理、在線客服等配套服務，提供的金融服務已從支付結算、託管、擔保擴展到對商戶和消費者線上融資服務的全過程。

　　三是銀行建立第三方數據分析中介，專門挖掘金融數據。例如，有的銀行將其與電商平台一對一的合作擴展為「三方合作」，在銀行與電商之間，加入第三方公司來負責數據的對接，為銀行及其子公司提供數據分析挖掘的增值服務。其核心是對客戶的交易數據進行分析，準確預測客戶短時間內的消費和交易需求，從而精準掌握客戶的信貸需求和其他金融服務需求。

　　銀行業有處理數據的經驗和人才。數據分析和計量模型技術在傳統數據領域已得到較充分運用，同時也培養出大批精通計量分析技術的人才。如在風險管理方面，我國金融監管部門在與國際接軌過程中，引入巴塞爾新資本協議等國際準則，為銀行業提供了一套風險管理工具體系。銀行在此框架下，利用歷史數據測度信用、市場、操作、流動性等各類風險，內部評級相關技術工具已發揮出效果，廣泛應用於貸款評估、客戶准入退出、授信審批、產品定價、風險分類、經濟資本管理、績效考核等重要領域。

7、為什麼需要大數據技術？

　　大數據到底是什麼？我們為什麼需要大數據技術？

　　Mike Jude：從本質上來說，大數據就是曾經被稱為數據倉庫的邏輯延伸。顧名思義，大數據就是一個大型的數據倉庫，一般有一個能支持業務決策的業務重點。但是，它和傳統資料庫不同的是，大數據不用構建。

　　在典型的資料庫中，數據會被組織成標準的欄位，並使用特定的密鑰索引。如果你熟悉Microsoft Access應用程序，那麼你就能完全理解這個概念。比如，一個顧客記錄可以由姓氏、名字、地址和其它信息組成有通用標籤的欄位。每個顧客記錄樣式都是相同的，這樣可以通過使用搜索關鍵詞來檢索，比如搜索姓氏。

　　現在，如果你想鏈接到這些客戶記錄需要怎麼做？鏈接到客戶的圖片或者視頻呢？如果是鏈接到客戶的所有記錄呢？

　　將這麼多不同的數據源互相映射，一般的資料庫還做不到。另外，需要鏈接的數據量是非常巨大的。這就產生了「大數據」的概念。大數據使用特殊的數據結構來組織和訪問巨大數量的數據，可能達到多個艾位元組的範圍。一般情況下，這需要跨多個伺服器和離散數據存儲進行並行計算，而小企業往往難以維持這種大數據的存儲庫。但是，大數據正逐漸成為雲服務提供商能提供的一種服務，從而把大數據應用推向更多的公司。

　　但是，還有一個「大」問題，就是我們為什麼需要大數據？答案就是相關性的價值。如果你能看到乍一看似乎沒什麼關係的數據設置之間的關係，你會獲取很多重要信息。比如你想知道你的公司是不是容易被黑客利用。那麼你需要跨多個應用程序和數據中心檢查無數條交易。這時如果沒有大數據技術和相關的分析技術，這幾乎是不可能完成的。

　　最終，隨著數據量的增長、業務的可用性和重要性的增加，大數據的定義可能會用來描述大多數資料庫應用。IT專業人士應該掌握大數據相關概念和術語，以免遇到困難。

8、企業大數據如何起步？

　　大數據應該是從小數據逐漸演變上去的，是一個正常的生態，而不是瞬間變化的。

　　大數據這個概念跟自媒體的概念類似，需要企業自己去建設，而不是從一開始就想著依靠別人。很多企業在談自媒體的時候，像談別人的事情一樣。比如一談自媒體，就覺得那是第三方提供的一個平台，大家在那兒發發牢騷。自媒體是自己的媒體，企業自己也要參與進去。同樣大數據不是別人的大數據，我們假設有一個第三方提供了大量的數據，有很多很多信息，CI、BI之類的很多模塊化東西供我們來用。如果這樣的話，你有，競爭對手也有，你能得到的東西，競爭對手也能得到的情況下，就不能稱之為核心競爭力。

　　大數據作為企業來說要變成自身的一個競爭力，企業必須得建立自己的企業級的數據。

　　要做大數據，首先要了解自己的企業，或者自己所在的行業的核心是什麼。我們現在經常發現，有很多企業在競爭的過程中，最終不是被現在的競爭對手打敗，而是被很多不是你的競爭對手所打敗。很簡單的一個例子，大家都認為亞馬遜是做電商的，但這是錯的，它現在最主要的收入來自於雲（雲服務）。也就是說企業需要找到自己的核心數據（價值），這個是最關鍵的。只有在這個基礎上，建立自己的大數據才有可能，才能做一些延伸。其次，要找到內部的一些外圍相關數據，去慢慢地成長它。有點像滾雪球，第一層是核心，第二層是外圍相關的數據。第三層是什麼？就是外部機構的一些結構化數據。第四層是社會化的，以及各種現在所謂的非結構化的數據。這幾層要一層一層地找到它，而且要找到與自己相關的有價值的東西。這樣你的大數據才能建立起來。

　　第一步，找到核心數據。核心數據現在對很多企業來說實際上就是CRM，自己的用戶系統，這是最重要的。

　　第三步，常規渠道的數據。舉例來說一個銷售快銷品的企業，能不能夠得到沃爾瑪的數據，家樂福的數據？很多國外大數據的案例，說消費者買啤酒的時候也會購買剃鬚刀之類，或者一個母嬰產品的消費者她今天在買這個產品，預示著她後面必然會買另一個產品。這就有一個前期的挖掘。這些價值怎麼來的，這就需要企業去找常規渠道裡面的數據，跟自己的CRM結合起來，才能為自己下一步做市場營銷、做推廣、產品創新等建立基礎。

　　第四步，外部的社會化的或者非結構化的數據，即現在所謂的社會化媒體數據。這方面信息的主要特徵是非結構化，而且非常龐大。這對企業來說最大的價值是什麼？當你的用戶在社會化媒體上發言的時候，你有沒有跟他建立聯繫？這裡有個概念叫做DC（digital connection）。所謂的互聯網實際就是一種DC，但是通常互聯網上的那種DC是在娛樂層面。用到商業裡面的話，就是企業必須得跟消費者建立這種DC關係，它的價值才能發揮出來。否則，你的數據以及很多的CRM數據都是死的。就像國外CRM之父Paul Greenberg寫的四本CRM相關書籍，前面三本都是在講資料庫、系統之類的。第四本書的時候，就沒有再講那些東西，講什麼？講互動，講DC，講怎麼跟消費者建立關係。

　　有了這個資料庫去進行數據挖掘，或者在建立數據的過程中，企業需要從什麼方向去探索，也不是漫無目的的。首先應該跟著你的業務，業務現在有哪些問題，或者說這個行業裡面主要的競爭點在哪裡，這是很關鍵的。有了這個業務關係以後，再形成假設，也就是說未來的競爭點可能在哪裡，大到未來的戰略競爭，小到哪些方面。然後下一步要怎麼做，這些形成一個假設，其次做一些小樣本的測試。

　　很多企業一看大數據就很恐怖，說我也買不起那些大數據，也雇不起那麼專業的團隊，怎麼辦？

　　自己做一些小樣本的測試，甚至通過電子表格Excel都可以做數據挖掘。不一定非要那麼龐大、那麼貴的數據。然後再做大樣本的驗證，驗證出來的結果就可以應用到現實中去。在大數據尤其是互聯網時代還有一個最重要的點，就是失效預警。即你發現一個規律，在現實中應用了，但是你一定要設立一些預警指標。就是當指標達到什麼程度的時候，之前發現的規律失效，那你就必須發現新的、相關的，否則也會造成一種浪費。筆者看到一篇文章，其中有一個重要結論。大家都在說大數據的價值很有用的時候，很多企業說我積累了多少TB，多少PB，但是你基於老的數據得出的很多結論實際是在浪費你的資源。你挖掘出來很多數據、很多規律，如果錯了，明天按這個去做，就是浪費。因此需要有一個失效預警。在這樣的過程中，最終你需要對應建立起內部團隊，他們對數據的敏感度也才能培養起來。這時候你再去買大數據服務的時候才是有價值的。

　　所有這些工作作為企業來說是需要內部去做的，最終才能開花結果，有一些收穫。企業大數據起步，要從小數據開始。

9、大數據處理中數據質量監控從哪幾個方面進行？

　　大數據處理中數據質量監控，從以下幾個方面進行：

　　數據容量（Volume）：數據的大小決定所考慮的數據的價值的和潛在的信息；

　　數據種類（Variety）：數據類型的多樣性；

　　數據速度（Velocity）：指獲得數據的速度；

　　數據可變性（Variability）：妨礙了處理和有效地管理數據的過程；

　　數據真實性（Veracity）：數據的質量；

　　數據複雜性（Complexity）：數據量巨大，來源多渠道。

　　「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

10、大數據是否存在泡沫呢？

　　這是必然的，任何一個影響極大的「概念」被炒作起來後，都會在一段時間內形成強大的原動力，使各行各業的人們為之付出或真或假、或實或虛的努力，群眾的力量是龐大的，因此這一新事物將有力的推動一下歷史的進程，當又一個新的技術或理論出來後，前一個被推向高潮的概念就成了泡沫了。

　　「大數據」是指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合，靠人腦是無法進行處理的，結論的真假優劣完全取決於使用的軟體，所以其結果絕非完美無瑕，作為商業用途，能夠提供一些參考，既然只能作為一個參考，那麼將之推高到一定程度的時候就會形成泡沫，漸漸被人遺棄和遺忘。

　　沒有常青的技術。推陳出新才是歷史的必然。

TAG:大數據 | 雲計算 |