大數據最核心的價值是什麼?

有這樣一段話:社交網路,讓我們越來越多地從數據中觀察到人類社會的複雜行為模式。社交網路,為大數據提供了信息彙集、分析的第一手資料。從龐雜的數據背後挖掘、分析用戶的行為習慣和喜好,找出更符合用戶「口味」的產品和服務,並結合用戶需求有針對性地調整和優化自身,就是大數據的價值。 諸位同僚覺得大數據的核心價值是什麼?


2014年4月29日更新了兩張圖,修改一些拼寫錯誤。

-

下面是一些長篇的討論,這裡我把大數據的核心價值理解為核心商業價值。

「很多人還沒搞清楚什麼是PC互聯網,移動互聯網來了,我們還沒搞清楚移動互聯的時候,大數據時代又來了。」——馬雲卸任演講

本文嘗試從三大產業的角度將大數據的核心商業價值分類討論。

首先例舉一些大數據的典型應用,然後解釋大數據的定義,最後總結大數據的價值。

我們知道:

  1. 第一次工業革命以煤炭為基礎,蒸汽機和印刷術為標誌,
  2. 第二次工業革命以石油為基礎,內燃機和電信技術為標誌,
  3. 第三次工業革命以核能基礎,互聯網技術為標誌,
  4. 第四次工業革命以可再生能源為基礎,_________為標誌。

空白處你會填上什麼?歡迎大家討論。但是目前可以預測的是,數據和內容作為互聯網的核心,不論是傳統行業還是新型行業,誰率先與互聯網融合成功,能夠從大數據的金礦中發現暗藏的規律,就能夠搶佔先機,成為技術改革的標誌。

一、大數據的應用

大數據挖掘商業價值的方法主要分為四種:

  1. 客戶群體細分,然後為每個群體量定製特別的服務。
  2. 模擬現實環境,發掘新的需求同時提高投資的回報率。
  3. 加強部門聯繫,提高整條管理鏈條和產業鏈條的效率。
  4. 降低服務成本,發現隱藏線索進行產品和服務的創新。

  • Mckinsey列出了各個行業利用大數據價值的難易度以及發展潛力。《Big data: The next frontier for innovation, competition, and productivity》

  • 各種Data之間的關係圖,注意Open Data是完全包含了Open government data(政府開放數據)

  • Mckinsey也列出了Open Data時代里七大行業潛在的經濟價值,自上而下分別是教育,運輸,消費品、電力、石油與天然氣、醫療護理、消費金融。(感謝知友安陽提供的補充鏈接資料)

大數據的類型大致可分為三類:

  1. 傳統企業數據(Traditional enterprise data):包括 CRM systems的消費者數據,傳統的ERP數據,庫存數據以及賬目數據等。
  2. 機器和感測器數據(Machine-generated /sensor data):包括呼叫記錄(Call Detail Records),智能儀錶,工業設備感測器,設備日誌(通常是Digital exhaust),交易數據等。
  3. 社交數據(Social data):包括用戶行為記錄,反饋數據等。如Twitter,Facebook這樣的社交媒體平台。

從理論上來看:所有產業都會從大數據的發展中受益。但由於數據缺乏以及從業人員本身的原因,第一、第二產業的發展速度相對於第三產業來說會遲緩一些。


1985年,我國國家統計局明確地把我國產業劃分為三大產業:

  1. 農業(包括林業、牧業、漁業等)定為第一產業。
  2. 工業(包括採掘業、製造業、自來水、電力、蒸汽、煤氣)和建築業定為第二產業。
  3. 把第一、二產業以外的各行業定為第三產業。

第三產業即除第一、第二產業以外的向全社會提供各種各樣勞務的服務性行業,主要是服務業。其中第三產業可具體分為兩大部門:一是流通部門;二是服務部門。再細分又可分為四個層次:

  1. 第一層次,流通部門。包括交通運輸行業、郵電通訊行業、物資供銷和倉儲行業。
  2. 第二層次,為生產和生活服務的部門。包括金融業、商業飲食業、保險業、地質普查業、房地產業、公用事業、技術服務業和生活服務修理業務;
  3. 第三層次,為提高科學文化水平和居民素質服務的部門。包括教育文化、廣播電視事業、科學研究事業、衛生、體育和社會福利事業;
  4. 第四層次,為社會公共需要服務的部門。包括國家機關、黨政機關、社會團體、以及軍隊和警察公安司法機關等。

我們可以看出,由於某些客觀原因,相對於第一產業和第二產業來說,第三產業憑藉自身的優勢,大多匯聚了當前最海量的數據以及大批的科研中堅力量。接下來讓我們看一些典型例子,當前新形勢下與三大產業密切相關的大數據應用。

(1).第一產業

  • 孟山都(Monsanto | A Sustainable Agriculture Company),農業

孟山都是一家美國的跨國農業生物技術公司,其生產的旗艦產品抗農達,即年年春(Roundup)是全球知名的嘉磷塞除草劑,長期佔據市場第一個位置。該公司目前也是基因改造(GE)種子的領先生產商,佔據了多種農作物種子70%–100%的市場份額,而在美國本土,更佔有整個市場的90%。已經統治了生物工程種子業務超過十年。

孟山都首先發起「Green Data Revolution」運動,建立農業數據聯盟(Open Ag Data Alliance)來統一數據標準,讓農民不用懂「高科技」也能享受大數據的成果。典型的應用如農場設備製造商John Deere與DuPont Pioneer當前聯合提供「決策服務(Decision Services)」,農民只需在駕駛室里拿出平板電腦,收集種子監視器傳來的數據,然後將其上傳給伺服器,最終伺服器返回化肥的配方到農場拖拉機上。

  • 天氣意外保險公司(The Climate Corporation),農業

The Climate Corporation為農民提供Total Weather Insurance (TWI)——涵蓋全年各季節的天氣保險項目。利用公司特有的數據採集與分析平台,每天從250萬個採集點獲取天氣數據,並結合大量的天氣模擬、海量的植物根部構造和土質分析等信息對意外天氣風險做出綜合判斷,然後向農民提供農作物保險。前不久從Google Ventures、Founders Fund等多家公司獲得超過5000萬美元的風險投資。 2013年被孟山都收購。

  • 土壤抽樣分析服務商(Solum, Inc),農業

Solum目標是實現高效、精準的土壤抽樣分析,以幫助種植者在正確的時間、正確的地點進行精確施肥。農戶既可以通過公司開發的No Wait Nitrate系統在田間進行分析即時獲取數據;也可以把土壤樣本寄給該公司的實驗室進行分析。2012年獲得Andreessen Horowitz 領投的1700萬美元投資後,已累計融資近2000萬美元。

了解更多:
大數據對於農業的發展會帶來什麼影響?或具體到對農場經營會有什麼啟示或者帶來什麼樣的變化?

(2).第二產業
2013年9月,工業和信息化部發布了《關於印發信息化和工業化深度融合專項行動計劃(2013-2018年)》的通知。明確提出推動物聯網在工業領域的集成創新和應用:

實施物聯網發展專項,在重點行業組織開展試點示範,以感測器和感測器網路、RFID、工業大數據的應用為切入點,重點支持生產過程式控制制、生產環境檢測、製造供應鏈跟蹤、遠程診斷管理等物聯網應用,促進經濟效益提升、安全生產和節能減排。

大數據的業務多是數據驅動型,具有數據量大、種類多、實時性高的特點。工業企業對數據的記錄以往看來主要分為兩種方法:傳統的紙筆和Excel電子表格記錄。這些操作起來看似簡單的數據管理方式為企業生產及質量監控埋下了巨大的隱患,也讓數據挖掘無從談起。

隨著信息化與工業化的融合發展,信息技術滲透到了工業企業產業鏈的各個環節。例如Sensor、RFID、Barcode、物聯網等技術已經在企業中得到初步應用,工業大數據也開始逐漸得到積累。企業中生產線高速運轉時機器所產生的數據量不亞於計算機數據,而且數據類型多是非結構化數據,對數據的實時性要求也更高。因此工業大數據所面臨的問題和挑戰很多,所以通用電氣公司(General Electric)的副總裁兼全球技術總監William Ruh認為相對於工業大數據來說,工業互聯網(Industrial Internet)才是當前急需的,因為大數據本身並沒有讓信息的提取更加智能,業務比數據本身更加重要。他舉了一個核磁共振成像掃描的例子:

Here』s an example. An MRI scan is the best way to see inside the human body. While effective in helping to diagnose multiple sclerosis, brain tumors, torn ligaments and strokes, the data produced by an MRI machine is disconnected from the person that needs it the most.

At a very simplistic level, there are many individuals working as a team to make the scan happen. A nurse administers medications or contrast agents that may be needed for the exam; an MRI technologist operates the scanner; and a radiologist identifies the imaging sequences to be used and interprets the images. This information is then given to the nurse, who then passes it to the primary doctor to review and take action accordingly. This is Big Data, but it is not making information more intelligent.

又如在工業中,壓力、溫度等數據的特點是需要語境才能理解的。燃氣輪機排氣裝置上的溫度讀數與一台機車的內部溫度是完全不同的。燃氣輪機改善熱敷需要使用非常複雜的演算法運行模型。在筆記本電腦上,一個典型的查詢要獲得答案一般需要三個星期。在基於大數據的分散式系統上發布同樣的查詢執行一種計算只需要不到一秒鐘。

  • 第三方認證機構(TüV NORD GROUP),工業

德國漢德技術監督服務有限公司的前身是德國鍋爐檢驗協會(簡稱TüV)早在1869年,德國鍋爐檢驗協會就承擔了德國國內所有鍋爐運行安全的檢驗工作,保證了鍋爐生產的安全。漸漸的,德國鍋爐檢驗協會取得了德國政府的授權,開展對其他產品的檢驗工作,從採礦,電力系統開始,到壓力容器,機動車輛,醫療設備,環境保護,宇航工業,醫療產品等等,現在的德國漢德技術監督服務有限公司已經成為了許許多多產品的安全代號。主要體系認證包括企業質量管理體系,生產環境體系,生產碳排放方案等。TüV當前從建築綠色標準體系方面提出了對於大數據能源管理的探索,以微軟新總部,蒂森克虜伯電梯總部為例,在整個項目實施中引入大數據能源管理,在建築的設計規劃階段、施工階段、運營階段等多個階段通過數據化的能源管理系統,實現建築的低碳、綠色、智能。

  • 工業自動化軟體商(Wonderware ),工業

Wonderware作為系統軟體涉及的專業企業,對於大數據的計算和運用是從比較「IT」的角度出發的。Wonderware 的實時數據管理軟體能夠提供一個工廠所需要的從建立到報廢的所有實時數據。目前已經退出移動版本,工程總監在手機上就能夠隨時隨地監控設備的運行狀況。目前全球超過三分之一的工廠應用Wonderware公司的軟體解決方案。

了解更多:
大數據在電力行業的應用前景有哪些?

(3).第三產業

這一個部分的內容比較多。這裡只提出一些典型的應用例子,歡迎補充。

  • 健康與醫療:Fitbit? Official Site: Flex, One and Zip Wireless Activity and Sleep Trackers的健身腕帶可以收集有關我們走路或者慢跑的數據,例如行走步數、卡路里消耗、睡眠時長等數據與健康記錄來改善我們的健康狀況;Early Detection of Patient Deterioration等公司正在開發床墊監測感測器,自動監測和記錄心臟速率、呼吸速率、運動和睡眠活動。該感測器收集的數據以無線方式被發送到智能手機和平板電腦進行進一步分析;美國公共衛生協會(APHA: American Public Health Association)開發Flu Near You用來的癥狀,通過大數據分析生成報告顯示用戶所在地區的流感活動。

  • 視頻:互聯網電視能夠追蹤你正在看的內容,看了多長時間,甚至能夠識別多少人坐在電視機前,來確定這個頻道的流行度。Netflix 美國國內規模最大的商業視頻流供應商,收集的數據包括用戶在看什麼、喜歡在什麼時段觀看、在哪裡觀看以及使用哪些設備觀看等。甚至記錄用戶在哪視頻的哪個時間點後退、快進或者暫停,乃至看到哪裡直接將視頻關掉等信息。典型的應用是Netflix公司利用數據說服BBC重新翻拍了電視連結劇《紙牌屋》,而且成功的挖掘出演員Kevin Spacey和導演David Fincher的支持者與原劇集粉絲的關聯性,確定新劇拍攝的最佳人選。

When the program, a remake of a BBC miniseries, was up for purchase in 2011 with David Fincher and Kevin Spacey attached, the folks at Netflix simply looked at their massive stash of data. Subscribers who watched the original series, they found, were also likely to watch movies directed by David Fincher and enjoy ones that starred Kevin Spacey. Considering the material and the players involved, the company was sure that an audience was out there.

  • 交通:《車來了》通過分析公交車上GPS定位系統每天的位置和時間數據,結合時刻表預測出每一輛公交車的到站時間;WNYC開發的Transit Time NYC通過開源行程平台(Github:OpenTripPlanner和MTA )獲取的數據將紐約市劃分成2930個六邊形,模擬出從每一個六邊形中點到邊緣的時間(地鐵和步行,時間是上午九點),最終建模出4290985條虛擬線路。用戶只需點擊地圖或者輸入地址就能知道地鐵到達每個位置的時間;實時交通數據採集商INRIX-Traffic的口號是(永不遲到!^^),通過記錄每位用戶在行駛過程中的實時數據例如行駛車速,所在位置等信息並進行數據匯總分析,而後計算出最佳線路,讓用戶能夠避開擁堵。

  • 電子商務:Decide 是一家預測商品價格並為消費者提出購買時間建議的創業公司,通過抓取亞馬遜、百思買、新蛋及全球各大網站上數以十億計的數據進行分析,最終整合在一個頁面中方便消費者對比查看,並且能夠預測產品的價格趨勢,幫助用戶確定商品的最好購買時機。已經於2013年被 eBay收購。

  • 政治:奧巴馬在總統競選中使用大數據分析來收集選民的數據,讓他可以專註於對他最感興趣的選民,谷歌執行董事長Eric Schmidt當時向奧巴馬的大數據分析團隊投資數百萬美元並聚攏核心成員成立了Civis Analytics諮詢公司,該公司將會將在奧巴馬連任競選中所獲得的經驗應用到商業和非營利行業中。(了解更多可以看看MIT technology的文章The Definitive Story of How President Obama Mined Voter Data to Win A Second Term)

  • 金融:ZestFinance | Big Data Underwriting 是由是Google的前任 CIO,Douglas Merrill創立金融數據分析服務提供商,使用機器學習演算法和大數據為放款者提供承保模式,旨在為那些個人信用不良或者不滿足傳統銀行貸款資格的個人提供服務。公司使用分析模型對每位信貸申請人的上萬條原始信息數據進行分析,只需幾秒時間便可以得出超過十萬個行為指標。目前違約率比行業平均水平低 60%左右。另外一個不得不提到的是風險管理先驅者FICO | Predictive Analytics, Big Data Analytics and FICO Credit Scores,通過大數據分析為銀行和信用卡發卡機構、保險、醫療保健、政府和零售行業提供服務。FICO 信用分計算的基本思想是:把借款人過去的信用歷史資料與資料庫中的全體借款人的信用習慣相比較,檢查借款人的發展趨勢跟經常違約、隨意透支、甚至申請破產等各種陷入財務困境的借款人的發展趨勢是否相似。FICO 已經為三分之二的世界 100 強銀行提供服務,提高了客戶忠誠度和盈利率、減少欺詐損失、管理信貸風險、滿足監管與競爭要求並快速獲取市場份額。想了解更多的企業可以看看附錄中《經濟學人》的文章《Big data: Crunching the numbers》。

  • 電信: 美國T-mobiles採用Informatica - The Data Integration Company平台開展大數據工作,通過集成數據綜合分析客戶流失的原因,根據分析結果優化網路布局為客戶提供了更好的體驗,在一個季度內將流失率減半;韓國 SK telecom新成立一家公司SK Planet,通過大數據分析用戶的使用行為,在用戶做出決定之前推出符合用戶興趣的業務防止用戶流失。美國ATT 公司將記錄用戶在Wifi網路中的地理位置、網路瀏覽歷史記錄以及使用的應用等數據銷售給廣告客戶。比如當用戶距離商家很近時,就有可能收到該商家提供的折扣很大的電子優惠券。英國BT - Broadband公司發布了新的安全數據分析服務Assure Analytics—BT news releases,幫助企業收集、管理和評估大數據集,將這些數據通過可視化的方式呈現給企業,幫助企業改進決策。

一般來說盈利性質的商業公司和企業都不會輕易泄露自己的數據、建模方法和分析過程,所以還有很多大家不知道的神秘應用潛伏在黑暗裡,如同《三體》中的」黑暗森林法則「。

宇宙就是一座黑暗森林,每個文明都是帶槍的獵人,像幽靈般潛行於林間,輕輕撥開擋路的樹枝,竭力不讓腳步發出一點兒聲音,連呼吸都必須小心翼翼:他必須小心,因為林中到處都有與他一樣潛行的獵人,如果他發現了別的生命,能做的只有一件事:開槍消滅之。在這片森林中,他人就是地獄,就是永恆的威脅,任何暴露自己存在的生命都將很快被消滅,這就是宇宙文明的圖景,這就是對費米悖論的解釋。

二、大數據的定義

大數據(Big Data)是指「無法用現有的軟體工具提取、存儲、搜索、共享、分析和處理的海量的、複雜的數據集合。」業界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數據的特徵。

  1. 數據體量巨大(Volume)。截至目前,人類生產的所有印刷材料的數據量是200PB,而歷史上全人類說過的所有的話的數據量大約是5EB(1EB=210PB)。
  2. 數據類型繁多(Variety)。相對於以往便於存儲的以文本為主的結構化數據,非結構化數據越來越多,包括網路日誌、音頻、視頻、圖片、地理位置信息等,這些多類型的數據對數據的處理能力提出了更高要求。
  3. 價值密度低(Value)。價值密度的高低與數據總量的大小成反比。如何通過強大的機器演算法更迅速地完成數據的價值「提純」成為目前大數據背景下亟待解決的難題。
  4. 處理速度快(Velocity)。大數據區分於傳統數據挖掘的最顯著特徵。根據IDC的「數字宇宙」的報告,預計到2020年,全球數據使用量將達到35.2ZB。

看看專家們怎麼說。

  • 舍恩伯格,大數據時代 (豆瓣)

不是隨機樣本,而是全體數據;不是精確性,而是混雜性;不是因果關係,而是相關關係。

  • 埃里克·西格爾,大數據預測 (豆瓣)

大數據時代下的核心,預測分析已在商業和社會中得到廣泛應用。隨著越來越多的數據被記錄和整理,未來預測分析必定會成為所有領域的關鍵技術。

  • 城田真琴,大數據的衝擊 (豆瓣)

從數據的類別上看,「大數據」指的是無法使用傳統流程或工具處理或分析的信息。 它定義了那些超出正常處理範圍和大小、迫使用戶採用非傳統處理方法的數據集。

、大數據的價值

了解了大數據的典型應用,理解了大數據的定義。這時相信在每個人的心中,關於大數據的價值都有了自己的答案。

2010年《Science》上刊登了一篇文章指出,雖然人們的出行的模式有很大不同,但我們大多數人同樣是可以預測的。這意味著我們能夠根據個體之前的行為軌跡預測他或者她未來行蹤的可能性,即93%的人類行為可預測。

Limits of Predictability in Human Mobility

A range of applications, from predicting the spread of human and electronic viruses to city planning and resource management in mobile communications, depend on our ability to foresee the whereabouts and mobility of individuals, raising a fundamental question: To what degree is human behavior predictable? Here we explore the limits of predictability in human dynamics by studying the mobility patterns of anonymized mobile phone users. By measuring the entropy of each individual』s trajectory, we find a 93% potential predictability in user mobility across the whole user base. Despite the significant differences in the travel patterns, we find a remarkable lack of variability in predictability, which is largely independent of the distance users cover on a regular basis.

大數定理告訴我們,在試驗不變的條件下,重複試驗多次,隨機事件的頻率近似於它概率。「有規律的隨機事件」在大量重複出現的條件下,往往呈現幾乎必然的統計特性。

舉個例子,我們向上拋一枚硬幣,硬幣落下後哪一面朝上本來是偶然的,但當我們上拋硬幣的次數足夠多後,達到上萬次甚至幾十萬幾百萬次以後,我們就會發現,硬幣每一面向上的次數約佔總次數的二分之一。偶然中包含著某種必然。

隨著計算機的處理能力的日益強大,你能獲得的數據量越大,你能挖掘到的價值就越多。

實驗的不斷反覆、大數據的日漸積累讓人類發現規律,預測未來不再是科幻電影里的讀心術。

  • 如果銀行能及時地了解風險,我們的經濟將更加強大。
  • 如果政府能夠降低欺詐開支,我們的稅收將更加合理。
  • 如果醫院能夠更早發現疾病,我們的身體將更加健康。
  • 如果電信公司能夠降低成本,我們的話費將更加便宜。
  • 如果交通動態天氣能夠掌握,我們的出行將更加方便。
  • 如果商場能夠動態調整庫存,我們的商品將更加實惠。

最終,我們都將從大數據分析中獲益。

四、結束語。

Here"s the thing about the future.關於未來有一個重要的特徵
Every time you look at it,每一次你看到了未來
it changes because you looked at it.它會跟著發生改變 因為你看到了它
And that changes everything else.然後其它事也跟著一起改變了

數據本身不產生價值,如何分析和利用大數據對業務產生幫助才是關鍵。

祝每一個DMer都挖掘到金礦和快樂:)

參考文獻:
[1].什麼是大數據時代的思維?《大數據時代》作者維克托邁爾舍恩伯格的演講
[2].New movie damns Monsanto"s deadly sins
[3].American farmers confront "big data" revolution
[4].The Industrial Internet: Even Bigger Than Big Data
[5].《信息化和工業化深度融合專項行動計劃(2013-2018年)》印發
[6].Big data: The next frontier for innovation, competition, and productivity
[7].Big data: Crunching the numbers
[8].audit.gov.cn
[9].中國金融行業大數據應用市場研究白皮書
[10].The Secret Sauce Behind Netflix"s Hit, "House Of Cards": Big Data
[11]. Open data: Unlocking innovation and performance with liquid information
-

-----------2017年1月更新-----

歡迎關注我存儲知識的地方:預見未來——Han Hsiao的知乎專欄Foresee

-


從龐雜的數據背後挖掘、分析用戶的行為習慣和喜好,找出更符合用戶「口味」的產品和服務,並結合用戶需求有針對性地調整和優化自身,就是大數據的價值。

對於大數據在商業上的用途,這句話說得很清楚。前半句是重點,了解用戶的行為習慣和愛好,這就是大數據的核心價值。


1. 元數據(Metadata)的概念

簡單說,元數據是對數據本身進行描述的數據,或者說,它不是對象本身,它只描述對象的屬性。

比如,一幅畫本身,是數據。而這幅畫的作者、完成時間、尺寸、價格、類型等等,就是它的元數據。

再比如,你媽逼你結婚,找了個男的讓你相親。你並不認識他,但你媽告訴你他的年齡、身高、體重、體貌特徵、家庭背景、收入、愛好特長,你心裡也就對他有了印象。即便你還不認識他。

元數據的價值,第一是能夠從側面描述對象,第二點就是可以結構化、信息化。

什麼意思呢?

比如,我們要判斷一幅畫的價值,除了專家直接通過畫的藝術性來評價,還可以通過元數據來判斷。

這幅畫是名家的還是二流畫家的?這幅畫是作者在他創作鼎盛時期的作品,還是在年輕時的作品?這幅畫是作者擅長的類型還是他不熟悉的?

用這些描述的信息,我們居然就能把這幅畫的價值算得八九不離十。雖然肯定會存在誤差,但同樣是科學合理的方法。

那用元數據而非數據本身描述對象的意義何在?

這就是在大數據上產生的價值了:對於非結構化的、非量化的對象本身,結構化的元數據可以用以快速計算和判斷。

比如,你媽拿了 100 個單身男的資料,你要是一個一個去仔細翻閱,那幾天都翻不完。但你告訴你媽,高學歷的可能意味著素質很高,高收入的可能意味著能力很強,所以先把低學歷低收入的篩掉,剩下的再依據身高體重年齡這些信息排序,那效率就高得多了。

注意,這樣的方法仍然會有失誤的,說不定真愛就在被篩掉的人里。但這樣的概率微乎其微。

相親里似乎還不太明顯,但大數據在真正產品應用中,產生的效果就天翻地覆了。


2. 大數據應用的第一階段:輔助產品。

最初的應用比較簡單,就是用以輔助產品人員和市場人員做判斷。

過去的實體產品做一次調研很麻煩。比如飲料公司,調研人員要用各種方式觀看他們喝飲料的場景和步驟。

問卷是最常見的,但不準。所以會組織各種各樣專業的現場試驗,要搭建環境(一般是有單面玻璃或攝像頭的)、邀請志願者,然後引導他們按照日常的習慣去完成一些操作。

比如這樣的通過攝像頭監視觀察室。

(圖片摘自:

(圖片摘自: http://210.38.160.80/jkx/newsdetail.asp?id=1038)

顯然這種辦法非常笨重。

而現在的互聯網產品則根本無須這麼麻煩。用戶所有的使用數據、行為,都是記錄在案的,想知道什麼,瞬間就能分析出來。

過去想知道用戶有沒有做一件事,比如有沒有用過這個功能?太難了。

現在呢,就問點擊這個行為,點擊了幾下、點擊在哪裡,什麼時候點的,甚至這是在什麼地方點的、點擊之後又做了什麼,一清二楚。

用戶平時用不用這個功能、怎麼用這個功能,也就一目了然。

對於產品設計者來說,這是至關重要的數據。而且,這是完整的數據!如果是互聯網產品,那麼我知道的是所有用戶的數據,不是過去傳統行業產品的樣本數據。

騰訊知道所有微信用戶有多少用朋友圈、知道這些用戶每天都發幾條朋友圈、知道這些用戶每天都發了什麼。每一個數據都是真實可用的。



(過去發行量再大的報紙也很難知道讀者性別,然而現在再小的微信公眾號也可以實時獲取。)

在實體產品的行業,隨著未來整個產品從生產到銷售到使用的信息化,大數據也會漸漸起到更大的作用。過去我賣的一瓶水,可能到某個超市就斷掉了,我不知道這瓶水被誰買走了。但現在我在天貓賣的一瓶水,我知道對方這個用戶是每個月買十箱水的,他的地址是某個高檔餐廳,那我就知道這瓶水的目標受眾是誰了。

這是元數據的價值所在。

所以說,大數據的第一階段是:輔助產品設計者做判斷、讓產品製造者更好地滿足用戶。


這時候的大數據主要是來為產品提供支持,產品再應用於用戶。

這時候的大數據主要是來為產品提供支持,產品再應用於用戶。

3. 大數據應用的第二階段:創造價值。

在數據的數量和質量達到一定程度後,事情開始變化了。元數據將不僅作為產品的輔助,而是變成了最有價值的產生本身。

很簡單的,全中國最熟悉老百姓消費習慣的是工商局嗎?是哪個協會嗎?是哪個科研機構嗎?都不是,是淘寶。

擁有最全面的個人信用信息的,是人事局嗎?是銀行嗎?是諮詢公司嗎?都不是,是支付寶。

道理也簡單得很,所有行為(消費、交易)發生在了這個平台上,而這個平台又有所有數據的記錄,那這些數據就能產生巨大的價值。

你以為做醫療健康這方面的產品僅僅是關注你的健康嗎?並不是,他們同時還能夠記錄你所有的體征,這是第一線的臨床數據。

此時,大數據本身已經成為了產品,可以輸出有價值的內容。

消費行為數據,賣給廣告商,廣告商就可以定向給你投送廣告;信用數據,賣給銀行,銀行就可以判斷出你的信用程度;健康數據,賣給保險公司...你懂的。

近幾年,互聯網公司已經能夠對全國各領域的市場,給出最有說服力的統計報告了,這些之前可都是政府做的:

淘寶網發布中國互聯網消費趨勢報告
攜程旅行網發布《2014年旅遊者調查報告》
滴滴攜兩大機構發布首份智能出行年度報告

不僅僅是將數據出售,數據提供的內容完全可以創造出新的產品。尤其像 O2O 這樣的產品/服務,上游是服務提供者和資源,下游是用戶,都能夠有價值可以發掘。

以前做美甲的時候,我們設想的商業模式,有一項就是從上游,了解美甲師用品的情況,跟生產廠家合作,把控渠道;另外就是從下游,知道用戶的情況,從而也能夠跟其他美業產品合作(定向幫你把產品帶到家裡,河狸家其實已經在做),來讓用戶數據產生價值。

我之前聽說餓了么在嘗試一項新服務,就是為餐館提供食材。乍一聽有點怪,但後來想想的確是再合理不過。除了餓了么還有誰更能清楚某塊區域的餐品售賣數據呢?這地方蘿蔔白菜賣得多、有多少量,餓了么清楚得很,跟農場談合作,可以很好地把控上游渠道。

這階段的大數據,已經可以成為產品,為用戶直接服務。

這階段的大數據,已經可以成為產品,為用戶直接服務。

從另一個角度看,不知道你發現沒,通過我們行為數據這些元數據,我們已經在慢慢被量化的信息給描述出來了。看到這些數字(一年花了多少錢、在哪方面花的錢等等)已經對這個人可以有相對粗糙的認識了。

而大數據最終的形態開始初現。


4. 大數據應用的第三階段:塑造我們。


我之前也總是對行為數據表示不屑。你知道我在淘寶買了點東西、跟誰微信聊了幾句話、去百度隨便查了點東西,就能知道我是什麼人了?

還真的可以。只要數據保質保量。

我知道你一個月沒買避孕套這兩天突然買了三盒,那可能是你要跟異地戀的女朋友見面了;我發現你微信跟異地的某個妹子聊得特別多、經常還視頻,那這大概就是你異地的女朋友;我了解你在百度一直搜東南亞的機票和旅行攻略,那我知道你可能要去那裡玩。

就是這麼簡單的三條元數據,我就能推測出來,你很大概率上,最近要跟女朋友一起去東南亞旅行。

說實話,做這麼基礎的邏輯推斷,比下圍棋容易多了

這是說明元數據能夠推理信息的邏輯性。而對於可獲取的元數據,也越來越多了。

你打電話時,可以知道你給誰打(婦科醫生?要生孩子了。律師?最近有官司。)
你買東西時,可以知道你的消費能力、家庭狀況、喜好甚至性格(高端筆記本?愛玩遊戲。蠟筆和簡筆畫冊?家裡有小孩。)
你出門消費時,可以知道你的生活習慣和個人情況(健身房?應該很健康。經常大保健?可能身體比較虛。)
你加別人微信時,可以知道你的社交圈子(認識李開復?應該不是一般人。通訊錄里都是快遞員?那可能也是快遞員。)

作為這些產品的數據的擁有者,我完全不需要派個私家偵探來跟蹤你。只需要等你自己乖乖把這些數據送上來。

春節的時候,支付寶為什麼要和微信爭搶小額支付和社交場景的支付?不是為了那點手續費,就是為了它缺失的社交支付這一塊。這塊數據的價值,遠超想像。


未來我們每個人的衣食住行、生活起居,都將有大量的數據記錄。我們的行為會變成一串串數字成為可量化的數據,成為描述我們的信息。我們工作用雲筆記、吃飯用餓了么、打車用滴滴、搜東西用百度、社交用微信,每一步都事無巨細被記了下來。

不信你可以翻出你歷史所有在百度或者 Google 的搜索記錄來,對你生活的描述絕對比你自己的日記都要真實。

這些數據將被轉換成有價值的商業數據,來描述你各方面的信息。你喜歡黑色的衣服、你喜歡胸大的妹子、你比較文藝、你有高度近視、你最近剛失戀...... 關於你,可能這些數據比你爹媽都要清楚。

最終,我們本身就是可以被量化的大數據對象,不存在多層的邏輯了。

最終,我們本身就是可以被量化的大數據對象,不存在多層的邏輯了。


這樣的未來自然有利有弊。利是我們無處不在享受著大數據帶來的便利,我們看到的每一條廣告都會是我們自己喜歡的,我們查的每一條搜索記錄都是根據我們特點來推薦的,我們在加好友時系統甚至都可以說他是不是會跟我們合得來。

弊在於,我們的隱私就暴露無疑。只要數據的擁有者想做點壞事,那真的是什麼都有可能。


大數據絕不會止步在為決策僅僅提供幫助,它的終極形態就是可以用海量的數據描述我們一個個具體的個體。當達到這一步時,現在所謂的市場調研、用戶分析就都是小兒科了。

因為,大數據已經完全能夠塑造出我們了。


正好剛做過相關的報告,就把報告內容跟大家分享討論一下。
先說結論:大數據的終極核心價值在於「資源優化配置」。

我覺得排名第一的 @Han Hsiao 的答案非常棒,也非常全面,但無論是大數據在農業的應用也好,工業的應用也好,抑或是在金融行業的應用也好,最終都是通過大數據技術來獲知事情發展的真相,最終利用這個「真相」來更加合理的配置資源。

具體來說,要實現大數據的核心價值,還需要前兩個重要的步驟,第一步是通過「眾包」的形式收集海量數據,第二步是通過大數據的技術途徑進行「全量數據挖掘」,最後利用分析結果進行「資源優化配置」。


只說概念大家肯定沒法直觀的理解上面的觀點,那就將幾個咱們都接觸過的例子講一講大數據是怎麼通過這三步發揮核心價值的?

第一步、通過「眾包」產生和收集數據


高德地圖、百度地圖都有實時路況的功能,但大家有沒有想過實時路況的數據是怎麼收集的?實際上經過了三個階段,開始是跟交通口的一些公司合作,獲取交通流量監測設備的數據,這個方法缺陷很明顯,一個是受制於人,一個是想擴大監測範圍就要部署大量設備,費時費力,而且還受法律制約。於是一些專門做路況的公司開始用計程車當浮動車收集數據。但這種辦法還是無法覆蓋大量的大小路段,隨著移動互聯網的普及,高德地圖的APP能夠實時上傳大量機動車的速度和位置信息,經過去噪和綜合分析,就形成了覆蓋率極高的實時路況信息。這就是一個典型的「眾包」過程。

嚴謹一點來說,眾包指的是一個公司或機構把過去由員工執行的工作任務,以自由自願的形式外包給非特定的(而且通常是大型的)大眾網路的做法

大數據的「海量數據」就是由「眾包」產生的。廣義上,用戶的行為數據,各種感測器的數據,也都是「眾包」的形式,只要是由過去集中式的產生模式擴散到分散式的模式,都是眾包的形式。

第二步、通過「全量數據挖掘」獲知「真相」
視頻封面阿里巴巴-數據可視化視頻
講第二個特點之前希望大家能看一下上面的視頻,通過分析阿里巴巴全年的數據得到的阿里巴巴的世界貿易與全國貿易的趨勢。視頻中體現的不僅是阿里巴巴集團的運營情況,其實也部分反映了整個中國的經濟運行情況。而且這些數據不是通過採樣得來的,就是真真切切的「全量數據」。我們再也不用通過「管中窺豹」的形式來推測全局,而是直接通過「上帝視角」來窺視真相。這就是大數據的魅力,我們獲得了前所未有的獲取真相的能力,而且對於大型互聯網公司來說,即使是PB級別的數據分析也是准實時的,我們下一個小時就能夠得知上一個小時的全量數據分析結果,這樣的能力是前所未有的。

第三步 大數據的核心價值——「資源優化配置」

前段時間,滴滴打車曾通過投票和訂單分析的方式得出了北上廣深四地的加班大樓排行榜,敝司不幸排名第三,但事實真的是即使加班很晚也很難打到車啊啊!所以滴滴打車更名為「滴滴出行」之後,也拋出了他們偉大的願景,那就是利用大數據分析實時綜合調度「快車」、「專車」、「計程車」、「順風車」甚至是滴滴巴士的資源,實現全局的交通資源優化。事實也是如此,滴滴的司機們越來越多的需要完成「指派任務」,而不是集中去搶高凈值客戶。也許對於個別單體來說他們的利益降低了,但全局的資源配置卻避免了全局的資源浪費和過度競爭,無疑大大提高了交通資源的使用效率。

前段時間,滴滴打車曾通過投票和訂單分析的方式得出了北上廣深四地的加班大樓排行榜,敝司不幸排名第三,但事實真的是即使加班很晚也很難打到車啊啊!所以滴滴打車更名為「滴滴出行」之後,也拋出了他們偉大的願景,那就是利用大數據分析實時綜合調度「快車」、「專車」、「計程車」、「順風車」甚至是滴滴巴士的資源,實現全局的交通資源優化。事實也是如此,滴滴的司機們越來越多的需要完成「指派任務」,而不是集中去搶高凈值客戶。也許對於個別單體來說他們的利益降低了,但全局的資源配置卻避免了全局的資源浪費和過度競爭,無疑大大提高了交通資源的使用效率。

所以我們說,基於大數據分析的結果,進行資源優化配置,才是大數據應用的落地點和真正價值。


而「資源優化配置」的價值,又遠遠超出我們能夠想像的層面,在資本寒冬即將來臨的大背景下,利用大數據實現資源的高效利用,顯得更加重要。廣告行業利用DMP、DSP進行廣告的精準投放,房地產行業利用大數據分析價值窪地,宜信利用大數據建設徵信系統降低壞賬率,券商陸續推出大數據基金,全部都是廣義的「資源優化配置」的體現。大數據也遠遠不再停留在學術和「分析現象」的階段,而是在各行各業實現了落地並發揮著非常非常重要的價值。

我是在互聯網廣告行業從事程序化購買系統建設的,而這個行業也是大數據最先發揮價值的地方。舉個最簡單的例子來說明大數據在廣告資源優化配置上的作用。
寶潔集團是我們的客戶,而寶潔的產品有非常強的用戶性別傾向性,護舒寶的廣告就應該投給女性,投給男性就是赤裸裸的浪費。而吉列的目標用戶就只是男性。之前保潔集團是怎麼做廣告的?就是海投品牌廣告,不分性別的海投,那這個做法在投放之前就已經確切無疑的知道有一半廣告費用時浪費的。但沒有辦法,因為我們沒有大數據技術來發掘用戶的性別。

而隨著DMP(Data Management Platform)技術的不斷成熟,越來越多的廣告主建立起自己的用戶數據中心,可以不斷積累客戶的各種用戶行為,進而判斷出用戶的性別,再通過DSP(Demand Side Platform)系統定向投放,最終可以為寶潔節省一半的廣告預算。

上面的例子正是廣告資源的優化配置,事實上DMP系統對用戶畫像的構建精確程度遠超人們的想像,精準投放的各類篩選條件也越來越精細。現在微信支持精確到設備的精準投放,也就是未來完全可能實現精確到每個人終端的精準投放,這都依賴於大數據對於用戶行為的挖掘,最終實現整個廣告行業的效果提升。

很多同學可能會說大數據的核心是數據挖掘,是分散式存儲,是NLP,是深度學習,但這一切其實只是大數據的技術途徑,大數據的終極核心價值就在於「資源優化配置」。

最後歡迎大家關注我的微信公眾號「科學投資」:kexuetouzi

http://weixin.qq.com/r/iElXTyzEeHEHrWgs9xya (二維碼自動識別)


大數據的本質就是消除不確定性。


這個問題我想了三個月。

想三個月沒想通的問題不多,這是一個。

昨天想通了。

信息,或者說數據的作用是什麼?根據香農的定義,信息是減少事物不確定性的量度。

數據的根本用途就是提供決策依據,減少不確定性。

對未來、對未知領域,每個人、每個組織都會面臨不確定。然而,儘管有各種不確定,每個人、每個組織、在每天都會作出決策;很多決策是明顯錯誤的。

現有人類的決策,大多數是靠感覺,靠跟風,靠個人經驗,只有很少部分是客觀數據分析。海量數據,提供了一種更為可靠的決策依據。

如果有一個神器,可以顯著消除不確定性,顯著提高決策正確率,它有多大價值?

想想,全球有幾千萬家公司、有70億人,這幾千萬公司、這70億人每天都會決策。每天都會決策。

丨《未來知識圖譜》,理解和洞察未來;請私信暗號「揮一揮匕首,不留一個活口」訂閱


丨探討虛擬現實、互聯網金融、移動互聯網O2O問題,我的微博:Sina Visitor System


大數據的5個小觀點

2016 歐陽辰 互聯居

有些流行詞像霧霾一樣浸透了北京的空氣,偶爾清靜幾天,不時又卷土從來。「大數據」就是其中的一個詞。


大數據外表光鮮亮麗,內則無可奈何

越來越多程序員也湧入大數據行業,但是仔細問一些從業人員什麼是大數據?鮮有人知道?就算知道的,最常引用Victor的4V理論,大量(Volume),快速(Velocity),種類多(Variety),價值(Value),但究竟多大是大?多快是快?幾種算種類多?每個人都有自己的觀點。最核心的問題還不在數量和種類,而是價值(Value)。什麼是大數據的價值?如何體現它的價值?如何衡量它的價格 ?它能夠變現么?如何來變現卻是大數據的核心問題。


做大數據的同學,外面看起來像是紅樓夢的大觀園一樣,外表光鮮亮麗,身在其中的人,才知道各有各的無奈。大數據的處理通常分為,數據收集,數據清洗,數據加工。數據應用,數據可視化。數據收集同學總是抱怨數據源Garbage in, Garbage out的感覺,數據清洗的同學總有沙裡淘金的感覺,數據加工的同學也經常受兩頭氣,相比來說,做數據可視化的同學比較幸運,可以找到很多炫酷的感覺,但有不是大數據的主流技術。最難受的是做大數據應用/變現的同學,不得不靠著忽悠行走江湖。


好了,列舉一下我對大數據的小觀點,如有雷同,純屬偶合。


小觀點1:大數據的信息熵值低

1948年,香農提出信息熵的概念,可以用於表述信息的價值,信息熵高的言簡意賅,信息熵低的冗餘拖沓。目前,很多大數據的來源都是一些系統的Log,圖片,視頻等。特別是日誌系統數據,數據越來越多,越來越大,其中大部分是固定模板的數據,區分度差,信息量並沒有隨著數據的增加而線性增加。另外舉個例子,之前我們使用膠捲照片的,我們會選擇重要的場景,珍惜每一個照片,設計好角度和光圈,現在有數據相機了,內存近乎無限大了,大家肆無忌憚的自拍,哪怕都是同一個角度,大家照的廢片也是一把一把的。同一類型的數據多了,信息熵也就降低了。


小觀點2:大數據不是銀彈,是螞蟻效應

大數據應用常見,多見於推薦系統,業務流程優化,醫療,性能優化,預測,金融交易等,這些業務在傳統的做法上,已經十分依賴於數據了,雖然以前不叫大數據,但是也都是數據驅動的業務。數據的規模和種類增多,處理方法的增多,會漸漸提高這些應用的精準性,這種提高一定是漸漸的,一點一滴的。也許一天兩天感覺不錯來的,但是經過多年的持續改進,這種效果是顯而易見的。


舉個例來說,語音識別起始於60年代,基於小型辭彙庫,在90年代,IBM推出的ViaVoice是語音識別的一個里程碑,基於複雜隱式馬爾科夫模型(HMM)或者神經網路演算法更加成熟,數據也是基於大量的辭彙庫,語料庫。新聞聯播曾經就是ViaVoice中文版本的重要訓練語庫。雖然用了更大的語料庫,效果有改進,但是還無法達到實用的程度。2009年以後,藉助於互聯網語料庫的進一步豐富,數據料的增長,遠遠超過演算法的改進程度。語音識別在準確性和實用性得到很大的提升,用戶也不斷使用語音識別反饋更多的數據。以至於,谷歌公司人工智慧方面的專家彼得·諾維格(Peter Norvig) ,和他的同事在一篇題為《數據的非理性效果》(The Unreasonable Effectiveness of Data)的文章中寫道,「大數據基礎上的簡單演算法比小數據基礎上的複雜演算法更加有效。」。大數據正在一步一步的解決一些科技應用難題,例如自動駕駛,人工智慧等。


3.大數據不解釋因果關係,只關心相關性


《大數據時代》中定義了大數據的第三個特徵,「不是因果關係,而是相關關係」。沃爾瑪通過數據挖掘,發現蛋撻和颶風產品有很多關聯性,並且放在一起銷售提高銷售量。沒有人清楚其中的因果關係,當然,也可能有人牽強的解釋,美國人喜歡颶風時期躲在家裡吃蛋撻,通過數據我們獲得了相關性,但是卻不理解其中因果關係。我突然想起來自於《三體》的降維攻擊:很多時候我們在二維世界的相關性,是無法在二維世界進行解釋因果的,也許只有在三維或者多維世界才能夠解釋因果關係,而這種因果關係無法直接理解,只能進行歸納成相關關係。


4. 大數據資源公司最佳變現之路是被收購,最直接變現渠道是廣告和泛徵信


很多專業大數據服務公司的發展都不走上市之路(注意不包括大數據技術公司),因為他們對於變現的能力和可持續性都有很多顧慮,他們也面臨高風險的用戶隱私挑戰,因此很多大數據資源公司的PR工作,遠遠多於具體落地的數據服務工作。因此,各個專業大數據公司都忙於各種行業洞察報告和排行榜,數據可視化的工作一個比一個炫麗,一個比一個追熱點。談到大數據公司的變現,很多公司會提到「數據服務」,實際上數據服務的市場相對穩定,並沒有因為大數據公司的發展而市場膨脹,因此「數據服務」實際上是一個明顯的「僧多粥少」的狀態,另外老牌的數據公司,例如Nielson等在客戶方便還是有一定的優勢。


收購成為大數據公司變現最佳方式,2014年Oracle收購BlueKai獲得很多眾互聯網用戶數據,BlueKai的數據來源於和很多小網站進行數據交換和購買,尼爾森公司收購了DMP公司eXelate,eXelate的數據來源各個合作夥伴的數據,它提供了數據共享和交換的平台,創建DMP支持廣告優化投放。 2014年,農業技術公司孟山都宣布以9.3億美元巨資收購意外天氣保險公司Climate Corporation. Climate Corporation是一家分析歷史天氣數據的公司,如降雨和土地質量等來幫助農民預測作物產量。在中國阿里巴巴收購友盟也是覬覦數據資源。


既然數據服務不容易攢錢,那麼有沒有靠譜的變現途徑呢?從目前來說,廣告和泛徵信是兩個最有效的變現渠道,效果廣告的精確投放,品牌廣告主需要強烈的數據背書,這些都需要數據服務,因此在廣告行業專業的DMP公司,對於程序化交易是必不可少的。另外,就是徵信系統,金融的本質是一個套信用系統,這就是為什麼各大互聯網公司都早早進入金融業務。目前很多P2P公司是否能夠生存,主要依據就是風險控制,大數據是重要技術支持,因此很多P2P會採購大量數據資源,加強自己的徵信系統。

  1. 大數據是對用戶隱私的汲取

大數據正在結合智能設備的普及而大力推進,例如攝像頭,手機,智能穿戴設別等。 其中,大量用戶隱私數據被收集,例如用戶地址,交易數據,搜索數據,用戶的地理位置信息,用戶的脈搏,聯繫人列表等等。這些都是用戶的個人數據,各大數據公司都通過改善服務為借口,獲得用戶的授權,而進行隱私的汲取和偷窺。


也有一種聲音,這些數據是為了讓你享受更好的服務。這裡面也是很多邏輯問題。首先,服務商提供更好的服務,並不代表可以收集用戶的隱私數據;其次,很多公司不提供不收集用戶隱私數據的服務的選項,這讓很多用戶無法選擇禁止用戶隱私數據收集,這是一種利用市場地位的壟斷和霸王條款;而後,所有數據公司沒有提供數據清理功能,刪除用戶所有的歷史數據。這意味著,你的隱私數據一旦被收集,可以被無限次的無範圍的濫用。


6結束語

好了今天先談這麼多,大數據很忽悠,小觀點也不一定靠譜,兼聽則明,偏信則暗。希望大家在大數據的霧霾裡面找到自己的新鮮空氣。


大數據的價值在方方面面,我認為目前最核心,也是有最廣泛應用場景的,是讓人類的生活變得更自動化,從方方面面提高我們生活工作的效率。以下的三個場景可以很好地說明:

很多互聯網公司在做的推薦系統,本質上是替代用戶搜索商品的行為,讓你更快的找到符合自己興趣的東西。以前你上網買書,可能先要花10分鐘的時間看一下最近的新書榜和暢銷榜,再花5分鐘的時間搜索一下感興趣的分類下有什麼新的書目,這個過程是10+5=15分鐘,如果有10萬個用戶,就是150萬分鐘。有了推薦系統,進去網站後展現在你的面前的,是你感興趣分類下最新的並且是好評最高的書目,不用你去尋找,你感興趣的東西自己找到你了。你買完一本書,這時頁面下提示,購買了本書的讀者還喜歡**書,這時你點進去看了下,覺得很感興趣於是又付費購買,這時,網站本身的變現效率也提高了。這是大數據應用下一個典型的場景。

另外一個大數據應用下的典型場景,是滴滴打車和Uber。在沒有打車軟體的時候,打車的人和司機是這樣的,乘客在A地點等附近的計程車路過,等了10分鐘還是等不到車,司機在A地點附近的B地點等乘客,等了10分鐘還是沒有乘客上車,這時雙方的時間損耗是10+10=20分鐘。有了滴滴,場景變成了這樣,乘客在A地點用滴滴,滴滴自動匹配了A地點附近的B地點空閑的司機,司機接到傳喚立刻趕往A地點,整個匹配和溝通時間大約1分鐘。那麼這多出來的20-1=19分鐘就是大數據的價值,打車軟體通過對需求數據的高效匹配,提高了用戶的乘車效率,降低了司機汽車的空置率。

場景三,這個場景發生在未來。A剛走入一家服裝零售店,一個會說話的服裝模特機器人立刻親切地招呼A的名字,並告訴她,她一周前買的襯衣的配套褲子剛剛降價了,然後在自己身體的顯示屏上顯示這條褲子的圖像。這個場景涉及到的是臉部識別數據,目前總部位於東京的NEC公司開發的NeoFace軟體已經能立即識別人臉了。而Facebook公司已經一早嗅到這一塊的商機,已經在偷偷建立世界上最大的私有消費者生物資料庫,將其應用在「標籤建議」功能上。據一家調研公司預測,到2020年,臉部識別設備的全球市場規模將達到62億美元。

既然提到了未來,那大數據在未來的核心價值又是什麼?讓我們來開個腦洞,大數據在未來的價值,應該是讓機器替代人類,至少是替代人類的某些職業(其實現在已經在發生了)。同樣的,讓我用三個場景說明:

四大會計師事務所的僱員中,相當大一部分是審計師,這些審計師每天的工作是給各種企業對賬,看企業的現金進出是否合規,是否有財務漏洞。而未來是這樣的,不需要審計師,只要把企業的財務資料對接到電腦的審計系統,只要幾分鐘,電腦就能出
審計報告。

第二個可以被替代的職業是司機,未來人們開車是這樣的,對著汽車說一聲「去最近的超市」,汽車通過網路下載最新的路面數據,快速匹配到路面距離和堵車情況最優的地點,自動駕駛過去,在路上通過匹配其他車輛的位置和速度,自動控制速度和規避事故。

前段時間有個很火的職業,叫鑒黃師(真實存在的職業),工作是每天看幾十部網路視頻,識別出其中含有成人畫面的。未來,只要讓電腦瀏覽幾萬部成人影片,這樣只要某幾部視頻的幾禎畫面含有成人鏡頭電腦就能快速地識別出來,從而節省幾個公務員編製(現在的技術已經可以做到了)。


關於題主的問題,@Han Hsiao 的概括更清晰明了:大數據的核心價值理解為核心商業價值。
然後我們再來細說核心商業價值,本人水平不高,講不到面面俱到,但也許能幫大家管中窺豹見其一斑。

(利益相關,本人現在在芝麻信用,大數據用在徵信場景;本人前公司淘淘搜,可以吹一些大數據相關牛逼。本人對大數據應用相關的產品:推薦、DSP、效果廣告,使用較多,對其原理還算有一些了解。)

首先,不管你炒作什麼概念,最後的目標都是為了讓企業盈利,也就是大數據能怎麼幫企業賺錢?
眾所周知,互聯網的盈利模式就三種:增值服務、廣告、電商(商業服務),再加上互聯網最基礎的價值,用戶量(或者流量)。
大數據最大的價值目前來看,最多的落地在廣告和用戶型產品上。遠未來那些高舉高打的數據價值和無限可能性,我們放下不表,我們具體來說說這個數據價值怎麼落地。

1. 先談談大家最興奮的商業產品(大部分大公司會將公司業務線分成兩大分支:用戶型產品和商業型產品)
先講講BAT三家的大數據在廣告端的應用。
首先BAT三家中,B和A自身都是不生產流量的,而是需要大量的採購流量,特別是B。B和A最知名的廣告場景就在搜索結果頁。
無論是B的關鍵詞匹配競價廣告,還是A的直通車和鑽展,為了提高其廣告價值,都需要不斷強化該場景的廣告價值。像B和A這麼巨大的流量,廣告不再強調聚合廣告位,而是強調,流量分發能力。所以廣告價值的提升,在於流量分發能力的強化。雙方都在不斷的強化個性化搜索,基於用戶行為的推薦和搜索的融合。百度基於cookie(移動端基於cookie或imei等形成用戶唯一標識),阿里基於更精細化的用戶模型。當然,目前這些用戶行為數據累積的很豐富,但是具體怎麼用,怎麼更好的挖掘,對於大家來說,都還處於摸索階段。
第二,提升價值。首先,百度的搜索流量雖然巨大,但是其有效有商業價值的query其實並不多;相對來說阿里的內部搜索商業價值更豐富。但無論是百度還是阿里,其搜索都被大量無效結果乾擾,因為他們有海量的數據——大量無價值的網站、信息,大量低質量的店鋪和商品。提升搜索結果商業價值的本質就兩條,一是增加優質內容的曝光量——將流量更多的分配給優質的網站或優質的;二是增加點擊率——給用戶符合他個人特徵的優質結果。在這方面,大的用戶數據有價值,但目前階段,很諷刺,就年齡、性別、地域就解決大部分問題了,這是最有價值的數據;大的商品數據或網站數據並不一定有價值,很諷刺,像淘寶這樣商品量級的網站,做個性化第一步,就是做小庫優質庫,第一步一定要做收斂。這點上,淘淘搜遇到的問題和他們一樣,因為淘淘搜有4億商品庫,是除了阿里之外,全網最大的商品庫;所以我們也採用了同樣的處理手法。
第三,談完了B和A的搜索廣告,再聊聊更多其他的廣告。百度還有相當大一塊的收入是聯盟廣告收入,這個和大部分DSP類似,總之就是收集更多的流量,對這些流量的用戶建模,有豐富的用戶行為數據,然後對這部分用戶在各種位置,推送他們感興趣的內容,但不一定是在他們想要的時候。DSP應該算是非常成熟的模式了。(正因為模式成熟,所以DSP在國內不會有高估值,市場天花板明顯 )
第四,我們該聊聊騰訊了,騰訊現在把搜搜原有的商業產品團隊也全部歸併到廣點通團隊了。騰訊的廣告業務由廣點通大一統了。以廣點通和粉絲通(新浪微博)為代表的效果廣告,和DSP類似,不同的是,廣點通粉絲通的流量都來自於自身,流量質量相當高。騰訊和微博都屬於能生產流量的公司。他們的廣告收入,幾乎是凈利潤,不像百度阿里還有流量採購成本。而廣點通、粉絲通,最受廣大廣告主青睞的部分,又稱為信息流廣告~(恩,國外,非死不可和推特早就有了,國外牛逼,但我們還是專註於我們身邊可用的東西吧)。可以說,搜索場景,遠遠超越了門戶各種櫥窗場景的廣告價值;而信息流場景,則在逐步超越並甩開搜索場景。以至於廣點通年會時和廣大移動開發者說:應用市場已死,信息流廣告永生之類的話。從當初簡單網、蘑菇街在廣點通內測初期,大把獲得優質流量,到現在一年半過去,粉絲通也風生水起。效果廣告平台的發展速度堪比火箭升空。廣告主可以像在DSP平台一樣定向投放精準廣告,依賴的就是騰訊和微博的用戶行為數據。目前,這是國內效果廣告的朝陽期,朝陽期的意思就是,騰訊和微博對用戶行為挖掘還不充分,還沒有進一步放大效果廣告的價值,恩,原因就是,目前還是很諷刺,年齡、性別、地域、OS、投放時間,解決了絕大多數問題。這對騰訊、微博等公司(今日頭條將是下一個效果廣告大平台)來說,未來空前美好,廣告收入大大滴可以挖掘。而對於廣告主來說,未來這些平台中優質流量就不再那麼集中了,分配到自身的優質流量將慢慢稀釋,廣告費將逐步水漲船高。
第五,基於大數據的效果廣告真那麼牛逼,貼吧和豆瓣小組是否一樣會是未來輝煌的效果廣告平台。好吧,本人懷著這樣的夢想,去發掘貼吧和豆瓣小組的流量紅利。憂傷的是,貼吧有個短板,匿名用戶比例太高,用戶行為數據不精準。更憂傷的是,貼吧和小組,這種話題式的討論,讓內容主題更聚焦,從而本身和用戶個人屬性關係不大,在帖子內和吧內帖子列表或小組內帖子列表場景下,精準的信息流廣告都顯得格格不入,無法像QQ空間、微信、微博的信息流廣告那樣擊中用戶的興奮點。

2. 再談談大家最熟悉的用戶型產品
首先,目前應用場景最大的在推薦,不論是相關推薦還是基於用戶行為的推薦或者其他雜交演算法。但就像上文中所說的,垃圾數據太多沒意義,推薦所需要的大數據,不需要大到無所不包。工程上最有效的相關性演算法和協同過濾足夠有用。就像和某大牛交流時,他說的,在業內,大家都是凡俗演算法解決90%工程和生產場景的問題;然後前沿新潮演算法,用於在圈子內裝逼,刷逼格。
在電商平台上的各種推薦產品,只要能促進成交額,那也算是大數據在用戶型產品和商業型產品上的雙重價值。
其次,實質上最重要的場景,還是在搜索,或者說的不那麼狹隘一些——普適計算(Ubiquitous computing)。引用一下《隨意搜尋》里的裝逼句,我們正在從原子大陸,步入比特海。我們所處的環境變成無處不在的數據,我們可以在任何時間任何地點,找到任何人任何東西,任何事情。
裝逼的事情,放下不表。講一下市面上除了百度的文字搜索之外的一些大數據實踐吧。
首先就是語音識別。音頻指紋什麼的,各家都已經走得比較前列了。反正音頻翻譯成文字,再走傳統的語義識別套路,實現一些人工智慧的場景應用
其次是圖像搜索,代表產品:百度識圖、google圖片搜索、淘淘搜、淘寶拍照購等。原理很簡單,第一有海量的標的(比如一般圖片或者商品圖)數據;計算特徵庫、同款庫,等等等等,反正就是做標識了。然後輸入圖片,去庫中匹配同樣的數據,或者匹配相關性數據。目前,淘淘搜更多的把這個能力應用於非標類商品的同款比價。所以可以看到,目前市面上,服飾鞋包的同款比價上,淘淘搜是比較領先的。
最後講講百度筷搜,基本是各種感測器收集數據,然後和雲端的庫中數據做匹配。其中PH檢測什麼的都簡單,真正對大數據有要求的是成分分析,這一塊目前還沒有誰能做好。百度筷搜的筷座上裝了近紅外發射接收的感測器,這塊是用於探測分子原子鐘的一些CHO鍵,甚至其他鍵,然後以這個比例,去和資料庫中各種食物實際上這些不同鍵的數量的食物,進行擬合。但那個豐富的食物內各種成分含量相關的資料庫,即便是百度,目前要能擁有,也是天方夜譚。

結論
大數據很美,但不一定適合你的規模的企業。技術是手段,怎麼持續挖掘其中的商業價值,請你繼續大開腦洞。
目前淘淘搜在這塊的使用和操作上很務實:比價、推薦、廣告。

------補充-------

加入芝麻信用後,發現大數據用在互聯網徵信上,更美


Han Hsiao收集整理的內容挺全的。:)
不過,做過數據分析後,你會發現,這些媒體炒作內容,基本是沒有實際意義的。對於Volume、Variety、Value、Velocity的定義,你隨便寫個死循環,不斷產生隨機數,幾天就可以滿足Volume、Variety、Velocity的要求,而Value對任何事情都是可以做評判標準的,不光是大數據。
同時,也不要輕信《大數據時代》這本書,因為作者似乎沒有什麼機器學習的背景,本質上說書中的內容並不科學。
要說大數據的價值,主要是IT業界的商業需要(大家要賣伺服器,賣存儲,賣服務)。
另一方面,大數據這個概念的核心價值,是讓全民重視數據分析的價值。
也就是說,「大數據」價值就在於宣傳。「大數據」是個過程,而不是結果。
Gartner技術成熟度曲線,預測大數據的炒作,在2013年是最高峰,後面就會逐步下降,這是很準確的判斷。


謝 @desperado光邀請。

首先強調幾個點。

1 這是一個很長,很長,很長的答案。

2 利益相關:MckinseyCompany以及對應相關機構

3 連載數不定,一天1.5小時左右更新,大概篇幅不會小於2000字per day,不會大於5000字per day。

4 關於連載:1 作為長期連載段子手,連載只是為了幫助學習,在此感謝 @desperado光的督促和 @洪霟的鼓勵。2 本人是從大數據與諮詢的角度出發分析,希望諸位不要犯Geek病,歡迎討論,但拒絕回復牛角尖。3 連載的意義在於東西可以往簡單里說,不至於抽象,水平有限,所以三五千字的東西,估計三五萬字才講的明白。

15.09.20

大數據的核心價值

與上貼一致,一開始先回答問題。

大數據的核心價值是?

先得明白,什麼是大數據。

大數據(big data),是指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合。在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有數據進行分析處理。


大數據的4V特點:

Volume(大量)
Velocity(高速)
Variety(多樣)
Value(價值)

前面不少答主已經提到了這個,這裡不再展開

首先有幾個關鍵概念:

1 無法在可承受的時間範圍:大數據的存在土壤,基於單位時間無法解決所有數據的前提,最簡單的例子:微博每周都需要出一期熱榜,榜單上有本周各個門類,各個領域曝光度最高,關注度最高的熱點,但是,統計整個微博的所有信息卻需要花若干周,甚至更長的時間 —— 如此大量的數據,在概念上,幾乎可以成為不可承受。

用高端數據牛人 @desperado光 的話說:

這可以理解為長時間維度上的無法承受,畢竟時間成本有限,而要達到的功能卻是時間成本無法承擔的;而從另外的角度看,高頻交易公司的伺服器很多都集中在華爾街,亦或是金融數據大量集中,密布的區域,這樣的分布可以保證前兩個V的順利實施 —— Volume的大量衝擊,以及Velocity的急速要求,因為在金融交易場或者二級交易場,100毫秒的延遲也是不可接受的;軍事上也有類似的用途,比如預警機和海基防空雷達的設計,都需要同時處理超過100個目標的能力,並且都是實時的。

所以,世界上規模最大的短時間爆發訪問量,往往都在常態上無法承受:請注意,時間維度的不可承受,一方面來源於時間成本的不可承受,另一方面,來源於時間短期閾值與達到目標之間的鴻溝,這個鴻溝在某種程度上,一般成本和時間,都無法承受 —— 由於所有數據都有關聯性,而且幾乎每個數據都要在儘可能短的時間內反應到每個客戶的界面上,在保證多樣採集的過程中保證最大的工作效率和精確度,的確對計算能力和計算模型,是個巨大的挑戰。

2 常規軟體工具


Hadoop --- 它實現了一個分散式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,並且設計用來部署在低廉的(low-cost)硬體上;而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統中的數據。Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算(From 百度百科)

3 捕捉,管理和處理數據

所以,基於數據量巨大,類型複雜,卻富含價值的資料庫,依託於Hadoop或其他大數據工具,對這部分資料庫進行數據捕捉,數據管理和數據處理的技術,可以成為大數據。

引:

1 在Mckinsey的劃時代報告《Big data : The next frontier for innovation, competition, and productivity》中,大數據並不一定是超過特定TB值得數據集才能成為大數據。

2 Amazon給出的定義是:超過任何一台計算機處理能力的數據量。

3 在本時期談及的所有大數據概念,都必須延展到獲取信息並且處理信息的能力,意味著失去這個能力,大數據的概念可以成為不成立 —— 大數據並不意味著數據堆疊,而意味著數據計算和一系列挖掘,分析的連帶反應。

所以,建立在上述的概念上我們可以看到大數據的產業變化:

1 大數據飛輪效應所帶來的產業融合和新產業驅動
2 信息獲取方式的完全變化帶來的新式信息聚合
3 信息推送方式的完全變化帶來的新式信息推廣
4 精準營銷
5 第三方支付 —— 小微信貸,線上眾籌為代表的互聯網金融帶來的全面互聯網金融改革
6 產業垂直整合趨勢以及隨之帶來的產業生態重構
7 企業改革以及企業內部價值鏈重塑,擴大的產業外部邊界
8 政府及各級機構開放,透明化,以及隨之帶來的集中管控和內部機制調整
9 數據創新帶來的新服務


由上述9點(絕不是大數據能夠帶來的全部意義,這些只是其中的一小部分)帶來的數據化世界將會以怎樣的方式展現,鄙人和諸位一樣,只能拭目以待 —— 從三大產業角度撬動生態圈的概述,答主@Han Hsiao 已經介紹的非常詳實,鄙人只是順著他的知識鏈,繼續向下展開,並且盡其可能進一步的展現大數據的美麗畫卷。

下一期:

大數據飛輪效應所帶來的產業融合和新產業驅動(從諮詢行業的角度)

--------------------------------------------------------------------------------------------------------------------------------------------

15.09.21

大數據飛輪效應所帶來的產業融合和新產業驅動(從諮詢行業的角度)

首先,什麼是飛輪效應?

顧名思義,飛輪效應的本質是產生運動屬性。我們把自己置於社會的平均產業面這個巨大的輪盤中,很難用平面,平台的角度看待自己 —— 簡單說,一個個體,無論是企業,個人,或者其他屬性的個體,都沒有任何可能,使整個商業平台產生飛輪效應 —— 一個靜止的,巨大的飛輪需要轉動,需要巨大的源動力,雖然開局極難,可是一旦開局,而後的轉動只會越來越快 —— 飛輪效應的慣性就在於此 —— 達到某一零界點後,飛輪的重力和衝力也會成為所謂推動力的一部分,這時,你無需費力,便可跟隨飛輪轉動,在整個利益平台尋找自己的介面和資源,用資源慣性完成利益整合。

從諮詢業的角度呢?

對於諮詢公司來說,特別是諸如麥肯錫,貝恩,羅蘭貝格這樣體量和技術量的諮詢大鱷,每年都會從自己的企業戰略,文化諮詢案例中,得到大量的數據 —— 這些數據包括企業運營的常用數據,人力資源KPI的運營數據,資本運營狀況的基本數據 —— 簡單說,整個企業內部可以量化的諮詢數據,都會由諮詢公司進行收集,打包,採樣和整理。而隨著行業的變動,亦或者隨著互聯網時代的到來,很多現代企業,諸如互聯網公司,電信運營商,投資銀行,不但自己積累數據,更為自己收集的數據進行大規模的整合,打包處理 —— 現代企業數據管控能力,也隨著企業的發展而發展,二者屬於共生關係。

所以,諮詢公司往往在現代企業的諮詢案例中坐收漁翁之利 —— 由於現代企業對於發展數據挖掘技術的渴求,以及對於充分釋放數據資產中蘊含的商業價值的渴望,大規模的,高度管理化的數據資源,便可以通過諮詢診斷報告務求數據背輸和數據支持的手段,很好的被採納和吸收,並且從諮詢的角度,對整合過的數據進行進一步的挖掘,探索。

對於現代企業,特別是大型現代企業(國外的GE,中國的中鐵,中鋼),對於數據整理已經頗有心得 —— 所以,對於大型諮詢公司而言,利用當前收集的數據資源,整理數據整合標準,顯然是可行的。

怎麼講?

數據收集分為高中低等,諮詢行業面對的行業模型,同樣是高中低等。簡單說,中小企業同樣有利用數據發展的必要性,但是無奈缺乏數據收集的方法。所以,利用大型企業收集,打包,採樣整理的數據收集經驗,泛化到中小企業方法中,制定數據泛化收集標準,完成大數據資產的第一步清理工作。


所以,飛輪轉動的前提,是整個商業社會和商業平台,形成常規化,常態化的數據整合收集思路 —— 諮詢公司首當其衝 —— 利用大型企業數據收集整合的經驗,泛化大數據資產收集的方法論,制定類行業,近似行業的標準,手冊化,網路化的進行對外宣導。對於諮詢公司而言,如果形成:大數據基礎概念普及 —— 大數據收集方法論宣貫 —— 大數據資產化處理的諮詢配套產品和模型,飛輪轉動的社會基礎,將在5-10年後,漸漸形成。

從諮詢的角度看,大數據資產可以衍生的角度,可謂五花八門,例如:利用數據平台終端輸出企業人力資源職能數據,在企業管理績效考核中設定痛點機制,即:發生什麼行為做什麼事,完成企業人力資源管理的條件反射;利用數據平台輸出大量對標案例,利用時間縱度完成企業對標問題假設和解決方案診斷驗證,利用大數據的數據採集職能而不是通過大量企業高中低層的訪談,徹底改變諮詢行業常態化的資訊模式和診斷模式 —— 數據化平台的租售數據,租售信息,數據採納整合,媒體,空間運營的綜合機制的建立,配合前面所需的大數據資產化處理的配套軟體,數據模型,大數據衍生飛輪效應的理論模型也可以基本清晰。

在產業頻繁接觸的過程中,各個行業的特點將不再是經驗主義的價值輸出,更多會採用社會流行指標 —— 而社會流行指標的建立,對於諮詢行業,特別對於各類社會資訊指數,社會問題常態化研究的機構,可謂是巨大的福音。可是,由於大數據概念並非完全落地和產業化,更多的產業,職能部門,對於數據終端的依賴仍然取決於第三方 —— 請注意,大規模數據化流通的本質在於,自己擁有可以和企業和社會流行指標向對應,採用一套數據方法整合和整理的數據模型和數據樣本,才有對標意義和參考價值。在推動大數據飛輪轉動的過程中,數據資產從適應社會生態到數據資產的壟斷運用間,需要一個遞進的過程,但一旦遞進過去,行業將會被企業撬動。

所以,對於諮詢來說,宣導社會進行數據化管理的意識首當其衝,其次,提供第三方的數據化整理標準範式(例如發改委,國資委等各部委的文件中設計的中國中小企業標準委員會等等),向全社會樹立數據化建設模塊的標準,以及數據管理組織形式的建立。第二步,利用各行業不同的數據整理方式和最終數據整合的數據資源,提供相對應的,撬動大數據飛輪轉動的具體建議。例如,對於類谷歌類的搜索產品,由於門戶特徵集中於搜索領域,所以,五花八門的數據碎片,將出現在谷歌的大型資料庫中 —— 這些碎片化的信息如何整理,運用?如果企業擁有一套有效的關聯信息碎片化計算模型,並且可以將碎片數據整合管理起來,並且反饋給用戶呢?谷歌已然做到這一切,並且在郵件,日曆,地圖,企業搜索排名,客戶管理關係,Google Drive以及相關社區里,運用了這些技術 —— 碎片化信息和關聯性的運用,讓谷歌的產業飛輪,隨著資料庫的不斷增大而越飛越快 —— 隨著谷歌國際化,技術化的不斷演進,這個飛輪的慣性,將會帶來其他產業的產業迭代。

諮詢行業能夠更好的看到諸如谷歌對於信息碎片和數據處理而後轉動的飛輪,那對於涉及更多行業的諮詢類而言,產品類企業是否也可以被這樣轉動飛輪?藝術品鑒賞行業呢?快銷品行業呢?

是的,任何採用標準化數據採集和管理的行業,都可以被數據的管理型和有效碎片化整合,最終轉動產業飛輪,從而產生巨大的產業驅動力 —— 這不是簡單意義的精準營銷或定點銷售,這是產業整合和產業變革的前兆。


下一期:信息獲取方式的完全變化帶來的新式信息聚合


--------------------------------------------------------------------------------------------------------------------------------------------


PS:應群內大部分人要求,大數據飛輪效應這裡,補一期案例分析。明天分析信息獲取方式的完全變化帶來的新式信息聚合。


下面只講一個東西,蘋果。

蘋果的偉大無需贅述,現在從大數據結構上對它進行剖析,將會更能看到蘋果巨大的產能和數據效能。

1 數據化概念怎麼在蘋果形成的?

首先,IPOD是什麼?

IPOD的物理本質是便攜音樂播放器,但是它是怎麼運轉的?為何它成為了一座豐碑?那是因為它內在的數據意義 —— 它從易用性入手(例如消除了所謂P2P軟體瞎子啊音樂,刻錄CD,以及刻錄機操作等等硬門檻),利用收購的Rio團隊(音樂管理程序創業團隊),以苛刻的要求簡化產品,強調用戶體驗,一步步的完成了1.0版本的劃時代音樂數據依託平台 ---- iTunes。

依託於iTunes,iPod才悄然問世 —— 神奇的蘋果將數據整合放在終端產品前進行戰略構建,讓終端體驗很好的嫁接在了數據之上 —— 殊不知在iPod大賣之前,喬布斯早已說服了五大唱片公司向蘋果提供數字音樂的銷售權,五大唱片公司所提供的數字音樂,成為了支撐iPod運轉的數據總庫,而在iPod沒有進行全線商業運作之前建立好了標準化,結構完整的數字音樂資料庫(依託於五大唱片公司對於音樂原本的初分類,本來這個體系就非常成熟和完備了),一個依託於iTunes的,iTunes+iPod的資料庫輸出終端,加上五大唱片公司,藝術家,用戶和蘋果四方盈利的天才商業模式應運而生。

從數據結構化,碎片整合的角度,我們又能看到什麼呢?

首先,iTunes的音樂數據整合,更注重於個體音樂人的整理,我們這裡可以把每一個人看作數據碎片 —— 每個音樂人只要由蘋果出面解決版權問題和發行問題,藉助這個平台,就可以走向世界任意一個被蘋果覆蓋的角落,這是及其有利的條件。而將這所有數據碎片整合,並且提供高質量運轉數據平台的蘋果公司,也因為各個個體音樂人(數據碎片)的加入,把不同曲目,不同風格,能夠滿足不同膚色,國家,地區人等不同音樂需求的音樂整合到自己的數據閉合平台,並且規定:用戶可以在平台內任意購買自己喜歡的曲目 —— 最大限度地滿足了用戶個性化的需求,而這些由用戶自組的音樂數據碎片被擱置到「播放列表」中 —— 這個極具個人色彩的設置,讓所有人都參與到了大數據構建和數據信息整合的過程中。

所以,只從蘋果的立場,利用自組閉合平台的建立整合的巨量數據碎片,只要在自己可以控制的範圍內,定點,定向,精確,迅捷的處理和表達用戶所需信息,完成所謂用戶需求和供應的同步,一個巨大的大數據盈利閉環就實現了,只不過偉大的蘋果公司,在15年前就實現了這個偉大的目標。

2 APP以及身後的平台,以及對於時代的影響

由iTunes建立,並由iPod作為物理呈現的一整套數據盈利閉合機制出現後,蘋果向母級發起衝擊 —— iPhone。

為何iPhone成為了母集?當手機內置音樂播放器軟體後,iPod的存在意義,便煙消雲散了 —— 而這個新型的iPod,還可以打電話,郵件,甚至做更多的事情。

在由iTunes轉動起飛輪一角的時候,iPhone可謂徹底的轉動了飛輪 —— 原因是,用手機依託可以展現的數據多樣性,遠遠超越音樂一個領域 —— 所以,蘋果將數據碎片整合的能力擴展到應用(一個如此huge,簡直沒有任何閾值的詞),樂商店搖身一變,成為了應用商店。試想:當全球的線上數據都通過iTunes平台進行同步數據運營機制的管理(同時你自己也是其中的一份子,只要你有自己的播放列表和下載列表),並且這樣的巨量碎片可以由你(作為一個普通用戶),在自己需求產生的瞬間滿足到自己的需求,這樣的平台,基本等於天堂再現 ——而如今,數以十億計的蘋果用戶,正在每時每刻享受著這樣的同步,這是最好的時代。

所以,如果說,iTunes+iPod的出現建立了大數據碎片整合概念,成為大數據的觸媒的話,APP以及身後平台的構建,對互聯網行業,甚至對整個商業生態,甚至人類生活模式,都產生了巨大的推動和影響。

3 放開APP應用開發許可權,進一步做大轉動的飛輪

2008年3月,蘋果發布iPhone的應用開發包,對於大數據而言,這又是一次產業革命 —— 在構建好數據整合平台,從音樂入手,到而後滲透到整個線上領域的方方面面,完成所謂強互動式的大數據全民平台後,應用開發包的展開,則將原有的大數據飛盤做大。很簡單,對於產品和技術一貫擁有封閉性的蘋果而言,大數據飛盤的轉動不可逆的前提下,飛盤的大小直接決定了蘋果的市場體量。

所以,開放的第三方平台催生了整個產業格局的巨變 —— 以數據內容製造產業,只要蘋果作為第三方和最大的平台擁有者,解決利益分配問題即可。而作為互聯網王牌的蘋果公司提供了3:7(用戶購買應有所支付費用,蘋果拿走30%,開發者拿走70%)的支付比例,留下了世界上最大體量的個體數據供應商,而正是這些供應商的數據碎片,構成了如今人們工作,娛樂,休閑,購物,生活等等各種豐富多彩需求的信息基礎:由門戶iPhone作為信息接收體,依託於巨大的,利益分配機製成熟的APP商店,以及由無數第三方參與的,10萬種以上應用構成的巨大數據化碎片市場,改良了整個產業生態,形成了全新的商業格局。

4 對碎片化信息進行新一輪的大整合

當iPad問世後,一系列的蘋果終端產品面臨新的數據問題:用戶如何把行為數據和內容數據更有效的收集和記錄?比如照片,通訊錄,音樂播放列表等等?

iCloud橫空出世。

iCloud,從大數據的角度,對從2000年開始的iTunes所引發的數據化產業革命,進行了二度整合和產業梳理:利用多個數據源收集數據,但通過統一的儲存和索引功能,建立大數據中心,而數據中心的本質,仍然是對於依託於蘋果平台上的所有碎片化信息進行進一步的升級處理,形成新一輪的數據大整合。


iCloud的出現,標誌著蘋果完成了完整的閉合大數據產業鏈 —— 以iCloud作為用戶行為,內容的大數據中心為核心,向全球第三方手機碎片化數據,由APP提供數據整合和發送平台,由信息終端(手機,播放器,電腦,平板電腦)收集用戶數據,反饋回iCloud,然後由iCloud的數據反饋,依託於市場需求的變化,完成對於碎片化第三方的指導和進一步開發,形成完整的蘋果數據大飛盤價值閉合鏈。


至此,蘋果公司的大數據飛輪效應所帶來的產業融合和新產業驅動的案例分析(諮詢報告的角度),就結束了。

Again,明天分析《信息獲取方式的完全變化帶來的新式信息聚合》,請關注。


--------------------------------------------------------------------------------------------------------------------------------------------


15.09.22


信息獲取方式的完全變化帶來的新式信息聚合


在大數據下,所有的概念都不能簡單的顧名思義 —— 如同前面說到的,大數據的本質是處理,挖掘,分析大數據的能力,並不是簡單的數據組合。所以,對於信息獲取方式,大數據本身的要求和條件,也相對其他類別,要更嚴苛,需要更多的方法加以管理和運用。

一般意義上,偏狹的數據樣本對於數據分析的意義並不明顯(也可以基本理解為,大規模全方位的數據覆蓋與最終的數據分析效果成正比),所以,數據樣本的大小,數據演算法的優劣,直接決定了是否會產生最終的誤導性結論。

所以,大數據就是這樣一個工具 —— 利用大數據可以獲得前所未有的精確的預測能力,可以成功預測大量歷史上無法想像的事件:2012年總統大選中,內特 希爾沃利用自己的數學模型準確預測了美國50州最終的選舉結果,基本可以證明大數據樣本和大數據分析的強大威力。

為何要強調信息獲取?

剛才我們提到,大數據的本質並不是簡單意義的數據堆疊 —— 這並不僅僅取決於數據處理的演算法,數據樣本也必須要足夠大,大到大數據可運轉的臨界值,大數據才可真正意義上發揮功效。

但是,真正做到這兩點,是否真的可以達到大數據信息獲取的目的?不盡然是。

例如,跨國公司的市場部喜歡在全球各地進行市場調查,舉辦各類的現場活動。蘋果公司喜歡在自己的商店中推廣自己的IOS系統以及一系列device,並且在活動中大搞所謂的偏好度分析 —— 你會選擇IOS還是Windows?

當然,可以預見的是:到蘋果體驗的用戶,幾乎所有都已經擁有了潛在的品牌偏好和品牌選擇,在主觀上已然認定蘋果成為自己選擇的前提下進行的數據分析和數據挖掘,其主觀性會完全毀掉最終的計算結果。

所以,信息獲取的客觀度其實比想像的,更難保證。跨國公司都擁有自己的市場部門和戰略部門,但是為何諮詢公司的生意重來沒有消失?一個第三方在選擇數據和分析數據上所擁有的客觀性,是主體調查公司完全不具備的 —— 從自己戰略部出發的數據分析樣本,總在不經意間,已被自己主觀進行了排序。

所以,在保證了客觀性的基礎上,樣本大小是第二步需要考慮的。

為何需要考慮數據樣本的大小,這裡插入什麼是蒙特卡洛模擬(Monte Carlo Simulation)和蒙特卡洛分析(Monte Carlo Method/Analysis)。

蒙特卡洛模擬的核心思想是:

當所要求解的問題是某種事件出現的概率,或者是某個隨機變數的期望值時,它們可以通過某種「試驗」的方法,得到這種事件出現的頻率,或者這個隨機變數的平均值,並用它們作為問題的解。這就是蒙特卡羅方法的基本思想。蒙特卡羅方法通過抓住事物運動的幾何數量和幾何特徵,利用數學方法來加以模擬,即進行一種數字模擬實驗。它是以一個概率模型為基礎,按照這個模型所描繪的過程,通過模擬實驗的結果,作為問題的近似解。可以把蒙特卡羅解題歸結為三個主要步驟:構造或描述概率過程;實現從已知概率分布抽樣;建立各種估計量。

蒙特卡洛分析的核心思想是:

當所求解問題是某種隨機事件出現的概率,或者是某個隨機變數的期望值時,通過某種「實驗」的方法,以這種事件出現的頻率估計這一隨機事件的概率,或者得到這個隨機變數的某些數字特徵,並將其作為問題的解。

從理論上來說,蒙特卡羅方法需要大量的實驗。實驗次數越多,所得到的結果才越精確。

以蒙特卡洛分析的核心思想看,蒙特卡洛方法需要實現的保證,在於大量重複實驗的有效保障,只有保障了足夠多的實驗次數,最終所得到的結果也會越發精確。

對於大數據的分析來說,「大」,已經足夠體現了大數據對於樣本量的需求,這也是大數據信息獲取上,最重要的一個前提保障。

所以,我們從信息獲取的科學性角度,可以得到以下幾個結論:

1 樣本容量的大小,樣本演算法和分類方法的科學優劣,直接決定了大數據分析最終的結果。
2 要保證客觀,前瞻性,以及數據的實用性,第三方介入大數據樣本分析十分必要。
3 同行業數據不做交叉分析,最終得到的結論將沒有意義。
4 異行業數據不做交叉分析,是行業屬性不同帶來的基準量和測量方式的不同,所以必須堅持。

優異的信息聚合怎麼使用?有何用處?

諮詢公司和市場調查公司利用自己宏大的市場背景和市場分析背景,除了增加樣本量外,也可以大張旗鼓的擴寬數據來源的渠道,增加數據的維度。

在Mckinsey的大數據報告中,宏大的資料庫和多維度的優勢吸引了諸多行業的參與,其中最亮眼的,當屬政府機構。

對,不僅是市場調查公司對於社會言論感興趣,政府同樣非常渴望得到人民群眾的真實想法。公共輿論從古至今,都是政府維持公共行政管理和正常政府治理的關鍵因素。

比如,微博,朋友圈。

前文提到,良好的信息聚合,可怕之處在於:我們可以通過事先準備好的數據演算法,在極短的時間內,完成大密度的數據聚合和信息歸類,最終按照信息反映的真實情況,對各個問題進行分類處理,前提是保證客觀,準確的信息獲取渠道,以及提供足夠的信息獲取樣本。而微博,朋友圈具有巨大的傳播和擴散效應,並且從量上,完全可以滿足大數據的分析要求 —— 一個正常的諮詢公司總傾向於到微博尋找熱點,一個正常的市場調查公司也會傾向於微博上搜索已被完全整理和疏導好的有效數據,一個政府行政部門呢?對,可以從這些巨大的輿論場中尋找到輿論走向,而在此同時,大數據輿情服務也就應運而生。

所以,政府部門可以通過事先的輿情調查分析,很好的引導輿論,緩解很多社會矛盾,甚至可以提早處理不少還未發生的惡性公共事件。所以,良好的信息聚合口徑尤其重要,在保證客觀,準確,足量的數據聚合後,政府利用大數據分析緩解社會矛盾,提升政府公共行政效能,完全有可能做到。

隱藏數據?


信息聚合另一個問題是:並非所有的數據都是顯性數據,所以,數據挖掘(Data Mining)應運而生 —— 通過數據採集錢的預處理機制,建立數據處理預模型,從推斷的商業價值用戶中挖掘一系列隱藏數據,從而達到優化用戶產品或者提高盈利的能力。比如:谷歌和百度同時擁有全球最大的用戶即時意圖數據,利用即時意圖數據的偏好,只要擁有足夠大的樣本量和一定的時間維度,對數據進行一定的跟蹤,聚合和利用,形成一個以用戶即時意圖數據為核心的用戶數據生態圈體系完全是可行的。


下一期更:信息推送方式的完全變化帶來的新式信息推廣


--------------------------------------------------------------------------------------------------------------------------------------------


15.09.23

信息推送方式的完全變化帶來的新式信息推廣

雅虎 --- 依託信息高速公路傳統概念的信息推送

其實當時,楊致遠應該沒有想那麼多 —— 當年在雜誌,電視,甚至家中的一本由復旦大學出版社出版的《阿爸講現代科技》,都提到一個著名的概念:信息高速公路。

什麼是信息高速公路?

信息高速公路就是把信息的快速傳輸比喻為「高速公路」。所謂「信息高速公路」,就是一個高速度、大容量、多媒體的信息傳輸網路。其速度之快,比目前網路的傳輸速度高1萬倍;其容量之大,一條信道就能傳輸大約500個電視頻道或50萬路電話。此外,信息來源、內容和形式也是多種多樣的。網路用戶可以在任何時間、任何地點以聲音、數據、圖像或影像等多媒體方式相互傳遞信息。

雅虎的初衷,就是利用互聯網作為運通媒介,利用自己的門戶網站,建立一條名叫「雅虎」的信息高速公路。而「雅虎」只需要關注自己的受眾面的覆蓋廣度,只要在自己的門戶上設置各類廣告,只要經過這條路的人,都可以看到廣告的內容,從而達到最大效應的營銷覆蓋效果。

是的,作為真正的高速公路而言,每條高速公路的承載量都有限 —— 例如,洲際公路每公里可以承載的汽車數量,都有最大值。而信息的最大值?一條信道可以承載接近50萬路電話的信息量 —— 這樣的信息量對於雅虎一個門戶而言,僅僅是微乎其微。

所以,雅虎所創建的門戶網站的概念,很大程度上建立了互聯網信息推送方式的建立:開放,免費的信道,傳遞信息的最便捷,以及訪問流量與內容優質度掛鉤的良性循環之路。在雅虎訪問量如天文數字般爆發開始,互聯網門戶採納品牌廣告極大的推動了互聯網產業的發展,而隨著互聯網的日益普及,互聯網廣告創製,定價,包裝,售賣,以及一系列的廣告營銷手段,都隨著互聯網在全球站點的設立,迅速普及全球。

但隨著行業的發展和建立,依託信息高速公路的基礎概念所涉及的互聯網廣告牌,開始出現了發展瓶頸 —— 傳統廣告行業的宣傳,包裝,售賣的營銷模式,無非就是被線上運營系統複製推廣,並沒有真正運用到信息聚合所產生的價值。試想:如果互聯網品牌廣告可以通過瀏覽分析,流量分析和其他手段,對消費者,商戶的行為進行監控和切分,從而達到所謂的個性化精準投放,會是什麼樣的情況?任何實體用戶都知道自己的廣告不會被100%的人接納,但是損失的部分,誰能精確的告訴我?那一部分客戶到底喜歡什麼?誰能告訴我?

於是,谷歌告訴你,我可以解答這些問題。

谷歌 ---- 依據消費者行為,甚至動機的信息推送流式


谷歌到底為何如此值錢?谷歌是怎樣利用自己的搜索引擎製造自己的廣告王國的?

上文說到,當雅虎模式慢慢布局開來的時候,所謂的傳統廣告行業的線上包裝的本質,便暴露無遺了 —— 不管是多寬廣的高速公路,無論廣告牌怎樣琳琅滿目,客戶對於廣告牌的接受度都是極其有限的。

為何?其本質原因在於,所有的廣告牌所提供的服務信息,都是商家主動提供了,它與消費者的需求之間,有一條明顯的鴻溝 —— 一個廣告牌是無法判斷消費者真正所需的。那如何可以判斷消費者的動機呢?

谷歌解決了這個問題 —— 利用搜索。由於搜索行為,谷歌可以掌握所有搜索行為的意圖,根據搜集到的所有數據進行分類整理,根據分析推送報告,其操作流程可以歸結為三點:1 提供免費的搜索服務;2 搜集所有搜索行為數據;3 根據意圖推送廣告。

這個模式,無疑迅速的解答了雅虎無法解答的問題:怎樣讓廣告牌提升關注度,以達到最終提升成交轉化率的目的。通過信息搜集方法的更迭,互聯網早期廣告模式在谷歌的搜索引擎帶動下,完成了巨大的升級。

可這只是剛剛開始 —— 谷歌利用自己的演算法,將收集到的搜索信息逐一分類,排名,用關鍵詞出價和質量評定分數做乘積,決定搜索結果頁面的關鍵詞陳列顯示順序(這套做法而後的淘寶利用直通車的功能實現並加以運用,成為淘寶一個極其重要的盈利點) —— 這種依託於大數據量基礎上進行的線上泛化拍賣,隨著谷歌搜索量的日益提升,給谷歌帶來了巨大的經濟價值。而依託於關鍵詞出價和質量評定兩個變數的搜索排名體系,在滿足谷歌自身的經濟利潤的基礎上,也很大程度上優化了整個線上廣告的質量和產品升級,畢竟市場為王。

依託於大數據的智能推送


依託於搜索動機的推送方式,將所有的動機揣摩,都局限在了谷歌的搜索框內,當然,這並不能讓數據推送方完全滿足。所以,谷歌通過AdSense,或者一些類分析軟體,從各個角度捕捉消費者行為和動機 —— 簡單說,廣告和用戶正在瀏覽的網頁內容關聯度和用戶關注推送信息的關注度正相關。

所以,設置一個簡易的信息推送互動體系,只要每個電腦擁有一個反饋模型,能把用戶瀏覽的任何link信息進行分類處理,分析用戶瀏覽的網頁內容,將重複出現關鍵詞高的幾個字,反饋到主信息平台,然後由主信息平台反饋相對應的廣告給用戶 —— 這就出現了所謂的智能推送,當分析軟體可以很好的讀懂你的意圖,廣告的轉化率,將會在現有的基礎上,再提升一個數量級。

所以,依託於這個思路,捕捉用戶瀏覽網頁圖片,數字,都可以成為依託於大數據下的精準定位和精確營銷 —— 當信息推送的意圖和用戶的真實意圖貼近度越高的時候,廣告的點擊率提高,最終的商業效益便會明顯的體現出來。

下一期更:4 精準營銷


--------------------------------------------------------------------------------------------------------------------------------------------


15.09.24


精準營銷


這一節,講一講諮詢行業的精準定位,進而進行精準的處理,最終達到精準營銷。

諮詢行業對於行業研究有天生的好感,對於行業內的所有與諮詢有關的信息,都有收集的潛意識。簡單說:一個諮詢團隊掌握一個行業的全面知識,無論是深度還是廣度,都有很大的優勢。

比如:負責酒店行業的諮詢團隊,常理來說,只要有超過10年的諮詢經驗,掌握全國高中低檔酒店大量的index(管理),包括全行業行評報告(管理),資產負債表(會計),服務品質,商業模式,運作模式,諸如此類的信息,將會大量的聚合在團隊資料庫;一個茶葉行業的專業營銷團隊,甚至連茶葉產地的地理條件,氣候以及當地種植方式的詳細信息,甚至一部分可量化信息,都能輕鬆掌握。

在這樣的條件下,諮詢行業一旦接觸到新的企業諮詢立案,就能最快速度的切入,利用組織對標 —— 一些可以量化的指標,只要新企業也有量化標準,行業標準對比模型一旦建立,診斷方案便可以即刻得出,剩下的,只是對於個體本來個性方法論的探討和進一步實施落地,但事先數據的整理,很好的避免了這些問題 —— 畢竟對標機構的落地實施細則具有極強的參考性,拋開時代變化和一些政策的細微調整,精準定位診斷的理論基礎仍然存在。

所以,一個諮詢團隊利用自身資料庫進行精準定位診斷企業,並且在接觸新的企業數據時,能夠第一時間更新自身企業資料庫,從而有概率不斷的為新案例提供對標,從而擁有更加科學,效率更高的企業戰略以及企業文化的診斷機制。

所以,依託於大數據思維,每個諮詢團隊都可以通過自己人員配備的不同需求,建立最適合自己團隊需要的大資料庫,以匹配使用效率為此資料庫的原則:一個資本團隊的關注傾向與一個管理團隊的關注傾向完全不同,使用泛化資料庫的意義很小,效能會極其低下。

在收集和整理團隊資料庫時,團隊人員配置,是建立此大資料庫非常重要的指標,依託於這個指標所建立的資料庫模塊,才能在不同的,但針對性和指向性都相同的案例中,迅速發揮作用,並且形成擁有自己特點的業務模式,揭示自身團隊的核心諮詢價值。所以,精準定位在某種程度上,也是對諮詢團隊構建核心的一種正常要求。

做到上述幾點後,諮詢團隊的精準營銷思路,便完全打開 —— 由於有側重點的構建某一項企業問題的諮詢產品,在此問題上,團隊也有相應側重的數據面和數據模型,以此為營銷核心,向平台展示自己的核心能力。簡單說,只要資料庫針對的企業有一定的社會代表性,這樣的營銷是精準無疑的 —— 企業診斷的效率在於對於錯誤信息的篩選頻率,減少失誤不確定性的亮度。數據的根本用途在於提供決策依據,而這樣的決策依據,已經在前端的歷史數據中,得到了很好的解決,提升,以及參考對標的空間,並不屬於數據和團隊的未知領域。

在這樣的前提下,諮詢團隊只要解決好單體諮詢產品1.0資料庫的構建,剩下的就可以通過不斷的更新案例來提升相關類目的諮詢能力,畢竟資料庫的作用在於建設確定性更明顯的診斷方案。而這樣的諮詢產品構建,只要依託於大數據,便有一定普世價值:所有可以人為量化的諮詢產品,都可以通過這樣的方式,很好的建立起1.0的版本,順遂著案例的不斷遞增而升級 —— 諮詢公司依託於大數據的精準定位不僅有利於諮詢工作的開展,更會有利於整個諮詢產品的升級以及最終的精確營銷和精確服務。

下一期更:第三方支付 —— 小微信貸,線上眾籌為代表的互聯網金融帶來的全面互聯網金融改革

--------------------------------------------------------------------------------------------------------------------------------------------

15.09.27


第三方支付 —— 小微信貸,線上眾籌為代表的互聯網金融帶來的全面互聯網金融改革


快捷支付分兩個子概念 —— 快捷,支付。首先說一說快捷。

現代核心商業價值的來源地,以「快」為核心 —— 這和現今時代的工作節奏,生活節奏密切相關,快節奏已經漸漸成為了人們生活習慣的節奏。

但是,快的前提是?

一切金融的本質,都以安全為先。但只需安全維護可以保障,數據資產向不同行業的傳統核心領域滲透,衝擊 —— 凡是擁有大量用戶行為導向的數據,都是有效數據,而剩下的,是對數據的有效梳理和有效整合,無非就是數據維度,質量,採取手段方面,核心業務的突破和管理。

快捷支付的本質在於:采調用戶一級數據,完成支付平台支付,共享的第一時間,基本從目的上擺脫傳統銀行的束縛。支付次數和支付領域維度的不斷擴大,使得支付平台的數據吞吐量陡然增大 —— 擁有大數據支付數據和支付平台的第三方,例如支付寶,可以最大限度的利用收集到的支付信息進行挖掘,探索,以深挖信息判斷支付習慣和支付行為,從支付行為中對支付體系進行更新換代,從而吸引更大的現金流。

所以,數據的本質,更像土地:土地需要開發利用,在土地上構建什麼樣的鋼筋混凝土結構,最終的樓層才有可能是什麼樣子。對於數據本身,更像一種基礎資源,就如同土地,人力一般,成為公司的資產。

在淘寶,京東等行業巨頭瘋狂發展的今天,網上支付早已被巨頭們一次次更新換代升級。但如果只是供應渠道鏈的終端進行掌控,數據資產的縱度,並不能完全得到徹底的挖掘。所以,在終端支付的前端,出現了供應鏈金融:

供應鏈金融是指在對供應鏈內部的交易結構進行分析的基礎上,運用自償性貿易融資的信貸模型,並引入核心企業、物流監管公司、資金流導引工具等風險控制變數,對供應鏈的不同節點提供封閉的授信支持以及其他結算、理財等綜合金融服務。這裡既包括企業上游的原材料零部件供應網路和鏈條,也包括下游的分銷商、代理商、即渠道鏈 —— 中歐國際商學院、深圳發展銀行2007《供應鏈金融》

所以,對於金融來說,數據作為基礎資源能提供的,是試圖以更為快捷,高效的運作方式取代高成本,較複雜系統的傳統金融機構 —— 比如四大銀行。但是,這裡的運作方式並不是取代傳統銀行的傳統支付方式,但是更多的,是促進整個商業銀行體系的升級,至少是支付方式的升級 —— 畢竟流動性是金融世界的核心體征,並且打通以四大銀行為核心的平台數據支付渠道。另外,四大銀行利用自己定額資金池的巨大額度,開展了和其他第三方支付的合作:和快錢利用企業應收應付賬款的資本和時間的效差開展融資服務,在企業的應收賬款貨音符賬款信息和產業鏈上下企業中,分別打包資金流轉數據給銀行 —— 這樣的一手數據,在某種層面上,可以為企業客戶提供進一步的貸款服務 —— 而這樣的服務,都是建構在數據這塊肥沃的土地上進行的數據構架,而採納第三方支付的企業沉澱海量數據,這樣的模型對於發展數據這個穩態資產,有著廣闊的前景和不可估量的影響。

B2B的支付革命

B2B 是指進行電子商務交易的供需雙方都是商家(或企業、公司),她(他)們使用了互聯網的技術或各種商務網路平台,完成商務交易的過程。電子商務是現代 B2B marketing的一種具體主要的表現形式。

含有三要素:

⒈買賣:B2B 網站平台為消費者提供質優價廉的商品,吸引消費者購買的同時促使更多商家的入駐。

⒉合作:與物流公司建立合作關係,為消費者的購買行為提供最終保障,這是 B2B 平台硬性條件之一。

⒊服務:物流主要是為消費者提供購買服務,從而實現再一次的交易。
(摘自百度百科)

傳統金融機構的抵押,擔保手段的使用原則,是降低由於信息不確定性導致的運作風險和經營損失。但是大數據很好的規避了這個問題:在大數據時代,所有的金融信息都將呈現透明,商業環境的該表也必將推動商業運作模式的變化,而這種商業模式的變化,建立在B2B平台的阿里巴巴,淘寶,支付寶,積累了數以億計的用戶交易數據,其中還涵蓋大量的資金流動,產品變化,投訴量,用戶註冊信息(深度廣度不同,根據用戶註冊的體驗和最終提交的信息數),而通過大數據模型驗算,這樣的數據都以極低的成本,有序的進入阿里公司的資料庫。在資料庫中,實時自動生成的大量數據,便可以成為行業參考和行業對標信息的資料庫,而這些行業對標信息的開展,最終帶來的,將是以B2B支付革命為導火線的,以線上資金和數據中轉為源頭的,整個金融體系的改變。

一旦此類數據公開化,開展數據共享平台,只要保證商業利益不受數據共享的影響,傳統金融機構的大額流動性,勢必會加入金融信息共享的行列:這是對於傳統金融產業的信息升級,而這樣的信息升級,在某種程度上,將配合互聯網+,進一步的徹底改變人類商業社會買賣的貨幣渠道,進而推動整個商業社會的變遷。


下一期更:6 產業垂直整合趨勢以及隨之帶來的產業生態重構


--------------------------------------------------------------------------------------------------------------------------------------------


15.09.28


產業垂直整合趨勢以及隨之帶來的產業生態重構

幾乎每個行業的發展規律,都會沿著同樣的軌道 —— 合併。有時壟斷並非人為有意,在某種程度上,資源朝著最合理的分配方向走,乃是大勢所趨。

什麼是供應鏈?

供應鏈的概念是從擴大的生產(Extended Production)概念發展而來,現代管理教育對供應鏈的定義為「供應鏈是圍繞核心企業,通過對商流,信息流,物流,資金流的控制,從採購原材料開始,製成中間產品以及最終產品,最後由銷售網路把產品送到消費者手中的將供應商,製造商,分銷商,零售商,直到最終用戶連成一個整體的功能網鏈結構。

什麼是產業整合?

所謂產業整合是指為了謀求長遠的競爭優勢,按產業發展規律,以企業為整合對象,跨空間、地域、行業和所有制重新配置生產要素,調整和構築新的資本組織,從而形成以大企業和企業集團為核心的優勢主導產業和相應產業結構的過程。

產業整合包括橫向整合、縱向整合和混合整合。產業的橫向整合是指產業鏈條中某一環節上多個企業的合併重組;產業縱向整合是指處在產業鏈中,上、中、下游環節的企業合併與重組,包括前縱向整合和後縱向整合。

(均來自百度百科)

所以,當產業鏈完成初期發展時,上游企業的產品成為下游企業的原材料和供貨商,下游企業將最終產品呈現,來到市場,這樣的供應鏈環節,成為了資本主義發展和市場經濟發展的正常步驟,以及整個商業社會的基礎。

但是,由於產業鏈的逐漸發展,產業鏈的每一端,所謂都會出現大量同類競爭者 —— 同類競爭者在幾乎類似的產品和供應商不斷的提高產品質量和降低成本,不斷優化供應鏈體系,在供應鏈的埠完成市場佔據和市場壟斷 —— 20世紀90年代以及21世紀頭十年,中國的珠三角,長三角地區,出現了大量的類似供應商,而很多供應商產品的成本,已經降到了不可想像的程度 —— 橫向整合的結果,會形成在某產業環節的壟斷,或者幾家競爭的格局,這是供應鏈企業做大做強的表徵。

在完成諸如此類的產業核心面競爭後,橫向壟斷,或者說橫向整合,已經漸漸不能滿足這些企業的胃口 —— 產業垂直整合開始出現。橫向壟斷的企業講究的是低成本,大規模生產,關注的點,更多集中於成本的管控,企業規模的擴大以及生產技術的革新,而把企業逐漸做大;而縱向整合,所謂產業垂直整合,要求企業做強 —— 對於核心部件,壟斷性資源和關鍵技術的限制加強,同時,滲透供應鏈的其他埠,用資本,技術,政策,戰略等等核心手段,完成對於下游或者上游供應鏈的佔領,以達到對於整條產業鏈的控制。例如:中國的電腦企業無論佔據多大的市場規模,在晶元上自始至終掣肘於因特爾,操作系統掣肘於微軟 —— 無論市場規模有多大,最終的利潤空間,都會被無法完成垂直整合而縮減。

所以,對於大企業而言,產業內的垂直整合趨勢是必然通道。隨著技術的發展,特別是大數據能力的發展,產業鏈的最終戰役和最終立足點,還是回到消費者的核心中去。


蘋果,小米,以及千千萬萬的跟隨者


我做手機。

是的,我做手機。小米的成功,是貼合消費者為核心的完全勝利。小米作為一款完全圍繞消費者進行設計,全民參與創新,更新,製造,最終圍繞用戶進行經營的企業,最終被自己的粉絲推上了天空。這種經營思路,不是諾基亞,摩托羅拉等傳統手機,移動設備巨頭採納的,但最終小米的一飛衝天,完全證明了這一套模式的可行性。

而為何小米可以做到這樣的出色成績?大量的線上運營加上精確的計算,定位,最終數據化的管理,是小米能夠精準定位用戶需求,提升客戶粘性的關鍵因子。不能想像 —— 在諾基亞風靡全球的時期,網上論壇的信息量以及用戶與企業的交互性,都由於線上垂直社區的不發達,數據處理技術的掣肘,沒有發展完全。到如今,小米利用自己的網上社區以及大量的第三方論壇,釋放自己的信息源,同時與用戶完成同時段,同一頻率的交互,進而改進同一時期的產品 —— 利用第一時間反饋的數據資源來提升客戶粘性和最終的商品忠誠度,這樣的體驗,是非大數據時代無法想像的。

所以,每一款小米手機,都會因為貼合度,成為粉絲力捧的產品 —— 每個提出問題的粉絲,幾乎與小米和小米公司一起,成為見證產品誕生的參與者,這樣的近乎神聖的參與感,幾乎一同參與研發,一同參與產品上市的感受,充分滿足了消費者為自己設計產品的體驗感,這種深度參與的價值幾乎無可替代的反應在了小米成功的每個階段。

而對於小米來說,除了使用安卓平台的定製以外,小米手機的幾乎每一層供應鏈,都完全被自己抓住 —— 可以說,這樣的運營和對自身產品的深度挖掘,以及對於自己產品供應鏈的控制,可圈可點。利用粉絲 —— 這個鬆散的組織,用第三方論壇,自己論壇以及一系列的線上手段對這些鬆散組織進行捏合,利用數據管理的方式,很好的梳理和篩選自身產品最終發展所最急需改進的問題以及升級的部分,通過社區設置的管理員,解決社區與鐵杆粉絲,以及技術控的交流問題,能讓有價值的意見,第一時間反應在產品上,完成技術渠道的構建;當技術渠道的構建逐漸完成後,一款完成技術研發的產品投入自己的生產線,完成第一步的產品生產,以及反饋到論壇中的,第一步的產品體驗 —— 而這樣的內部供應鏈輪轉來回進行,最終,小米將自己作為製造商的身份和用戶(消費者)之間的天然鴻溝逐漸消退,而一些用戶通過不斷的參與小米的技術研發,最終加入小米團隊,成為小米的一份子 —— 可以說,小米完成了新型製造商和消費者的新關係構建,而這種新平台帶來的「以消費者為核心,定製消費者核心需求,通過線上協作達成的信息共享」的新模式,將會逐步推廣到更多的領域。而其中,完成一切新供應鏈整合的技術背景,都通過新型數據化的管理和信息篩選,完成供應鏈的精確調整和針對消費者核心的精確用戶體驗定位,這樣的公司的投資價值,將遠遠超越傳統橫向供應鏈的企業。

下一期更:企業改革以及企業內部價值鏈重塑,擴大的產業外部邊界


--------------------------------------------------------------------------------------------------------------------------------------------

2015.09.29


企業改革以及企業內部價值鏈重塑,擴大的產業外部邊界

到底誰是權威?

什麼是領導力?

領導力(Leadership)就是指在管轄的範圍內充分地利用人力和客觀條件在以最小的成本辦成所需的事提高整個團體的辦事效率,比較常見的領導力開發方法包括CEO12篇領導力提升、EMBA及EDP項目等。領導力與組織發展密不可分,因此常常將領導力和組織發展放在一起,衍生出了更具實戰意義的課程《領導力與組織發展》[1] 。領導力心理學是以心理學為基礎、以管理應用為實踐、以組織實驗為依託,塑造管理者的領導魅力;重新審視管理者的誤區,突破管理瓶頸,改善管理氛圍;培養管理工作中讓別人說「是」 的能力-----讓否定、拒絕、抵抗、放棄變成認同、接納、支持、執行;應用於領導、管理、溝通、團隊、策劃、營銷等諸多領域。

(摘自百度百科)

從概念上看,領導力對於管轄範圍內的所有資源 —— 包括人力資源,物力資源以及一切客觀條件在最小的成本辦成最多的事情,提升整體辦事效率上,有密不可分的作用。從歷史上看,任何時代的英雄或者領袖之所有高人一等,就在於對於其個人意志或幾個人的集體意志,可以改變一個時代的資源配置方式,以推動整個時代充分的物質發展和精神發展,衍生出更大的歷史意義。

所以,領導核心的本質是尋找真理 —— 由於個人能力,個人經驗和個人素質在某一群體中的高度,人群,群體,企業,集體中,總會退出一個或者幾個極其優越的個人,對整個集體和群體的所有行為進行總的決策,而這種決策的最終目的,就是為了在政治世界,或者經濟世界指明核心戰略方向,以達到最終的資源優化配置的目的。

事實上,到了20世紀,幾乎所有的大企業,仍然強調著以商業領袖為核心的組織文化和企業文化,而不同的企業文化代表的不同的思維和精神導向,仍然輔證著這個最終原理 —— 誰能為企業的最優資源配置定製戰略導向,誰能夠最大化的激勵整個企業職能效率,這仍然是企業最大的價值。

於是,大數據的出現,開始撬動了人類這個傳統的人權認知


怎麼講?

對於企業而言,如果自身企業資料庫的建立已經達到成熟的商業級別,收集到的數據深度,廣度以時間,以及企業核心價值體系的類目進行延伸,企業內部的權威價值的判斷體系,將會無一例外的從人權,向數據妥協 —— 只要擁有足夠大的樣本庫和數據量,沒有人可以與數據所提供的精準定位相匹敵,也沒有人可以質疑科學推演的數據決策。

但是,是否大數據的利用,是推動數據企業管理完全代替人制管理的序幕?

並不是。大數據的運用,無論在任何行業,任何區域,都有非常明確的針對性 —— 要知道,推動數據化或大數據演算提升企業決策和企業戰略實施的,仍然是人的大腦,而大數據的運用,仍然是人的大腦給予數據在企業中的一個普遍試用的方法論。只是,大數據的運用,很好的代替了人為收集大量的數據資源所耗費的時間成本和經濟成本(很多數據收集和數據推演如果都以人力完成,則需要耗費大量的時間和精力,而最終的分析結果,還依賴於分析人的經驗),大數據的好處在於,利用設計好的,或者高度證明可行的數據模型,代替了決策層收集,分析數據的初步工作,而領導層 —— 利用這樣的科技,就可以從第一時間享受到經過一手處理的,保持絕對正確率的數據資源,領導決策的準度和效率,其實上,得到了大大的提高。

而做到這一切,需要的是大數據什麼樣的能力?這裡必須再提數據挖掘和數據分析:

數據挖掘(英語:Data mining),又譯為資料探勘、數據採礦。它是資料庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中通過演算法搜索隱藏於其中信息的過程。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。

數據挖掘利用了來自如下一些領域的思想:(1) 來自統計學的抽樣、估計和假設檢驗,(2)人工智慧、模式識別和機器學習的搜索演算法、建模技術和學習理論。數據挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、資訊理論、信號處理、可視化和信息檢索。一些其他領域也起到重要的支撐作用。特別地,需要資料庫系統提供有效的存儲、索引和查詢處理支持。源於高性能(並行)計算的技術在處理海量數據集方面常常是重要的。分散式技術也能幫助處理海量數據,並且當數據不能集中到一起處理時更是至關重要。

(均摘自百度百科)

對於企業而言,利用既有系統,亦或是設計好的計算模式所為管理層提供的一手數據資料,或者整合處理過的加工數據資料,都將撬動企業核心價值鏈體系 —— 至少是決策體系的大變動 —— 從前依靠豐富的企業經驗和信息整合能力的領導層,如今依靠高性能並行的計算機處理技術,處理海量的數據集,分散式的演算出最終的戰略決策,甚至是企業普通決策,其效率的普遍適用,慢慢將會為企業的傳統人力組織架構大做減法。

數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支持過程。在實用中,數據分析可幫助人們作出判斷,以便採取適當行動。

數據分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,並使得數據分析得以推廣。數據分析是數學與計算機科學相結合的產物。

在統計學領域,有些人將數據分析劃分為描述性統計分析、探索性數據分析以及驗證性數據分析;其中,探索性數據分析側重於在數據之中發現新的特徵,而驗證性數據分析則側重於已有假設的證實或證偽。

探索性數據分析是指為了形成值得假設的檢驗而對數據進行分析的一種方法,是對傳統統計學假設檢驗手段的補充。該方法由美國著名統計學家約翰·圖基(John Tukey)命名。

定性數據分析又稱為「定性資料分析」、「定性研究」或者「質性研究資料分析」,是指對諸如詞語、照片、觀察結果之類的非數值型數據(或者說資料)的分析。

(均摘自百度百科)

傳統企業中進行資源優化,資源配比的採購,出納體系的大量基層和中層員工,將不再會佔用企業的日常成本 —— 因為這一切的工作,都已然被大數據的使用代替,而大數據提供給企業的進化計算,信息,信息處理,甚至可視化模型,信息檢索多樣性,都完勝一個單體基層部門工作人員的日常效率。數據挖掘的普世價值一旦打開,企業內部價值鏈重塑,幾乎是難以阻擋的必然趨勢。

所以,在日常企業流程再造的過程中,定性數據分析和定性資料分析,甚至是一些非數據化的定性高質量數據研究,大數據演算系統的成本,都遠遠低於人本。


產業外部邊界在哪?


首先,什麼是產業?

定義:具有某種同類屬性的經濟活動的集合或系統。

在傳統社會主義經濟學理論中,產業主要指經濟社會的物質生產部門,一般而言,每個部門都專門生產和製造某種獨立的產品,某種意義上每個部門也就成為一個相對獨立的產業部門,如「農業」、「工業」、「交通運輸業」等。由此可見,「產業」作為經濟學概念,其內含與外延的複雜性。

(來自百度百科)


在大數據時代,由於企業都採取了數據化的呈現方式,企業的外部邊界,由於數據化語言的採用,變得越來越模糊 —— 殊不知一個賣糖果的商店和一個賣汽車輪胎的商店,由於使用同一種貨幣:人民幣,而可以在兩個迥然不同的業態中,使用同樣的貨幣行為,比如金融。數據也是如此 —— 異行業的數據模型縱然不同,但利用同樣的表達工具 —— 數字,最終呈現的產業,仍然屬於同一種語言,這樣,已然使整個工業組織架構的距離感,進一步拉近。

簡單說:產業外部之所以出現邊界,正是因為不同行業之間沒有共同的企業語言,也沒有泛型流程化的可能。而通過數據介面,產業外部邊界的不斷拓展,可以使企業面對同一組織目標 —— 消費者。

面對消費者,最終達到的效果只有一個 —— 從消費者身上,實現經濟利潤。如果所有的產業埠最終都以消費者作為開始,那麼企業會更貼近於市場的需求:簡單說,上一期所講述的小米手機就是如此 —— 從消費者出發,產業和產品進行的流程建造,從消費者開始:這是個偉大的創舉,以消費者為資源導向的資源配置模式,而得到了一手的資源配置模式後的數據計算和最終的戰略布局,都依賴於消費者的需求展開 —— 傳統企業的組織方式和組織模式將會完全變化,至少是流程和過程上本因顛倒。

而利用數據這個通算語言,一個企業所分享的數據平台和數據廣度越大,則最終得到的以數據為語言的數據回報,將會愈發明顯 —— 殊不知一直在強調建立平台化的大企業們,在大數據時代到來後,利用自身已有的歷史資源,加上同一種語言和同一個最終的戰略導向(消費者),企業的外部邊界將會被一點點的逐步打破,最終達到數據化集成共享,以自由自願的形式,將企業的核心數據資源和可共享資源,外包給非特定的(而且通常是大型的)大眾網路,最終實現更大的商業布局,也鑿開了以大數據為依託的全新市場資源的目的,一個嶄新的時代,因為依託於大數據的核心處理能力,將會在不知不覺中展開。


下一期更: 政府及各級機構開放,透明化,以及隨之帶來的集中管控和內部機制調整


--------------------------------------------------------------------------------------------------------------------------------------------

15.09.30
政府及各級機構開放,透明化,以及隨之帶來的集中管控和內部機制調整


政府問題的繁雜,在於多個方面 —— 很多時候,我們很難理解一個正常的行政部門,處理社會五花八門的各種問題:各種各樣的犯罪問題的集合,交通,教育,醫療 —— 政府的行政部門對於單獨管控所有行政時間的埠,政權的集中帶來的弊端,遠遠大於利端。

這很好理解 —— 政府和各級機構採納的問題,必須由政府部門單獨解決。簡單說,政府部門的行政效能和企業一致,如果信息分散不集中,處理問題每次都需要回歸到元認知的區域,而回到這個區域的代價,在於時間,人力資源的大量浪費和過度學習,而政府部門不可能無限龐大,處理問題的手段,往往在繁雜的事務面前,變得捉襟見肘。

那麼,什麼是政府的行政效能?

行政職能是指政府為實現國家利益和滿足社會發展需要而負有的職責和所應發揮的功能。行政職能是國家職能的重要組成部分。國家有立法、司法和行政職能。行政職能是國家職能的表現形式,受其他職能制約,並影響其他職能。

(摘自百度百科)

美國政府開始了改革:利用行政資料庫和數據演算法的構建,集中統一整合政府採樣信息,從政府採樣加工信息後,再採取對應措施,解決政府問題。這樣做將帶來三個重大影響:

1 政府信息的透明度,將決定最終的政府資料庫的有效程度。
2 政府需要重新構建採樣部門,政府部門的工作效用,將建立在大數據演算的基礎上。
3 政府大數據更新演化,將會給整個社會帶來大數據規模化的推廣以及大數據概念的進一步升級和運用,將是劃時代的事件。

那麼,大數據到底能給政府的行政效能,帶來怎樣的改變呢?

1 階級性與公共性

行政職能是國家職能的構成和體現。國家有兩種基本職能,一種是政治統治職能,一種是社會管理職能。行政職能一方面必須執行和體現國家的政治統治職能,體現國家意志的要求,反映政府所代表的國家的性質和活動方向,為占統治地位的階級所賴以存在與發展的經濟基礎服務,具有一定的階級性;另一方面作為國家權力的執行機關,它必須適應國家社會生活發展的需要,承擔和執行社會公共管理職能,以服務社會公共利益的面目出現在世人面前。

政府實現統治職能的關鍵在於精確掌握社會發展的局部信息和整體信息,在掌握局部和整體信息的基礎上,對應出相應的政府職能,就是我們統稱的行政職能。行政職能是否能夠精確的體現政府處理事務的有效度,完全依賴於政府本身對於社會發展和社會動向的了解精確度 —— 一套完整的數據化量化體系以及信息收集的職能化設計,將有利於政府達到以上的目的。所以,大數據不僅僅有利於商業社會對於資本的推廣以及再定義,對於統治階級賴以生存的經濟發展,大數據的出現也可以助其一臂之力,至少美國政府,已經開始將自己信息透明公開,準備迎來以大數據滿足社會公共服務的局面。

2 執行性與強制性

在現代社會中,國家的行政職能與立法職能、司法職能區別開來。相對於立法職能而言,行政職能具有明顯的執行性質,表現為執行國家意志的管理方面的職能。正如美國學者古德諾指出的,政治是國家意志的表達,行政是國家意志的執行。

怎樣提高國家的行政,立法和司法職能?這個問題,從美國建國初期,採取三權分立開始,就開始了長達200年的探索。我們並不能把大數據當做完成一切價值改良,完美提高三權分立金鑰匙,但大數據的鹽酸極致,的確可以量化當前社會事件,逐步定義和改良未來對於行政效能的執行,同樣,通過對於歷史案例的分析和研討,為歷史上出現的典型行政事件進行重新的量化評估,而這些量化評估後所形成的政府行政案例,將作為範本和對標,出現在未來美國行政能力的手冊,亦或是出現未來相似問題的比較措施,這和英美法系所要求的案例對標如出一轍,但精確的量化,會提高案例的執行性,也能提高政府職能的精確性。

3 多樣性

從靜態分析,行政管理的範圍涉及國家和社會生活的各個方面,行政職能廣泛滲透到整個社會生活的每個角落,涵蓋社會的各個領域,並且每種職能都具有十分豐富的內涵。這種職能範圍的多樣性不僅是非政府機構的職能無法比擬的,也是其他國家機關職能如立法、司法職能所望塵莫及的。

行政管理的範圍涉及面之廣,涉及的階級和利益面之多,完全超越了企業和社會機構的層次和範圍。所以,利用大數據對行政職能的廣泛性進行重新定義,可以將社會生態分切成不同的模塊,並且滲透到社會生活的每個角落。這樣的普及和推廣,讓社會問題的多樣性邊界逐漸消失,並且賦予很多專業性職能新的內涵 —— 這樣的內涵,是非政府機構,企業以及個人完全無法理解的綜合度和多角度,也可以為國家的政府和司法職能,提供更多的視角:畢竟視角的來源,都已經可以用數據化進行充分的表達。

4 動態性

另一方面,由於行政職能的內容、範圍及活動方式源於國家的性質和社會的需求,它與社會變化直接相聯繫,它對持續的社會變遷與複雜化極為敏感,往往以各種機動靈活的方式滲透到社會生活中去,以解決這些問題。因此,行政職能是動態變化的,行政職能的範圍、內容、主次關係、作用方式等必然隨著環境的變化而變化。適應環境變化需要,及時調整和轉變行政職能,是搞好行政管理的重要前提基礎,也是政府行政系統賴以生存與發展的前提條件。

大數據的另外好處在於數據大樣本可以覆蓋到社會問題的方面,以至於出現社會動態,數據樣本的覆蓋度同樣可以為未來出現的行政問題提供新的數據對標。對於行政職能的範圍而言,傳統國家只能利用新的職能部門設置,而對應的社會問題帶來的新的經驗,才能成為這個職能部門的學習資料,以及最終對應的部門解決效用的解決辦法,所以,傳統部門對於社會邊卡和複雜化問題的解決效用,完全停留在機構對於問題解決經驗以及領導的個人能力 —— 這是一個典型的人治方針。而大數據提供的行政職能動態變化的參考以及歷史對標,可以為部門提供及時調整的方針以及行政職能轉變的方式方法,這是行政管理的前提和基礎,更是政府不斷提高行政效能的唯一通途。

5 整體性

政府行政系統和行政行為是整個社會系統中的一個子系統,行政職能是整個社會職能系統的一部分。從國家機構系統來看,國家職能是由立法職能、行政職能、司法職能組成的,行政職能是整個國家職能系統的一部分,它與國家其他職能有機地聯繫著:行政職能的行使既受立法機關的監督,又以司法機關等國家強制力為後盾。從行政系統自身來看,行政職能本身也是一個完整的體系,其職能結構極為龐大和複雜。

(均摘自《2015年國家行政手冊》)

因為大數據的引入,行政職能將成為社會資料庫的一部分,這個子集將會無邊界的嵌入到整個社會系統中,而社會大數據體系的建立,將是國家政府的外在邊界向社會融化的關鍵步驟 —— 只要政府信息可以做到完全公開(當然對於現在的國家政府而言,這一點幾乎不可能做到),但是,政府信息公開度與整體社會效能之間,依託於大數據,是完全成正比的從行政系統看,這種行政職能的普及和完善,將會大大提高社會的進步 —— 政府保護和治理環境主要是決定環境保護的政策問題,如布局政策,資源開發政策、投資政策、價格政策等,制定環境保護的法規和標準,從宏觀上處理好環境與經濟的協調發展。政府對環境管理具體涉及三方面內容,一是環境計劃管理。主要包括工業、交通污染防治計劃、流域污染控制計劃、自然環境保護計劃和環境科學發展計劃等。二是環境質量管理。

另外的案例,如:

對於環境層面,政府職能主要包括組織、制定各種環境質量標準,各類污染物排放標準和環境監察工作、調查和評價環境質量狀況以及預測境質量變化趨勢等。比如,環境技術管理。主要包括確定環境污染和破壞及防治技術路線和技術政策,確定環境科學技術發展方向等。在市場經濟體制下,政府治理環境的方式主要是使外部性內部化並運用法律措施和經濟手段(如稅收和補貼)加以解決。

(摘自百度百科)

所以,大數據引入後,國家行政效能的解決方式和最終能力外化,將會不斷的打開整個社會問題的解決邊界,政府的集中管控和內部機制調整在整個大數據的基礎上,將會精確化政府行政管理指標,達到政府職能效用的大幅度提高。

下一期,也是最後一期更:數據創新帶來的新服務


--------------------------------------------------------------------------------------------------------------------------------------------


15.10.06


數據創新帶來的新服務

這裡涉及兩個:商業智能,垂直運用。

商業智能

商業智能的概念在1996年最早由加特納集團(Gartner Group)提出,加特納集團將商業智能定義為:商業智能描述了一系列的概念和方法,通過應用基於事實的支持系統來輔助商業決策的制定。商業智能技術提供使企業迅速分析數據的技術和方法,包括收集、管理和分析數據,將這些數據轉化為有用的信息,然後分發到企業各處。

(摘自百度百科)

首先,是「運用基於事實的支持系統來輔助商業決策的制定」。怎麼運用基於事實的支持系統?基於事實的本質在於對於事實的無偏化估計 —— 無偏化估計的基礎是數據化的精確量化,而基於大量無偏化估計的數據,是提供商業智能技術的核心。

商業智能最大的功效在於對於數據的收集管理,分析,以及最終的數據有效傳達 —— 分發企業各處的數據有用信息可以對企業的各種病症提供等效的良藥。簡單說:麥當勞的物流冷鏈系統常年的運轉能夠收集到大量的數據信息,包括肯塔基州今年Mcafe的出櫃後多長時間喝完的信息,包括路易斯安娜州對於新漢堡麵包的偏好度調查的調查報表,甚至包括猶他州 I-72 高度公路運送麵包和料包的時間等等具體信息 —— 諸如麥當勞這種體量的數據處理能力的資料庫,從諸如此類的細節信息中進行大量的業務分析和決策管理,從而加速更新和迭代自己的資料庫,從而提升服務質量。商業智能技術提供的分發數據包是對本體企業,亦或是單一企業單體數據的可視化研究,這種研究數據分發到企業各處後,對於企業解決問題的幫助,遠遠大於對標案例的分析。

商業智能實現智能的關鍵,就在於數據分析後轉化的準確業務決策,對於去也現有數據的轉化,Hadoop的多節點為很多企業提供了技術上的便利 —— 2009年Facebook決定脫離Oracle系統對現在的新系統進行基於Facebook的數據流程再造,Hadoop的出現讓Facebook提供了理論上可以承受的最大數據容量,而這個數據容量的構建,讓用戶可以上傳的信息數量極度膨脹,從而轉化為更多的用戶以及更好的服務。所以,更大量的數據進入數據分析處理的區域,Facebook需要處理的,便是把巨量的流程化數據,進一步的轉化為基於Facebook本體的有用信息更新在每個人的個人主頁以及與他們朋友相連接的數據節點,分發到世界各地。

可以想見,Facebook利用大數據進行業務經營和業務決策整合的工具,這裡所談及的企業業務系統,在工業,商業,農業領域,會有著不同的運用。而智能的發揮,基於每一個特定領域的高等級資料庫收集的大量針對性信息,而這些信息進行數據整合後得出的商業決策,最終成為未來決策中不可或缺的部分呈現在未來企業的決策之中,期間利用的企業運作系統中的抽取,轉換,裝載,以及提供的合適查詢工具和分析工具視圖,例如OLAP可以組建的數據工具輔助決策提供的解決方案,已經在微軟,甲骨文,SAP,SAS等企業,向全球範圍內鋪展開來。

基於商業智能,這裡提供三個體系結構的概念分析,數據倉庫,聯機分析處理,以及數據挖掘:

數據倉庫:

數據倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。數據倉庫,是為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它是單個數據存儲,出於分析性報告和決策支持目的而創建。 為需要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。

聯機分析處理:

簡寫為OLAP,隨著資料庫技術的發展和應用,資料庫存儲的數據量從20世紀80年代的兆(M)位元組及千兆(G)位元組過渡到現在的兆兆(T)位元組和千兆兆(P)位元組,同時,用戶的查詢需求也越來越複雜,涉及的已不僅是查詢或操縱一張關係表中的一條或幾條記錄,而且要對多張表中千萬條記錄的數據進行數據分析和信息綜合,關係資料庫系統已不能全部滿足這一要求。在國外,不少軟體廠商採取了發展其前端產品來彌補關係資料庫管理系統支持的不足,力圖統一分散的公共應用邏輯,在短時間內響應非數據處理專業人員的複雜查詢要求。

聯機分析處理(OLAP)系統是數據倉庫系統最主要的應用,專門設計用於支持複雜的分析操作,側重對決策人員和高層管理人員的決策支持,可以根據分析人員的要求快速、靈活地進行大數據量的複雜查詢處理,並且以一種直觀而易懂的形式將查詢結果提供給決策人員,以便他們準確掌握企業(公司)的經營狀況,了解對象的需求,制定正確的方案。

數據分析處理分為三個樣式:

OLAP系統按照其存儲器的數據存儲格式可以分為關係OLAP(RelationalOLAP,簡稱ROLAP)、多維OLAP(MultidimensionalOLAP,簡稱MOLAP)和混合型OLAP(HybridOLAP,簡稱HOLAP)三種類型。

ROLAP

ROLAP將分析用的多維數據存儲在關係資料庫中並根據應用的需要有選擇的定義一批實視圖作為表也存儲在關係資料庫中。不必要將每一個SQL查詢都作為實視圖保存,只定義那些應用頻率比較高、計算工作量比較大的查詢作為實視圖。對每個針對OLAP伺服器的查詢,優先利用已經計算好的實視圖來生成查詢結果以提高查詢效率。同時用作ROLAP存儲器的RDBMS也針對OLAP作相應的優化,比如並行存儲、並行查詢、並行數據管理、基於成本的查詢優化、點陣圖索引、SQL的OLAP擴展(cube,rollup)等等。

MOLAP

MOLAP將OLAP分析所用到的多維數據物理上存儲為多維數組的形式,形成「立方體」的結構。維的屬性值被映射成多維數組的下標值或下標的範圍,而總結數據作為多維數組的值存儲在數組的單元中。由於MOLAP採用了新的存儲結構,從物理層實現起,因此又稱為物理OLAP(PhysicalOLAP);而ROLAP主要通過一些軟體工具或中間軟體實現,物理層仍採用關係資料庫的存儲結構,因此稱為虛擬OLAP(VirtualOLAP)。

HOLAP

由於MOLAP和ROLAP有著各自的優點和缺點(如下表所示),且它們的結構迥然不同,這給分析人員設計OLAP結構提出了難題。為此一個新的OLAP結構——混合型OLAP(HOLAP)被提出,它能把MOLAP和ROLAP兩種結構的優點結合起來。迄今為止,對HOLAP還沒有一個正式的定義。但很明顯,HOLAP結構不應該是MOLAP與ROLAP結構的簡單組合,而是這兩種結構技術優點的有機結合,能滿足用戶各種複雜的分析請求。

數據挖掘(前文已經提過多次):

數據挖掘(英語:Data mining),又譯為資料探勘、數據採礦。它是資料庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中通過演算法搜索隱藏於其中信息的過程。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。

(以上均來源於百度百科)

垂直運用

垂直運用,本質是垂直(整合)運用,旨在提供或降低公司對於投入產出控制水平的方法,就是對於核心商業價值的服務和產品的縱向服務的過程。垂直整合分為後向整合與前向整合兩個部分。

企業內外價值增加的活動可以拆分成幾個主要的部分:企業生產、銷售、進料後勤、發貨後勤、售後服務。支持性活動涉及人事、財務、計劃、研究與開發,採購等等部分,這些基本活動與支持性活動構成了企業的整體價值鏈。這個價值鏈中,最早引入數據的部分,是企業的財務會計。企業的會計部門,會將諸如生產銷售,發貨後勤等等一系列的採購信息,銷售信息,配送信息,通過近段時間的企業現金流水,反映出企業整體運營的趨勢。而後,當Hadoop出現,大數據量化分析模型開始成熟時,企業便開始思考:是否可以將企業整體流程再造的諸多環節進行數據化管控以及數據化再造,將企業價值鏈上的諸多戰略環節量化,從而在企業流程中,真正找到可以輸出企業核心競爭力的部分,從而為企業做好減法?

所以,企業特別關注和培養在價值鏈上的關鍵環節獲得的核心競爭力,得到鞏固企業行業競爭優勢以及最終達到的市場範圍的調整,都可以依託於數據化和數據節點的優化運用。企業協調和價值鏈整合的最優效率,都來源於企業的價值鏈量化的結果 —— 對於總價值,包括價值活動的判讀,什麼流程可以量化,什麼流程使用什麼手段進行量化,最終採用什麼手段對信息進行運用,只要涉及流程核心競爭力可判定範圍的數據,都可運用於垂直整合。

例如,涉及任何行業競爭的各種基本活動的五種類型(來源於波特價值鏈模型):

進料後勤:與接收、存儲和分配相關聯的各種活動,如原材料搬運、倉儲、庫存控制、車輛調度和向供應商退貨。

生產作業:與將投入轉化為最終產品形式相關的各種活動,如機械加工、包裝、組裝、設備維護、檢測等。

發貨後勤:與集中、存儲和將產品發送給買方有關的各種活動,如產成品庫存管理、原材料搬運、送貨車輛調度等。

銷售:與提供買方購買產品的方式和引導它們進行購買相關的各種活動,如廣告、促銷、銷售隊伍、渠道建設等。

服務:與提供服務以增加或保持產品價值有關的各種活動,如安裝、維修、培訓、零部件供應等。

(來源於百度百科)

從五個基本流程上看,從進料後勤,生產作業(特別是機械加工,包裝,組裝,設備維護,檢測,上述提到的五個部門),發貨後勤,銷售,服務,都可以使用大數據工具對這些數據進行針對性的整合打包,五個方面不僅僅是對於產業競爭活動的基本核心框架的描述和整合,只是前向整合或後向整合的選擇。例如:航空公司為飛機維護,飛機餐飲提供的數據,為供應商提供更多的準確信息,以便於整個航空業運作效能提高的方式,就是逆向整合,或者後向整合的典型事例;而渠道商,分銷商,甚至旅行社針對自己的需求向航空公司提供大量針對性信息,以便於航空公司針對性的調整自己的運營機制,則是一種前向整合 —— 而兩種整合所依託的條件,都是大數據背景下的垂直整合的經典範式。

PS:至此,總共11期的大數據核心價值分析,到此結束...感謝每一個看過文章的朋友(不知道是不是知乎最長的答案...但應該也是最長的之一)。特別感謝 @洪霟, @desperado光 的鼓勵。

PPS:今後會更多回答大數據方面的問題,只求一個學習的機會和交流的平台,水平有限,還望大家多多指教。

(完)


來源:readwrite

「大數據」 的概念其實並不新鮮。


大數據時代已經到來,但不是每個人都在接受它的洗禮。更準確的說,現如今我們所謂的 「大數據」,其實就是矽谷的互聯網大佬們若干年前所做的事,之所以現如今被人們所重新認識,覺得它是新鮮有趣的,那是因為現在推動大數據的技術,已經完全開源,並且普及到了大部分的企業和公司。


在與傳統企業的對話中,我們可以越發清楚的察覺到,大數據除了能夠讓開發應用項目在非矽谷的地方迅速成熟起來之外,無甚新奇之處。當我們看到公司都在鄭重其事的談論大數據項目,那麼就意味著大數據的概念確實開始深入人心。

「大數據」 的概念,所涉及的範疇比我們想像的更為寬廣。


Gartner 報道稱:42%的 IT 企業領導已經深入到大數據項目的開發中。換句話說,它還有長足發展的空間。但我懷疑這個數字被低估了,這涉及到了如何定義"大數據"這樣一個概念。比如,當我問一個 IT 企業的專家是否會開發一個大數據項目時,一般得到的回答都是"NO"。但當我進一步闡明我的意思,你所要從事的項目並不是那種涉及兆兆位元組甚至更大規模的數據量,相反,是一種可以從分散的埠來拉取數據的軟體,進而能夠進行實時分析的項目產品。當換成這樣一個問法的時候,往往她的答案就是 「YES"! 這樣的項目當然也是在"大數據"的範疇內。但是"大數據"這樣的字眼,讓人們往往更加關注的是」 大 「,而非數據,所以人們就走進了誤區。


這個結論在 NewVantage 的調查中,變得更加清楚明朗,其中只有 15%的受訪者是在處理超大規模的數據。而從剩下的 85%的受訪者那裡,我們可以看到企業最關心的目標,是要有能力不斷的管理日益多樣化,並且不斷膨脹的數據資源,而非簡單的處理超大規模數據。所以,當我們看到連 Hadoop 公司,這家以存儲及加工超大規模數據聞名的公司,更加頻繁的介入到 ETL 過程中,也就不足為奇了。(ETL:即構建數據倉庫的重要一環,數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據載入到數據倉庫中去)


在大數據的概念里,規模真的並不重要。


Google 公司和 Facebook 公司早已經發明出 MapReduce 以及 NoSql 這樣的資料庫,來應付應用軟體(這類軟體主要由數據來驅動)對實時數據分析處理的需要。現在這樣的技術已經開源,隨處都可以得到並使用,以至於現在的互聯網大佬們已經將目光投向 「更大規模數據」 的技術開發和利用,而其他人,將在若干年後享受這些技術帶來的便利。也許,布萊恩·普羅斯特對 Hadoop 網站價值的揭示更加能夠說明問題。他說:「Hadoo 也僅僅是讓本該變得昂貴的數據存儲變得便宜而已。」 而 GigaOm 的德里克·哈里斯(Derrick Harris) 也對 NoSql 這麼評論道:「它並沒有在管理複雜交易上,把其他資料庫的角色取而代之。相反,NoSql 催生出來一系列的應用軟體,能夠在處理半結構化數據方面反映更加迅速。」 所以在我看來,定義大數據最好的的方式,應該站在你處理數據的角度,而跟所要處理的數據規模沒有任何關係。


最近我遇到了一位 IT 企業老闆,他說現在已經把他的工作團隊從」 瀑布式」 的開發方式轉換為更為靈巧機敏的開發方式。該團隊面向市場上實時的客戶反饋,從 3000 個伺服器中讀取信息,每天要生成 500G 的信息量,同時從開發到配置僅僅需要 24 分鐘的時間。該公司毫無疑問,是在向由數據驅動的模式轉型。這意味著他們要有能力一掃舊有僵化的數據基礎系統,同時在轉變過程中會遭遇很多阻力和挫折,但最終我相信能夠達到他們的目標。


Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...


大數據科學創造了一個平行宇宙(data universe ).那個宇宙不斷擴張,並與我們的物質宇宙高度相關。通過研究和觀察數據宇宙,我們將獲得許多這個宇宙的豐富的知識,並能利用這些觀察結果來對物質宇宙的很多事件進行預測。

數據科學實現了一個重要的科技推進,就是它推進到了「科學的邊緣」。科學對實證研究、論證、實驗都有很高的要求,科學已經呈現出它的局限性,科學的局限就是「人類不可能對一切事物都做出科學的論斷」。就是你不可能用科學研究一切 。
這時候,數據科學提供了一個突破性的解決方法,觀察數據宇宙並預測。也就是說,我只要知道數據預測它將是怎樣的,就夠了。海量的數據 證明它99%的可能會怎樣發展,我知道這個,就夠了。至於科學有沒有論證它,不重要了。
比如股市的漲跌,用科學實證研究、建模分析,都是不可能研究出什麼來的。中國的股市,超級不理性,更不可能用模型去研究了。這時候,就是科學的局限到了。我們就能用數據科學來解決。如果我把極大極豐富的數據充分的利用起來,我就可以預測股市漲跌,人們的情緒。它基於極為海量的數據,不僅僅是金融數據還包括社交媒體數據 ,包括天氣數據,包括新聞數據,一切數據都與此相關。然後得出一個結果 。這個結果究竟科學能不能解釋,不重要。只知道99%的可能性下面,結果是上漲,就夠了。

當然以上說的,目前尚未實現。


某比薩店的電話鈴響了,客服人員拿起電話。
客服:XXX比薩店。您好,請問有什麼需要我為您服務 ?
顧客:你好,我想要一份……
客服:先生,煩請先把您的會員卡號告訴我。
顧客:16846146***。
客服:陳先生,您好!您是住在泉州路一號12樓1205室,您家電話是2646****,您公司電話是4666****,您的手機是1391234****。請問您想用哪一個電話付費?
顧客:你為什麼知道我所有的電話號碼?
客服:陳先生,因為我們聯機到CRM系統。
顧客:我想要一個海鮮比薩……
客服:陳先生,海鮮比薩不適合您。
顧客:為什麼?
客服:根據您的醫療記錄,你的血壓和膽固醇都偏高。
顧客:那你們有什麼可以推薦的?
客服:您可以試試我們的低脂健康比薩。
顧客:你怎麼知道我會喜歡吃這種的?
客服:您上星期一在中央圖書館借了一本《低脂健康食譜》。
顧客:好。那我要一個家庭特大號比薩,要付多少錢?
客服:99元,這個足夠您一家六口吃了。但您母親應該少吃,她上個月剛剛做了心臟搭橋手術,還處在恢復期。
顧客:那可以刷卡嗎?
客服:陳先生,對不起。請您付現款,因為您的信用卡已經刷爆了,您現在還欠銀行4807元,而且還不包括房貸利息。
顧客:那我先去附近的提款機提款。
客服:陳先生,根據您的記錄,您已經超過今日提款限額。
顧客:算了,你們直接把比薩送我家吧,家裡有現金。你們多久會送到?
客服:大約30分鐘。如果您不想等,可以自己騎車來。
顧客:為什麼?
客服:根據我們CRM全球定位系統的車輛行駛自動跟蹤系統記錄。您登記有一輛車號為SB-748的摩托車,而目前您正在解放路東段華聯商場右側騎著這輛摩托車。
顧客當即暈倒。。。


「If you can』t measure it, you can』t manage it」
---彼得·德魯克
「你如果無法度量它,就無法管理它」要想有效管理,就難以繞開度量的問題。
想必這就是小數據乃至大數據最終的核心的價值。

所以很喜歡這句話:不能度量,就無法改進。


大數據就是分析海量數據,獲得有價值性東西的新方式。
之所以近幾年大數據火熱,是因為過去tm的處理不了這麼多數據,技術受限,現在技術慢慢的能處理,發現一下子處理這麼多數據,哎,好像發現了好多其他的以前發現不了的東西。其實還是排名第一的答案里提到的大數定律。
所以我覺得大數據的核心是不斷發展的的技術。


大數據(其實就是數據,深深覺得大數據被大家玩爛了)讓大家做決策有事實依據,擺脫以前靠拍腦袋和拍屁股來做決策的窘境。因為前者是群眾隨機決策,而後者是讓老闆隨機決策。

——————————————————————————————————

更多文章關注我的專欄數據冰山 - 知乎專欄,更多精彩回答請看何明科的主頁


核心價值。。。好奇怪的說法,應該一千個人眼裡有一千個哈姆雷特吧

我個人認為,核心價值在於,相比於原本的統計分析,我們需要假定一個模型,然後用數據去驗證這個模型,比如,房價漲是因為有人在炒,然後搜集炒房人的炒房數和房價畫出時序圖,如果是符合遞增狀態,可以認為假設成立

但是,如果想知道這個是不是偽命題怎麼辦呢?就得頭腦風暴出一堆和房價上漲有關的數據,整理好以後,用回歸分析的方法提取一下公式,看是不是炒房人的係數是正且大的,這是一個很費力的方法而且可能答案只覆蓋了一部分原因

當用數據挖掘的方法,問題就會得到簡化(數據挖掘而不是大數據,因為老師沒有教過大數據,只教過數據挖掘,大數據只是話題),將歷史房價變化數據,所有和房價相關無關的數據都丟入模型中,簡簡單單的算個決策樹的熵,答案也許就呼之欲出了...

(例子可能不準確,因為數據格式都是假想的)


前面的寫的太複雜了,核心就兩條:提高決策質量,降低決策成本。

拿teenage sex來調侃的人,是自己不懂這個行業,也認為別人不懂。


由於工作的原因,對大數據行業的實質有了更深地了解。對原回答進行了更新、修改。見下文:


***********************************************2016.7.7日更新********************************************


*********************************************************************************************************************

「大數據」這個概念大約是從2011年開始火起來的,如果從Apache
Hadoop項目的正式啟動算起,海量數據的分散式存儲、管理和計算技術已有10年的歷史。這10年里,創業圈逐漸流行起一種通病,即凡創業必稱「大數據」,「大數據」像是一個筐,似乎任何裝進去的創業項目都能做到百億甚至千億市值的規模。這個被說爛的詞到底是什麼東西?它是一項技術、一個產業還是一種思維方式?當越來越多的人將興趣轉移到AI、VR上時,也許是時候重新審視大數據的價值了。


在IT領域,一項技術的價值得以驗證並實現往往需要走完四個階段:技術原創、開源、產業化和廣泛應用。在這個過程中,新技術的使用從互聯網巨頭企業蔓延到整個互聯網領域,並隨著其產業生態的日臻完善,最終應用到更廣泛的社會和行業領域。「大數據」也不例外,它經歷了底層技術的興起和發展、產業生態的構建,正逐步滲透到每個企業的數據化戰略之中。只有把握整條脈絡,窺探「大數據」的全貌,才能理解這項技術的緣起和未來。


———————————————————技術篇————————————————————

移動互聯網時代,數據量呈現指數級增長,其中文本、音視頻等非結構數據的佔比已超過85%,未來將進一步增大。Hadoop架構的分散式文件系統、分散式資料庫和分散式並行計算技術解決了海量多源異構數據在存儲、管理和處理上的挑戰。


從2006年4月第一個Apache Hadoop版本發布至今,Hadoop作為一項實現海量數據存儲、管理和計算的開源技術,已迭代到了v2.7.2穩定版,其構成組件也由傳統的三駕馬車HDFS、MapReduce和HBase社區發展為由60多個相關組件組成的龐大生態,包括數據存儲、執行引擎、編程和數據訪問框架等。其生態系統從1.0版的三層架構演變為現在的四層架構:

  • 底層——存儲層

現在互聯網數據量達到PB級,傳統的存儲方式已無法滿足高效的IO性能和成本要求,Hadoop的分散式數據存儲和管理技術解決了這一難題。HDFS現已成為大數據磁碟存儲的事實標準,其上層正在湧現越來越多的文件格式封裝(如Parquent)以適應BI類數據分析、機器學習類應用等更多的應用場景。未來HDFS會繼續擴展對於新興存儲介質和伺服器架構的支持。另一方面,區別於常用的Tachyon或Ignite,分散式內存文件系統新貴Arrow為列式內存存儲的處理和交互提供了規範,得到了眾多開發者和產業巨頭的支持。


區別於傳統的關係型資料庫,HBase適合於非結構化數據存儲。而Cloudera在2015年10月公布的分散式關係型資料庫Kudu有望成為下一代分析平台的重要組成,它的出現將進一步把Hadoop市場向傳統數據倉庫市場靠攏。

  • 中間層——管控層

管控層對Hadoop集群進行高效可靠的資源及數據管理。脫胎於MapReduce1.0的YARN已成為Hadoop
2.0的通用資源管理平台。如何與容器技術深度融合,如何提高調度、細粒度管控和多租戶支持的能力,是YARN需要進一步解決的問題。另一方面,Hortonworks的Ranger、Cloudera
的Sentry和RecordService組件實現了對數據層面的安全管控。

  • 上層——計算引擎層

在搜索引擎時代,數據處理的實時化並不重要,大多採用批處理的方式進行計算。但在SNS、電子商務、直播等在線應用十分普及的今天,在不同場景下對各類非結構化數據進行實時處理就變得十分重要。Hadoop在底層共用一份HDFS存儲,上層有很多個組件分別服務多種應用場景,具備「單一平台多種應用」的特點。例如:Spark組件善於實時處理流數據,Impala實現諸如OLAP的確定性數據分析,Solr組件適用於搜索等探索性數據分析,Spark、MapReduce組件可以完成邏輯回歸等預測性數據分析,MapReduce組件可以完成數據管道等ETL類任務。其中最耀眼的莫過於Spark了,包括IBM、Cloudera、Hortonworks在內的產業巨頭都在全力支持Spark技術,Spark必將成為未來大數據分析的核心。

  • 頂層——高級封裝及工具層

Pig、Hive等組件是基於MapReduce、Spark等計算引擎的介面及查詢語言,為業務人員提供更高抽象的訪問模型。Hive為方便用戶使用採用SQL,但其問題域比MapReduce、Spark更窄,表達能力受限。Pig採用了腳本語言,相比於Hive SQL具備更好的表達能力。


在結構化數據主導的時代,通常使用原有模型便可以進行分析和處理,而面對如今實時變化的海量非結構化數據,傳統模型已無法應對。在此背景下,機器學習技術正慢慢跨出象牙塔,進入越來越多的應用領域,實現自動化的模型構建和數據分析。除了Mahout、MLlib、Oryx等已有項目,最近機器學習開源領域迎來了數個明星巨頭的加入。Facebook開源前沿深度學習工具「Torch」和針對神經網路研究的伺服器「Big Sur」;Amazon啟動其機器學習平台Amazon Machine Learning;Google開源其機器學習平台TensorFlow;IBM開源SystemML並成為Apache官方孵化項目;Microsoft亞洲研究院開源分散式機器學習工具DMTK。


———————————————————產業篇———————————————————



一項技術從原創到開源社區再到產業化和廣泛應用往往需要若干年的時間。在原創能力和開源文化依然落後的中國,單純地對底層技術進行創新顯然難出成果。儘管如此,在經濟轉型升級需求的驅動下,創業者大量採用C2C(Copy to China)的創業模式快速推動著中國大數據產業的發展,產業生態已初步成型。

  • (一)產業基礎層

如果說數據是未來企業的核心資產,那麼數據分析師便是將資產變現的關鍵資源。以數據流通及人才培養和流通為目標,社區、眾包平台、垂直媒體、數據交易平台是數據產業發展壯大的土壤。

  1. 社區 大數據技術社區為產業建立了人才根基。社區天然具備社群和媒體屬性,自然吸引了眾多專業人才。正基於此,開源中國社區(新三板掛牌企業)和Bi168大數據交流社區同時開展了代碼託管、測試、培訓、招聘、眾包等其他全產業鏈服務。
  2. 眾包 人力資本的高效配置是產業發展的必要條件。Data Castle類似於矽谷的Kaggle,是一家數據分析師的眾包平台。客戶提交數據分析需求、發布競賽,由社區內眾多分析師通過競賽的方式給予最優解決方案。
  3. 垂直媒體 36大數據、數據猿、數據觀等大數據垂直媒體的出現推動了大數據技術和文化的傳播。它們利用媒體的先天優勢,快速積累大量專業用戶,因此與社區類似,容易向產業鏈其他環節延伸。
  4. 數據交易平台 數據交易平台致力於實現數據資產的最優化配置,推動數據開放和自由流通。數據堂和聚合數據主要採用眾包模式採集數據並在ETL之後進行交易,數據以API的形態提供服務。由於保護隱私和數據安全的特殊要求,數據的脫敏是交易前的重要工序。貴陽大數據交易所是全球範圍內落戶中國的第一家大數據交易所,在推動政府數據公開和行業數據流通上具有開創性的意義。
  • (二)IT架構層

開源文化為Hadoop社區和生態帶來了蓬勃發展,但也導致生態的複雜化和組件的碎片化、重複化,這催生了IBM、MapR、Cloudera、Hortonworks等眾多提供標準化解決方案的企業。中國也誕生了一些提供基礎技術服務的公司。

  1. Hadoop基礎軟體 本領域的企業幫助客戶搭建Hadoop基礎架構。其中,星環科技TransWarp、華為FusionInsight是Hadoop發行版的提供商,對標Cloudera CDH和Hortonworks的HDP,其軟體系統對Apache開源社區軟體進行了功能增強,推動了Hadoop開源技術在中國的落地。星環科技更是上榜Gartner 2016數倉魔力象限的唯一一家中國公司。
  2. 數據存儲/管理 2013年「稜鏡門」後,數據安全被上升到國家戰略高度,去IOE正在成為眾多企業必不可少的一步。以SequoiaDB(巨杉資料庫)、達夢資料庫、南大通用、龍存科技為代表的國產分散式資料庫及存儲系統在銀行、電信、航空等國家戰略關鍵領域具備較大的市場。
  3. 數據安全 大數據時代,數據安全至關重要。青藤雲安全、安全狗等產品從系統層、應用層和網路層建立多層次防禦體系,統一實施管理混合雲、多公有雲的安全方案,並利用大數據分析和可視化展示技術,為用戶提供了分散式框架下的WAF、防CC、抗DDoS、攔病毒、防暴力破解等安全監控和防護服務,應對頻繁出現的黑客攻擊、網路犯罪和安全漏洞。
  • (三)通用技術層

日誌分析、用戶行為分析、輿情監控、精準營銷、可視化等大數據的通用技術在互聯網企業已有相當成熟的應用。如今越來越多的非互聯網企業也在利用這些通用技術提高各環節的效率。

  1. 日誌分析 大型企業的系統每天會產生海量的日誌,這些非結構化的日誌數據蘊含著豐富的信息。對標於美國的Splunk,日誌易和瀚思對運維日誌、業務日誌進行採集、搜索、分析、可視化,實現運維監控、安全審計、業務數據分析等功能。
  2. 移動端用戶行為分析
    為提升產品用戶體驗,提高用戶轉化率、留存率,用戶行為分析是必不可少的環節。TalkingData和友盟等企業通過在APP/手游中接入SDK,實現對用戶行為數據的採集、分析與管理。大量的終端覆蓋和數據沉澱使得這類企業具備了提供DMP和移動廣告效果監測服務的能力。GrowingIO更是直接面向業務人員,推出了免埋點技術,這一點類似於國外的Heap Analytics。
  3. 網站分析 百度統計、CNZZ及締元信(後兩者已與友盟合併為友盟+)等產品可以幫助網站開發運營人員監測和分析用戶的點擊、瀏覽等行為,這些公司也大多提供DMP和互聯網廣告效果監測服務。
  4. 爬蟲 網頁爬蟲是一種快速搜索海量網頁的技術。開源的爬蟲技術包括Nutch這樣的分散式爬蟲項目,Crawler4j、WebMagic、WebCollector等JAVA單機爬蟲和scrapy這樣的非JAVA單機爬蟲框架。利用這些開源技術市場上出現了很多爬蟲工具,其中八爪魚的規模和影響力最大,該公司也基於此工具推出了自己的大數據交易平台數多多。
  5. 輿情監控 智慧星光、紅麥等互聯網輿情公司利用網路爬蟲和NPL技術,為企業用戶收集和挖掘散落在互聯網中的價值信息,助其完成競爭分析、公關、收集用戶反饋等必要流程。
  6. 精準營銷/個性化推薦 以完整的用戶標籤為基礎,精準營銷、個性化推薦技術在廣告業、電商、新聞媒體、應用市場等領域得到廣泛應用。利用SDK植入、cookie抓取、數據採購和互換等途徑,TalkingData、百分點、秒針、AdMaster等眾多DSP、DMP服務商積累了大量的用戶畫像,並可實現用戶的精準識別,通過RTB技術提高了廣告投放的實時性和精準度。將用戶畫像及關聯數據進一步挖掘,利用協同過濾等演算法,TalkingData、百分點幫助應用商店和電商平台搭建了個性化推薦系統,呈現出千人千面的效果。另一家利用類似技術的典型企業Everstring則專註於B2B marketing領域,為用戶尋找匹配的企業客戶。
  7. 數據可視化
    可視化是大數據價值釋放的最後一公里。大數據魔鏡、數字冰雹等公司具備豐富的可視化效果庫,支持Excel、CSV、TXT文本數據以及Oracle、Microsoft SQL Server、Mysql等主流的資料庫,簡單拖曳即可分析出想要的結果,為企業主和業務人員提供數據可視化、分析、挖掘的整套解決方案及技術支持。
  8. 面部/圖像識別 面部/圖像識別技術已被廣泛應用到了美艷自拍、身份識別、智能硬體和機器人等多個領域。Face++和Sensetime擁有人臉識別雲計算平台,為開發者提供了人臉識別介面。漢王、格靈深瞳和圖普科技則分別專註於OCR、安防和鑒黃領域。
  9. 語音識別/NLP NLP(自然語言處理)是實現語音識別的關鍵技術。科大訊飛、雲知聲、出門問問、靈聚科技、思必馳等企業已將其語音識別組件使用在智能硬體、智能家居、機器人、語音輸入法等多個領域。小i機器人和車音網則分別從智能客服和車載語控單點切入。
  • (四)行業應用層

每個行業都有其特定的業務邏輯及核心痛點,這些往往不是大數據的通用技術能夠解決的。因此,在市場競爭空前激烈的今天,大數據技術在具體行業的場景化應用乃至整體改造,蘊藏著巨大的商業機會。然而受制於企業主的傳統思維、行業壁壘、安全顧慮和改造成本等因素,大數據在非互聯網行業的應用仍處於初期,未來將加速拓展。

  1. 數據化整體解決方案
    非互聯網企業的數據化轉型面臨著來自業務流程、成本控制及管理層面的巨大挑戰,百分點、美林數據、華院數據等服務商針對金融、電信、零售、電商等數據密集型行業提供了較為完整的數據化解決方案,並將隨著行業滲透的深入幫助更多的企業完成數據化轉型。
  2. 電子政務 政府效率的高低關係到各行各業的發展和民生福祉,電子政務系統幫助工商、財政、民政、審計、稅務、園區、統計、農業等政府部門提高管理和服務效率。由於用戶的特殊性,電子政務市場進入門檻高,定製性強,服務難度大。典型的服務商包括龍信數據、華三、國雙、九次方等。
  3. 智慧城市 智慧城市就是運用信息和通信技術手段感測、分析、整合城市運行核心系統的各項關鍵信息,從而對包括民生、環保、公共安全、城市服務、工商業活動在內的各種需求做出智能響應。華三、華為、中興、軟通動力、大漢科技等公司具備強大的軟硬體整合能力、豐富的市政合作經驗和資源積累,是該領域的典型服務商。
  4. 金融 大數據技術在金融行業主要應用在徵信、風控、反欺詐和量化投資領域。聚信立、量化派結合網路數據、授權數據和採購數據為諸多金融機構提供貸款者的信用評估報告;閃銀奇異對個人信用進行在線評分;同盾科技倡導「跨行業聯防聯控」,提供反欺詐SaaS服務;91徵信主打多重負債查詢服務;數聯銘品搭建第三方企業數據平台,提供針對企業的全息畫像,為金融和徵信決策做參考。通聯數據和深圳祥雲則專註於量化交易。
  5. 影視/娛樂 中國電影的市場規模已居全球第二,電影產業的投前風控、精準營銷、金融服務存在巨大的市場空間。艾曼、藝恩基於影視娛樂行業的數據和資源積累,抓取全網的娛樂相關信息,提供影視投資風控、明星價值評估、廣告精準分發等服務。牧星人影視採集演員檔期、性別、外形、社交關係、口碑以及劇組預算等數據,為劇組招募提供精準推薦。
  6. 農業 大數據在農業主要應用在農作物估產、旱情評估、農作物長勢監測等領域。由於農業信息資源分散、價值密度低、實時性差,服務商需要有專業的技術背景和行業經驗。典型企業包括太穀雨田、軟通動力、武漢禾訊科技等。行業整體數據化程度低、進入門檻高。
  7. 人才招聘 我國人才招聘行業缺乏對人才與職位的科學分析,沒有嚴謹的數據體系和分析方法。E成招聘、北森、搜前途、哪上班基於全網數據獲取候選人完整畫像,通過機器學習演算法幫助企業進行精準人崗匹配;內聘網基於文本分析,實現簡歷和職位描述的格式化和自動匹配。
  8. 醫療衛生 大數據在醫療行業主要應用於基因測序、醫療檔案整合和分析、醫患溝通、醫療機構數據化和新葯研製等環節。華大基因和解碼DNA提供個人全基因組測序和易感基因檢測等服務。杏樹林面向醫生群體推出了電子病歷夾、醫學文獻庫等APP。醫渡雲則致力於與領先的大型醫院共建「醫療大數據」平台,提高醫院效率。

——————————————————企業轉型篇——————————————————


儘管技術的日益創新和逐漸完善的產業配套創造了良好的外部環境,只有將「數據驅動」的理念根植於企業本身才能充分發揮大數據的價值。對於一家企業來說,真正的數據化轉型絕不僅僅是互聯網營銷或輿情監控這麼簡單,它需要戰略層面的規劃、管理制度的革新和執行層面的堅決。這裡提出了數據化轉型的8個步驟,這些建議並沒有必然的時間先後或邏輯關係,藏在背後的大數據理念,或許更加重要。

改編自:《為數據而生》,周濤,2016


1. 數據全面採集:要求企業採集並存儲企業生產經營中的一切數據,形成企業數據資產的理念。

2. 整理數據資源,建立數據標準形成管理:成立數據委員會,建立數據目錄和數據標準,對數據進行分級分許可權的管理,實現數據的統一管理和可追溯。隨時了解哪位員工在什麼時間點在哪一台設備上運用何種許可權如何使用。

3. 建設數據管理平台:建設具備存儲災備功能的數據中心,以業務需要為引導,定做一套數據組織和管理的解決方案,硬體方面強調魯棒性和可擴展性,沒有必要一開始就投入大量經費。

4. 建立海量數據的深入分析挖掘能力:培養非結構化數據的分析處理能力和大數據下的機器學習的能力。

5. 建立外部數據的戰略儲備:外部數據對於市場拓展、趨勢分析、競品分析、人才招聘、用戶畫像和產品推薦等意義重大,而網站、論壇、社交媒體和電商平台上聚集了很多有重要價值的公開數據。

6. 建立數據的外部創新能力:企業通過智能終端、感測網路、物流記錄、網點記錄和電子商務平台等等,獲得的第一手數據,很多都可以用於支持在跨領域交叉銷售、環境保護、健康管理、智慧城市、精準廣告和房地價預測等方面的創新型應用。

7. 推動自身數據的開放與共享:要充分藉助社會的力量,盡最大可能發揮數據潛藏的價值。Netflix曾經公開了包含50多萬用戶和17 770部電影的在線評分數據,並懸賞100萬美元獎勵能夠將Netflix現有評分預測準確度提高10%的團隊。

8. 數據產業的戰略投資布局:通過投資的方式迅速形成自己的大數據能力甚至大數據產業布局。


————————————————————結語————————————————————


在Gartner的炒作周期曲線上,「大數據」概念已從頂峰滑落到了谷底,產業似乎陷入停滯。但當我們沿著技術起源、產業生態和企業戰略的脈絡重新審視大數據時,我們發現,大數據產業不僅不會停滯,反而將加速滲透到更多行業的各類場景中去,並根植在企業戰略、管理和文化之中。只有當各行各業的企業運營實現數據驅動時,大數據的價值才真正落地,然而這條路還很長。


***************************************以下為2016.3月的原文************************************************


*********************************************************************************************************************
這個眾說紛紜,個人認為,大數據的核心價值在於「預測」或者「AI」(人工智慧/異類智能),自己寫的報告粘在下面,總結了大數據的理解框架。內容較多,旨在覆蓋大數據的理解主線和主要問題,求輕拍磚。

-----------------------------------------------------導讀、引言-----------------------------------------------------------------------

內容導讀

1.數據產業的理解框架:三個層面

2.支撐數據產業的基礎設施

3.三個層面各自創造的價值及對應的典型工具或企業

一、引言

「大數據」是個熱詞,對大數據的定義以及對大數據產業的描述也因觀察角度的不同眾說紛紜,令人蒙圈。筆者無意添亂、更無意麵面俱到,只想以非專業人士的視角、盡量客觀的態度,提出一個理解框架,順便介紹一些典型的數據公司。因對「大數據」和「大數據產業」的定義不統一,本文研究對象權且稱為「數據產業」。本文在寫作的過程中,參考了眾多行業大神的文章,在此一併謝過。

技術發展的目標是用機器解放人類,數據產業的發展也不例外。基於此,筆者參考人類的決策/行動過程,對數據產業進行了一番拆解。人類的決策/行動過程可以被理解為一個信息迴路:

  1. 首先,我們需要採集足夠多的相關信息,將之進行篩選、結構化處理,並進一步整合;
  2. 然後,我們人腦會對整合後的信息進行分析、挖掘,並形成一個具象化的、足以輔助決策的畫像(框架);
  3. 最後,基於這一畫像,我們做出判斷、預測,或者做出行動;這一過程中產生或收集到的信息將形成正反饋,周而復始。

一個完整的數據產業生態應該經歷類似的過程,數據通過模塊間的介面不斷地傳送和反饋:

一切新事物的出現都是建立在一定基礎之上的(技術、設施、文化),我們就從數據產業賴以發展、演進的基礎設施、工具和技術說起吧。


-----------------------------------------------------基礎設施、工具和技術------------------------------------------------------

二、基礎設施、工具和技術

1、大數據存儲和處理工具(開源)

(1)基礎框架:hadoop

Hadoop是大數據存儲和處理的基礎框架,已經成長為一個龐大的體系。Hadoop框架自帶兩個核心模塊:①分散式文件系統(存儲):HDFS和②大數據處理工具:MapReduce。

  • HDFS將巨大的數據集分派到一個由普通計算機組成的集群中的多個節點進行存儲,帶來的好處是企業不再需要購買和維護昂貴的伺服器硬體;同時HDFS可索引和跟蹤這些數據,大數據處理和分析效率得到極大提升。
  • MapReduce對大數據的處理方式可抽象為兩個步驟:

①我們要數圖書館中的所有書。你數1號書架,我數2號書架。這就是「Map」。我們人越多,數書就更快。

②現在我們到一起,把所有人的統計數加在一起。這就是「Reduce」

主流的基於Hadoop的產品與解決方案包括:Hortonworks、Cloudera、MapR、星環等。


(2)大數據處理工具:Spark

Spark是大數據處理工具,對應Hadoop自帶的MapReduce。Spark必須和分散式文件系統進行集成才能運作,當然可以選擇Hadoop的HDFS,也可以選擇其他的基於雲的數據系統平台。不過一般默認與Hadoop組合,這是公認的最好的組合。


(3)Spark vs MapReduce

Spark的優點在於:

  • 數據處理效率高。Spark的批處理速度比MapReduce快近10倍,內存中的數據分析速度則快近100倍。尤其是對流數據或多重數據的處理上更是優勢明顯,而大部分機器學習演算法都需要多重數據處理的。
  • 開發效率高。這是由Scala語言的特性和Spark的DAG機制所決定的。

當然Spark也有不盡如人意的地方,比如它在大規模集群上的穩定性相對較差。不過新版本的spark正在逐步解決這個問題。總體看來,大多數認為MapReduce將逐步被Spark所淘汰。

其實Hadoop是一個龐大的生態系統,除了核心的存儲和處理模塊之外,還涉及到非結構化數據處理、資料庫、Hadoop監控等很多必要的技術和工具,本文不再展開。


2、機器學習技術

早在1959年機器學習的概念就被ArthurSamuel提出。機器學習具備多學科性質,包括計算機科學、統計學、數學和工程學。用一句話概括:機器學習是指計算機從大量的數據中學習、歸納出有用的規則(模型、程序)的過程。這一過程中,計算機通過大量的數據訓練樣本和豐富的特徵維度,學習到有用的模型(規則、程序),計算機程序隨著經驗積累自動提高性能。機器學習可應用在大數據分析、人工智慧、用戶畫像、智能推薦、精準廣告投放等各個領域。

  • 大數據時代下的機器學習

大數據時代,大量的訓練樣本和豐富的特徵維度使得學習演算法更容易學到較好的模型。然而由於機器學習演算法大多為迭代演算法,加之演算法複雜度的增加,使得模型訓練的計算量隨數據量和特徵數量的增長急速增加,機器學習技術將始終面臨著計算資源相對不足的問題。

因此,演算法的設計便顯得尤為重要,往往決定大數據企業是否具有核心競爭力。計算資源不足的問題可以通過降低演算法迭代次數解決,也可以通過優化演算法解決,使其無需迭代即可訓練出較好的模型。

機器學習在數據流的三個環節中均起到了至關重要的作用,它模仿人類學習的過程,卻可以完成人類無法完成的計算任務,產生不斷優化的模型。

-----------------------------------------------------第一層面-------------------------------------------------------------------------

第一層面:基礎數據的充分採集、處理、整合


人類決策/行動的過程開始於信息的採集,數據產業也如此。這一層面的關鍵點在於:數據源的多樣化、數據維度和數據量的豐富、數據的清洗去噪、數據的結構化處理和整合。

首先以用戶畫像中用到的基礎數據為例,按照屬性對數據進行下分類說明。


1、數據屬性分類

用戶數據按屬性可以分為用戶靜態信息數據和用戶動態信息數據(用戶行為)。


①用戶靜態信息數據可包括:

  • 人口屬性:性別、年齡、住址、戶籍、職業、婚姻狀況、家庭狀況等等
  • 商業屬性:收入、消費等級、消費周期、貸款歷史等等
  • 網站註冊信息等等其他數據

②用戶動態信息數據由接觸點和行為類型兩部分組成:

  • 接觸點:某社交網站、某電商首頁、某單品頁、某微博、某實際地點等等
  • 行為類型:瀏覽、點擊、搜索、發表、點贊、下單等等。也包括某些閾值,比如某行為多少次、持續多長時間等等。

由於用戶靜態信息數據較為穩定、且往往是結構化的數據,在用戶畫像的過程中,對用戶動態信息數據的採集和處理更為關鍵。對用戶畫像的介紹詳見第二部分。


2、基礎數據來源

海量的基礎數據的可以來自企業自身、政府/第三方、眾包、互聯網和線下。

①企業自身數據

企業自身的數據同企業的經營相關度最高,數據中蘊藏了豐富的商業價值。可以由以下幾個來源獲取:

  • 網站/app頁面監測(onsite):包括交互行為、滾屏、滑鼠軌跡等等。關於頁面監測會在下一部分具體說明。
  • 用戶調查和反饋:可以有問卷、Feedback、客服系統提交的直接需求等多種形式。
  • 企業運營數據:如訂單量、交易金額、人力數據等等。這些數據往往由企業的CRM和ERP等傳統BI中接入,當然也可能通過優惠券、二維碼等形式採集而得。

②政府/第三方

一些重要的政府部門和各領域的機構或企業掌握了大量數據,普通企業可通過購買或授權合作獲取。其中,在金融領域,對個人徵信和反欺詐最有價值的數據來自徵信公司(即將拿到個人徵信牌照的公司包括騰訊、阿里、鵬元、中智誠徵信公司等8家)、電信運營商數據(運營商的用戶行為數據特別是移動用戶的行為數據,商業價值非常大)和銀聯數據。下面列舉了一些細分領域數據的主要來源:

  • 政府的數據:如天氣的數據可以應用於農業和工業規劃;稅務、工商、公安司法數據可以用於徵信和信貸風控;土地和人口數據可以用於規劃和地產;經濟統計數據可以用於企業經營決策和政府規劃。政府的數據優點在於全和多,但數據比較分散,質量一般。
  • 向各領域企業或機構購買或交換的數據。如金融領域的Wind資訊、萬得信息、九次方、同花順、恒生電子;影視/娛樂領域的克頓、貓眼電影、奧科軟體、無錫天脈聚源建;地理/環境領域的長地萬方、凱立德、北京城際高科、中科宇圖、科菱航睿;通訊信息領域的電話幫、小源科技等等。

③眾包(Crowdsourcing)

一些數據平台通過數據交換或購買的方式,吸引廣大用戶上傳語音、圖片等數據。典型的如數據堂。

④互聯網(online)

散落在互聯網上的數據主要通過爬蟲技術抓取。首先按照預設定的主題,先通過URL分析,丟棄部分URL;下載頁面,對頁面內容進行主題提取,對比預設定的主題做取捨;最後進行數據清洗。在這一領域,國內的八爪魚是個很好的例子,它提供了一個自動化的網頁爬蟲解決方案,受到了市場的歡迎。

開源的爬蟲框架主要有分散式爬蟲(Nutch)、JAVA單機爬蟲(Crawler4j、WebMagic、WebCollector)、非JAVA單機爬蟲(scrapy)。這些工具各有利弊,不過一般認為,由於用Nutch難度大、耗時長,如果不是為了做搜索引擎或精準數據爬取,盡量不要選擇Nutch作為爬蟲。

除了自己爬蟲外,一些一些數據平台以下發任務、眾包的方式,通過數據購買或交換,吸引廣大用戶利用閑置計算資源協助其進行爬蟲。

當然,人們在網頁上肆意爬取數據時也會遇到各種問題:

  • 社交、電商等網站為了守住自己的數據,會採取各式各樣的反爬蟲策略。比如針對頻繁訪問網站的IP設定訪問限制,使用js和ajax技術的動態頁面等等。但是兵來將擋水來土掩,真正的爬蟲高手往往能採取相應的對策破解。隨著爬蟲和反爬蟲之間的博弈你來我往、反爬蟲策略創新不斷,要做好爬蟲,必須擁抱變化、見招拆招。
  • 網路上多為非結構性文本,要求較高的自然語言分析能力。
  • 網頁爬蟲最大的硬傷是,在很多商用場景中,網上爬來的數據往往關聯性較弱,價值幾許未得到充分驗證。

⑤線下(offline)

比如利用各種感測器收集到的數據。如國外一些電子發燒友玩兒的RaspberryPi、Arduino等等。


3、基礎數據綜合交易/查詢平台

一些數據平台通過上述各種渠道採集各類具備潛在價值的數據,經過清洗、結構化處理、整合,生成API介面或數據包,出售或出租給企業用戶。典型的數據平台有聚合數據、數據堂、APIX等。

  • 聚合數據

聚合數據面向智能手機開發者、網站站長、移動設備開發人員及圖商,提供原始數據API服務。數據涵蓋金融、日常生活、地圖、天氣等各領域。其功能類似於百度apistore和Google APIS。

  • 數據堂

數據堂的商業模式可以概括為兩個方面,一是面向 B 端客戶提供定製化數據源服務,二是大數據交易平台。在數據採集上,數據堂提供了較成熟的眾包採集平台,包括眾采平台、眾標平台和眾爬平台。用戶在採集數據的同時,也順便甄別了數據的真偽和有效性。另外,數據堂對非結構化數據具備較強的處理能力,如消費票據處理、人臉識別、物體識別等精細分類數據。


--------------------------------------------------------------第二層面------------------------------------------------------------


第二層面:分析、挖掘、畫像

基礎數據在被充分採集、處理和整合後,需要機器進一步分析、發掘,並完成可視化或完整的畫像。這一階段至關重要,因為它產出的結果可以直接指導人類決策,或為實現人工智慧打下基礎。

上一部分提到數據源中較容易採集的是onsite數據,即對自家網站/APP進行頁面監測,也就是用戶行為分析。我們就從頁面監測說起。

1、網站/app頁面監測和分析

網站/APP開發和運營者通過監測和分析用戶行為改善用戶體驗,或構建用戶畫像,提供精準的推薦、服務。

①埋點 vs 免埋點

傳統的用戶行為分析需要前端工程師在相應的位置寫代碼埋點,然後在後台自行分析、挖掘數據。後來為了更好的可視化,出現了一些工具可以形成更友好的報表或dashboard,並輔助進行數據挖掘,當然埋點的過程還是需要前端工程師來幫忙的。比較常用的包括Google Analytics、Adobe Analytics、Omniture、Fullstory、百度統計、諸葛IO、Talkingdata、友盟等等。最近又有一些工具宣稱可以直接面對業務人員,免去埋點,實現可視化配置和實時數據分析。這類工具包括Heap Analytics(免埋點技術的鼻祖)、GrowingIO、諸葛IO等。但這些工具的缺點也很明顯,比如滾動條高度、及其他稍複雜的監控都無法做到,如果需要採集全方位的數據進行更專業的分析,仍需要靠開發人員來埋點配置。

②可視化

剛才講到了利用工具的好處,利用Google
Analytics、Heap Analytics、GrowingIO等工具,能夠把監測結果可視化出來,輔助業務人員進行分析和挖掘。常見的可視化結果包括熱力圖(記錄滾屏等行為)、滑鼠軌跡圖、轉化漏斗、趨勢圖、用戶行為路徑列表、分析報告和dashboard。這之中dashboard最為用戶友好, 它簡明扼要地展現了所有關鍵信息和必要的細節,當然展現關鍵信息和細節是相互矛盾的,如何把握二者的平衡,是做dashboard中非常藝術的地方。

③Tag manager

在一個頁面中,我們往往需要塞滿各種功能代碼,例如做用戶監測、營銷工具、RTB(實時競價)。如何進行統一管理、統一修改,而不用勞煩技術人員呢?這就需要一類叫做tagmanager的工具。這類工具將所有代碼統一集中到第三方的伺服器上的一個.js文件中,頁面上只放一段代碼,用於調用這個外部的.js文件。這類工具中常用的有:Ensighten、TrackingFirst、GoogleTagManager。

另外,tag manager正將向app監測領域的延伸,即統一管理監測sdk的工具,原理與頁面監測類似,值得持續關注。

④其他基於網站/APP監測的工具

基於網站/app頁面監測和分析的結果,一些工具可以根據演算法直接做出預測和分析結果,供產品經理參考。比如:TalkingData提供遊戲運營分析工具,基於大量的數據積累,通過特定演算法預測哪些用戶可能流失,哪些用戶有可能付費。GrowingIO喊出了「人人都有分析師」的口號,採用機器學習技術,自動計算出哪些數據是重要的,不斷優化到系統里去,不只返回報表,更給出分析結果。

還有一些工具可以開啟自動觸發機制。比如:Blindspotter會基於異常行為自動報警並做相應處理;Trak更像是用戶智能管理工具,會根據監測到的行為觸發郵件發送,比如定期向長久不來的用戶發送喚醒郵件,向近期比較活躍的用戶發送新版本測試邀請,用戶狀態的變更提醒等。


2、日誌數據分析

大型企業的系統會產生海量的日誌,如何管理這些日誌,並從中挖掘出有價值的信息?國外的Splunk、SumoLogic和LogEntries,國內的日誌易、翰思均可實現相關的功能。

以日誌易為例,日誌易可實現以下多種功能:

日誌採集:準時實地採集業務系統產生的日誌。

搜索、日誌數據結構化:具有搜索分析功能,方便用戶快速定位問題。能夠自動從日誌中提取關鍵欄位,將非結構化日誌轉化為結構化數據。

監控告警:觸發告警配置時,及時通過郵件或者簡訊告警。

安全審計:自動檢測SQL注入攻擊、跨站請求和代碼注入等安全滲透攻擊及違規操作,從而允許用戶進行安全審計。

可視化:將日誌數據可視化,方便用戶創建各種統計視圖。

3、企業運營管理可視化

由於商業智能(BI)這個詞實在寬泛,理解層面不同,定義也就不同。這裡暫且從企業運營管理的可視化這一角度談起。由於有些企業對自身運營管理數據較為敏感,這類工具通常提供公有雲和私有雲兩種部署方式供企業選擇。國外常用的工具有:Dundas、Sweetspot、RJMetrics、tableau、QlikView等。國內的工具有:華院數據、美林數據、龍信數據、星圖數據、融智網信、拓爾思、永洪科技等。其中,永洪科技較為典型。永洪科技主要面向各行業毫無IT知識的管理者或一線業務人員,提供敏捷、高性能、自服務的數據可視化平台,指導企業及其本人的數據化運營、日常工作和個體業務決策。目前已為能源、旅遊、傳媒、金融、電信等多個行業企業提供服務。


4、用戶畫像

毫無疑問,個性化技術是企業利用大數據產生價值的重要落地點,「用戶畫像」這一概念便應運而生。用戶畫像完美地抽象出一個用戶的信息全貌,可以看作企業應用大數據的根基。

用戶畫像用一句話概況:用戶信息標籤化。即採集用戶靜態和動態信息數據,利用計算模型產出標籤和相應地權重,從而使得計算機能夠程序化處理與人相關的信息,甚至通過演算法、模型能夠「理解」人。

  • 如何構建用戶畫像

首先為了區分用戶、單點定位,要進行用戶標識。常見的標識方式包括:Cookie、註冊ID、Email、QQ、微信、微博、手機號、身份證等。獲取方式由易到難。視企業的用戶粘性,可以獲取的標識信息有所差異。

然後,通過各種方式採集相關的用戶數據,利用數據模型,為該用戶打上標籤和相應權重。標籤表徵屬性或內容,表示用戶具備該屬性,或對該內容有興趣、偏好、需求等等。權重可以簡單的理解為用戶具備該標籤的可信度、概率。

比如:用戶A昨天在品尚紅酒網瀏覽一瓶價值238元的長城干紅葡萄酒信息。標籤和權重可以是這樣的:用戶A:紅酒0.665、長城0.665

構建企業、商品等各類主體的畫像時所用方法雷同,重點在於利用模型確定標籤和權重的過程。基於完整畫像的構建,推薦引擎、廣告精準投放、徵信等服務才得以實現。


------------------------------------第三個層面,才是大數據的精髓---------------------------------------------------------


第三層面:推薦、預測、行動

《大數據時代》的作者維克托·邁爾·舍恩伯格認為:」大數據的核心就是預測「,」大數據不是要教機器像人一樣思考。相反,它是把數學演算法運用到海量的數據上來預測事情發生的可能性「。凱文·凱利認為,相比於「人工智慧」,這一技術領域應叫做」異類智能「(AI,AllienIntelligence)更為準確,智能推薦、預測、判斷都應該算做異類智能的範疇,而不應只局限於人形的機器人。

異類智能是數據產業中最誘人的部分,它用大數據的方式達到人類所不能達到的規模化、高效率和高精度。當然,異類智能的實現是建立在數據產業前兩個層面之上的。我們先從商業化最為成熟的精準營銷和智能推薦談起。


1、精準服務、推薦和營銷

Everstring、Talkingdata、今日頭條是這一領域的幾家典型企業,以下通過對這些企業的簡單介紹,對這一領域做些闡釋。

  • Everstring

Everstring是一家國內的團隊,但主要面對的是美國客戶。Everstring面向高科技、電信和保險等行業的企業,為它們全網尋找潛在企業客戶。所需的數據來源主要有:企業客戶內部數據(CRM系統)、挖掘全網在線企業數據及購買企業數據。Everstring系統利用自然語言分析、非監督機器學習自動建立客戶模型,首先分析企業現有客戶,然後再利用模型在全美國尋找最像企業現有客戶的潛在客戶。目前該公司已經積累了美國近700萬家企業畫像數據,在北京也已設立了數據科學和工程研發團隊。

  • Talkingdata

Talkingdata利用自己在移動應用領域豐富的數據積累,提供輕量級的智能推薦服務介面,主要業務包括移動應用推薦、廣告投放優化、用戶畫像、遊戲數據挖掘等。

  • 今日頭條

今日頭條的推薦演算法團隊有幾百人,他們依據客戶瀏覽習慣,為客戶提供諸如新聞、財經、視頻、專欄的精準內容。

  • 摸象數據

摸象數據自主研發了一套電商推薦引擎,為互聯網用戶提供個性化消費推薦和服務的同時,為品牌企業客戶提供大數據分析、推薦引擎平台建設以及精準廣告和效果營銷。

目前精準服務、推薦和營銷領域是數據產業鏈條中商業價值最為清晰的一塊,這裡只舉了幾個典型的例子,類似的公司還有lytics,百分點等等。


2、金融領域

在金融領域,風控是重中之重。這兩年由欠債問題引發的「P2P跑路潮」,其核心原因是金融機構缺乏對借款人進行有效的信用風險管控。國內外有很多企業在利用大數據,在徵信領域探索著「異類智能」的應用。

  • Zestfinance(美國)

Zestfinance主要服務人群是約佔人口5%的、信用評分在500分以下的次級貸人群。它開發出有效的信貸審批模型,致力於為每一個人信用進行評估,創造公平而且透明的信用信息,幫助那些信貸信息不完整的人群享受正常金融服務的權利。其核心競爭力在於強大的數據挖掘能力和模型開發能力和量化的信用風險分析技術。相對於銀行/典當行,Zestfinance具備獲得貸款顧客的成本低,首次還貸違約率低,投資回報率高等優勢。

在ZestFinance的新模型中,往往要用到3500個數據項,從中提取70,000個變數,利用欺詐模型、身份驗證模型、預付能力模型、還款能力模型、還款意願模型、穩定性模型等十幾個預測分析模型進行集成學習或者多角度學習,判斷出消費者的還款能力和還款意願,進而得到最終的消費者信用評分。

數據源方面,主要收集傳統銀行信貸的數據(如賬戶數、信貸歷史、違約數、流水)及其他結構化的數據(如交租情況、搬家次數等)。Zestfinance認為,文本數據和社交網路數據等與消費者的信用風險相關性太弱,因此利用得比較少。

  • 同盾科技

同盾科技為企業提供雲端風險管控和反欺詐服務,主要服務對象為銀行、第三方支付、信貸、電商、遊戲、社交等企業。可根據客戶要求提供SaaS化服務或私有雲部署的反欺詐系統。

公司對貸款人的身份信息、手機、身份證等數據與其線上行為進行強大關聯,建立全方位網路行為圖譜;並致力於建立跨行業黑名單,使壞人一處作祟,處處受限;收集和整理全網大規模的網路黑名單信息,並要求客戶企業繼續上載新的黑名單信息。

總體來看,美國的徵信機構對貸款人的信用評估大多基於無罪推定,進行足夠的量化分析,致力於為每個人進行信用評估,打破信貸機構為富人服務的怪圈。而國內徵信機構傾向於以有罪推定為前提,搭建黑名單制度,懲罰性更強,且量化分析能力較差,徵信機構的信用評分機制尚未推出。當然這主要是因為中國還未建立出統一、標準的徵信體系,而阿里、騰訊、京東交易體系產生的海量數據目前主要閉環使用,服務於自身業務。我國的徵信業還有很長的路要走。


3、國防領域

這一領域以Palantir最為典型。Palantir共擁有兩大產品線,即PalantirGotham和PalantirMetropolis,分別應用於國防和金融領域。在國防方向,儘管CIA、FBI等情報機構掌握著成千上萬個資料庫,但要在這些數據之間建立聯繫,卻相當耗費時間,Palantir利用強大的演算法和引擎整合相互分離的資料庫,進行高效的搜索、分析和數據挖掘,能夠快速找出有價值的線索,提前掌握恐怖份子可能發動襲擊的消息。在金融方向,Palantir曾幫助多家銀行追回了前納斯達克主席BernieMadoff所隱藏起來的數十億美元巨款,而很多銀行和對沖基金客戶則大多利用Palantir探測欺詐行為和評估貸款風險。


4、物流/交通領域

以滴滴為例。滴滴的數據分析和應用團隊有300多人,它設計了不同的數據模型,可以實現:依據客戶和司機的位置為客戶推薦計程車或專車,依據司機搶單情況來給司機安排客戶,依據客戶訂單多少提升客戶等級和訂車優先權。


--------------------------------------------------------------結束語-----------------------------------------------------------------


結束語

隨著政策的鼓勵和市場經濟的發展,中國的企業正在逐步實現數字化思維的轉型,數據的應用場景將越來越多,深入到每一個細分領域中去。引用一句不知從哪裡聽來的話作為結束語:未來就存在於現在,只是不均勻的分布著。


推薦閱讀:

TAG:商業模式 | 數據挖掘 | 商業 | 數據分析 | 大數據 |