你所在的公司或者領域在做哪些大數據應用？

01-02

「電力大數據是未來電力系統發展的生產力！」

維克托?邁爾?舍恩伯格曾在《大數據時代：生活、工作、思維的大變革》一書中前瞻性地指出，大數據帶來的信息風暴正在變革我們的生活、工作和思維，大數據開啟了一次重大的時代轉型。

在能源領域，能源大數據理念是將電力、石油、燃氣等能源領域數據及人口、地理、氣象等其他領域數據進行綜合採集、處理、分析與應用的相關技術與思想。能源大數據不僅是大數據技術在能源領域的深入應用，也是能源生產、消費及相關技術革命與大數據理念的深度融合，將加速推進能源產業發展及商業模式創新。

1.什麼是電力數據

013年3月中國電機工程學會信息化專委會發布《中國電力大數據發展白皮書》，將 2013 年定為「中國大數據元年」，掀起了電力大數據的研究熱潮。作為正向能源互聯網轉型的傳統電力行業，大數據及雲計算時代的到來將為傳統電力行業的發展注入新的活力，傳統電力行業即將發生革命性的變化。

電力大數據主要來源於電力生產和電能使用的發電、輸電、變電、配電、用電和調度各個環節，可大致分為三類：一是電網運行和設備檢測或監測數據；二是電力企業營銷數據，如交易電價、售電量、用電客戶等方面數據；三是電力企業管理數據。電力大數據具有四個特點：（1）數據體量大：PB級；常規的調度自動化系統包含數十萬個採集點；配用電、數據中心將達到千萬級；（2）數據類型繁多：實時數據歷史數據文本數據多媒體數據時間序列數據等各類結構化、半結構化數據以及非結構化數據；（3）價值密度低：所採集的絕大部分數據都是正常數據，只有極少量的異常數據，而異常數據是狀態檢修的最重要依據；（4）處理速度快：在幾分之一秒內對大量數據進行分析，以支持決策制定。

通過使用智能電錶等智能終端設備可採集整個電力系統的運行數據，再對採集的電力大數據進行系統的處理和分析，從而實現對電網的實時監控；進一步地，結合大數據分析與電力系統模型，可以對電網運行進行診斷、優化和預測，為電網安全、可靠、經濟、高效地運行提供保障。

雲計算、大數據分析等信息新技術必將激活電力大數據中蘊含的價值，也必將釋放電力大數據的市場潛力。根據GTM Research的研究分析，到2020年，全世界電力大數據管理系統市場將達到38億美元的規模，電力大數據的採集、管理、分析與服務行業將迎來前所未有的發展機遇。

2.電力大數據的應用案例

南方電網——智慧家庭

依託智能插座、智能交互終端設備和能耗分析軟體，南網開展了智慧家庭的示範工程建設，實現用戶智能用電，分析用戶用電行為。

基於電力大數據還可進行家庭能耗管理，鼓勵用戶實現智能用電、參與需求側響應，實現與電網協調互動。

?通過智能終端設備實時採集用戶用電數據，並進行處理和分析；

?以數據驅動用戶進行用電模式優化，從而降低能耗，減少碳排放；

?基於電力數據分析，積极參与電網削峰填谷和需求側管理，實現節能減排。

AutoGrid——電力大數據服務的先行者

AutoGrid於2011年成立於美國矽谷，是由前斯坦福大學智能電網研究室負責人Amit Narayan創辦。

AutoGrid基於其能源數據平台，為電力供應商和消費者提供各種規模的電力消耗預測，使用該預測來優化電網運行，並通過靈活的需求管理計劃實現節能減耗。

AutoGrid的能源數據平台挖掘電網產生的結構化和非結構化數據的財富，進行數據集成，並建立其使用模式，建立定價和消費之間的相關性，並分析數以萬計的變數之間的相互關係。通過該能源數據平台EDP，公共事業單位可以提前預測數周，或只是分，秒的電量消耗。大型工業電力用戶可以優化他們的生產計劃和作業，以避開用電高峰。同時，電力供應商可使用該能源數據平台EDP來決定可再生資源，如太陽能，風能的併網，最大限度地減少這些能源間歇性對電網的影響。

3.電力大數據的應用模式

生物這塊還沒人說吧。

我們每個人所帶的基因是差不多的，之所以有的人捲髮，有的人直發，有人喝酒上臉，有人千杯不醉等等......這麼豐富多彩的變化，就是因為基因發生了改變，所以，生物大數據可以解決的兩個事情是（也許還有好多可以解決的，我只說這兩件可以解決的）：

（1）挖掘與某個特徵/疾病相關的基因易感位點。

（2）以這些基因易感位點數據作為輸入變數，相關的特徵/疾病為響應變數，訓練機器學習模型。

1. 確定與某個特徵/疾病/表型相關的基因易感位點。

這一步如何做？目前較流行的當屬GWAS，所謂GWAS，是指全基因組關聯分析（Genome-wide association study），是一種對全基因組範圍內的常見遺傳變異基因總體關聯分析的方法。

目前，科學家已經對糖尿病、冠心病、肺癌、前列腺癌、肥胖、精神病等多種複雜疾病進行了GWAS分析，並找到了疾病相關的多個易感位點。看一下下面的圖：

簡單來說，塞一大堆的基因易感位點數據（幾十萬、幾百萬也可能上千萬個易感位點），和要分析的這個特徵/疾病/表型數據，然後建立模型分析找到存在顯著關係的那個易感位點。

這有點類似於，我們有身高、學歷、職業三個潛在影響變數，要從這三個變數中找出：哪個變數與收入存在顯著關係、進而可能決定了收入。這裡身高、學歷、職業三個變數就相當於易感位點（只不過我們的潛在易感位點有幾十萬甚至幾百萬，所以才是生物大數據嘛），收入就相當於特徵/疾病/表型。

模型可以選擇卡方檢驗，或者logistic模型等等（模型的選擇取決於你的表型）。值得注意的是，這裡的顯著性水平不再是0.05了，因為幾百萬個位點的分析，5%的顯著性水平太低，此時要做P值的校正。

最終，我們選出來了對這個特徵/疾病/表型有決定作用的一個或多個基因易感位點。

舉一個例子，我們知道高血壓是有遺傳性的，既然有遺傳學，就說明一定有基因的作用在裡面，2009年，在nature genetics的一篇論文中，作者就是用GWAS找到了和高血壓相關的幾個SNP。這篇論文的名字也很直白：

「Genome-wideassociation study identifies eight loci associated with blood pressure」。

2. 用機器學習模擬特徵/疾病/表型的變化

通過第一步的GWAS分析，我們知道哪些基因組的變化會一起一些特徵/疾病的改變。

在此基礎上，我們就可以構建機器學習的演算法，以基因組數據為輸入變數、以特徵/疾病的數據為輸出變數，利用大規模的訓練數據去訓練模型，以預測基因組的突變會如何改變細胞，進而改變動物和人體的表現。

生物創業公司DeepGenomics，他們的第一個產品是SPIDEX，就是預測基因組突變對RNA剪切的影響：基因組突變→ RNA剪切

再舉一個例子，有的人天生能喝酒，有的人一沾酒就臉紅。這也是有基因在起作用的，酒精在人體先分解成有毒的乙醛，再通過乙醛脫氫酶分解成無害的乙酸。因此，乙醛脫氫酶的活性就決定了解酒能力。為什麼每個人的乙醛脫氫酶活性能力不一樣？這是因為人體ALDH2基因的rs641這個點發生了改變。同樣，我們或許可以利用機器學習的演算法，訓練大規模數據去預測乙醛脫氫酶的活性能力的表現。

綜上所述，我們用GWAS找到了跟某個特徵/疾病相關的基因，然後在大規模樣本數據中訓練機器學習演算法，用基因的突變去預測細胞層面的改變。

來源於我的公眾號：機器學習在生物大數據應用的一個例子

我們在做報表 BI（商業智能）應用，並且這項事業已經開展了10餘年。

具體做什麼呢？

幫企業規範化報表業務，建立數據分析中心，搭建自助的業務分析平台，簡單點說就是提供企業的數據化管理服務。並且，這項事業可應用於每個行業，目前已收穫6000+成功案例。

何為數據化管理？

引用百度百科的解釋：
數據化管理是指將業務工作通過完善的基礎統計報表體系、數據分析體系進行明確計量、科學分析、精準定性，以數據報表的形式進行記錄、查詢、彙報、公示及存儲的過程，是現代企業管理方法之一。數據化管理的目標在於為管理者提供真實有效的科學決策依據，宣導與時俱進的充分利用信息技術資源，促進企業管理可持續發展。

為此，我司先後研發了兩款數據產品，一款是FineReport，另一款是FineBI。前者解決報表的製作和管理問題，後者解決業務的快速分析。

FineReport

FineReport嚴格來講是報表工具，你可以把他想成Excel，在設計器中設計表格、圖形，然後放到網頁端展示，可以嵌入在其他應用系統和網頁中開發。功能數量和通用度雖不及Excel，但是製作商業報表的的簡易度絕對讓你大跌眼鏡，目前是最流行的商業報表工具。

1、提供各種數據介面，可同時引用不同資料庫的數據；

2、以數據欄位為單位，可明細可合計，不用數據透視表，也不要寫VBA，功能都是封裝好的，設計一套模板可導出N張不同報表；

3、填報功能，收集數據入（資料庫），協作填表無壓力；

4、可以協同製作報表，儀錶多人製作。提供許可權設置，不同人看不同表；

使用FineReport可以快速靈活地製作報表，搭建統一的數據決策和管理平台，讓更多的數據用於業務經營和決策

5、可視化Dashboard(決策報表)，表格立馬變高大上的「駕駛艙」；

6、移動端報表隨時隨地看。

7、可視化大屏輕鬆做

詳細請看：
你用過Excel，卻不知還有一款神器「FineReport」
大屏做成這樣，領導不重用你都難！

……

FineBI

FineBI是大數據BI，是商業智能工具，側重於數據分析。一般是IT部門準備好數據後，業務人員/領導直接用它來托拽數據欄位分析。

1、數據處理——FineBI可直連資料庫/數據倉庫/大數據平台，也可藉助內置的FineIndex(多維數據集cube)建模分析，能快速的處理大數據量並呈現結果。

2、主要在於前端的OLAP分析模式，注重可視化分析。

3、使用難度上BI工具應該是最簡單的數據分析工具了。

目前接觸到的幾方面：

（1）根據海量用戶行為進行用戶的人口屬性學畫像，包括預測用戶的性別、年齡、職業、學歷、收入、地域、標籤等等。這裡的用戶行為包括用戶上網行為，用戶手機APP安裝列表，用戶APP使用行為等等。數據量大概在幾億到十幾億這樣的量級。

（2）根據海量遊戲的inapp數據，預測遊戲中大R付費用戶的流失。簡稱「大R流失預測」。目的是為遊戲運營人員挽回高額付費用戶提供數據支持。

（3）根據部分APP的全量使用數據，以及全部APP的部分使用數據，推算全部APP的新增、DAU、留存等信息。不是太准，但大體量級應該差不多。

（4）根據各個APP在各大應用市場的表現，預測有潛力的小眾APP。

以上只涉及業務，大部分是用在廣告行業。其中涉及到的具體技術包括爬蟲、SVM、樸素貝葉斯、邏輯回歸、FpGrowth、NLP中的分詞、LDA、word2vec等等。

--------------------------------------------------------------------

以上是一些傳統大數據公司的玩法，但是現在流行互聯網?，其實我更傾向於?互聯網，即傳統行業結合互聯網甚至大數據。舉兩個例子，

（1）招聘行業?大數據，例如獵聘網。大數據智能匹配職位，精準推薦，職場進階，各種行業、職位報告等等！

（2）法律行業?大數據：例如理脈。判決文書文本挖掘、話題發現，判決文書可視化，法院、律師可視化，精準推薦律師等等！

這兩個例子有一部分屬於個人YY部分，如有雷同，實屬巧合！

針對地理數據的分析說一下體會吧

很多app都具有獲取用戶地理坐標的能力，也能做一些簡單的分析，比如按城市、區縣對用戶做一些統計報表，再進一步的細化就很少有人去做了。應該不是不想做，而是缺少相應能力，缺少「理解位置」的能力。

分析一個坐標，通常會用到谷歌或百度的GeoCoding Api。比如(40.055508,116.615496)這個坐標，用Baidu Api的查詢結果是「北京市順義區四經路」，也就是說這個坐標所在的城市是北京，區縣是順義，道路是四經路。城市和區縣這兩個都很好，可以當做分析維度，但四經路這個怎麼分析呢？分析了又有什麼用呢？所以藉助公開資源的話，基本也就分析到區縣這個級別了。

當然把這個坐標在地圖上標註出來之後，藉助底圖參考，人眼馬上就能看出是在首都機場。如果數據分析程序也有人眼這種能力，立馬就可以新增若干個分析維度，比如交通樞紐、機場、出行服務什麼的。可惜程序沒有底圖，給了底圖也不認識，所以看不出來。

人在工具輔助下可以快速理解一個位置，這種能力我稱之為「理解位置」的能力。涉及到地理位置的大數據應用，應該都需要這種「理解位置」的能力，才能真正的用好位置數據。

公司正在「理解位置」這個方向上不斷努力，目前做得還可以，比如剛才那個坐標，Api服務除了能識別出在首都機場外，還能識別是T3航站樓和機場商圈。截了個圖大夥參考下

一家創業公司在硬體大數據方面的探索。

以上諸位大多在說軟體方面的大數據，而我們正在做人耳相關的大數據，怎樣將大數據應用於硬體中。

在深入介紹前，先要釐清一個概念：人們大多認為人耳長的都差不多，但事實上人耳的差異性堪比指紋，即每個人都存在差異，這也是人耳為什麼能用在身份識別上的原因所在。比如前陣子播的《基本演繹法》S4E7中中福爾摩斯就有用人耳的不同識別出嫌疑犯。

人耳的差異是如此之大，但是目前的通用耳機由於是工業化製造，基本是一樣的，就好像讓所有人去穿同樣大小的鞋子，久了勢必會不舒服、疼痛、不是擠壓就是容易掉落。但偏偏使用耳機的時長和頻次都大大的增加了，地鐵上、公交上甚至在工作的時候都會戴上耳機，這使得人們對耳機舒適性的需求更高。

當然，也並非是說工業化生產的電子消費品當中沒有用到數據，但用到的都是統計數據。一般人體的數據都呈正太數據，從我們目前積累的數據來看，人耳的數據也是呈正態分布。

使用統計數據帶來的一個結果是只照顧最中間的那個群體，而忽視了兩邊的群體。通過我們的對照組實驗（實驗人數4000人），目前市場耳機的適配率不到30%，這表明，使用統計數據的工業設計照顧的還不是大眾，而是相對大眾。所以，我們稱之為戴著腳鏈的舞蹈。（

下面這張圖是隨便找的一張表示正態分布的圖。）

在軟體方面，人們已經習慣於根據每個人的不同去定製自己的內容，比如今日頭條，在硬體方面我們也想做一下這種嘗試。特別是耳機這種直接與人體器官發生交互的硬體產品，其對於個性化的要求，要遠遠超過其他硬體產品。

不用統計數據，而是像軟體一樣去尊重每個人的數據，全人群覆蓋，把軟體當中的這種定製大眾化應用到硬體當中。目前我們建立了一個超過18000個人耳樣本的資料庫，其中包括二維圖片，三維人耳實際倒模（得益於我們之前專業定製耳機的從業），每個樣本提取25個特徵參數，再去做對照組佩戴耳機的實驗，總結出影響耳機佩戴的若干參數，尋找規律。這樣的數據會考慮到性別、年齡、地域、民族等眾多特徵。事實上，過程當中大量的參考了制衣製鞋行業的相關經驗與標準。使得用戶屆時可以通過用手機對著自己的耳朵拍一張照片或一段視頻，就可以獲得一個符合自己耳朵的耳機。

當然，有一天，我們也希望這項技術能應用於助聽器上，助聽器和傳統的定製耳機動輒價格上萬，助聽器更是要2-3萬，很重要的一個原因在於需要去取耳印再手工定製。這項技術如果能夠成熟的應用於助聽器上，或許可以把價格大大降低，有沒有可能降到數百元？中國有8000萬聽力障礙人群，很多用不起，那時就能夠用的起了吧。目前清華大學、北京科技大學（有中國最早最大之一的人耳識別實驗室）也參與進來。希望能夠一起做點有意思的事情。

作者：Gene Liang

鏈接：目前big data在國家電網中的運用？ - Gene Liang 的回答

來源：知乎

著作權歸作者所有。商業轉載請聯繫作者獲得授權，非商業轉載請註明出處。

這裡主要針對發電設備隨便說說。拋個磚供大家參考。

GE Power（通用電氣發電集團）這兩年有一個說法，叫

"Data and analytics … the heart of
Predictivity「

其實很好理解，大數據和基於這些大數據的演算法，可以提高機器設備的故障可預測性。這個方法放到發電設備上，也就提高了發電設備的可靠性。再往大了說，也就提高了電網的穩定性。

一個很簡單的例子，汽車跑在路上，尤其是高速上，爆胎是一件很危險的事情。為了預防爆胎呢，我們給四個輪胎裝上了胎壓檢測，如果某一個輪胎的胎壓不正常了，我們就要小心了，因為再接著跑高速就會有爆胎的風險。這個時候你就應該去檢查你的輪胎。

這個例子里有兩個點：

一個是我們知道胎壓和爆胎的關係。也就是胎壓不正常--&>爆胎。對於某一種發電的設備，是不是也可以找到某一種數據和某一種可能的故障之間的關係呢？比如（純粹舉個例子）壓氣機葉片的振動頻率如果不正常，那麼就很有可能造成葉片的斷裂。如果知道了這樣的關係，我們就可以像胎壓監測一樣在燃氣輪機的某個地方裝一個感測器。問題是這樣的關係並沒有那麼好找，有些關係也根本不是因果關係。那怎麼辦呢，這個時候大數據就派上用場了。設備的供應商可以通過歷史上的海量的數據，各個地方的壓力溫度流量的數據，利用統計或者什麼別的方法試著找出一些規律。大數據的方法在這裡就起到了「找規律」的作用。

第二點就是「預防」，汽車爆胎這種事情，馬後炮是沒有意義的。司機當然要在爆胎之前就知道他的車「有可能」要爆胎了。電廠也是一樣，出問題快速解決問題當然很好，但是在問題將要發生之前就能預測到並作出相應的對策，從而避免問題的發生豈不是更好。還是上面的例子，燃氣輪機壓氣機葉片一旦斷裂，掃起膛來後果很嚴重的，整台燃機上億的設備很有可能全部報廢。這還不說，對於電廠的經濟損失，對於電網的穩定性，才是更大的問題。如果能夠利用我們上面所找到的規律，在故障要發生之前就提前檢查，提前檢修。那是再好也沒有的了。

GE這兩年在世界上很多地方建數據中心，比如下圖是在亞特蘭大的一張照片。24*7全天候監測GE的設備，對燃機進行全生命周期預測.預知可能出現的故障。並不是最新的數據是，目前有59個國家的500多個電廠有這樣的服務，一共包括1250+燃氣輪機和270+汽輪機。國內的燃機不多，大都是汽輪機和鍋爐。但其實對大數據應用的原理和概念是一樣的。

除了GE Power, 很多設備供應商都有這方面的工作，比如GE或者RR的每一台飛機發動機上都會有與設備供應商之間實時通信的各種感測器。用於檢測設備的運行狀況，盡量提前預報潛在的故障風險。

最後做個廣告~

MyFleet Home

噢對了，對於中國用戶，由於法律法規問題，設備實時監測數據無法同步傳回GE位於海外的大數據分析中心，所以……

想買燃機的請留言價格優惠謝謝。

運營商。

一個省上千萬的用戶，每個用戶有幾百個標籤，深入挖掘用戶消費行為，精準推薦業務，提升公司收入。

換手機：某用戶還用的是3G終端，每個月流量可以用到500M，屬於流量型用戶，2年前參加的優惠活動已經到期，最近2個月ARPU值突然提升，但是用戶不知道去繼續參加優惠活動。公司恰好有存話費免費領4G手機的活動，用戶預存了6個月左右的話費就免費拿到了一台4G手機，每個月需要消費更低了，順便改了4G套餐，套餐內容更多了。用戶只是將分散消費進行了集中投資，利益得到了3倍提升。而運營商也穩定了這位客戶，可以繼續長期為公司貢獻收入了。1000萬用戶里可能有多少這樣的用戶？幾十萬。

買流量：一般的用戶流量用到月底就比較節省，怕流量超出消費過高，市場不希望用戶抑制消費，運營商也一樣希望用戶多消費。於是運營商推出了碎片化的流量產品，5元/天/G，10元/天/3G，等等。但是如何從上千萬用戶里找出最容易訂購這種流量包的用戶？一樣得深入挖掘用戶的流量消費情況。

繼續追加一點與運營商本身業務無關的內容，只是一個設想。5月15號公安部聯合阿里，新浪發布的失蹤兒童緊急信息發布平台，基於丟失兒童位置信息匹配附近微博用戶進行推送，說實話，在城市裡實用性會強些，但是縣以下的地方很多人不用微博，但運營商不存在這個問題，網路用戶遍布全國幾乎每一寸土地，試想一下，人販子拐走小朋友，半個小時內發現報警，拐警立刻向運營商發布信息，三家運營商對前半個小時在失蹤地點半徑100公里內基站登錄過的用戶推送信息，一個小時擴散到200公里，以此類推，連人販子自己都會收到信息，試想一下面臨的壓力。當然，這個只是設想，實際推廣起來會比較困難，但是運營商其實需要改變在群眾中的印象，這些年來通信服務消費飛速發展，但是運營商在媒體曝光中基本是負面的，基站輻射（當然是無知造成害怕）、亂收費、日賺3億等等。說不定這也是個改變形象的機會呢。

我來說一個吧。

我們公司專註於用大數據建模分析技術，幫助客戶喚醒沉睡數據價值，實現數據價值運營。

目前呢，我們的應用領域主要集中在金融、運營商、教育、醫療四個領域。

既然運營商和醫療已經有人說了，我就來說說金融吧。（這麼重要的領域居然還沒人說！╮(╯▽╰)╭）

1.銀行業

銀行可以說是金融領域大數據應用的領頭羊，上圖中的六個業務板塊中，每個版塊都可以藉助大數據來更深入的了解客戶，提升風險管理能力。

以下是一些走在前列的銀行的實踐。（相比之下，國內的銀行在這方面做得實在是不夠啊。。。）

其中，大數據新演算法在風控領域的應用實踐最為豐富，也是目前許多大數據公司的發力點。上世紀80年代，美國FICO公司開發了一系列基於邏輯回歸的信用評分方法，並逐漸成為美國社會個人信用評分的通用標準。而隨著統計分析和大數據建模技術的進步，演算法的發展日新月異，形成了包括決策樹、隨機森林、神經網路分析與AdaBoost等在內的許多新演算法新技術。美國的ZestFinance公司則是利用這些大數據新演算法進行個人信用評分和風險控制的典範。

就國內而言，中國人民銀行徵信中心全面收集企業和個人的信息，系統收錄自然人8.6億多，收錄企業及其他組織近2068萬戶。目前，中國人民銀行徵信中心的信用報告數字解讀體系正是參考了美國個人消費信用評估公司費埃哲開發的FICO信用評分體系。但隨著大數據建模技術和時代的發展，作用逐漸下降，出現了模型老舊、信用分數區分度下降、存在刷分漏洞三方面的問題亟待解決。

為此，中國人民銀行徵信中心聯合北京至信普林科技有限公司，選取了五種大數據新演算法（支持向量機、決策樹、隨機森林、AdaBoost和GBDT），針對解決之前體系的各種問題，對央行徵信中心進行信用評分體系優化，實現了系統穩定性、準確性、業務指示性實現全面提升。

2.保險

相比於銀行，大數據在保險業也大有可為，但步伐卻慢了許多，在國內還停留在戰略想法階段。

3.證券

通過爬取互聯網上的信息進行分析來指導選股的做法在國內外已經有了比較多的嘗試。比如美國的CAYMAN ATLANTIC公司是一家專門基於互聯網數據和Twitter等媒體數據進行投資的資產管理公司。他們通過分析社會媒體信息中的情緒信息來交易金融衍生品，曾近發行了第一隻「Twitter基金」——Derwent Absolute Return Fund並且取得了正收益。

國內的百度百發、淘金100等基金也是典型的大數據基金。

當然，我們呢也正在和國內前十的公募基金——大成基金合作開發一直基於全網的全球資產配置的指數基金，敬請期待。

同時，和銀行、保險業一樣，證券行業也可以藉助大數據分析來進行潛在客戶挖掘、存量客戶經營和優質客戶流失預警。

比如我們和證監會特批的全國資本市場基礎建設和功能性公司——中證信用就正在合作建立資本市場的用戶畫像體系。

4.舉個例子吧

上面說了這麼多，更多的集中在可以怎麼應用。現在來舉個我們實際操作的例子說一說。

該客戶當時是美國某大型P2P借貸平台。平台上的投資人在向特定借款人借款之前，可以查看有關借款人的詳細信用信息。平台也會對借款人進行從A到G的風險評級，A級風險最小，貸款利率最低；G級風險則最大，利率也最高。

當時面臨的問題是？

既有風控模型對借款人壞賬率預測準確率低，壞賬率較高。

普林科技解決方案

對平台 10 萬樣本用戶的歷史數據進行分析，通過用戶的自然人信息、工作住房信息、資產水平、歷史借貸信息等，建立了壞賬率預測模型和用戶分級模型。

根據違約率將用戶分為7個大類，35個小類，並針對不同類別用戶設定不同的借款額度及借款利率。

項目結果

模型在2012年到2014年的數據上測試，同比壞賬率減少39.8%，準確性和穩定性實現全面提升。

邏輯回歸演算法、決策樹演算法、普林科技P演算法在結果準確性上的對比，

P演算法大比重勝出。

相比於Lending Club原有模型，新模型在穩定性上明顯提升。

想了解更多？請聯繫我們，留下您的聯繫方式與困惑，我們的數據科學團隊時刻準備著。

謝 Maggie 姐邀請：）

最近在和 Google 合作，用大數據的方法做一個信息安全相關的項目。至於這個項目具體是做什麼嘛。。因為過兩天要拿去投 paper，所以抱歉暫時不便透露了哈哈。。當然也別急著打我，我簡單講幾個用大數據在信息安全方嚮應用的例子，拋磚引玉吧。

用大數據的方法做信息安全的背景在於，傳統的「見招拆招」的安全措施面對靈活多變的攻擊手段有些捉襟見肘，但各種攻擊手段大多會表現出一定的共性。所以當樣本（malware樣本，server log，traffic pattern 等等）足夠多的時候，只要能正確提取出數據中的feature，就可能找到這些靈活多變的adversary的一些共性行為，以此來作為防禦。

下面結合幾篇論文結說一下：

1. Malware detection （惡意軟體偵測）

惡意軟體偵測除了傳統的對可執行文件進行分析以外，還可以根據其行為進行偵測。比如賽門鐵克（Symantec）搞了一個項目[1]，它的idea就是：你在網上瀏（kan）覽（pian）時下載了一個惡意軟體，它可能會附帶一些無害的文件（比如用於偽裝），這種情況下這些文件和這個惡意軟體的同時出現（co-occurrence）的概率就會比較高。當我們通過傳統的偵測手段發現了這個惡意軟體的時候，和它co-occurrence概率較高的一些文件就會被認為有bad reputation。比如這時你在另一個用戶的電腦上發現了一些同樣的無害的文件，但沒有發現這個惡意軟體，那麼就認為有可能是這個惡意軟體的變種造成的。賽門鐵克通過大量用戶上傳的匿名文件集合（file collection）樣本（1億多台機器上的100多億個文件），對文件進行標記（labeling），訓練出了這樣一個偵測惡意軟體的模型，識別率很高（True Positive在0.99以上），而且能做到比現有技術手段能提前一周識別。

2. 惡意鏈接預測

你在上網的時候很可能遇到過釣魚網站，一般是那種看上去還比較正規但是你一點進去各種被騙輸入密碼或者個人信息的網站，比如我在知乎上也見到過：這封「知乎團隊」的私信可信嗎？ - Sean 的回答，這個釣魚站的域名是zhihuemail dot com，點進去你就上當了。怎樣預測這樣的域名是惡意網站呢？當有用戶舉報上當受騙時候顯然已經晚了，而駭客們也會快速變換域名以躲避偵測。[2] 這篇paper 用大量的DNS記錄， IP地址信息，以及域名管理方（whois）的記錄，來預測一個域名是否是惡意網站。

3. DDoS檢測

DDoS是各個網站都很頭疼的問題，網站流量突然升高，你怎麼知道是真的訪問用戶多了還是駭客通過殭屍網路對你發動的攻擊呢？在這麼多訪問中，你怎麼知道哪個是用戶哪個是殭屍呢？[3]這篇paper 提出用流量包中的source和destination 的地址，埠號，包的類型等作為feature，採用k-NN演算法對其進行分類，來檢測DDoS攻擊。（當然這個模型比較簡單，用於在這裡舉例比較方便，然而實際上魔高一丈DDoS攻擊手段更加多樣性，我懷疑這種相對簡單的方法能不能真正有效）

我作為一個硬體狗，本身並不是搞cybersecurity的，只是因為上課和做項目的緣故稍有了解，舉的例子也多偏學術，還請見諒：）

[1] Tamersoy, Acar, Kevin Roundy, and Duen Horng Chau. "Guilt by association: large scale malware detection by mining file-relation graphs." Proceedings of the 20th ACM SIGKDD international conference on Knowledge Discovery and Data Mining. ACM, 2014.

[2] Ma, Justin, et al. "Beyond blacklists: learning to detect malicious web sites from suspicious URLs." Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2009.

[3] Nguyen, Hoai-Vu, and Yongsun Choi. "Proactive detection of DDoS attacks utilizing k-NN classifier in an Anti-DDoS framework." International Journal of Electrical, Computer, and Systems Engineering 4.4 (2010): 247-252.

做了幾點微小的工作：

1. 基於微博的人脈關係分析

根據微博上人們互相提及（互相@ 的關係，而不是互粉的關係）來推算人與人之間的關係網。我們希望最終能利用這些數據來打造一個新一代不惹人討厭的微博營銷工具。

比如通過周鴻禕的微博關係分析（），可以發現好幾個360的鐵粉。如摩羯_狼摩羯_狼的微博等

還有些有意思的事情，比如老羅的圈子識微互動里，人脈排名最高的不是老羅，而是媒體總監唐拉拉。這也符合公司運營的規律。

想體驗的，直接在這裡用微博註冊即可：識微互動

2. 基於整體微博數據的熱度分析。如微博上的明星熱度

行業熱度

股票熱度還是比較難做的，主要是要區分各種同義詞，判斷一條微博是不是在討論股票等，這裡用了很多機器學習的方法。想了解的可以關注我們的微博蟻坊軟體的微博和技術微博蟻工廠的微博_微博

物聯網的時代已經到來，感測器數量的爆髮式增長帶來海量數據，物聯網將在未來的20年內徹底改變目前的大部分生活方式。最近的五年來至少在工業領域，數據開始發揮作用，高價值的工業設備通過感測器來實現狀態監控，到智能運維。無論是能源互聯網還是工業互聯網都是建立在大數據的基礎上。目前我們已經做到風力發電機在線監控，智能預警，根據氣象預測維修時間/方案推薦，整個流程全部雲上實現。接下來，未來的智能電網，等等，把這場物聯網和數據的結合帶入平常生活，改變整個生活方式。

風控

謝邀！

我要說的這個數據，可能沒那麼大，但也沒那麼小！

我所在的公司主要從事養豬數據的採集和分析的，也就是說，首先要把養豬各個環節（目前主要集中在生產環節）的數據收集和記錄起來，然後根據分析需求而對採集的數據進行處理、計算和呈現，使豬場的生產決策有數據依據。

養豬數據主要有：

繁殖數據：養豬的本質是，利用繁殖母豬生小豬，小豬吃飼料長大後屠宰，屠宰的肉最終被端上老百姓的餐桌。所以，養豬的本質實際上就是，豬生豬，即繁殖。繁殖數據包括公豬采精、母豬配種、妊檢、分娩、斷奶、種豬死淘等等；這些事件數據之間還存在邏輯關聯，比如，母豬配種後就處於懷孕狀態，一般地，母豬懷孕115天左右才會分娩產仔，不可能存在懷孕80天就產仔的情況（參照懷胎十月）；對繁殖數據的分析，可以從中發現影響產能的主要因素，然後進行追溯分析，查明核心原因，進而在生產中進行改正。比如，PSY（每頭母豬每年提供的斷奶仔豬數）是主要的繁殖KPI，如果PSY的結果低於預期（或行業平均水平），就需要從影響PSY的各個因素中進一步分析其主要影響因素，然後在生產中改善這些主要因素，進而提高PSY；

環境類數據：各個豬舍內環境因子的數據，這些數據被用在維持豬舍內環境穩定的控制中；
飼餵設備類數據：物聯網技術的興起，越來越多的豬場已經使用上了自動化的飼餵設備，這些設備不但可以自動送料，還可以記錄投料，甚至會根據預設的飼餵方案對特定豬只、豬群進行飼料投放，這些動作都會產生一系列的數據，這些數據對於靈活調整飼餵計劃都非常有用，能實現按需飼餵、精準投放、減少飼料損耗；
物料消耗：飼料和獸葯疫苗等的消耗，針對的豬群及其生產數據的關聯，使得物料的消耗可被追蹤，效能評估更緊密地與生產結合；
財務類數據：包括人員、資金、賣豬、設備折舊和損耗等等數據，使豬場經營者對於投資回報的關注有了明確的數據支持；
向上下游的數據分享：在整個養豬產業鏈中，養豬場的數據對於上游的飼料、獸葯疫苗供應商，以及下游的生豬收購企業/人員來說，都是有用的。如果能把物料消耗的需求數據分享給上游的供貨商，那麼他們可以提前靈活安排生產，並在恰當的時候把物料送到豬場；如果能把即將上市的豬群的數據分享給下游的生豬收購人員，那麼他們可以提前安排車輛等等，減少等待和運輸損失等等。

目前養豬業正處於結構性調整的階段，散戶和小規模豬場正在退出，大中型規模豬場逐漸成為生產的主力。

當生產達到規模化時，生產數據也就呈現規模化，即所謂的「大數據」。養豬數據分析，對於散戶和小規模豬場是無用的，只有中大規模豬場，它的數據才足夠大，足夠用於分析（即：分析的樣本數量要足夠多，否則會顯著影響計算結果）。

而這些養豬數據的採集和分析，離不開養豬數據管理軟體的支持。

雖然目前國內有很多收費或者免費的豬場數據管理軟體，但從我走訪的眾多豬場的使用情況來看，豬場數據管理的現狀並不樂觀，道理大家都懂，但實際執行起來，總是有各種問題、原因、理由，導致數據採集不能持續，甚至堅持一段時間後不了了之。

究其原因，主要是數據採集環節容易出現中斷。而導致中斷的原因在於，養豬企業一線的實際執行人員，如果流動性大的話，導致經常性地需要進行針對軟體操作的培訓。一旦培訓不到位或者懈怠，就會導致無人進行數據採集。

如果沒有人進行數據採集，那麼管理人員想利用數據進行生產分析，就無從談起了。

所以一款不需要多少培訓、隨時可用、一看就會的豬場數據管理軟體，就很重要了。

希望行業內懂養豬，且懂編程的團隊，能多從這個角度出發，為養豬企業提供足夠簡單、方便、一看就會的豬場數據管理軟體，使豬場的數據採集工具能讓豬場可以持續地進行數據採集，進而享受養豬大數據分析的諸多好處。

以下硬廣：

微豬科技，我們開發了首款基於微信的豬場數據管理系統，有微信就可以隨時隨地進行豬場數據的採集和分析，簡單易用，足夠專業。

傳送門：關注微信公眾號：wepigcn，馬上體驗！

大家說的都很好，我提供另一個方向的例子：

百度有大量的用戶搜索內容的文本數據，數據量夠大吧！

大家猜猜百度是怎麼處理這些文本數據的？

聯繫外包公司&>數據扔過去&>外包公司僱傭實習生&>實習生80元/天&>人工閱讀文本&>手動打標籤&>數據回傳&>百度大數據實驗室

這個是去年的事情了，今年說不定技術革新，大家都不再這麼幹了！

僅供參考，不一定對哈！

大數據現在做徵信倒是一個很不錯的方向，什麼水電煤啊、電商運營商啊、社交數據啊、媒體瀏覽數據啊......拿來做邏輯回歸還是不錯的！

大數據是個方向，很有前景，只是那些打廣告的看著有些浮誇！

用機器學習做化學/材料科研。

絕大部分化學磚工們都要在實驗室接觸到一種工作——化學合成。合成實驗的工作高度乏味，在沒有成熟合成方法的情況下，嘗試大量的反應條件去做出想要合成的物質。一個從合成新物質開始的的研究課題，在合成的嘗試階段，工作量也是巨大的。我的導師曾經要求他剛開題的研究生："你一周要做一百個反應「。隨著信息技術的飛速發展，能否通過計算機技術讓科研工作者們少一點體力勞動，多一點科學思考？人工智慧都能下圍棋了，能不能讓人工智慧幫我們篩反應條件呢？

現在，機器學習讓我們看到了一線希望。

今年(2016)年5月9號的Nature雜誌刊登了封面文章：

Machine-learning-assisted materials discovery using failed experiments (基於失敗反應的機器學習輔助材料設計)

這篇文章處理的是無機化學中最經典的反應體系——溶劑熱法合成。

簡單來說，就是把反應原料溶解到溶劑里，裝進反應瓶，施加一定的溫度和壓力靜置數小時到數天，打開瓶子產物就做出來了。我自己所處的實驗室，每天進行最多的也是這種溶劑熱合成的反應。

這類反應會有如下的一些結果：

什麼固體都沒有
非晶態的固體
多晶
單晶

簡單解釋下。水熱法合成最常見的結果就是：長不出來(1)。打開瓶子發現還是溶液。有時候我們能發現，瓶子裡面有固體產生了，這時候會首先去用PXRD(粉末X射線衍射)測定固體的結構。如果衍射圖譜中沒有峰，那麼得到的就是非晶態的物質(2)，一般認為，做不出晶體的反應也是失敗的。如果衍射圖譜中發現了峰，那麼基本上就算是反應成功了，做出了粉末狀多晶(3)。有時候會更幸運，發現反應瓶中出現了大顆的完整晶體(4)，就可以把整塊晶體去做SXRD(單晶X射線衍射)實驗，直接得到晶體的結構。

而在一個反應體系中，我們能控制的就是反應物，溫度、壓力，pH之類的一系列條件。所以，溶劑熱合成本質上是這樣一個問題：

給定若干個反應條件變數作為輸入，預測這些輸入所可能產生的若干個給定的結果。

而這在機器學習中恰好就是一個分類問題。

於是，這篇文章的作者們使用分子性質的資料庫，把反應物參數化，然後使用一個SVM(支持向量機)對反應數據集進行處理，再把SVM得到的結果轉化成決策樹，以便於直觀理解：

圖片來源/原文地址：http://www.nature.com/nature/journal/v533/n7601/full/nature17439.html
(圖中的1，2，3，4和上文對應)

通過機器學習得到的分類結論，可以幫助化學家們找到最合適的合成條件，而從這些合成條件中又能誕生出新的化學原理。

而機器學習的另一個強大能力是：預測。

我們每去嘗試一個條件，都希望這個條件能得到產物的可能性最大。而這篇文章的研究發現，用機器學習優化出的反應條件合成的成功率，甚至高於化學家們基於經驗確定的條件。

於是基於這些結果，研究者們得到了以下結論(中文為自翻)：

Our machine-learning approach allows us to exploit chemical information contained in historical reactions and to elucidate the factors governing reaction outcome. The prediction accuracy of the model for previously untested organic amines surpassed the outcomes achieved using the chemical intuition built over many years. In addition, our approach reveals chemical principles governing reaction outcome in the form of testable hypotheses. The ability to make new compounds more successfully and to derive useful chemical information represents a transformative step forwards in exploratory reactions.
我們的機器學習方法讓我們能夠充分利用歷史反應的化學信息，從而得到主導反應結果的因素。這個模型對以前未嘗試過的有機胺(本文所研究反應的反應物之一，充當合成的模板分子)合成結果的預測準確率，超過了多年積累的化學直覺。另外，我們的方法以可檢驗假說的形式揭示了主導反應結果的化學原理。(機器學習)更成功地合成新化合物，並得出有用的化學信息的能力，代表著探索化學反應的翻天覆地的一步。

最後，有表達不妥之處請在評論區指出，答主會及時修改。

大數據案例：

一、機票數據採集系統應用案例

基於大數據的理論，機票數據採集系統的軟體架構應該是從這三方面來研發的：左邊是大量的數據源，中間是大數據平台，後邊是對大數據分析處理以後的用途歸屬。

提供機票數據源的平台很多，包括像攜程、去哪兒、藝龍這樣的平台，到各個航空公司自己的官網，都可以源源不斷的提供實時的機票數據，將這些機票數據彙集在一起，形成一個數據池。

中間的大數據平台是機票數據採集系統的核心，大數據平台將數據池中的數據結構化以後，提供給項目作任何維度的分析和研究，查詢和檢索，同時根據機票數據採集系統的業務邏輯進行篩選。

當有了大數據平台以後，我們就可以將結構化的數據分發到不同的終端，這種終端可以是公司自有的APP、網站或者微信公共號，也可以是公司的第三方分銷平台，如通過攜程API上傳到攜程分銷商，通過阿里開發結構對接到阿里旅行。

機票數據是一種實時性要求很高的網路數據，同時機票採集數據的用途也很多，數據採集的量也會相應增加。

機票數據採集系統的核心目的是通過採集［去哪兒］數據源的機票實時價格信息，動態分析出需要的價格內容，並上傳到［攜程API］。以下的內容是針對機票數據採集系統策劃方案的詳細介紹。

1. 採集去哪兒數據（多線程實時採集）

2. 大數據平台管理系統實現

3. 開發攜程API介面，上傳數據

1. 採集去哪兒網站機票信息

1.1. 多線程處理：預計開設300-400條線程，每台伺服器至少保證每台伺服器能運行100個線程。

1.2. 數據更新必須及時且準確，速度以上海為例，循環上海出港到國內所有城市時間一圈不能超過20分鐘。

1.3. 實現自動化採集，不用人工參與，後台可以人工設置採集城市，採集參數。

2. 大數據平台管理系統實現

2.1 構建一個實時大數據分析平台，可以在上面按照各種查詢條件分類、篩選出需要的航班機票。

2.2 一個數據採集前端隊列界面，可以直觀的看到目前數據採集的情況，成功的條數，失敗的條數，失敗的原因，真正排隊的任務等。

3. 上傳到攜程API

3.1 學習最新版本的攜程API介面，開發上傳介面。

3.2 完成機票資源共享平台的對接。

二、精準扶貧大數據應用案例

什麼是精準扶貧大數據

通過對數據的提取分析，「扶貧大平台」還能展示貧困人口的致貧原因，包括：因病、因殘、因學、因災、缺土地、缺水、缺技術、缺勞力、缺資金、交通條件落後、自身發展動力不足等，通過致貧原因分析，協助制定精準的扶貧措施。

系統數據顯示，致貧原因前三位為缺資金、缺技術和因學致貧，分別佔比為30.0%、17.2%和14.7%。

平台旨在通過大數據技術，擴大信息採集的渠道，提高數據加工能力和效率，深度挖掘數據的價值，為扶貧工作提供真實可靠、及時全面的決策數據，為最終實現精準扶貧和精準脫貧保駕護航。

精準識別的目的是為了精準幫扶脫貧。

「通過大數據技術，掌握貧困人口信息、致貧原因等後，我們將圍繞幫扶結對情況、幫扶計劃制定、幫扶計劃落實情況、幫扶措施情況，針對省、市州、縣、鎮、村，分別監測結對、幫扶計劃、幫扶項目落實情況，識別出已落實、未落實的貧困人口分布，關聯顯示幫扶的人或單位等相關信息。通過幫扶情況分析，清晰了解省、市州、縣、鎮、村貧困人口的實際幫扶情況，協助幫扶任務的落實。

大數據扶貧能做什麼

1、精準幫扶對象

對貧困村、貧困戶建檔立卡，統一識別標準、統一數據口徑，動態掌握基本信息，推行扶貧對象實名制管理。

2、精準幫扶措施

針對貧困戶致貧原因詳細記錄，並分析統計戶詳細狀況，制定精準幫扶計劃精準扶貧。

3、因村精準派人

針對每個貧困村致貧的不同情況，選擇抽調相關幫扶責任人進行精準扶貧。

4、精準項目安排

分析貧困戶的能力需求，大力發展林業、牧業、養殖業、種植業等項目，進行精準扶貧安排。

5、精準資金使用

「因地施策」，根據貧困村的具體情況，在交通、通信、醫療、教育、居住等方面實現精準資金投放。

6、精準脫貧成效

「對症下藥，藥到病除」，多措並舉達到扶貧目的，取得精準脫貧成效。

為什麼要做大數據扶貧

引入大數據技術，有利於「識真貧」。去年10月起，全區抽調25萬名幹部深入細緻開展新一輪精準識別行動，採集了大量貧困信息，為扶貧決策提供了重要依據和參考。然而，由於貧困具有多維度、複雜性、動態性的特點，究竟誰是貧困戶，辨識起來難度很大、費時費力。如果能應用大數據技術，打破地區、部門之間「信息孤島」，讓分散在不同地區和部門的碎片化信息「牽手」、聯網，就「不畏浮雲遮望眼」。通過構建大數據扶貧系統和服務平台，實施數據對比分析與綜合評估，能減少人為因素的影響和失誤，把真正貧困的篩選出來，把不符合條件的「踢」出去。

依託大數據技術，有益於「扶真貧」。為了啃下「硬骨頭」，各級政府加大了對扶貧開發的投入和支持力度，意味著更多真金白銀將投向貧困地區和貧困人口。然而，項目怎麼定，才夠科學？資金如何用，方為合理？工作怎麼做，才更有效？後續保障和配套措施需要及時跟上。依託大數據技術，對扶貧數據進行實時觀測、動態監測和分析研判，既能找准脫貧的主體、重點和關鍵，也能確保扶貧項目科學合理、精準到位，有利於最大限度發揮扶貧資金的使用效益，把寶貴資源精準投放到真正的貧困戶身上。

利用大數據技術，有助於「真扶貧」。一些地方「年年扶貧年年貧」，扶貧工作總是「濤聲依舊」，除了方法不準、創新不足、措施乏力之外，與磨洋工、做虛工、唱空文的不良作風大有關係。要拔掉「窮根」，就要對準靶心、精確滴灌、使出實招。利用大數據技術，能夠對貧困人口的分布狀況、致貧原因、幫扶情況、脫貧進度等做到精準把握。一方面，能準確掌握扶貧項目的效益和發揮作用情況，以便及時調整政策，避免項目失誤和資金浪費。另一方面，可以清楚地查看到每個貧困對象的幫扶幹部是誰、做了哪些工作、工作到位與否、任務落實如何，實現脫貧過程可視化、數字化和動態化管理。同時，依託大數據，還可以為貧困地區提供信息服務，以便當地政府因地制宜、分類施策、因人而異發展產業、對接幫扶，確保脫貧取得實效。

探碼大數據平台優勢

1.平台大數據精準管理。集精準幫扶對象、精準幫扶措施、精準幫扶責任人、精準項目實施、精準資金應用、精準脫貧成效為一體。

2.多平台支持。提供WEB端、移動終端、微信平台等多平台應用。

3.動態圖表大數據展示。提供列表、圖形、柱狀圖等動態數據分析功能。

4.多技術手段。省、市、縣、鄉、村五級用戶信息同步，雲技術數據存儲展示、分析統計。

5.提供貧困戶、村扶貧動態圖片展示。

6.實時全面的系統用戶、角色、機構動態管理，用戶分包聯動協作。

7.支持個性化定製，針對各地不同政策需求量身定製。

探碼大數據平台特色

1、動態大數據云存儲

建立精準扶貧大資料庫，做到底數清、問題清、任務清、對策清、責任清，數據準確、管理規範。

2、隨時查看幫扶對象信息

可通過電腦、筆記本、平板電腦、手機等多路徑方式對貧困戶的基礎數據、幫扶動態情況、影像等資料進行查看和採集錄入。

3、貧困信息雲定位

可在平面地圖和衛星雲圖上精準定位貧困戶的地理位置並查看貧困戶詳細幫扶信息。

4、大數據動態統計分析

多角度統計分析貧困戶的數據情況，從戶級、村級、縣級數據結構分類別、分程度展示，並通過時間軸同比環比形式對比展示扶貧成效。

互聯網黑產中的掃號，窮舉爆破，刷單，薅羊毛，這不都是大數據嘛

瀉藥！我又來給我們廠義務做廣告啦！

我們廠 Splunk 做的就是大數據分析軟體。要說我們的應用，還得從整個大數據技術說起。大數據技術主要分為以下及部分：

數據導入
數據處理
數據分析
數據可視化

我們廠的核心產品 Splunk Enterprise主要做的就是日誌數據的導入和處理。這幾年慢慢在此平台上發展出了一系列面向企業的大數據處理解決方案。

大數據技術的應用場景大概是這樣的：伺服器群生成了各種日誌和數據。這些數據里蘊藏了豐富的寶藏，比如哪個產品賣得好，什麼樣的客戶喜歡花錢，系統啥時候遭受了黑客攻擊等等。

如何從已有數據中挖掘出有用信息涉及到以上四個流程：首先，數據應該被匯總到統一的位置。這種級別的信息管理員手動複製粘貼已經沒辦法應付，於是我們需要有程序能夠自動收集數據。收集好了就要開始處理啦。比如以下日誌：

Sep 29 22:50:35.511: ISAKMP: New peer created peer = 0x64C0EF54 peer_handle = 0

用戶希望知道：

時間：Sep 29 22:50:35.511

事件：New peer created

peer: 0x64C0EF54

peer_handle ：0

這就需要系統能夠自動提取每個日誌的屬性。此步驟的學名叫 field-extraction，每個field 分為field name 和 field value

只處理同一格式的日誌沒有什麼問題，難點在於如何讓你的大數據系統同時，快速處理不同格式的日誌。數據整理是一個臟活累活。但是沒有它還不行，因為它是以後一切對於的數據處理的基礎。假設你有個牛逼無比的機器學習模型，想讓它工作的前提是提供給他的數據是正確的。

俺們廠的解決方案就是 Splunk forwarder。

假設數據已經被完美地整理好了，我們下面就可以搞一些牛逼的分析了。比如你想預測某個產品下個月的銷量如何，妥！你把歷史銷量和一些相關參數拿出來訓練一個預測模型；比如你想知道線上網站流量從哪來，妥！你可以把所有訪問網站的ip地址拿來統計一下排個序畫個圖啥的。。。

等等，到這兒不是只對每一個日誌進行解析了嗎，我怎麼能得到所有ip地址？難道把解析好的結果放到資料庫里然後做個 select IP from ip_address？

俺們廠的辦法就是Google... 哦不不不，我是說我們像google一樣做搜索引擎。不過俺們不造網路搜索引擎。俺們造的是日誌的搜索引擎。

關於網路搜索引擎是啥，請看這裡：

搜索引擎的工作原理是什麼？ - 雷博的回答

日誌搜索也需要建立索引。於是俺們就有Splunk Indexer干這個。

數據從被收集到索引建立大致流程，放個圖給大夥看看：

原圖地址在這裡： How indexing works

終於可以進行搜索啦！

通過關鍵詞搜索？

俺們當然支持關鍵詞啦，不過對於日誌只用關鍵詞搜索沒啥太大意思。

用戶要看的是分析結果！

俺們的搜索不僅可以通過關鍵字，還可以通過日誌屬性搜索，比如：

search ip=1.2.3.4

搜索結果是所有滿足ip地址是1.2.3.4的日誌。干看成千上萬條日誌是看不出啥的。我們可以做這樣：

search ip=1.2.3.4 | stats count

數數有多少日誌符合此條件；

可以這樣：

search product="XXX" | top location

看看購買XXX產品最多的地方是哪。關於XXX是啥請大家自行發揮想像。

還可以這樣：

action=purchase | timechart per_hour(price) by productName

看看每個小時每個產品的賣了多少錢。還有好多牛逼的用法我也不知道了，感興趣的請看這裡俺們廠的搜索命令： Commands by category

下面說俺們拿它做什麼。

Splunk Enterprise本身就是一個平台，可以幫助企業分析他們的數據，挖掘出有價值的信息。除此之外，利用此平台還可以做一件非常重要的事情：安全檢測。

別的不說，我們組現在就在做這個。俺們有個炫(zhuang)酷(bi)的名字叫User Behavior Analitics，通俗一些就是分析企業系統中跟安全有關的日誌，訓練機器學習模型，然後檢測IT系統中的安全異常。

我們通過上述大數據技術對日誌進行處理後，追蹤用戶，設備的活動歷史並訓練模型。通過監控日誌實施檢測異常並報警。關於數據處理流程上邊已經說了，怎麼訓練模型就是機密啦（咳咳，其實我剛來這個組也不是很清楚）。。。

個人感覺企業級安全領域現在在國內可能還不是非常成熟，今後肯定會特別火。有興趣的可以留意一下此領域。

先說這麼多吧。

我司作為一個專業的大數據服務提供商，提供的大數據服務和應用有搜索系統、推薦系統、文本挖掘系統、數據採集系統。

底層的大數據框架採用業界較為成熟的hadoop+spark作為底層的大數據基礎機構，真正做到大數據存儲、分析、挖掘一體化，持續為客戶提供saas服務。

現在我簡單介紹一下我們公司的各個大數據的實際應用情況。

推薦系統已經成功為國內多家多媒體平台、小說網站以及電商網站提供推薦服務，大大提高了各站點的用戶滯留時間、用戶留存率、用戶付費率等關鍵指標。我們的推薦系統採用三層架構（offline
earlineonline）以及業界流行的協同過濾方法（user_cfitem_cfsvd），來精準提供個性化推薦服務。

搜索系統採用雲部署的方式，客戶可以以較小的成本接入以及獲得更穩定的服務，我們在對solr進行深度理解和重構，包括嵌入我們自己的分詞模塊，大大提高分詞的準確率，利用點擊模型來優化搜索排序功能等等。

文本挖掘系統提供文本標籤提取、文本分類、文本審核（涉黃涉政）、垃圾評論過濾等功能，比如我們的文本分類模型通過我們自己實時採集的數百萬互聯網上的文章作為語料庫作為訓練樣本訓練而成，無論是準確率和召回率都遠高於其他類似產品。

數據採集系統每日持續從互聯網採集大量公開信息，不僅提供數據對外介面幫助客戶拓展數據源，而且也是內部多個大數據系統重要的數據來源。

以上只是簡單的介紹了我們公司的重要的數據服務和產品，感興趣的可以進一步登錄我們的官網（達觀數據科技-企業大數據技術服務專家）了解。