在你工作或熟悉的領域中,有哪些和大數據有關的應用值得分享?

如今大數據是很熱的話題,很多人認為大數據很有潛力,原因至少有二:一、海量數據因為電子時代正應運而生。二、數據收集整理分析工作變得越來越容易。我想聽聽各位介紹一下,在自己的工作或者熟悉的領域中有哪些大數據的應用,或者看到了哪些大數據應用的潛質。

可以談談理論——大數據有哪些理論指引、機器學習這門學科的前途和應用;也可以談談操作——流行軟體、行業性質、等等。

如果您對大數據不是很熟悉又感好奇的話,可點擊這裡閱讀 HBR 的大數據中心介紹:http://blogs.hbr.org/hbr/hbreditors/2012/09/welcome_to_hbrs_big_data_insig.html


我所在的公司是Zynga, 是社交遊戲的開發者,在我們的應用場景中其實和很多社交媒體一樣,是希望通過對用戶的行為分析來改進我們的遊戲,使其更好玩。

公司Analytics的VP 2010年在TDWI上的一個演講可能說的更清楚一些,有興趣的可以看下:

http://tdwi.org/videos/2010/08/actionable-analytics-at-zynga-leveraging-big-data-to-make-online-games-more-fun-and-social.aspx

裡面提到可以用來指導執行的數據分析,用科學和藝術結合的方式,更好的衡量好玩,並指導我們去做。

所以數據有幾個階段,

1, reporting 報告,能看到歷史的數據

2, analysis 分析,能思考為什麼產生了這樣的報告

3, action 執行,通過這樣的分析我們能做什麼

4, data driven culture 數據驅動的文化,我們的戰略和思路和很多方面都會更主動的去想是否能報告數據,分析和帶來執行

所以我覺得這一兩年來大家把「大數據」作為一個領域拎出來單獨看,是因為這個行業發展到了3到4這樣的階段,大家有這樣的需要把很多理論,實踐,方法,工具,人才更好的組織起來讓這個領域發揮更大的作用。

如果從領域上去更細分的話,那可以分為:

1,Infrastructure 基礎架構

2,Data mining and algorithm 數據挖掘和演算法

3,visualization 可視化

4,Analysis and application 分析和應用

每一個細分領域又有很多有趣的東東,歡迎大家更多的交流和討論。


簡短版:

有。在我看來,大數據除了「數據量大」,更重要的特徵是「非結構化」。「非結構化」更多體現是基於內容的文本、音頻、視頻。作為普通用戶,最容易獲知這些非結構化信息就是社交媒體搜索,包括微博、知乎、視頻網站,等等,以及我以前很喜歡用 Google Blog Search。

通過這類社交媒體或網路應用上的信息檢索,我能夠迅速找到自己需要的信息。這是搜索引擎所帶不來的。

我所說的,未必嚴格符合「大數據」的定義,也非企業級應用,而只是我個人使用習慣上的「小大數據」,但通過這樣的低成本、簡易的數據挖掘,我作為一個拿著平板的用戶,也可以迅速獲知數字所難以帶來的信息。

——————————

之前女友單位要求交《大數據》(不推薦)讀後感稿,我剛有讀那本書的意願,因此就「大數據」主題寫過一篇八股。也有一些淺薄的思考與愚見。

這是我通過資料整合,對大數據的理解:

商業智慧(Business Intelligence)通常代表著將企業現有的數據轉化為知識的概念、方法、過程和軟體,以幫助企業提高經營決策能力與提高決策效率,數據挖掘(Data Mining)等各種商業智慧相關的技術也逐漸得到應用。

然而,企業數據的增長隨著此類技術的廣泛應用逐漸失去了控制,甚至對業務、對運營造成了影響,這使得企業開始尋求新的方法解決大量數據無法存儲和計算的問題。由此,大數據(Big Data)概念應運而生。大數據指無法在一定時間內用常規軟體對進行收集、管理和處理的數據的集合。通常情況下,大數據可分成3種類型:

1. 結構化數據,結構化數據能夠存儲在資料庫里,可以用二維表結構來實現的數據,市場上多種資料庫管理可以進行此類數據的分析和研究;

2. 半結構化數據,包括電子郵件、文文件,以及許多存儲在網路上的信息。半結構化數據是基於內容的,可以被搜索;

3. 非結構化數據,包括圖像、音頻和視頻等可被感知的信息

現在,大部分企業通過 BI 抓取的數據,大部分仍是結構化數據。而「大數據」浪潮所強調的更多是半結構化甚至是非結構化數據,對半結構化甚至是非結構化數據歸納、分析(或轉化為一種形式的結構化),是「大數據」的重點。

「大數據」之「大」,更多的意義在於:人類可分析和使用的數據在大量增加,通過這些數據的交換、整合和分析,人類可以發現新知識,創造新價值,帶來「大知識」、 「 大科技 」 、 「 大利潤 」 和 「 大發展 」 。而日常存儲的、未進行深度分析的海量數據,則是「大數據」應用的核心,而這些數據的主要來源之一,是社交媒體。

數據平台(各類輸入與輸出工具)記錄下用戶的種種行為,尤其是互聯網基於社交的數據記錄,若能利用,這將能夠幫助分析者發現用戶行為的規律和變化,通過洞察趨勢發現新的商業模式,從而拓展客戶規模、精準客戶匹配、提升資源適配、提高風控能力、降低運營成本。

Facebook、Twitter 的盈利潛力正在於此。

——————————

我個人的「小大數據」實例:

1. 德勤廣告

我在 9 月 18 日看見知乎問題「有哪些很低調卻對大家生活舉足輕重的企業?」http://www.zhihu.com/question/20415113/answer/15070990 中 @張權臻 在評論中回答「華為、四大、國電哪裡低調了?」中說「從對公眾不打廣告。四大是不允許。」

我覺得不妥,我印象中德勤在上海地鐵打過廣告,後面與 @張權臻 在評論中有了一些對話。為佐證,以關鍵詞「德勤 上海 地鐵 廣告」在 Google 進行搜索,未果。(剛試了一下發現有了,但當時的確沒找到,而且現在能搜索出來的,是開心網用戶轉微博用戶的,還是社交媒體信息。)

之後,在新浪微博搜索,一下子就出來了。

2. 口碑

現在購物,我一般不依賴媒體信息,也很少在搜索引擎進行檢索,因為虛假信息太多。

我現在的做法是,在微博上進行關鍵詞檢索,一般而言能搜索到很多用戶購買和使用某產品的相關信息,驗偽也比較容易,看一下發過的微博等就知道是否「殭屍粉」或「托」。

一般,翻個幾頁,就能獲取到幾十條真實用戶的產品使用信息,可以幫助我作購買決策。

而我去接觸新的客戶,或需要從另一角度了解,我也會進行社交搜索,看看裡面的員工是怎樣的,對公司有怎樣的評價。

這是我個人經驗,我戲稱為「小大數據」。


其實問題說明中的兩點,我都不能同意:

一、海量數據因為電子時代正應運而生。

二、數據收集整理分析工作變得越來越容易。

首先,海量數據不是因為電子時代的到來才產生,而是早已有之。只是互聯網時代由於分享越發便捷,而使得數據的增長量高於從前。與此同時,數據的收集或許變得容易,但我在工作中的感覺,對數據的分析實際上變得原來越困難。

舉個例子,微軟的 Lync 在支持語音通話的同時,也通過Lync收集每一個電話的通信質量信息。當Lync被部署到十萬人規模的跨國公司時,假定平均每個人每天打五個電話,那麼每天都會生成五十萬筆數據。哪怕每一筆數據只保存大約100K的紀錄,那麼每天也有接近50G的數據生成。這個數據量也許和Google這種大鱷不能比,但如果用我們如今常見的500G標配硬碟存儲,一塊也就夠用10天而已,也不算小了。

為什麼數據分析很困難?原因很複雜,對我們的工作場景來說至少有兩個主要原因:

  1. 有效的結論可能需要對多組數據相互索引和分析才能得到。為什麼?因為現實環境是複雜的。譬如某次電話通話質量特別差,原因可能是網路問題,可能是用戶主機上負載太高,可能是我們的語音處理演算法有錯誤。我們的數據還沒有智能到能直接給出上面三個結論的一個,只能對多組數據進行綜合比較才能給出一個結論,比如丟包率、包傳輸時延(RTT,jitter)、語音數據包的丟棄比率等。這比追蹤單個數據來分析趨勢要複雜得多。
  2. 數據來源可能並不直接。為什麼?因為產品必須服從於很多非技術因素。譬如,當用戶抱怨通話質量很差時,如果能錄下用戶的聲音會給分析帶來很大的方便。但是,我們偏偏不能允許錄音,因為這樣有暴露用戶隱私的危險。這種時候,我們能做的只能是通過一些相關但無害的數據推斷當時發生的問題。這樣做必然降低數據分析的效率,但我們別無選擇。

到現在為止,我們仍然不得不大量藉助人工分析才能得出結論。毫無疑問,人工分析的時間消耗和數據生成的數量根本不成比例。為了解決這個問題,我們一直在投入大量的時間和精力試圖進行一定的自動數據分析。很遺憾,到目前為止我們尚未找到一個完美的解決方案。


大數據、數據挖掘、雲計算、ML、SAAS等等等等這些眼花繚亂的概念,只是為了說明一個問題,好好分析、認真研究就能得到有用的東西。

堆砌概念只是為了更好的銷售自己的產品同時鄙視新人的無知抬高自己的身價。

隨著桌面計算能力的提升,數據挖掘也到了我們身邊,可以提供很多有趣的八卦案例。不過這個會很快和隱私權糾結在一起,看一個合理的尺度吧。

對於遊戲行業,我們會仔細分析付費用戶的行為軌跡,試圖找出更多的用戶集群。


言必談社交網路,言必談用戶數據,真的是數據越大隱私越小...在網上幹什麼都能被分析下賣給別人,我這樣宅家裡亂上網真的有價值么,真的對社會/科技進步有價值么...

說一點不一樣的,不知道算不算大數據。

在從事的金融行業里,不是很懂非結構化,但最終你也得想辦法把非結構化的東西加上結構化的信息才有用吧。我只是想好比好多法律合同的scan copy不加上機器可讀的信息怎麼被搜索呢。

非結構化的數據面對不同的對象處理的技術太不一樣了,不好一概說吧,但中心思想應該都是如何快速及首先加上可被搜索的信息。

此外就是結構化數據的複雜度和數據量

google finance的Bigtable應該是業內一標杆 http://stackoverflow.com/questions/362956/what-database-does-google-use

投行裡面有自己的資料庫但是技術上肯定沒有那麼高端的,倒是交易所的low latency extreme high volume 的數據算不算大數據?數據量是大但是可能複雜度不高。

bloomberg的資料庫應該更大但用什麼樣的技術不知道,但肯定不是bigtable之類的,它有很明顯的結構化特徵而且這麼多年來一直保持著驚為天人的數據訪問速度。所以大數據你首先問是不是真的需要,傳統的方法真的不能幹么,不要搞一個噱頭,大部分看到的都是一個口號的東西,你的東西並沒有那麼複雜,只是你不知道怎麼樣用已有的技術去管理罷了。我覺得寫一個成功的機器學習的預測價格的複雜度應該比預測客戶可能感興趣的東西或是潛在的銷售增長大一點吧。

所以還是那句話,我覺得自己的金融行業里數據更複雜,確很少說道BIG DATA,而不那麼複雜的那些行業一直在說,感覺噱頭而已。


大數據帶來的最嚴重問題莫過於怎樣高效的的建模和處理。

就舉個具體例子吧,SAP公司(一家國際領先的ERP系統公司)近兩年推的SAP HANA資料庫技術,採用內存計算(取數和運算都在內存完成)和列存儲,大幅提高數據處理時間。

國內比較成功又出名的案例應該算是農夫山泉實施的SAP HANA,據說計算效率(非總體效率)提高了上萬倍,這是個什麼概念呢?就是有天老總要看採用大量實時數據生成的報表,傳統方式數據處理需要等上半小時,HANA處理只需幾十秒,而且還能結合一些BI系統生成各種絢麗奪目的報表。

就ERP行業來說,技術上基本已經到達瓶頸,難以有所突破,全靠行業內最佳實踐來吃飯,而SAP HANA很可能會把ERP帶上一個新的高度。


繼深藍以後,IBM的新一代電腦Watson。隨著大數據的研究熱潮,Watson將在智能醫療領域快速發展,商業化趨勢即將來臨。

IBM Watson

"IBM Watson + Data analytics": a big data analytics approach for a learning healthcare system


UC Berkeley2012下學期課程《Analyzing Big Data with Twitter》

http://geektell.com/story/analyzing-big-data-with-twitter/ 可以看一下


以旅遊行業為例,可以挖掘客人的很多行為,預訂習慣、出行習慣,產品價格總結,繼而可以作出預測,指向性的產品和營銷。這些都是結構化的數據。

非結構化的數據是關於客人的電話預訂


推薦閱讀:

80%的人辦了健身卡,一年去不到十次,健身房就是賺這些人的錢?問:在下面詳細
有哪些很「奇怪」但是大賣的產品?
三星為何要以 80 億美元現金收購音響設備和汽車零部件供應商 哈曼Harman?會帶來哪些影響?
如果你掌握了治療癌症的秘方,如何做才能成為中國首富?
有哪些民用和商用的品牌和技術最初是用於工業用途的?

TAG:互聯網 | 數據挖掘 | 商業 | 數據分析 | 大數據 |