《大數據導論》讀書筆記——Chapter 1
去年買的書,從通信轉到大數據行業,其實一直挺心虛的,特別想要踏踏實實把它讀下來,補補基礎。覺得國內的各種譯本可能會不那麼準確的傳遞一些信息,畢竟不同語言之間對應的精準程度有限,就心血來潮下單了這本英文版,書架上擱置了將近三個月,感謝搬家的師傅幫我把它從院里的小白樓搬到了院外的寫字樓,終於有想要看看它的衝動了。看了幾頁便有醍醐灌頂酣暢淋漓的感覺,忍不住要整理出讀書筆記,一章一章發布在這裡,算是一種對自己的督促(暫時還不確信我能不能堅持看完),也算是一種分享吧,希望得到師長和朋友們更多的指正與批評,有時候批評這種東西也是千金難求的,在此深深謝過。
第一章主要是理清一些概念和術語。
1. Data Analysis vs. Data Analytics:
書中原文:
Data analytics is a broader term that encompasses data analysis.按原文理解,後者是比前者更加寬泛的概念,到網上查了一下相關的說明,得出這樣的解釋:
(http://www.linkedin.com/pulse/data-analysis-vs-analytics-matthew-rosendin)
從字面上看,前者是後者的一部分,前者是一種技能,後者是一項遊戲,而這項遊戲包括數學、統計與計算等相關活動。
用中華文化來理解,analysis是術,analytics是道,analysis是方法,analytics是方法論。
2. Four General Categories of Data Analytics
很喜歡書中的這張圖,清晰,簡潔。繼續用中華文化來理解,左邊那個箭頭Value表示由下往上,就可以嘗試從「事後諸葛亮」變成「事前諸葛亮」,同樣的右邊那個箭頭,表示想要變成「事前諸葛亮」需要付出越來越大的複雜性作為代價。
1)Descriptive Analysis:(描述性分析)
用於回答已經發生的事件相關的問題,通常用reports或dashboard的方式。
2)Diagnostic Analysis:(診斷性分析)
用於分析已經發生的事件背後的原因,個人理解,Descriptive Analysis更加關注過去的信息的總覽或概述,是一個general的過程,當然其中也有相關細節,但目的性不是很強。Diagnostic Analysis更加關注問題與現象,是一個particular的過程,偏重於尋找事件或現象出現的原因,目的性較強,通常用drill-down或者roll-up的方式。
3)Predictive Analytics:(預測性分析)
用於嘗試確定未來可能發生的某一事件的結果。需要model的支撐,而在使用model時,要重點關注建立這個model的前提條件,當前提條件變化時,模型需要be updated。原文指出Predictive Analytics需要比Descriptive Analysis和Diagnostic Analysis更加先進的skillset,專門查了這個詞,它好像不僅僅是指a set of skills,還有某方面的特指,即是「以結果為導向」發現並解決問題,基本屬於「逆向」的或者說「自上而下」式的思維。也就是說這個Predictive Analytics的目的性也很強,是以結果為導向。同時,原文指出Predictive Analytics要提供用戶友好的終端介面,個人理解這種描述更加簡單粗暴的表達了「以結果為導向」的「目的性」。
4)Prescriptive Analytics:(規範性分析)
原文指出,它是建立在Predictive Analytics的結果上的,用於規範應該採取的行動,不僅僅關注應該採取哪種規範的手段,也關注為何如此。這同樣是一種目的性較強的分析方法,用於增強優勢或減少風險。這四種方法中,Prescriptive Analytics需要最強的skillset,這裡提到skillset包括專業的software或tools。這種分析有explanatory轉到advisory,並包括多種場景的模擬。
3. Business Intelligence(BI):
原文:BI enables an organization to gain insight into the performance of an enterprise by analyzing data generated by its business processes and information systems.這個目的性更強了,打個比方,BI是做飯,上面的那些分析方法就是煎炒烹炸,用戶是顧客,分析員是廚師,為什麼說目的性強?因為顧客想品嘗美味。(吃貨只能想到這些,供你們批評)
結合自己僅有的一些可視化知識的皮毛,現在市面上很多工具(此處屏蔽廣告若干),都是一種敏捷BI,傳統的BI是一個較為龐大的系統,敏捷BI更加以結果為導向,簡單粗暴直接得出顧客想吃的東西。
4.關於那些個「V」
跟微博里的大「V」一樣,不刷過幾個他們的主頁,就不能說玩兒過微博。這幾個「V」也是大「V」,不知道它們就不能說了解大數據。不一一描述了,這裡看到一處:說其中的Veracity是後來專門針對較低信噪比的非結構化數據增加的。(總算出來一個通信專業里熟悉的名詞"信噪比",小編好親切的感腳,看見了親人都是眼淚)
推薦閱讀:
※大數據是不是侵犯隱私?
※大數據在水利土木等工程學科中有什麼應用前景?
※數據分享讀書系列篇:《大數據時代》R凸凸d
※入行大數據?
※大咖熱議,大數據把脈,論網劇大風口的機遇與挑戰