《大數據的「道」「術」「釋」》----讀書摘錄+思考
大家不要忘記以道御術,只有明確什麼是優秀的數據分析,才能使這些武器發揮出效力! -----題記
這本書是看到我老師(大數據營銷課)的朋友圈推薦才買的,看了一下目錄,比較喜歡。就認真的讀了下去,這不是一本講什麼是大數據的書,而是一本為什麼要用到大數據分析的書。這本書的好處是講為什麼,而不是講是什麼?是什麼好講,為什麼難講?同時,這本書符合我看書,買書的習慣。因為現代社會,知識碎片化,我們每天接收到的信息大量,如何甄別對於我們來說是尤其重要的,感覺也特別適合現階段我的狀態,同時,這本書看完,送人也會是一個好的選擇,好書,非借不能讀也!
大數據的本質是對效率的提升,是對精細化的追求。一上來就講到了大數據本質,有別於其他知識類的書籍。這本書更多的是從哲學思考的角度來組織「道」與「術」這兩部分的。前言部分就提到了這一點:由於種種原因,大多數人都忙於日常生活的瑣事因此他們對於這世界的好奇心都受到了壓抑。同時,對於大數據統計,它也指出了我們的現實:缺少的不是統計知識,而是如何應用技術的實務方法。同時,它提到一個對從事IT業人最重要的知識框架的概念:知識體系!如果不早日形成自己的知識體系,所學知識和項目經驗就如向桌子上倒水,倒再多的水也積存不住!
論「道」
對於數據分析報告,分析就是論點,數據就是論據,兩者缺一不可。
數據分析的核心工作是人對數據指標的發析、思考和解讀,人腦所能承載的數據量是極其有限的。
數據分析的能力不只是掌握統計知識和演算法模型,更多是對業務產品的認識、看法與判斷,這是很難量化的。
做好數據分析與學寫詩文一樣,真正的關鍵在技巧(統計技術)之外,而在於對業務的觀察、思考與感悟,即分析的思路。這一點很是認同,好的數據分析師不一定是一個好的技術人員,但一定是一個好的業務人員。對業務的把控要超越到技術的追求!
只有對業務有充分的調研與思考,才能產生有價值的分析思路。
這一部分,提到了兩個觀點很好,做數據分析人員最好要掌握一些經濟學與心理學的知識,只有這兩方面知識深厚的時候,我們對業務的前景把控才會更加的清晰明確。我們需要對人的心理訴求有較深刻的理解,需要從心理訴求去解讀數據,才能得到有效的結論。
如果我們熟悉經濟學和心理學,面對實際問題的時候,可以更深刻地看到數據背後的人性。
思考的重要性:思考本身也是一種實踐,使人對知識的掌握更加系統化的深入化。
如果沒有主動思考意識,光有經歷和環境,是不能使人成長的。
數據分析常用來驗證思路和啟發靈感,卻不能代表思考本身,而對業務的理解和判斷才是整件事情的靈魂。
業務分析的本質是對業務的全局認知、深入思考和超前判斷,數據分析只是輔助這種思考完成的手段(驗證思路和啟發思路)。
人對事物的認知並沒有絕對概念,只有相對概念。
以自己的所見所聞為判斷依據是人類的天性,但如果我們的所見所聞只是真實世界的一個抽樣,那麼需要有足夠的理性跳出自己的圈子,以更加宏觀、總體的統計數據來認知世界。
過於複雜的理論大都是人類沒有掌握真正的本質規律。這一點非常好,我們很多時候,總是想把大數據講是十分高深,艱澀難懂,但是真正的高手會將這些知識以我們熟知的生活小常識來講解明白,所以說,真正的知識,若你不能夠很清晰的講解明白,可能是講解者對知識的理解仍不到位。
無論製作項目彙報還是分析報告,第一要務是展現形式要最大程度地輔助觀點表達,而美觀只是末節。
老闆最關心的是工作成果(產品業績),其次是產品或技術方案,最不關心的是進行了哪些嘗試,以及嘗試的過程。所以,在彙報工作果,第一就是展現你的成果,其次是過程,最後才說你的困難及解決思路。
沒有任何一個數據分析項目的目標是做「數據分析」,而是以數據分析為手段,圍繞一個「明確主題」得出結論。
做好數據分析的關鍵不在於統計技術的應用,而在於對業務的思考和分析。這一個第一部分的點睛之句,可以說,它也道出了大數據分析的核心本質。現在世面上,很多的大數據公司,不是說他們的技術不好,不優秀。而是他們對業務的理解沒有行業內的人熟悉。這就導致了技術分析達標,但業務仍沒有較大增長的根本原因。
本章最大的收穫就是認識到業務的重要,大數據分析只是輔助。其中,經濟學與心理學是對你理解相關業務會有很大的幫助。
論「術」
術」的這一部分,一共有四章,分的也很細。講的很透徹,看完這些內容。進而對生活中的一些例子開始有了思考,例如:淘寶廣告推薦,Uber,滴滴的基於最短路徑推薦,等等。以前覺得演算法這個神秘的東西離我們很遠,但現在看來,就在於我們的生活中,只不是統計人的思考維度是跟我們一般人是不一樣的。但同時,以「道」御「術」,只有明確什麼是優秀的數據分析,才能使我們這一部分的武器發揮出效力。
第二章上來就是要我們學會獨立思考,去思考為什麼?本書在這裡就提到:「是什麼」的形式並不重要,關鍵點是我們做這些事情所持的「本心」!這裡提到了直方圖,標準差,相關係數,準確率,召回率,這些曾經難懂的知識點,而本書的好處都是從我們身邊的故事講起的。這樣就更有利於我們對於這些指標的理解。透過這些基本概念的分析,我們要養成一種思維方式。
然後又講到了統計圖形,為什麼要用圖形化來展現我們的數據,因為一圖勝千言!
人腦對圖像信息的捕捉能力和記憶能力比文字強很多,畢竟文字這種「表意符號」比較抽象,屬於後天習得的知識關聯,而處理圖像信息則是人類與生俱來的能力。
而這一部分的目標原則與極簡原則又是對可視化有了一個好的提醒,這樣也是我們日後避免只追求炫而忽略有圖表的本質問題。雖然圖表是為了輔助表達觀點而存在的,但也不能為了表達觀點而故意扭曲圖形。
決策製圖要分三個步驟:拆解內容維度、確定圖形類型 、選擇表達方式!
第三章開篇就提出了一個比較讓人深思的問題:我們能相信統計嗎?實際上,延伸一點,就到我們的生活中,我們只不過是真實世界的一個抽樣,所以不要輕易批判他人的世界觀!在這一章節里,它裡邊提到一個大數定理:真正的上帝沒有這麼刻薄,他在抽樣統計值和真實值之間設置了一種函數關係,該函數關係使得統計學習在一定程度上是可行的。這也就是所有編程函數的基礎:都是一種基於概率的信任!但在前期沒有任何數據積累時,會請相關領域專有根據經驗知識制定一套規則系統,而不是去挖掘少的可憐的樣本數據。
樣本量越大,抽樣統計值就越接近事物的真實程度。 其中感觸最深的是裡邊人才市場與價格曲線的關係。你可以不成功,但你不能不成長,也許有人會阻礙你成功,但沒人會阻擋你成長。
上帝不擲骰子,因果律依然存在,不確定性只是因為人類的無知。
當影響一個事物結果的各種因素隨機發生,根據中心極限定理,它們的總和平均表現就是正態分布。
如果說傳統統計學更多研究如何從抽樣個體的統計指標去推測全體,那麼今天的統計學則更多關注如何把全體數據在置信的前提下盡量拆細,得到更細緻的個體結論。
對於本章提出的問題:我們能相信統計嗎?在本章的最後給出了答案:對於統計結論,我們要基於概率的信任 ,中有當置信概率足夠大的時候,才可以相信統計結論。
本章提出了一個「思考為什麼?」的五步方法論:
1,以簡為始,不斷優化
2,理想藍圖,逐漸逼近
3,觀察典型,啟發思路
4,分清主次,化繁為簡
5,需求出發,貼近應用
第四章是在2,3章的基礎上的靈活運用,如何拆相關指標,並應用於生活中。這一章尤為重要!上來就講到一個優秀的統計學家不等於一個出色的數據分析師。而要真正做好數據分析,只能是既懂統計技術又熟悉業務、掌握分析方法、又有豐富分析經驗的人。
ARPU:客戶平均消費水平
數據分析更深一層的意義就是:反映一個人對所從事工作的認知和思考能力!
樣本與總體的關係:用個案啟發思路,用統計得到結論。
在可樂與比薩的數量曲線里,隱含了一個非常隱晦的經濟價值:針對不同的的消費群體,以同樣的成本提供不同價值配比的產品,可以實現更多的用戶體驗價值。
商家的固定思考:只有價格敏感的人才忍到每年的限定時間囤貨,不在意花銷的富人是不做壽 這樣麻煩事的。
在慣於炒概念的世界中,保持一份清醒的認識。畢竟,內在本質比外在概念要少得多。
資深數據分析人員的核心能力在於豐富的知識面帶來的思考角度和分析方法。
第五章個人認為是比較落地的一章內容。主要講到OLAP跟機器學習,這裡講到OLAP跟OLTP的差別,OLTP更多的是讀取數據後的存儲,而OLAP更多的偏重於分析,OLAP的主要應用是匯總分析較高層的統計數據,而不是直接處理龐大的原始日誌。
在數據探索階段使用無監督學習的場景較多,而在數據建模階段使用監督學習的場景較多。
無監督演算法並不真的不需要人的指導和監督,只是監督不以「提供樣例樣本」的形式出現。
一流的數據建模解決方案通常是策略演算法人員與工程架構人員通力配合的結果。深入的編程技術和架構設計能力已經極大的影響了機器學習的建模效果,所以在一流的機器學習團隊,策略模型和工程架構兩種人員有合併的趨勢。
演算法工程師的核心競爭力:深入理解業務、產品和數據,尋找模型和他們的結合點,的確是演算法工程師的核心競爭力。
關於機器學習:
在工業界做機器學習的應用,不僅要掌握模型演算法,還要看清企業面臨的市場機遇,將演算法模型放在業務戰略的角度進行評估。
機器學習變成一個業務和技術並重的交叉學科,真正做好它還需要更多的實踐。
機器學習模型背後的原理是知識表示+統計學習,而不是像人一樣真的在理解和思考。
論「釋」
這一部分,更多的是從業務角度,或是從當下社會經濟角度來說大數據的。
第六章內容,主要講大數據時代,經濟引導一切的條件下,要明白大數據的經濟價值。在這個經濟社會,如果大數據有經濟價值,相信各種配套技術會層出不窮的湧現。一切不談具體應用的大數據技術都是耍流氓!
醫療:大數據的價值類似於收集到足夠多的病例,對於每一個病人,均可以找到數量眾多的相似病例,那麼對病人的病情分析和治療方案會準確、有效得多。
互聯網:沒有無價值的流量,只有錯誤的匹配!
教育: 針對學生制定個性化的學習計劃,需要數據建模。首先,構造個性化學習路徑的優化目標「學習收益/學習成本」。其次,基於用戶的特徵和歷史學習記錄形成訓練樣本,每個樣本標註了學生的背景信息。
差異化定位與品牌:品牌對業務的幫助是潛移默化的,是企業重要的隱性資產。
新進入一個市場,最好的方法不是與明確的競爭者拼搏相同的產品,而是選擇差異化的產品定位,或者乾脆尋找顛覆這個市場的機會。
你雖然很強大,但我要估的和你不一橛,你的強大就與我無關。
政府提出「大眾創業,萬眾創新」後,真正能大眾創業的行業只有互聯網一個!
流量優勢是一個偽優勢,因為流量可以用資金買到!
產品保證存活,沒有需求就沒有市場;技術提供壁壘,沒有核心技術的產品大都難以長久!
大數據技術是一套數據+業務+需求的完整解決方案。思考關鍵不在於數據技術本身,而在於能否收集到足夠多、有價值的數據,以及找到適合數據技術的業務應用,即從鏈條的兩端向中間思考。
第七章
知識和工具方面的技能可以學習,但清晰的思維邏輯(頭腦清晰)和豐富的創意(點子多)是不可或缺的先決條件。
只有懂得欣賞他人,才會真心的尊重合作方,達到合作共贏的狀態。
從心理學的角度講,一個人內心對自己和認知是自我評價與他們評價之和。
推薦閱讀:
※【NBA大數據】傳球助攻專場,NBA的那些傳控大師們
※擔心平台跑路?讀懂這些運營數據完美避開大雷!
※徐霞客每天都吃什麼?住哪兒?從大數據語義分析看《徐霞客遊記》的細節
※大數據時代,我們的隱私是怎麼樣「自我暴露」的?