數據產品經理必備技能之工具篇
「工欲善其事,必先利其器」,作為一名數據產品經理,不論是做數據分析,還是搭建數據平台,你必須要掌握很多工具,這樣才能得心應手。下面,將從簡單的 Excel 說起,到R,再到數據平台需要的工具和技術,由易到難,幫你在工具上全方位掌握數據產品經理的必備技能。
數據分析利器—Excel相信每個人都會用一些 Excel的簡單功能,可是,作為一名數據產品經理,僅僅掌握這些功能是不能滿足大數據量分析需求的。首先你要掌握以下一些常用函數:
掌握了這些函數,就可以對經常分析的業務建立一個數據模板,例如業務大盤日報,這樣就省去了手動計算大量數據的麻煩,根據模板自動更新新增數據,直接顯示結果。
接下來說一下Excel數據分析非常好用的另一個利器—數據透視表,它可以快速的把大量數據生成可以分析和展現的報表,而且可以隨意組織選擇各種維度和值,就像一個魔方,你可以自由組合查看不同角度的不同結果,它把複雜的公式轉化成了簡單的數據分析,非常實用易上手。通過數據透視表,你可以實現以下幾種功能:
數據分析及可視化強大語言—R
R是一種為統計計算和繪圖而生的語言和環境,它是一套開源的數據分析解決方案。其功能包括:數據存儲和處理系統;數組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統計分析工具;優秀的統計製圖功能;簡便而強大的編程語言:可操縱數據的輸入和輸入,可實現分支、循環,用戶可自定義功能 。
與其說R是一種統計軟體,還不如說R是一種數學計算的環境,因為R並不是僅僅提供若干統計程序、使用者只需指定資料庫和若干參數便可進行一個統計分析。
R的思想是:它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動的進行數據分析,甚至創造出符合需要的新的統計計算方法。 R內建多種統計學及數字分析功能。
R其實還是一個蠻專業的一個工具,要想了解更多的R語言知識,可以去官網 http://www.rproject.cn/下載安裝程序和資料進行深入學習。
搭建數據平台必備—HadoopHadoop是一個分散式系統基礎架構,現在被廣泛的應用於大數據平台的開發中,對處理海量數據,有著其他技術無可匹敵的優勢。
Google File System、Map-Reduce與BigTable被譽為分散式計算的三駕馬車,其中 Google File System用來解決數據存儲的問題,採用N多台廉價的電腦,使用冗餘的方式,來取得讀寫速度與數據安全並存的結果。 Map-Reduce說白了就是函數式編程,把所有的函數都分為兩類,Map和Reduce,Map用來將數據分成多份,分開處理,Reduce將處理的結果進行歸併,得到最終的結果。 BigTable是在分散式系統上存儲結構化數據的一個解決方案,解決了巨大的Table的管理、負載均衡的問題。
下面兩張圖有助於從大致框架和結構上理解Hadoop。
Hadoop體系架構
Hadoop核心設計
除了Hadoop體系架構那些基礎工具外,數據產品經理還需要對以下幾個基礎工具做一些了解。
Kafka集群可以在一個指定的時間內保持所有發布上來的消息,不管這些消息有沒有被消費。打個比方,如果這個時間設置為兩天,那麼在消息發布的兩天以內,這條消息都是可以被消費的,但是在兩天後,這條消息就會被系統丟棄以釋放空間。Kafka的性能不會受數據量的大小影響,因此保持大量的數據不是一個問題。
Storm 應用領域包括實時分析、在線機器學習、信息流處理(例如,可以使用Storm 處理新的數據和快速更新資料庫)、連續性的計算(例如,使用Storm 連續查詢,然後將結果返回給客戶端,如將微博上的熱門話題轉發給用戶)、分散式RPC(遠過程調用協議,通過網路從遠程計算機程序上請求服務)、ETL(Extraction Transformation Loading,數據抽取、轉換和載入)等。
相信掌握了上面提到的常用工具後,無論是數據分析,還是大數據平台的打架,都能夠很快很容易的上手,同時在數據產品經理的成長道路上又邁出一大步。
本文由 @徐鵬 原創發佈於人人都是產品經理。未經許可,禁止轉載。
推薦閱讀:
※中醫實踐技能考試22項中醫操作步
※實用游泳技術——踩水技能
※向日葵如何成精?
※你的職業技能在生活中有哪些用途?
※新生大學:資源,可能是一種詛咒