數據產品經理必備技能之工具篇

「工欲善其事,必先利其器」,作為一名數據產品經理,不論是做數據分析,還是搭建數據平台,你必須要掌握很多工具,這樣才能得心應手。下面,將從簡單的 Excel 說起,到R,再到數據平台需要的工具和技術,由易到難,幫你在工具上全方位掌握數據產品經理的必備技能。

數據分析利器—Excel

相信每個人都會用一些 Excel的簡單功能,可是,作為一名數據產品經理,僅僅掌握這些功能是不能滿足大數據量分析需求的。首先你要掌握以下一些常用函數:

  • 日期函數:day,month,year,date,today,weekday,weeknum
  • 數學函數:product,rand,round,sum,sumif,sumproduct
  • 統計函數:large,small,max,min,rank,count,countif,average,averageif
  • 查找和引用函數:choose,match,index,column,row,vlookup,hlookup,lookup,offset
  • 文本函數:find,search,text,value,left,right,mid,len
  • 邏輯函數:and,or,if,false,true
  • 掌握了這些函數,就可以對經常分析的業務建立一個數據模板,例如業務大盤日報,這樣就省去了手動計算大量數據的麻煩,根據模板自動更新新增數據,直接顯示結果。

    接下來說一下Excel數據分析非常好用的另一個利器—數據透視表,它可以快速的把大量數據生成可以分析和展現的報表,而且可以隨意組織選擇各種維度和值,就像一個魔方,你可以自由組合查看不同角度的不同結果,它把複雜的公式轉化成了簡單的數據分析,非常實用易上手。通過數據透視表,你可以實現以下幾種功能:

  • 自動計算分類間的數據匯總,計數,最大值,最小值,平均值等。
  • 自動排序、分組以及分組。
  • 分析環比、同比、定基比等。
  • 根據業務邏輯進行個性化分析。
  • 數據分析及可視化強大語言—R

    R是一種為統計計算和繪圖而生的語言和環境,它是一套開源的數據分析解決方案。其功能包括:數據存儲和處理系統;數組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統計分析工具;優秀的統計製圖功能;簡便而強大的編程語言:可操縱數據的輸入和輸入,可實現分支、循環,用戶可自定義功能 。

    與其說R是一種統計軟體,還不如說R是一種數學計算的環境,因為R並不是僅僅提供若干統計程序、使用者只需指定資料庫和若干參數便可進行一個統計分析。

    R的思想是:它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動的進行數據分析,甚至創造出符合需要的新的統計計算方法。 R內建多種統計學及數字分析功能。

    R其實還是一個蠻專業的一個工具,要想了解更多的R語言知識,可以去官網 http://www.rproject.cn/下載安裝程序和資料進行深入學習。

    搭建數據平台必備—Hadoop

    Hadoop是一個分散式系統基礎架構,現在被廣泛的應用於大數據平台的開發中,對處理海量數據,有著其他技術無可匹敵的優勢。

    Google File System、Map-Reduce與BigTable被譽為分散式計算的三駕馬車,其中 Google File System用來解決數據存儲的問題,採用N多台廉價的電腦,使用冗餘的方式,來取得讀寫速度與數據安全並存的結果。 Map-Reduce說白了就是函數式編程,把所有的函數都分為兩類,Map和Reduce,Map用來將數據分成多份,分開處理,Reduce將處理的結果進行歸併,得到最終的結果。 BigTable是在分散式系統上存儲結構化數據的一個解決方案,解決了巨大的Table的管理、負載均衡的問題。

    下面兩張圖有助於從大致框架和結構上理解Hadoop。

    Hadoop體系架構

    Hadoop核心設計

    除了Hadoop體系架構那些基礎工具外,數據產品經理還需要對以下幾個基礎工具做一些了解。

  • ELASTIC SEARCH:基於Lucene的搜索伺服器。提供了一個分散式多用戶能力的全文搜索引擎,基於RESTful web介面。Elasticsearch作為Apache許可條款下的開放源碼發布,是當前流行的企業級搜索引擎。設計用於雲計算中,能夠達到實時搜索,穩定,可靠,快速,安裝使用方便。
  • Memcached:Memcached 是一個高性能的分散式內存對象緩存系統,用於動態Web應用以減輕資料庫負載。它通過在內存中緩存數據和對象來減少讀取資料庫的次數,從而提高動態、資料庫驅動網站的速度。一般的使用目的是,通過緩存資料庫查詢結果,減少資料庫訪問次數,以提高動態Web應用的速度、提高可擴展。
  • Redis:開源的使用ANSI C語言編寫、支持網路、可基於內存亦可持久化的日誌型、Key-Value資料庫,並提供多種語言的API。 為了保證效率,數據都是緩存在內存中,區別的是Redis會周期性的把更新的數據寫入磁碟或者把修改操作寫入追加的記錄文件,並且在此基礎上實現了主從同步。 Redis的出現,很大程度補償了Memcached這類key/value存儲的不足,在部分場合可以對關係資料庫起到很好的補充作用。
  • Kafka:Kafka是一種高吞吐量的分散式發布訂閱消息系統,它可以處理消費者規模的網站中的所有動作流數據。 這種動作(網頁瀏覽,搜索和其他用戶的行動)是在現代網路上的許多社會功能的一個關鍵因素。 這些數據通常是由於吞吐量的要求而通過處理日誌和日誌聚合來解決。 對於像Hadoop的一樣的日誌數據和離線分析系統,但又要求實時處理的限制,這是一個可行的解決方案。
  • Kafka集群可以在一個指定的時間內保持所有發布上來的消息,不管這些消息有沒有被消費。打個比方,如果這個時間設置為兩天,那麼在消息發布的兩天以內,這條消息都是可以被消費的,但是在兩天後,這條消息就會被系統丟棄以釋放空間。Kafka的性能不會受數據量的大小影響,因此保持大量的數據不是一個問題。

  • Storm:Storm是分散式數據處理的框架,本身幾乎不提供複雜事件計算。Storm用於實時處理,就好比 Hadoop 用於批處理。Storm保證每個消息都會得到處理,而且它在一個小集群中,每秒可以處理數以百萬計的消息。
  • Storm 應用領域包括實時分析、在線機器學習、信息流處理(例如,可以使用Storm 處理新的數據和快速更新資料庫)、連續性的計算(例如,使用Storm 連續查詢,然後將結果返回給客戶端,如將微博上的熱門話題轉發給用戶)、分散式RPC(遠過程調用協議,通過網路從遠程計算機程序上請求服務)、ETL(Extraction Transformation Loading,數據抽取、轉換和載入)等。

    相信掌握了上面提到的常用工具後,無論是數據分析,還是大數據平台的打架,都能夠很快很容易的上手,同時在數據產品經理的成長道路上又邁出一大步。

    本文由 @徐鵬 原創發佈於人人都是產品經理。未經許可,禁止轉載。


    推薦閱讀:

    中醫實踐技能考試22項中醫操作步
    實用游泳技術——踩水技能
    向日葵如何成精?
    你的職業技能在生活中有哪些用途?
    新生大學:資源,可能是一種詛咒

    TAG:產品 | 產品經理 | 技能 | 數據 | 工具 | 經理 |