踏潮 BI 學習大綱

基本功

  • Python 開發
    • 控制語句(if, for, while, pass, assert, with, yield, import, in)
    • 類型(object, list, tuple, dict, set)
    • 表達式(lambda, 列表推導式)
    • 函數(map, reduce, filter, zip, sort, enumrate, isinstance)
    • 面向對象(類成員、實例化、構造函數、析構函數、繼承、派生、多態、super)
    • 數值計算(numpy、scipy、pandas、sklearn、gensim)
    • 數據可視化(matplotlib、moviepy)
    • 爬蟲(scrapy、beautifulsoup、urllib、requests、selenium)

推薦閱讀:《Python手冊》、官方文檔、《Head First Python》

  • Git
    • commit
    • config
    • push
    • pull
    • diff
    • checkout
    • merge
    • stash
    • merge request

推薦閱讀:《踏潮 Git 使用規範》

  • 傳統演算法和數據結構
    • 枚舉(8皇后問題)
    • 遞歸(漢諾塔問題、樹的前中後序遍歷)
    • 分治(求中位數、快排)
    • 貪婪(Dijkstra 求最短路、Prim 最小生成樹)
    • 動態規劃(背包問題、Floyd 求最短路)
    • 鏈表(增刪改查、循環鏈表、判環)
    • 棧(用隊列模擬棧、售貨員賣棒冰找零問題)
    • 隊列(用棧模擬隊列,雙向隊列、優先隊列)
    • 二叉樹(BST、平衡樹、線段樹)
    • 堆(最小/最大堆、堆排序)
    • 排序(冒泡、選擇、插入、快速、歸併、堆、桶)
    • 圖論(DFS、BFS、最小生成樹、最短路、關鍵路徑、流網路)
    • 字元串(KMP、字典樹、AC自動機)
    • 計算幾何(線性規劃、凸包)

推薦閱讀:微軟 —《編程之美》、《演算法導論》

完成 Leetcode 中所有 easy / medium 難度的習題,編程語言 Python / C++ 自選。

  • 數學基礎
    • 線性代數(矩陣、特徵值、特徵向量、秩)
    • 微積分(極限、導數、拉格朗日中值、泰勒級數展開、傅里葉變換)

推薦閱讀:吳軍 —《數學之美》、大學相關課程教材

  • 統計學基礎
    • 相關性分析(相關係數r、皮爾遜相關係數、餘弦相似度、互信息)
    • 回歸分析(線性回歸、L1/L2正則、PCA/LDA降維)
    • 聚類分析(KNN、K-Means)
    • 分布(正態分布、t分布、密度函數)
    • 指標(協方差、ROC曲線、AUC、變異係數、F1-Score)
    • 顯著性檢驗(t檢驗、z檢驗、卡方檢驗)
    • A/B測試

推薦閱讀:李航 —《統計學習方法》

  • 機器學習基礎
    • 關聯規則(Apriori、FP-Growth)
    • 回歸(Linear Regression、Logistics Regression)
    • 決策樹(ID3、C4.5、CART、GBDT、RandomForest)
    • SVM(各種核函數)
    • 推薦(User-CF、Item-CF)

推薦閱讀:《集體智慧編程》、Andrew Ng — Machine Learning Coursera from Stanford

  • 廣告業務知識
    • 了解各角色(Ad Exchange、DSP、SSP、DMP、監測)
    • 了解廣告數據維度
    • 了解部門演算法架構

推薦閱讀:《踏潮演算法培訓》

基本功大考核:自主選題完成某一類數據抓取(如淘寶、攜程、大眾點評、58同城、百度競價廣告、世紀佳緣、鏈家等),對其進行統計分析並做 Presentation。

參考:

chenqin 答過的問題

小龍蝦是怎麼火遍全國的? - 數據冰山 - 知乎專欄

黃燜雞米飯是怎麼火起來的? - 何明科的回答

RIO是如何席捲大江南北的? - 數據冰山 - 知乎專欄

統一出品的調味茶飲料「小茗同學」能熱賣有哪些因素? - 何明科的回答

特定崗位所需

系統工程師

  • Linux 基本命令及 Bash Shell

推薦閱讀:《鳥哥的Linux私房菜》

  • C/C++
    • 代碼規範
    • C++11新特性

推薦閱讀:《踏潮C++代碼規範》、《Effective C++/STL》

  • RPC框架
    • Thrift
    • Protobuf
  • Web框架
    • Nginx with FastCGI
    • Apache
    • Django
  • 數據存儲
    • MySQL
    • MongoDB
    • Redis
    • Hadoop
    • HBase
    • Kafka
  • 網路編程
    • 多線程同步
    • 進程通信
    • 流處理
  • 分散式
    • 數據同步
    • Master-Slave
    • 競選機制

演算法工程師

  • Linux 基本命令及 Bash Shell
  • C/C++
    • 代碼規範
    • C++11新特性

推薦閱讀:《踏潮C++代碼規範》、《Effective C++/STL》

  • 回歸計算
    • 最大似然估計
    • 隨機梯度下降
  • 分散式計算

    • MapReduce
  • 並行計算
    • 加速比評測
    • 可擴放性標準
    • PRAM模型
    • POSIX Threads
    • CUDA基礎

數據挖掘工程師

  • 數據轉換
    • 無量綱化
    • 歸一化
    • 啞編碼
  • 數據清洗
    • 判斷異常值
    • 缺失值計算
  • 特徵工程
    • 可用性評估
    • 採樣
    • PCA/LDA
    • 衍生變數
    • L1/L2正則
    • SVD分解
  • 提升
    • Adaboost
    • 加法模型
    • xgboost
  • SVM
    • 軟間隔
    • 損失函數
    • 核函數
    • SMO演算法
    • libSVM
  • 聚類
    • K-Means
    • 並查集
    • K-Medoids
    • KNN
    • 聚譜類SC
  • EM演算法
    • Jensen不等式
    • 混合高斯分布
    • pLSA
  • 主題模型
    • 共軛先驗分布
    • 貝葉斯
    • 停止詞和高頻詞
    • TF-IDF
  • 詞向量
    • word2vec
    • n-gram
  • HMM
    • 前向/後向演算法
    • Baum-Welch
    • Viterbi
    • 中文分詞
  • 數據計算平台
    • Spark
    • Caffe
    • Tensorflow
  • 推薦閱讀:周志華——《機器學習》

推薦閱讀:

運營幹貨 | 「精細化運營」無從下手?那看看這張表吧!
CTR打分模型中為什麼使用邏輯回歸?
如何問出一個應聘者是否真的做過推薦系統?
kaggle案例:員工離職預測
打字習慣匹配(Typing Pattern Recognition)有什麼好的演算法實現?

TAG:机器学习 | 数据挖掘 | 大数据 |