踏潮 BI 學習大綱
01-27
基本功
- Python 開發
- 控制語句(if, for, while, pass, assert, with, yield, import, in)
- 類型(object, list, tuple, dict, set)
- 表達式(lambda, 列表推導式)
- 函數(map, reduce, filter, zip, sort, enumrate, isinstance)
- 面向對象(類成員、實例化、構造函數、析構函數、繼承、派生、多態、super)
- 數值計算(numpy、scipy、pandas、sklearn、gensim)
- 數據可視化(matplotlib、moviepy)
- 爬蟲(scrapy、beautifulsoup、urllib、requests、selenium)
推薦閱讀:《Python手冊》、官方文檔、《Head First Python》
- Git
- commit
- config
- push
- pull
- diff
- checkout
- merge
- stash
- merge request
推薦閱讀:《踏潮 Git 使用規範》
- 傳統演算法和數據結構
- 枚舉(8皇后問題)
- 遞歸(漢諾塔問題、樹的前中後序遍歷)
- 分治(求中位數、快排)
- 貪婪(Dijkstra 求最短路、Prim 最小生成樹)
- 動態規劃(背包問題、Floyd 求最短路)
- 鏈表(增刪改查、循環鏈表、判環)
- 棧(用隊列模擬棧、售貨員賣棒冰找零問題)
- 隊列(用棧模擬隊列,雙向隊列、優先隊列)
- 二叉樹(BST、平衡樹、線段樹)
- 堆(最小/最大堆、堆排序)
- 排序(冒泡、選擇、插入、快速、歸併、堆、桶)
- 圖論(DFS、BFS、最小生成樹、最短路、關鍵路徑、流網路)
- 字元串(KMP、字典樹、AC自動機)
- 計算幾何(線性規劃、凸包)
推薦閱讀:微軟 —《編程之美》、《演算法導論》
完成 Leetcode 中所有 easy / medium 難度的習題,編程語言 Python / C++ 自選。
- 數學基礎
- 線性代數(矩陣、特徵值、特徵向量、秩)
- 微積分(極限、導數、拉格朗日中值、泰勒級數展開、傅里葉變換)
推薦閱讀:吳軍 —《數學之美》、大學相關課程教材
- 統計學基礎
- 相關性分析(相關係數r、皮爾遜相關係數、餘弦相似度、互信息)
- 回歸分析(線性回歸、L1/L2正則、PCA/LDA降維)
- 聚類分析(KNN、K-Means)
- 分布(正態分布、t分布、密度函數)
- 指標(協方差、ROC曲線、AUC、變異係數、F1-Score)
- 顯著性檢驗(t檢驗、z檢驗、卡方檢驗)
- A/B測試
推薦閱讀:李航 —《統計學習方法》
- 機器學習基礎
- 關聯規則(Apriori、FP-Growth)
- 回歸(Linear Regression、Logistics Regression)
- 決策樹(ID3、C4.5、CART、GBDT、RandomForest)
- SVM(各種核函數)
- 推薦(User-CF、Item-CF)
推薦閱讀:《集體智慧編程》、Andrew Ng — Machine Learning Coursera from Stanford
- 廣告業務知識
- 了解各角色(Ad Exchange、DSP、SSP、DMP、監測)
- 了解廣告數據維度
- 了解部門演算法架構
推薦閱讀:《踏潮演算法培訓》
基本功大考核:自主選題完成某一類數據抓取(如淘寶、攜程、大眾點評、58同城、百度競價廣告、世紀佳緣、鏈家等),對其進行統計分析並做 Presentation。
參考:
chenqin 答過的問題
小龍蝦是怎麼火遍全國的? - 數據冰山 - 知乎專欄
黃燜雞米飯是怎麼火起來的? - 何明科的回答
RIO是如何席捲大江南北的? - 數據冰山 - 知乎專欄
統一出品的調味茶飲料「小茗同學」能熱賣有哪些因素? - 何明科的回答
特定崗位所需
系統工程師
- Linux 基本命令及 Bash Shell
推薦閱讀:《鳥哥的Linux私房菜》
- C/C++
- 代碼規範
- C++11新特性
推薦閱讀:《踏潮C++代碼規範》、《Effective C++/STL》
- RPC框架
- Thrift
- Protobuf
- Web框架
- Nginx with FastCGI
- Apache
- Django
- 數據存儲
- MySQL
- MongoDB
- Redis
- Hadoop
- HBase
- Kafka
- 網路編程
- 多線程同步
- 進程通信
- 流處理
- 分散式
- 數據同步
- Master-Slave
- 競選機制
演算法工程師
- Linux 基本命令及 Bash Shell
- C/C++
- 代碼規範
- C++11新特性
推薦閱讀:《踏潮C++代碼規範》、《Effective C++/STL》
- 回歸計算
- 最大似然估計
- 隨機梯度下降
- 分散式計算
- MapReduce
- 並行計算
- 加速比評測
- 可擴放性標準
- PRAM模型
- POSIX Threads
- CUDA基礎
數據挖掘工程師
- 數據轉換
- 無量綱化
- 歸一化
- 啞編碼
- 數據清洗
- 判斷異常值
- 缺失值計算
- 特徵工程
- 可用性評估
- 採樣
- PCA/LDA
- 衍生變數
- L1/L2正則
- SVD分解
- 提升
- Adaboost
- 加法模型
- xgboost
- SVM
- 軟間隔
- 損失函數
- 核函數
- SMO演算法
- libSVM
- 聚類
- K-Means
- 並查集
- K-Medoids
- KNN
- 聚譜類SC
- EM演算法
- Jensen不等式
- 混合高斯分布
- pLSA
- 主題模型
- 共軛先驗分布
- 貝葉斯
- 停止詞和高頻詞
- TF-IDF
- 詞向量
- word2vec
- n-gram
- HMM
- 前向/後向演算法
- Baum-Welch
- Viterbi
- 中文分詞
- 數據計算平台
- Spark
- Caffe
- Tensorflow
- 推薦閱讀:周志華——《機器學習》
推薦閱讀:
※運營幹貨 | 「精細化運營」無從下手?那看看這張表吧!
※CTR打分模型中為什麼使用邏輯回歸?
※如何問出一個應聘者是否真的做過推薦系統?
※kaggle案例:員工離職預測
※打字習慣匹配(Typing Pattern Recognition)有什麼好的演算法實現?