[原] 數據科學的容器革命

概述

隨著容器化技術的興起,數據科學現在最大的一場運動已經不是由一個新的演算法或者統計方法發起的了,而是來自Docker的容器化技術。通常,數據科學被認為研究成果立即應用到生產環境都是比較緩慢的一個過程。本文將介紹利用容器技術如何加速數據科學在生產環境中的實際應用。

瓶頸

1. 環境部署一致性

保持數據科學環境一致性通常都是一件異常痛苦的事情,在不同的機器之間同時部署即使是用 Python 的 Conda 和 Virtualenv 或者 R 的 CRAN 和 packrat 的包依賴虛擬化技術,也會遇到不同操作系統(比如 CentOS、Ubuntu、Mac OS、Windows)的底層c庫缺失等問題。(國內的現狀是很多公司逼迫Data Scientist 變成 DevOps,美其名曰:全棧。。)

2. 服務彈性與性能

由於數據科學套件一般比較複雜,從底層的 Hadoop 分散式架構、到頂層的 Shiny Server,這一系列服務的智能運維部署都是一個問題。尤其是 Shiny Server 的開源版本現在默認是只支持單機單線程的處理(其實就是nodejs內核),通常每次請求處理只是在幾毫秒之間。這對於一個小應用一般並不會出現太問題,不過更常見的場景是我們需要在生產環境上部署高性能的 shiny server,此時 shiny server 的單機性能就成了一個問題。

解決方案

事實上,容器同時為加速數據科學的應用提供了一攬子解決方案:

  1. 將複雜的環境依賴化繁為簡
  2. 簡化集群配置與管理的複雜度
  3. 標準交付、研究結果可重複、便於成果分享
  4. 快速部署、快速擴展
  5. 明確運維、開發職責

為什麼使用容器

可重複研究

一方面,容器就像一個輕量級的虛擬機,當我們啟動虛擬機的時候通常都要花幾分鐘,但是Docker容器通常只要幾毫秒就啟動了。因此,你跑容器和跑本地應用從速度上來講基本沒什麼差。每次我們跑容器,容器的環境都是標準化的,這也意味著它為我們帶來了可重複性研究的機會。這些容器可以一致部署在 Mac、Windows、Linux 上,因此協同共享變得非常得簡單。

無狀態研究

對於個人而言,好處之一就是減少了R、Python生態組件安裝時帶來的痛苦。如果你在容器中使用Python或R,之前所有的環境一致性問題就都灰飛煙滅了。如果我們使用容器技術,就可以在容器中肆無忌憚地使用新包,因為即使出現意外導致容器不可用了,我們只需要重跑一個容器就可以了。

彈性高可用

另一方面,對於整個數據科學套件而言,在架構上越來越流行微服務對原來SOA的架構進行進一步解耦,以便於每一個模塊可以獨立迭代,小步快跑。而容器技術基於輕量級的進程,使得我們可以快速擴展計算資源實現分散式計算並且輕鬆管理。

以 Shiny-Server 為例,吐槽Shiny-Server的單機能力其實沒什麼意義,這就好像你在吐槽tornado和nodejs的性能不行?但是明明這兩個Web框架就是根據Epoll的IO復用,故意設計成非同步單線程的模型來應對高並發業務場景的,正確的使用姿勢其實是搭配 Nignx反向代理 + Supervisor + 多個伺服器實例。如果是 Tornado、Nodejs 跑單個服務也跪了,那Python和JS又得躺槍。Docker化之後,這些都可以一起用docker-compose.yml的配置文件來描述,然後一鍵啟動整個集群服務,這樣一來就獲得了商用版本的Shiny-Server的主要特性了。

和運維劃清界限

在實際生產中,使用Docker之後,運維只需要定義好基本的鏡像的Dockerfile,而不用處理具體的開發產生的依賴包問題。數據部門可以引用運維提供的基礎鏡像,在此基礎上自行添加需要的依賴包。一面解脫了運維不必要的負擔,另一方面也提升數據部門對項目的掌控力,從而提升整個團隊的效率。

數據科學鏡像

R + Docker = Rocker

Rocker 是一個組織管理R語言Docker鏡像的項目。Rocker提供了一系列用於不同場景下的R 鏡像。

這些鏡像是構建在 Debian OS的基礎之上的,基礎鏡像由r-base(通用),r-devel(開發者),rstudio(含rstuido伺服器)這三類構成。

用例鏡像有:

  1. hadleyverse鏡像:包含了hadley大人所經營的rstudio開發的相關R包,包括rmarkdown、 pandoc、knitr、shiny、ggplot2、 dplyr、 tidyr、devtools、 httr 等等,這基本可以滿足大多數人的需求。
  2. ropensci鏡像:在hadleyverse的基礎上,又擴展了 rOpenSci 項目所涉及的包,讓各領域的數據科學研究如虎添翼。

社區鏡像則包括:

  1. r-java鏡像:在r-base基礎上加入了 Java 8 和 rJava包,用來和java做各種交互。
  2. r-pandoc鏡像: 在r-base基礎上加入了 pandoc,主要用來寫作。
  3. r-ssh鏡像:在r-base基礎上加入了 SSH客戶端,讓我們可以通過SSH登陸到這個R容器中。

除了 Rocker 之外,我們還可以使用一些其他第三方鏡像:

  • docker-mro鏡像 通過微軟的Open R 優化 R 底層的矩陣運算,自動利用起多CPU的計算性能。
  • shrektan/shiny 鏡像 自帶了 Shiny-server和rstudio以及其他常見R包,用來部署伺服器非常方便。

依賴於這些開源鏡像,我們就可以快速組合鏡像搭建所需要的R語言計算環境,並且不會因為每台電腦的操作系統不一樣而產生一些不必要的問題。

Python

jupyter 為Python科學計算環境虛擬化提供了諸多鏡像,我們可以根據不同的需要選擇相應的鏡像。

  • all-spark-notebook
  • base-notebook
  • datascience-notebook
  • minimal-notebook
  • pyspark-notebook
  • scipy-notebook

基本上我們在科學計算環境中用到的包都可以在這裡找到,如果需要安裝更多的包,我們亦可以直接在notebook中輸入,比如

%% bashconda install financer

正確安裝後,直接重啟內核即可。不過因為容器的無狀態,所以還是建議大家在Dockerfile裡面修改,或者在conda安裝之後包後,自行docker commit來持久化鏡像。

一攬子解決方案

阿里雲其實為為數據科學還提供了一攬子解決方案,執行下面命令,你可以把科學計算全套帶回家。

docker pull registry.aliyuncs.com/alicloudhpc/toolkit

其中包含了

  • 圖像識別:OpenCV
  • 機器學習工具:Cuda、Theano、R、Caffe等等
  • 數值計算:Numpy、Scipy、OpenBLAS、Octave
  • 配置和監控:lspci、numactl、perf、iostat、netstat
  • 開發工具:Gcc/g++、JDK、CUDA、 OpenMPI 、OpenCL、 Python 、Lua

自行腦補一下自己為了」深度學習」在一台ubuntu上安裝一天都沒搞定和這裡一鍵搞定的差距。。

實戰

現實並不完美,對於這些固有的鏡像,我們需要如何定製呢?其實,我們可以去查看這些開源鏡像都是通過Dockerfile製作的。通過修改 Dockerfile,我們就可以根據自己的需要重新建立一些私有鏡像,然後上傳到公有或私有的Registry上和其他人共享鏡像了。

由於國情問題,在製作容器的時候,我們最好修改一下我們的apt-get源(科學計算推崇操作系統使用 Ubuntu14.04 或 Debian)。

cp /etc/apt/sources.list /etc/apt/sources.list.backvi /etc/apt/sources.list

deb http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty main multiverse restricted universedeb http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty-backports main multiverse restricted universedeb http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty-proposed main multiverse restricted universedeb http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty-security main multiverse restricted universedeb http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty-updates main multiverse restricted universedeb-src http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty main multiverse restricted universedeb-src http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty-backports main multiverse restricted universedeb-src http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty-proposed main multiverse restricted universedeb-src http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty-security main multiverse restricted universedeb-src http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty-updates main multiverse restricted universe

R 則中可以通過參數修改CRAN源:

install.packages("some_pakcage",repos="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")

Python的conda源則可以這樣修改:

%% bashconda config --add channels "https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/"conda config --set show_channel_urls yes

這樣一來我們的整個容器的包管理載入速度就可以有一個質的提升。

文末放一個 Minecraft 版本的 Docker管理器,僅供娛樂。

參考資料

  • Docker 速查表

  • Scaling and Performance Tuning with shinyapps.io

  • How to get started with data science in containers

  • Docker: Data Science Environment with Jupyter

  • The Real Value of Containers for Data Science

  • 清華大學 TUNA 鏡像源

  • Start doing data science in minutes

  • Linkedin Slides: Docker for data science

  • wiseio/datascience-docker

  • Strata 2016: Docker for Data Scientists

  • Introducing Rocker: Docker for R

  • Jupyter Notebook Data Science Stack

  • 寫給Python數據科學家們 : 科學計算開發環境排雷

  • Dockercraft

  • aliyun 機器學習套裝

更優閱讀體驗可直接訪問原文地址:[原] 容器定義應用:數據科學的容器革命

作為分享主義者(sharism),本人所有互聯網發布的圖文均遵從CC版權,轉載請保留作者信息並註明作者 Harry Zhu 的 FinanceR專欄:FinanceR - SegmentFault,如果涉及源代碼請註明GitHub地址:harryprince (HarryZhu) · GitHub。微信號: harryzhustudio

商業使用請聯繫作者。

推薦閱讀:

TAG:Docker | 数据科学家 | 容器 |