深度學習開發環境調查結果公布,你的配置是這樣嗎?
6 月 19 日,《我的深度學習開發環境詳解:TensorFlow + Docker + PyCharm 等,你的呢(附問卷)》介紹了研究員 Killian 的深度學習開發環境:TensorFlow + Docker + PyCharm + OSX Fuse + Tensorboard,我們附上了一份調查問卷希望了解讀者們配置的開發環境、對編程語言、框架的使用情況。雖然反饋數量有限,但我們也觀察到了一些比較有趣的現象。在這篇文章中,我們將對此問卷的結果進行介紹,希望對需要配置開發環境的讀者有所幫助。最後,我們介紹了一種新的開發環境配置:Jupyter + Tensorflow + Nvidia GPU + Docker + Google Compute Engine。
問卷結果
該調查問卷文章發布之後共有超過 10800 名讀者閱讀,收到大量有效答卷,另有 16 名讀者是以留言的方式在文章下介紹了自己的開發系統。大部分被調查者來自中國大陸,此外還有多名來自北美大學和研究機構的調查者參與其中。以下的數據統計圖表中,並不包含微信文章留言的數據。
根據表單後台的數據統計,參與調查的讀者中大部分為學生,然後是開發工程師、研究員、產品經理等。
而在被調查者的研究方向上,計算機視覺領域佔比接近一半(48.2%),自然語言處理次之(26.8%),這部分反映了目前深度學習的主要研究方向。此外還包括金融風控、數據分析、現場安全識別、通信、時空大數據、醫學圖像、催化以及材料模擬等領域。
下面就開始詳細為大家介紹調查者們最常用的編程語言、深度學習框架,以及在開發過程中面臨的難題。
一、Python 成為深度學習主流語言
機器之心一直關注機器學習研究員、工程師在開發過程中所注重實用的工具、語言。在不久之前發布的文章《業界 | 超越 R,Python 成為最受歡迎的機器學習語言》中,KDnuggets 與 OReilly 的調查結果都表明,越來越多的人開始使用 Python 進行機器學習。
2016 年 KDNuggets 調查結果
在機器之心問卷中,對於問題「您認為哪種語言會成為深度學習的主流語言?」,所有被調查者的態度完全一致:Python!看來,Python 已是絕大多數從業人員必須學習的語言,同時也是眾望所歸的未來主流深度學習語言。
OReilly 2016 年度數據科學薪資調查曾顯示:Python 和 Spark 是最對薪資有貢獻的工具。Python 具有開發速度快的特點,Caffe、TensorFlow 等主流深度學習框架都對其支持。騰訊最近推出的機器學習高性能計算平台 Angel 在支持 Java、Scala 之外,也將在未來對 Python 提供支持。
在機器之心的問卷中,調查者反饋,雖然他們會使用其他編程語言,比如 R、C++,但實際運行程序的編寫還是主要使用 Python,簡單、開發速度快是很大的優勢。
其他語言的使用情況簡介如下:Matlab 用於快速完整、可視化研究;R 方便框架模型的驗證分析,也便於處理數據和畫圖。因此,多數人在不同的開發流程中使用不同的語言。
二、TensorFlow 佔據半壁江山
而在框架方面,谷歌支持的 TensorFlow 就沒有這樣的壟斷地位了,不過它也已佔據了接近一半(48%)的水平。完善的功能和大量的支持文檔(眾多 TensorFlow 支持者提到的)是目前 TensorFlow 的強項,存在於 GitHub 中的大量實現更是不容忽視,可視化工具 TensorBoard 則為開發者提供了直觀的引導。但由於網路問題,TensorFlow 系統在大陸的搭建是個難題。部分被調查者也指出,TensorFlow 的 Windows 支持也為他們帶來了便利。
Facebook 新近推出的框架 PyTorch 人氣急劇攀升,在僅僅推出 5 個月的情況下達到了第二的位置(16%),因支持動態計算圖,易用性和強大的性能而出名。在業界還需要產品遷移的情況下,學界已經出現擁抱 PyTorch 的趨勢了。
同屬於 Facebook 的 Caffe/Caffe2 則佔據第三(14.7%),大部分被調查者在對於 Caffe 系列的評價中都提到了快速的特點。
此外,亞馬遜支持的 MXNet 佔據了 10.7% 的用戶數量,排名第四。被調查者認為,MXNet 擁有很好的社區支持,因而易於使用。
三、硬體
硬體方面,超過一半的被調查者明確表示自己的深度學習硬體是英特爾 Core i7 + 英偉達 Geforce GTX 1080(Ti)的組合。與 TitanX 相比,英偉達 Tesla 系列的應用顯得更少,看來英偉達推動的商用機器學習計算卡仍然需要進一步的推廣。由於資源限制,GPU 陣列的使用並不流行,而雲服務也沒有被大部分開發者採用(也是經費原因)。
目前,雖然人們對於多 GPU/分散式機器學習訓練/處理的呼聲很高,但相關的教程和可以借鑒的方法仍顯欠缺,這或許是經費之外人們面臨的最大難題。
四、系統
Linux 顯然是深度學習的必備系統,雖然 TensorFlow 已有 Windows 支持,但大多數受訪者表示自己的深度學習機器使用基於 Linux 的 Ubuntu 系統。
五、面臨的難題
在搭建深度學習環境的過程中,各組件的兼容性問題一直是困擾開發者們的難題,部分開發者表示依賴關係處理比較頭疼,而使用 Docker 可以部分解決這些問題。英偉達的 cuda/GPU 驅動程序安裝困難也是很多調查者提到的問題。
需要配置安裝很多不同的開發框架……還有擴展計算集群……
本次深度學習開發環境調查已經結束,由於樣本數量限制,這次我們得出的結論可能不甚準確。深度學習的開發環境會隨著技術的發展不斷進化,未來究竟是百家爭鳴,還是一家獨大?歡迎大家前來討論。感謝大家對機器之心此次調查問卷的支持,獲得獎品同學的禮物已經寄出。
Jupyter + Tensorflow + Nvidia GPU + Docker + Google Compute Engine
這一部分,我們編譯了一篇新的深度學習開發環境配置:Jupyter + Tensorflow + Nvidia GPU + Docker + Google Compute Engine。
動機:商業上喜歡快捷、且由數據驅動的洞見,因此他們聘請了數據科學家來處理這些任務。實踐性的數據科學是探索性、迭代性的過程,這個過程要求大量的計算資源和時間。數據科學家經常使用 Jupyter notebook 以更好地支持這種探索性的迭代,同時更傾向於使用 GPU 以加速 Tensorflow 項目的計算。然而,GPU 成本比較高,而計算資源也需要小心地管理以滿足商業上對高效運算的需求。
近來雲計算傾向於使用 Kubernetes 和 Docker 提高資源利用率。那數據科學的工具(如 Jupyter 和 GPU 等)嵌入 Docker 和 Kubernets 會更有效嗎?也許這樣更節約時間和內存,我前面已經用過了其他版本,但現在的環境配置是比較優秀的。
創建一個 GCE 實例
首先,創建防火牆規則,將 Jupyter(8888)和 Tensorboard(6006)添加到白名單中。
然後創建一個 GCE 實例,對於該案例:
使用的系統為 Ubuntu 16.04 LTS
分配 50GB 的啟動盤
至少需要一個 K80 GPU
將 jupyter 和 tensorboard添加到你創建的防火牆規則中。
安裝和確認 CUDA 能訪問 GPU
使用英偉達的 CUDA 庫取得訪問 GPU 的許可權。
下一步需要將 SSH 添加到你創建的計算節點中,然後使用腳本安裝 CUDA(https://cloud.google.com/compute/docs/gpus/add-gpus):
#!/bin/bash
echo "Checking for CUDA and installing."# Check for CUDA and try to install.if ! dpkg-query -W cuda; then
# The 16.04 installer works with 16.10. curl -O http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/cuda-repo-ubuntu1604_8.0.61-1_amd64.deb dpkg -i ./cuda-repo-ubuntu1604_8.0.61-1_amd64.deb apt-get update apt-get install cuda -yfi
然後你能使用 wget 命令 pull 來源 gist 並輸入到 bash 中:
wget -O - -q https://gist.githubusercontent.com/allenday/f426e0f146d86bfc3dada06eda55e123/raw/41b6d3bc8ab2dfe1e1d09135851c8f11b8dc8db3/install-cuda.sh | sudo bashn
如果 CUDA 安裝成功了,運行 nvidia-smi 命令將返回表格顯示可用的 Tesla K80 GPU:
nvidia-smi
安裝 Docker(-Engine) 和 Nvidia-Docker
對於 docker,我們需要從 Docker 獲取 docker-ce 版本,而不是 Ubuntu 自帶的 http://docker.io 包。可以使用以下腳本完成(Get Docker for Ubuntu)(https://docs.docker.com/engine/installation/linux/ubuntu/%EF%BC%89):
#/bin/bash
# install packages to allow apt to use a repository over HTTPS:
sudo apt-get -y install
apt-transport-https ca-certificates curl software-properties-common
# add Docker』s official GPG key:
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -
# set up the Docker stable repository.
sudo add-apt-repository
"deb [arch=amd64] Index of /linux/ubuntu/
$(lsb_release -cs)
stable"
# update the apt package index:
sudo apt-get -y update
# finally, install docker
sudo apt-get -y install docker-ce
或使用我的:
wget -O - -q https://gist.githubusercontent.com/allenday/c875eaf21a2b416f6478c0a48e428f6a/raw/f7feca1acc1a992afa84f347394fd7e4bfac2599/install-docker-ce.sh | sudo bash
從 deb 文件安裝 nvidia-docker(NVIDIA/nvidia-docker):
wget https://github.com/NVIDIA/nvidia-docker/releases/download/v1.0.1/nvidia-docker_1.0.1-1_amd64.deb
從 Docker 容器確認 GPU 是可用的
起始化 nvidia-docker-plugin 需要在跟許可權下運行:
sudo nvidia-docker-plugin &
nvidia-docker-plugin | 2017/06/07 01:05:05 Loading NVIDIA unified memory
nvidia-docker-plugin | 2017/06/07 01:05:05 Loading NVIDIA management library
nvidia-docker-plugin | 2017/06/07 01:05:08 Discovering GPU devices
nvidia-docker-plugin | 2017/06/07 01:05:08 Provisioning volumes at /var/lib/nvidia-docker/volumes
nvidia-docker-plugin | 2017/06/07 01:05:08 Serving plugin API at /run/docker/plugins
nvidia-docker-plugin | 2017/06/07 01:05:08 Serving remote API at localhost:3476
現在確保 docker 容器可以看到 GPU:
sudo nvidia-docker run --rm nvidia/cuda nvidia-smi
如上圖所示,現在得到的表格和前面使用 nvidia-smi 命令,且沒有在 Docker 容器里運行得到的表格是一樣的。
創建一個 Snapshot 卷
如果你跟著上面運行下來了,你可能注意到它需要花費一點時間。而當我們運行 GPU 實例時,那成本就比較大了。所以我們需要避免重複以上過程浪費時間和內存,我們可以將以上過程做一個整合,當我們需要啟動 GPU 時就可以直接使用。
登陸 Jupyter 和 TensorBoard
sudo nvidia-docker run --rm --name tf1 -p 8888:8888 -p 6006:6006 http://gcr.io/tensorflow/tensorflow:latest-gpu jupyter notebook --allow-root
上面命令可以展示為一個鏈接:
http://localhost:8888/?token=c8caba947dfd4c97414447c074325faf399cf8a157d0ce2f最後尋找一個 GCE 實例的外部 IP 地址,並將它連接到埠 8888,即 http://EXTERNAL_IP:8888/,從你的控制台鍵入類似的符號,現在你就擁有了一個可以在 GPU 上運行 TensorFlow 的 Jupyter notebook。
選自Medium 機器之心整理
推薦閱讀:
※卷積神經網路(CNN)學習資料推薦?
※沒有GPU可以做深度學習嗎?
※tensorflow等框架是如何處理大數據的(數據無法一次性讀入機器內存)?
※AlphaGo 演算法的通用性到底有多廣?
TAG:深度学习DeepLearning | Python | TensorFlow |