有了AWS，不需要自己配GPUs？做深度學習。?

01-22

配置AWS實例，利用它的GPUs，也能做深度學習的並行加速吧？那就不需要自己本地再購置相關GPU了吧？

這個完全可以，如果你的深度學習任務並不是很大並不需要反覆很長久時間的運行，AWS是個很划算的解決方法。AWS現在有兩種GPU instance g2.2xlarge （單塊CPU，4G顯存）和 g2.8xlarge （4塊CPU，每塊4G顯存）http://docs.aws.amazon.com/AWSEC2/latest/UserGuide/using_cluster_computing.html#gpu-instance-specifications ，差不多能應付常見的深度學習任務，要多少就用多少，如果只是跑幾十個小時或者是跑一些學習深度學習的例子還是很划算的。當然了，他的兩點缺陷在於：

GPU種類固定沒有什麼可以選的，只能CUDA只能4G顯存，如果想搞個Titan X那樣12G顯存放下更大的數據量，那還是得自己配。
如果長時間反覆做實驗跑數據的話，還是自己配個更划算，AWS的價格持續跑起來還是比自己掏錢電費和買機器要貴一些。

AWS用的兩種的GPU，Tesla M2050和GRID K520

第一個是專為計算的，但是是2011年發售的。。。性能應該比較弱。

第二個是專為虛擬化的，就是所謂的雲遊戲，2013年發售，性能也不咋地。

所以我覺得從中長期來看還是自己買設備更方便，一個是不需要額外的AWS運維知識，另外硬體就在自己身邊，AWS有時候硬體出問題救鞭長莫及了。

最後就是中長期成本AWS要高一些，另外如果是學校或者研究生，AWS咋個報賬哦。。。

關於AWS EC2有個tip，一定要用spot request！最低價格可以達到標價的1/10，多看看幾個region一般都可以拿到。

Amazon 的 paper「Scalable Distributed DNN Training Using Commodity GPU Cloud Computing」https://drive.google.com/file/d/0B6dKRGPLFSd0UGNOYkNaSC1UZTA/view

數據並行的加速1node -&> 80nodes 訓練時間從100小時的降到100分鐘

個人偏愛本地GPUs（很多高端一些的主板都支持4-6塊GPU了）玩，機箱一定要酷（雖然可能放機房，不經常見，但想想也是美的）

雲的計算能力多是多個user共享的，曾經用16核的某雲CPU跑個任務還沒本地4核快，呵呵呵，aws的GPU也是grid共享的，所以否決過leader提出用aws GPU機型做訓練的提議

我們之前也用aws g2，現在遷到阿里雲HPC上了，性價比是aws的2倍，建議樓主可以看下

我們正在用g2做服務，除了價格，其他都很完美