關於這些用於深度學習的機器配置,合理嗎,哪個好?

顯卡基本確定用TITAN X,擔心會不會有兼容、散熱、性能等其它問題


謝邀。下面簡單逐硬體分析下選型問題:

首先談談CPU的選型,對於一般遊戲玩家而言肯定優先考慮高主頻,但是深度學習任務往往則需要更大的匯流排帶寬以及內存容量,甚至是CPU核心數(使用基於CUDA加速的DL任務,在協調運算的主控端的X86程序也不可能是單線程的吧)。因此從個人觀點上看,直接pass掉DMI匯流排的CPU,而選取QPI匯流排的E5 v3系列(且理論上支持768GB內存),那麼就剩下2620v3和2683v3兩個選項。

上圖可見,CPU間採用雙向互聯的QPI匯流排連接方式,在多線程程序下CPU間可更快地訪問彼此的高速緩存,且亦採用雙向QPI連接至晶元組的解決方案給顯卡、RAID卡、萬兆網卡等外部設備提供了高帶寬保障。此外採用QPI匯流排互聯的CPU的每個核心,也能夠直接依靠內部集成的內存控制機直接訪問內存,至強E5平台還支持ECC校驗,可以極大避免由於電磁干擾等原因造成的比特位顛倒。

由此,相比之下2683v3的系統匯流排帶寬為9.6GT/s 且14核28線程及最高支持DDR4 2133的內存控制器可提供68GB/s的內存帶寬(詳見:ARK | Compare Intel? Products)

考慮到題主的主要應用領域是DL,最理想的肯定是Tesla平台,但是考慮到性價比因素,同樣採用GM200大核心的TITAN X無疑更划算,單卡12GB的顯存容量,存儲龐大的DNN網路也不是問題(只不過雙精度浮點運算單元被削的有些慘,考慮到即使是航天領域單精度浮點運算已經能夠滿足需求了,這點可以忽略)。

另外,最後一個解決方案當中的華碩Z10PE-D8 WS由於是採用C612晶元組的雙路主板,讓你最多可配置兩顆FCLGA2011-3插槽的E5 v3系列CPU,相比其他單路主板及華碩Z10PE-D16(最大64GB)具有更大的內存支持(最大512GB),以及多至7路的PCI-E x16插槽,近乎爆炸的擴展能力也更為理想,就算是四路TITAN X也足夠用了。多出來的3個插槽還能加個RAID卡,PCI-E SSD,萬兆網卡之類的。

至於電源給足點就可以了,電源質量可靠就問題不大,表中所列的散熱解決方案問題也不大。

綜上,個人比較推薦最後一列的那個配置,但想必性價比應該一般,如果預算有限也強烈推薦另一套2620v3平台的解決方案,畢竟深度學習這種需要龐大內存及帶寬的任務,頂級桌面平台也打不過伺服器平台,況且擴展能力有限。

回答比較倉促,回頭再行整理下,僅僅是個人觀點,題主參考就好,實際採購哪套方案還需因地制宜。

最後,說個題外話,個人比較關注國人DMLC的那個項目,其中MXNet框架,相比caffe等框架易用性更加,利用python就能快速構建起DL平台,且符號式編程及分散式支持是一大亮點,強烈推薦題主關注下該項目。

**************************************************3月31日更新**************************************************

另外再給題主推薦些機型,題主應該知道NVIDIA推出了機器學習專用工作站devbox,此外NVIDIA代理商容天匯海也推出了機器學慣用工作站,題主也可以關注下,相關機型請見:http://www.rthpc.com/ImgLists?id=002013

忘了問題主的應用場合,是實驗室科研還是創業公司做伺服器用?3月30日的答案我是站在做伺服器的角度考慮的,若是科研使用題主另外一個問題如何配置一台適用於深度學習的工作站? - 機器學習中Filestorm的回答確實比較中肯,深度學習工作站的性能關鍵的能夠提供足夠的PCI-E帶寬,目前已上市且易採購到的CPU中支持40通道PCI-E的型號確實的題主最好的選擇,畢竟多卡環境足夠的帶寬支持才是王道,多餘的通道插RAID卡或者PCI-E SSD對系統性能的提升也是十分明顯的。


我自己也籌備過個人的深度學習工作站,配置如下:

所以考慮兼容性,還是推薦你圖上的第一個。畢竟,俗話說得好,貴就是好。


就我個人看來,除非是有特殊需求其實機箱可以不考慮的


想要多路GPU訓練,caffe編譯NCCL的話,至強系列的CPU還是主流選擇方案。其實只做圖像訓練,CPU的能力還是次要的,CPU有集顯才是重要的。要不然pytorch的多顯卡訓練簡直莫名其妙。


推薦4芯E7,內存要16條16G的都不夠,顯卡給我扔了換用伺服器主板上的集顯。綜合的來說,這樣一套配置不僅主頻高(雜訊大),強大的內存(功耗)也是可以hold住入門級深度學習的。

以上開玩笑,我用i7 6700K配4*8G內存,用與prisma類似的程序刷一張iphone6拍出的照片,花了1小時。

P.S.據說AMD的APU在渲染優化方面完爆i5


推薦閱讀:

如何評價微軟亞洲研究院提出的LightRNN?
如何理解空洞卷積(dilated convolution)?
LeCun 說的可微分編程是什麼?
深度學習cnn中,怎麼理解圖像進行池化(pooling)後的平移不變性?
學習聖經Deeplearning需要掌握哪些數學基礎?

TAG:機器學習 | 圖形處理器GPU | GPU通用計算 | 電腦配置 | 深度學習DeepLearning |