如何評價 Cloud TPU?

https://cloud.google.com/tpu/

「Google has developed its second-generation tensor processor—four 45-teraflops chips packed onto a 180 TFLOPS tensor processor unit (TPU) module, to be used for machine learning and artificial intelligence—and the company is bringing it to the cloud. TPU-based computation will be available to Google Cloud Compute later this year.」

本題已收錄至知乎圓桌:Google I/O 2017,更多「Google I/O」相關話題歡迎關注討論


Nvidia股價可能又要跌了。

1. 原本Google是Nvidia的一個很大的買家,現在Google可以自給自足了。

2. 原本一些Nvidia GPU的客戶會選擇在Google的data center而不是Nvidia的data center去跑。通過Google Cloud,任何人都可以租用Cloud TPUs,並且價格和GPU差不多。同時Google發布了一個叫TensorFlow Research Cloud的東西,為做AI研究的人提供免費的1000個TPUs。

3. TPU為Google的深度學習框架TensorFlow優化過,也就是說TensorFlow在TPU上會有更好的運行效果,換言之,想要用TPU的人可能就不會選擇其他的深度學習框架,這樣一來Google就將所有深度學習的市場鎖死了,對Nvidia,AMD來說產生了惡性循環。

希望打臉。

————————————————————

5.19 上一張現場拍的圖。


谷歌想要靠一塊新的、人人可用的AI晶元攪局晶元版圖。

谷歌的新處理器是一個非常獨特的晶元,旨在訓練和執行深度神經網路——從圖像和語音識別到自動翻譯再到機器人的快速革命的背後是機器學習系統。

谷歌表示,這塊晶元不會直接賣給他人,而是通過新的雲服務,讓任何商業人士和開發者通過互聯網來構建和運行軟體,將數百個或者數千個處理器整合到谷歌數據中心。

新的晶元和新的雲服務正是谷歌長期發展中重要的一環。十多年來,谷歌已經開發出新的數據中心硬體,從計算機伺服器到網路設備,這些硬體更有效地推動了谷歌帝國的前進。

谷歌的大部分收入仍然來自於廣告業務,但是該公司認為雲計算也是另一個主要的收入來源,將來還會在應收中佔據很大一部分。

谷歌新的AI晶元其實已經在圖像識別和機器翻譯工具中服務兩年多的時間。

與最開始的TPU不同,Cloud TPU用於訓練神經網路,當然,也不僅僅是用來訓練神經網路,它通過專用雲服務也可以使用。

神經網路是複雜的數學系統,可以通過分析大量數據學習離散的任務。例如,通過分析數百萬長貓的照片,它們可以學習如何識別出一隻貓。

在谷歌,神經網路甚至有助於選擇搜索結果,而搜索,正是谷歌的核心業務。

神經網路從根本上改變了技術的構建和運行方式。與傳統軟體不同,神經網路必須經過訓練。它必須通過分析幾億隻貓的照片才能了解一隻貓到底是什麼。

傳統的CPU處理器的訓練花費太多的時間和精力,所以CPU不適合訓練和執行神經網路。企業和開發人員在GPU的幫助下進行神經網路的訓練。這些GPU通常是用在遊戲或者其他軟體渲染圖形的。矽谷的晶元製造商Nvidia是GPU的主導廠商。

現在,谷歌設計了一塊專用晶元來訓練神經網路,加入到這一競爭中。Cloud TPU訓練神經網路時,比現有的處理器快幾倍,並可將耗時縮短到幾個小時。不言而喻,說的是Nvidia的處理器。

這是晶元界邁出的一大步。

單個Cloud TPU設備由4塊晶元組成,比IBM的深藍超級計算機的速度要快1.2萬倍。

AI研究是一個不斷嘗試的過程,中間會有大量試錯的過程。速度的優勢肯定會吸引外界的研究人員。

谷歌Cloud TPU的成功不僅僅是要靠晶元的速度,還要考慮成本。如果谷歌以比現有GPU服務低得多的成本提供服務,那麼它可以為其擁有更大的雲計算服務打下堅實的基礎。

好在,谷歌已經表示,Cloud TPU會免費提供給頂尖研究人員。這對於AI研究人員也是有好處的,對谷歌也有好處。

亞馬遜和微軟也通過雲服務提供GPU處理,但是它們不提供用於訓練和執行神經網路的定製AI晶元。

所以,谷歌的這塊晶元出來後,英特爾和一大批初創公司也會開發類似的專門AI晶元。

晶元市場會變得更快。

但是,谷歌的晶元也不一定就能保證它會成功。為了發揮TPU的優勢,開發人員必須學習心得構建和執行神經網路的新方法。這不僅僅是因為它是一塊新的晶元。TPU 2.0還專門為TensoFlow設計,用於運行谷歌開發的神經網路軟體。雖然Tensorflow是任何人都可以使用的開源軟體,但是許多研究人員也在使用Torch和Caffe。

在谷歌推出TPU 2.0幾周前,Facebook的AI實驗室主管Yann LeCun就質疑市場是否會接受新的AI專用晶元。因為研究人員已經熟悉使用GPU所需的工具了。這個問題很難解決,需要一個完整的生態系統。

http://weixin.qq.com/r/rUSVjTjEUGUvrXzu9xG- (二維碼自動識別)


這是繼AMD,Intel之後第三家準備挑戰NV的公司。

短期Google的TPU就想超過NV基本不太現實。

話再說回來,這一波AI退潮之後,TPU無路可走,但是NV還可以繼續在各個平台上繼續前行。

我買NV贏!


TPU Cloud與第一代TPU主要有三個方面的區別:性能、應用、服務。

一、性能方面。

新一代TPU能夠同時應用於高性能計算和浮點計算。 並且最高可以達到每秒180萬億次的浮點運算性能。相比而言,上周英偉達剛剛推出的GPU Tesla2 V100,每秒只能達到120萬億次浮點運算。

相比第一代在功能上實現從無到有的突破,第二代的起點相對更高,開發團隊也能更加集中資源來提升改進TPU的性能。相信通過硬體、軟體的優化,後續第三代、第四代在性能取得持續突破的可能性非常大。

二、應用方面。

第一代TPU沒有特別提到組合應用、集群應用的功能,而且自身沒有存儲空間。第二代在發布會上直接就展示了一個 包含64顆二代TPU晶元的TPU pod運算陣列。這個運算陣列, 最多可以為單個ML訓練任務提供每秒11.5千萬億次的浮點計算能力,大大加速機器學習模型的訓練。

也有專業媒體提到,新的TPU在左右兩側各有四個對外介面,在左側額外增加了兩個介面。這些介面未來可能允許TPU晶元直接連接存儲器,或者是直連高速網路,從而實現更加複雜的運算。理論上,開發者也能在此基礎上設計更多的功能,添加更多的擴展。

三、服務方面。

從Cloud TPU的命名上面,也可以直觀地了解到,新一代的TPU將加入谷歌雲計算平台,並對外提供雲服務。這也就意味著TPU不再只是谷歌內部的獨享服務,而將成為任何人都能輕鬆分享、應用的神器。

這裡就看出谷歌比較賊的地方了,第一代剛出來的時候,藏著掖著的,還特別低調地說只打算自己內部使用。二代研發出來,直接就上雲了:硬體不對外銷售,服務可以啊。

如果是直接的硬體銷售,很多中小型的公司(比如我們公司:智慧思特)可能會更加偏向於選用GPU:應用範圍更廣,可以根據需要安排處理不同的任務。大型的公司(比如阿里、Facebook),ML任務量非常大,才會考慮採購TPU,甚至出於經費、效率的考慮,自主組建團隊進行研發(比如這次谷歌自己做TPU,Facebook也有過自主研發數據中心硬體設備的報道);

對外銷售服務的話,首先是激活了中小企業的這塊需求市場,用戶只需根據使用時間進行付費,節省了成本。另外,大型企業自身的資源利用率也有了很大的提升,攤薄了成本。比如阿里,為了應對雙十一準備的海量伺服器,在閑暇時間可以對外提供雲計算服務。最後,避免了跟硬體廠商(比如英偉達)直接的利益衝突。

四、小結

綜合來說,TPU,尤其是Cloud TPU讓大型互聯網公司印證了自主研發硬體的可行性。

性能上,針對自主業務進行成倍優化,節約硬體採購、數據中心建設、時間消耗等成本;應用上,可以靈活地與現有設施、設備進行組合、擴展;服務上,通過雲實現資源的對外銷售,賺取收益。

對應的,根據企業自身業務的不同,未來可能出現的定製化硬體設備也會不一樣。比如針對在線交易數據處理的APU?針對在線社交互動的FPU?

至於如何評價Cloud TPU,大概可以算是標誌著人工智慧專業硬體時代的到來吧。


TPU cloud開放針對「top researchers」的免費測試申請,應該是旨在收集更多基於TensorFlow的實際高水平應用。

按Google的風格,他們不是家做硬體的公司,為大家提供硬體平台的目的還是為了推廣其軟體平台,即TensorFlow。就像做Nexus就是為了推廣Android。這個NVIDIA為了GPU產品做CUDA和一些列軟體本質上是有區別的。


"Top researchers" ... 這輩子是用不上了


nv贏面=0

因為硬體是跟著軟體走的


cpu百花齊放的時候,dec沒能挺過去。ibm也沒能打過intel。


TPU終於上google雲了,這大概是唯一翻身追上aws的機會了..

有tensorflow做底子,開發者不會很討厭,但是數據集怎麼傳上去?在機房旁邊還好,要是在國內得一塊豆腐撞死了..


hardware as a service


透漏出來的信息太少了,關鍵的網路連接沒提


名字起的不好,tpu不是一種橡膠的縮寫嗎。


推薦閱讀:

如何看待谷歌推出 Google Play Protect 用以掃描清理「有害」APP?
Google I/O 2017 上有哪些關於 Android 的新亮點?
如何看待 Google 與 HTC 和聯想合作研發 Standalone VR?
Google Photos 如何能做到為全球用戶提供無容量限制的高質量圖片視頻免費存儲服務?
為什麼微軟、谷歌、蘋果三家大型的科技公司,只有谷歌較好的完成了一個應用,多個平台的運行?

TAG:GoogleIO | TensorFlow | TPUTensorProcessingUnit |