Datalore初體驗：JetBrains的雲端機器學習開發環境

07-13

來自專欄論智71 人贊了文章

作者：weakish

如果說「古代」的編輯器聖戰是Vi和Emacs，那當今時代的IDE聖戰可能是Eclipse和Intellij了。大多數人都覺得Intellij是後出轉精。不過，Eclipse其實有一個獨特的優勢，Eclipse Che，基於Eclipse的雲端開發環境。Eclipse Che可以方便地統一開發環境，避免不同系統、不同硬體導致的各種兼容問題，同時節省開發人員配置環境的時間。Intellij乃至其他JetBrains系的IDE，則都只有本地版本。

不過，JetBrains今年倒是出了一個雲端開發環境Datalore，不過並不針對Java開發者，而是面向機器學習。

經過三個多月的公測，Datalore的基本功能也比較完善了。所以今天我們將通過一個具體的例子（使用卷積網路分類服飾圖像）來分享下基於Datalore開發機器學習項目的體驗。

首先我們訪問datalore.io，可以使用Google賬號或JetBrains賬號登錄。如果沒有的話，可以註冊一個。

登錄後，點擊New workbook圖標，新建一個workbook。

如果你接觸過Jupyter Notebook，那麼workbook可以看成是Jupyter Notebook的加強版。如果你沒接觸過，那麼簡單來說，workbook是內嵌代碼的文檔，其中的代碼是可以直接運行的。

workbook是左右雙欄，左邊是源代碼，右邊顯示結果。

我們注意到，左邊默認提供了一些常用操作，包括load dataset（載入數據集）、standard imports（標準導入），等等。如果你接觸過JetBrains家的IDE，那麼你應該已經意識到，這是JetBrains系列IDE廣受讚譽的意圖行動（intention actions）功能。

我們首先要做的是引入相應的庫，當把滑鼠懸浮到standard imports（標準導入）後，會有懸浮提示，告訴我們所謂的標準導入包括numpy、pandas、matplotlib，還有datalore定製的一個繪圖庫。如果你打算做一點數據分析，或者數據可視化的工作，那這個標準導入就很方便。只需點擊一下就可以自動生成導入語句，不用一行一行敲了。

不過我打算試下機器學習，所以就不用這個標準導入了。我將導入TensorFlow：

import tensorflow as tf

咦，我只輸了i、m兩個字母，workbook界面就出現了這個：

是啊，JetBrains出品的東西怎麼少得了自動補全呀？按回車就好，不用一個一個字母敲了。

然後我輸入tensorflow。咦？沒有補全。感覺不太妙。

果然，tensorflow顯示為紅色，意味著出問題了。再看右邊，是報錯信息，提示沒有tensorflow這個模塊。

看來tensorflow沒有預裝。我們裝一下。菜單選擇Tools（工具）->Library Manager（庫管理器），輸入tensorflow搜索。

滑鼠點下就可以裝了，右邊還有下拉菜單可以選版本。

稍等片刻就裝好了，其間會彈出窗口顯示安裝信息，等看到綠色的Installation complete（安裝完成）就說明安裝成功了。可以點Close（關閉）把窗口關了。

由於安裝了新的包，Datalore會提示你需要重啟內核（restart kernel），確認就可以了。然後我們看到，報錯信息消失了。我們可以接著鍵入as tf了。

然後我們需要載入數據集。點擊load dataset，可以看到，其中包括了一些常用的數據集。

前面我已經說過，我打算試下機器學習。而且我剛安裝了TensorFlow。那TensorFlow入門最經典的數據集就是MNIST，Datalore也提供了。

不過么……

「花書」作者Ian Goodfellow、Keras作者Fran?ois Chollet一起炮轟MNIST

上面的推特就不逐字逐句翻譯了，大意就是MNIST不能代表現代的計算機視覺任務，學術界不應該老是用MNIST。

所以我也趕下時髦，換個數據集用用。好吧，我只是找了個借口，不管怎麼說，MNIST用來入門還是不錯的。其實我只是看了太多MNIST的入門教程，有點審美疲勞了。

手寫數字看厭了，畢竟數字又不能當飯吃。不如換成衣服、鞋子吧，雖然也不能吃，好歹可以穿啊。

隆重介紹MNIST的時尚版，Fashion-MNIST。

TensorFlow的API寫起來還是有點啰嗦，所以我決定使用Keras。而且，Keras的datasets模塊自帶獲取和載入Fashion-MNIST的方法。

按照之前描述的方法，通過Library Manager安裝Keras後，載入Fashion-MNIST數據集：

from keras.datasets import fashion_mnist(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()

好吧，這行代碼看著稍微有點長，其實在Datalore里打起來非常快，因為很多地方稍微敲一兩個字母就可以一路補全下去。與此同時，我們能在右邊看到，Datalore會自動幫我們下載數據集，並在下載完成後自動載入數據集。

好了。數據集載入好了，下面我們將構建一個模型分類服飾。分類圖像最常用的是卷積神經網路，這也是我們的選擇。圖像的每個像素是由整數表示的（0-255的亮度值），為了提高訓練的效率，我們需要首先將其歸一化：

x_train = x_train.astype(float32) / 255x_train = x_train.reshape(x_train.shape[0], 28, 28, 1)x_test = x_test.astype(float32) / 255x_test = x_test.reshape(x_test.shape[0], 28, 28, 1)

除了歸一化外，我們還順便重整了一下數據的形狀為28, 28, 1（Fashion-MNIST中的圖像為28x28的灰度圖像）。

和MNIST一樣，Fashion-MNIST中的圖像分屬10類：

圖片來源：Margaret Maynard-Reid

在數據集中，標籤（y_train）是類別變數，具體而言，是取值範圍為0-9的整數。一般而言，為了便於模型利用，我們需要將其轉成one hot編碼。y_test同理。

y_train = keras.utils.to_categorical(y_train, 10)y_test = keras.utils.to_categorical(y_test, 10)

這裡有一個提高效率的小技巧。在輸完y_train這行後，按Ctrl + D（Mac OS X下是Command + D），可以複製當前行。之後將複製行中的兩個y_train改成y_test就可以了。

設計預處理完畢，接著就是設計模型了。由於本文的主題不是關於如何設計卷積網路，因此我這裡就偷個懶，直接使用Keras自帶的MNIST分類器樣例（examples/mnist_cnn.py），看看這個為MNIST設計的CNN分類器在Fashion-MNIST上的效果如何。

model = Sequential()model.add(Conv2D(32, kernel_size=(3, 3), activation=relu, input_shape=(28, 28, 1)))model.add(Conv2D(64, (3, 3), activation=relu))model.add(MaxPooling2D(pool_size=(2, 2)))model.add(Dropout(0.25))model.add(Flatten())model.add(Dense(128, activation=relu))model.add(Dropout(0.5))model.add(Dense(10, activation=softmax))

這個CNN網路模型還是比較簡單的。我們有兩個卷積層（均使用3x3的卷積核和ReLU激活），之後加上最大池化層，然後是Dropout層和全連接層，最後，因為需要預測10個分類，所以順理成章地在輸出層中使用了softmax激活。

接下來我們編譯模型，因為是分類問題，所以損失函數很自然地使用了交叉熵。優化使用了Adadelta，這是Matthew D. Zeiler在2012年底提出的一種優化演算法，使用自適應的學習率。

model.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adadelta(), metrics=[accuracy])

然後就是訓練和評估，並輸出結果：

model.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adadelta(), metrics=[accuracy])model.fit(x_train, y_train, batch_size=128, epochs=20, verbose=1, validation_data=(x_test, y_test))score = model.evaluate(x_test, y_test, verbose=0)print(測試損失, score[0])print(測試精確度, score[1])

由於Datalore目前為免費公測階段，只有t2.medium規格的AWS主機可用（2核、4 GB內存），因此，大約需要等1小時完成訓練。等以後正式上線了，會有GPU主機可用（p2.xlarge，4 cpu核心、1 gpu核心、61GB 內存，12 GB顯存）。當然，你也可以嘗試去Datalore官方論壇申請GPU主機。

結果：

測試損失 0.22063894088864328測試精確度 0.9295

20個epoch後精確度超過90%，比我預料中的表現要好。

看到這個結果，我有點好奇這個模型在MNIST上的表現有多好。Keras文檔告訴我精確度超過99%，不過，俗話說得好，耳聽為虛，眼見為實。我想親自試一試。

實際上，上面的代碼只需改動兩處，就可以變為分類MNIST。

將開頭兩行中的fashion_mnist替換為mnist:

from keras.datasets import mnist(x_train, y_train), (x_test, y_test) = mnist.load_data()

其他的都不用動。就這麼簡單！

不過，在此之前，先讓我們保存一下當前的版本，以備以後繼續使用。

通過菜單Tools -> Add history checkpoint，我們可以添加一個checkpoint，比如說，起名為keras-mnist-cnn.

然後，通過菜單Tools -> History，我們可以查看workbook的歷史。其中，第一個checkpoint是創建workbook時的狀態。除此之外，勾選左上角的Show inactivity checkpoints之後，我們能看到很多Datalore自動保存的checkpoint，你再也不用擔心不小心丟失代碼了。沒錯，如果你接觸過JetBrain系的IDE，這就是其歷史功能。

你不僅可以查看不同的checkpoint，還可以比較不同checkpoint之間的區別：