PaddlePaddle系列之三行代碼從入門到精通

01-29

作者 | 金天
編輯 | Vincent
AI前線出品｜ ID：ai-front

AI 前線導語：「作者本人說，這將是 PaddlePaddle 系列教程的開篇，屬於非官方教程。既然是非官方，自然會從一個使用者的角度出發，來教大家怎麼用，會有哪些坑，以及如何上手並用到實際項目中去」。

本文首發在作者 GitHub：https://jinfagang.github.io ，現由作者授權，AI 前線整理髮布。

三行代碼 PaddlePaddle 從入門到精通

PaddlePaddle 是百度大力推出的一個框架，不得不說相比於 tensorflow，PaddlePaddle 會簡單很多，接下來我會細說。同時百度在人工智慧方面的功底還是非常深厚，我曾經在騰訊實習，類似於 AT 這樣的公司，甚至沒有一個非常成型的框架存在。

既然是三行代碼精通 PaddlePaddle，那麼得安裝一下 PaddlePaddle。就目前來說，最好的辦法是 build from source。步驟如下（注意，這裡是 CPU 版本，GPU 版本的源碼編譯過程後續補充，我們先用 CPU 來熟悉 API）：

好了，看上去應該算是安裝完了。接下來我們用三行代碼來測試一下?

PaddlePaddle 在 python API 上 0.10 有較大的變化，所以直接 import 一下 v2 版本的 API。如果可以說明 PaddlePaddle 安裝沒有問題。這裡贊一下百度的技術功底和用戶體驗，這尼瑪要是 caffe 或者 caffe2 編譯出錯概率 100% 不說，python 安裝了也不能 import，PaddlePaddle 一步到位，非常牛逼。

閑話不多說，直接三行代碼來熟悉一下 PaddlePaddle 的 API。

三行代碼來了

接下來要做的事情是，用 PaddlePaddle 搭建一個 3 層 MLP 網路，跑一個二維的 numpy 隨機數據，來了解一下 PaddlePaddle 從數據喂入到訓練的整個 pipeline 吧。

首先我們這個教程先給大家展示一個圖片分類器，用到的數據集是 Stanford Dogs 數據集，下載鏈接, 大概 800M, 同時下載一下 annotations，大概 21M。下載好了我們用一個 paddle_test 的文件夾來做這個教程吧。

把所有的 images 和 annotations 扔到 data 裡面去，解壓一下：

順便說一下，這裡的 annotations 是為後面用 paddlepaddle 做分割做準備，本次分類任務，只需要一個 images.tar 就可以了，所有圖片被放在了該類別的文件夾下面，以後處理其他分類任務時，只需要把不同類別放在文件夾就 OK 了，甚至不用改代碼，非常方便，這比 MXNet 要有道理很多，多數情況下我們根本不需要海量圖片訓練，也沒有必要搞個什麼 imrecord 的數據格式，MXNet 導入圖片真心蛋疼，沒有 Pytorch 方便，但是 Pytorch 得運行速度堪憂。

OK，將 images.tar 解壓，會得到 120 個文件夾，也就是 120 個類別，每個類別裡面都是一種狗狗圖片。

我們現在要來處理一下這些蠢狗。

開始寫三行代碼

好了，開始寫三行代碼了.

實際上 PaddlePaddle 的使用也就是三行代碼的事情，首先是網路構建，這裡我們構建一個 VGG 網路，其次是 event 的處理函數，這個機制是 PaddlePaddle 獨有的，PaddlePaddle 把所有的訓練過程都包裝成了一個 trainer，然後調用這個 event_handler 來處理比如列印 loss 信息這樣的事情。OK，我們一步一步來，先來看一下 train 的過程把：