Tensorflow入門教程（8）

04-13

上次文章：

閆17：Tensorflow入門教程（7）?

zhuanlan.zhihu.com

本次對應代碼：

https://github.com/SaoYan/LearningTensorflow/blob/master/exp13_user_dataset_high_API_1.py?

github.com

官方文檔參考閱讀：

https://www.tensorflow.org/programmers_guide/datasets?

www.tensorflow.org

同步連載於個人公眾號「SaoYan」

Overview

前兩次文章解決了使用底層API完成用戶自己的數據集構建和讀取的問題，但是有一個明顯的問題：太繁碎，細節太多

雖然主頁菌自己一直在使用底層API，但是考慮到高層API的簡潔性，還是有必要探索一下的。實際項目中諸位根據自己的喜好自行選擇吧。

Tensorflow封裝了一組API來處理數據的讀入，它們都屬於模塊 tf.data。這個模塊中包含了5個類：4種Dataset和1個迭代器類型。

使用方法很簡單：(1)構建Dataset (2)構造這個Dataset的迭代器 (3)操作迭代器讀出數據。（聽起來是不是很像一個標準的面向對象編程思路？）

本次教程使用最基本的 tf.data.Dataset，使用的數據和教程6 相同，400張尺寸為180 x 180的灰度圖像。部分截圖如下：

構建Dataset

tf.data.Dataset 主要提供了以下幾種功能：

（1）構建數據集

（2）對數據集進行預處理

（3）將數據集打混（shuffle）和分批（mini-batch）

構建數據集

這一步其實就是實例化一個tf.data.Dataset 對象，Dataset的原始數據來源自程序內存。這就涉及一個問題：如果預先把全部圖像數據都裝載進內存，勢必是十分低效的，而且浪費大量資源，所以我們選擇另一種方案：將全部圖像數據的路徑裝載進內存並用其實例化Dataset，然後把實際從磁碟讀入圖像的操作放在「預處理」這個階段。

首先載入圖像路徑和標籤。由於這個demo只是隨便一組圖像，沒有類別標籤，所以我們隨機生成400個標籤，權當模擬。

然後就可以實例化Dataset對象了，Dataset中每一個「元素」是一個元組 (圖像路徑，標籤)

預處理

注意這裡的「預處理」是廣義的，可以是對Dataset中的「元素」進行任何操作。例如這裡我們的「預處理」實際上是根據路徑從磁碟中讀取圖片文件。

對Dataset進行預處理需要使用成員函數 map()，傳入參數是某個函數對象，map() 函數將會把這個函數作用在Dataset中每一個元素之上。

在我們這個例子中，有兩個需要著重注意的細節：

（1）由於這裡我們的Dataset中每個元素指一個二元組，因此對應的預處理函數應該有兩個輸入參數，返回一個二元組。

（2）預處理函數只能包含tensorflow所提供的Tensor操作符，而這裡我們難以避免的要使用opencv/PIL等python原生模塊讀取圖像(前者處理的數據是tf.Tensor類型，後者處理的數據是numpy-ndarray類型，二者不兼容)。因此我們需要使用 tf.py_func 將python函數轉換成tensorflow操作符。

首先定義python函數。注意輸入兩個參數，返回一個二元組。雖然label不需要任何操作原樣返回，但是依然要這樣寫。