AI以假亂真怎麼辦?TequilaGAN教你輕鬆辨真偽
來自專欄 PaperWeekly12 人贊了文章
本期推薦的論文筆記來自 PaperWeekly 社區用戶 @TwistedW。本文來自 UC Berkeley,GAN 生成的樣本在視覺方面已經達到與真實樣本很相近的程度了,有的生成樣本甚至可以在視覺上欺騙人類的眼睛。區分生成樣本和真實樣本當然不能簡單的從視覺上去分析,TequilaGAN 從圖像的像素值和圖像規範上區分真假樣本,證明了真假樣本具有在視覺上幾乎不會被注意到的屬性差異從而可以將它們區分開。
關於作者:武廣,合肥工業大學碩士生,研究方向為圖像生成。
論文 | TequilaGAN: How to easily identify GAN samples
鏈接 | https://www.paperweekly.site/papers/2116
作者 | Rafael Valle / Wilson Cai / Anish Doshi
GAN 和 GAN 的變種已經將圖像生成質量達到了以假亂真的效果,雖然生成的一部分圖像可以用肉眼去分辨,但是仍然有一部分由 GAN 生成的圖像在視覺上很難和真實圖像區分開。區分真假圖像對於分析 GAN 的生成上具有一定的意義,同時也說明了 GAN 在生成上與真實圖像的不同所在。TequilaGAN: How to easily identify GAN samples 一文將從視覺以外的方面去區分生成樣本和真實贗本之間的差距。
論文引入
使用 GAN 框架生成的假樣本在一定程度上騙過了人類和機器,使他們相信生成樣本與實際樣本無法區分。雖然這可能適用於肉眼和被發生器愚弄的判別器,但生成樣本不可能在數值上與實際樣本無法區分。TequilaGAN 一文正是通過真實樣本和生成樣本在數值上的分析可以判斷出真假。
GAN 的生成數據的評判標準一直沒有很好的統一,大部分的評估是在定性的方面作分析,定量上Inception Score [1] 一直被廣泛使用,但是 A Note on the Inception Score [2] 一文也指出了 Inception Score 未能為 GAN 模型的評估提供系統指導。
在已驗證的人工智慧的背景下,很難系統地驗證模型的輸出是否滿足其訓練的數據的規範,特別是當驗證取決於感知有意義的特徵的存在時。例如,考慮一個生成人類圖像的模型,儘管可以比較真實樣本和假樣本的顏色直方圖,但還沒有強大的演算法來驗證圖像是否遵循從解剖結構得出的規範。
TequilaGAN 涉及假樣本的系統驗證,重點是比較假樣本和真實樣本的數值特性。除了比較統計匯總之外,還研究了 Generator 如何逼近實際分布中的統計模式,並驗證生成的樣本是否違反了從實際分布中得出的規範。總結一下 TequilaGAN 的主要貢獻:
- 證明了假樣本在視覺上和真實樣本具有幾乎不會被注意到的屬性
- 這些屬性可用於識別數據來源(真實或生成)
- 證明了假樣本違反了從真實數據中學習的正式規範
研究方法
實驗主要集中在三點:第一點表明,假樣本具有視覺檢查難以察覺的特性,此特性與可微分的要求密切相關;第二個表明,從可用於識別數據的真實和假樣本中提取的特徵計算的統計矩之間存在數值差異;第三個表明假樣本違反了從真實數據中學到的正式規範。
數據集
實驗使用 MNIST,CIFAR10 以及從網上下載的 389 個 Bach Chorales 的 MIDI 數據集和 NIST 2004 電話會話語音數據集的子樣本。
特徵
特徵光譜質心 [3] 是音頻領域常用的特徵,它代表光譜的重心。MNIST 和 Mel-Spectrograms 的特徵光譜質心如下圖所示示例。對於圖像中的每一列,通過對列總和進行歸一化,將像素值轉換為行概率,然後獲取預期的行值,從而獲得光譜質心。
試驗中同時表示了譜斜率圖:
GAN框架選取
GAN 框架使用最小二乘 GAN(LSGAN)和改進的 Wasserstein GAN(IWGAN / WGAN-GP)網路搭建使用 DCGAN 架構。還比較了使用快速梯度符號法(FGSM)生成的對抗性 MNIST 樣本。在生成器的輸出和其他變換(例如縮放的 tanh 和身份)上評估常用的非線性,sigmoid 和 tanh。
MNIST實驗
這部分著重於顯示由 GAN 偽造的 MNIST 樣品的數值特性以及肉眼未知的特徵。首先將通過 MNIST 訓練集計算的特徵分布與其他數據集進行比較,包括 MNIST 測試集,使用 GAN 生成的樣本和使用 FGSM 計算的對抗樣本。將訓練數據縮放到 [0,1],並且從伯努利分布採樣隨機基線,概率等於 MNIST 訓練數據中像素強度的平均值 0.13。
從上圖生成的樣本表明,IWGAN 似乎比 LSGAN 產生更好的樣本。在 Kolgomorov-Smirnov(KS)雙樣本檢驗和 Jensen-Shannon Divergence(JSD)上,LSGAN 和 IWGAN 生成的樣本如表一所示與標準數據集還是有一定的不同。
下圖中的經驗 CDF 可以理解這些數值現象,使用 GAN 框架生成的樣本的像素值分布主要是雙模態的,並且漸近地接近實數據中的分布模式值 0 和 1。
此外,光譜質心的統計矩的分布圖表明假圖像比真實圖像更嘈雜。
最後,下圖顯示 GAN 生成的樣本平滑地接近分布模式,這種平滑近似與訓練和測試集有很大不同。雖然在感知上沒有意義,但這些屬性可用於識別數據源。
對分布模式的平滑逼近的解釋上,第一個假設是網路搭建採用隨機梯度下降和漸近收斂激活函數(例如 sigmoid 或 tanh),為了驗證這一假設,保持判別器固定,在發生器的輸出端採用不同的激活函數,包括線性和縮放的 tanh。如下圖所示,使用線性或縮放 tanh 激活訓練的模型能夠部分地生成類似於 MNIST 訓練數據和像素強度分布的圖像,仍然具有平滑的曲線。
另一個假設是平滑行為是由於訓練數據本身的像素強度的平滑性,為了驗證這一點,首先通過在 [0,1] 之間對其進行縮放,然後將其設置為 0.5 來對實際數據進行二值化。通過這種改變,實數據的像素強度的分布變為完全雙模態,模式為 0 和 1,從下圖結果顯示假設是合理的。
根據上述實驗可知,隨機梯度下降和方向傳播的應用使得生成的圖像分布上是平滑的,這是區分真假樣本的一個重要依據。
CIFAR-10實驗
CIFAR-10 的實驗主要是在 MNIST數據集的基礎上將像素擴展到 3 通道的彩色圖像上,實驗結果如下:
可以看出生成樣本仍然是平滑分布。
Bach Chorales和Speech實驗
這兩種數據集都是在語音數據下比較的,Bach Chorales(巴赫合唱)音樂是復調的音樂作品,通常為 4 或 5 種聲音編寫,遵循一系列規範或規則。例如,全局規範可以聲明只有一組持續時間有效;本地規範可以聲明只有狀態(音符)之間的某些轉換才有效,具體取決於當前的和聲。
實驗中,將 Bach Chorales 數據集轉換為鋼琴卷,鋼琴卷是一種表示,其中行表示音符編號,列表示時間步長,單元格值表示音符強度。實驗的目的是為了證明生成的樣本是否違反了 Bach 合唱的規範。下圖為真實和生成的樣本數據,表 2 為打破規則的次數:
雖然圖 11 顯示的生成樣本看起來與實際數據類似,但 IWGAN 樣本有超過 5000 次違規,比測試集多 10 倍!違反規範是一個有力的證據,表明假樣本不是來自與真實數據相同的分布。
在語音(speech)域中,實驗研究了 Mel-Spectrogram 特性。將 NIST 2004 數據集劃分為訓練和測試集,將語音轉換為 Mel-Spectrogram 圖,得到的生成樣本如下:
經驗 CDF 的對比結果如下:
總結
TequilaGAN 研究了用對抗方法生成的樣本的數值特性,特別是生成對抗網路。實驗發現假樣本在視覺具有與真實樣本幾乎無法注意到的特性,即由於隨機梯度下降和可微分性的要求,假樣本平滑地接近分布的主導模式。
實驗還對真實數據與其他數據之間差異的統計度量,結果表明,即使在簡單的情況下,例如像素強度的分布,訓練數據和偽數據之間的差異對於測試數據而言是大的,並且假數據嚴重違反了實際數據的規範。
參考文獻
[1]. Tim Salimans, Ian J. Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, and Xi Chen. Improved techniques for training gans. CoRR, abs/1606.03498, 2016.
[2]. Shane Barratt and Rishi Sharma. A note on the inception score. arXiv preprint arXiv: 1801.01973, 2018.
[3]. Geoffroy Peeters. A large set of audio features for sound description (similarity and classifica- tion) in the cuidado project. Technical report, IRCAM, 2004.
關於PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事 AI 領域,歡迎在公眾號後台點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
加入社區:http://paperweek.ly
微信公眾號:PaperWeekly
新浪微博:@PaperWeekly
推薦閱讀:
※ACMMM2016_UnitBox_重讀
※機器是如何獲得人臉識別能力的
※[數據集] 更大的行人重識別測試集 Market-1501+500k
※CVPR 2018獎項出爐:兩篇最佳論文,何愷明獲PAMI 青年研究員獎
※視覺檢測: 機器視覺與氣動量儀結合的密封襯套自動化檢測系統