Chatbot專題閱讀小組 | 每周一起讀 #08

01-25

「每周一起讀」是由 PaperWeekly 發起的協同閱讀小組。我們每周精選一篇優質好文，利用在線協同工具進行精讀並發起討論，在碎片化時代堅持深度閱讀。

繼 知識圖譜、多模態 和 GAN 小組相繼成立後，從本周起，PaperWeekly 將針對交流群內呼聲最高的聊天機器人（Chatbot）方向組建專題閱讀小組，在組內發起「每周一起讀」活動。我們將每周選定一篇優質文章，並為大家提供可撰寫讀書筆記和在線協同討論的閱讀工具。

如果你也希望和我們一起培養良好的閱讀習慣，在積極活躍的討論氛圍中增長姿勢，就請留意下方的招募信息吧：）

上周閱讀筆記精選

1. GAN專題小組

Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis

lovemusicge：提出雙路徑 GAN 來合成逼真的正視圖，方法是同時感知全局結構信息和局部細節。網路結構： G（生成器）包含兩部分： G_G（全局）的前半部分採用下採樣編碼，後半部分採用上採樣解碼，還是用 skip 進行多尺度 feature fusion。作用是處理全局性結構。這是一個傳統的實現。 G_l （局部）有四個，稱為 landmark located patch network，分別是左右眼為中心的區域，鼻子區域，嘴巴區域。作用是處理 4 個 facial landmarks 周圍的紋理。需要注意的是 G_G 的前後兩部分之間有一個特殊的層：bottleneck，它產出一個 256 維的 feature vector Vid 用於identity classification。並在這一層，向 Vid 中加入一個 100 維的高斯白雜訊來對 pose and identity 之外的變數建模。

D（判別器）呢，則輸出 2*2 的 probability map 而非一個簡單的標量值，4 個分量分別對應 4 個特徵區域。

Loss 函數為 5 個 loss 函數的加權複合： Pixel-wise Loss：G_G，G_l 以及它們的複合輸出都進行像素損失測量，這個 loss 是傳統的 loss，特點是會使結果變平滑，但是速度快。文中說為了方便監督，對 G_G 的後半部分多尺度輸出增加約束，但加了什麼約束沒有說。

Symmetry loss : 在兩個空間定義 symmetry loss，一個是 original pixel space，一個是laplacian image space。拉普拉斯空間對於照明變化更為魯棒，更多地表示面部結構。

Adversarial loss : D 的部分使用 trick loss，而沒有使用 Goodfellow 給出的第一種 adversarial loss，這個本來是為了繞開梯度消失的難題，但根據 WGAN，這個似乎更容易使得模型崩潰。

Identity preserving loss : VGG loss，需要預訓練 VGG 網路，主要用於保真度恢復，成本高昂，意義不明確，根據 SRGAN 的經驗，VGG（5，4）的效果似乎最好。

TV：根據傳統方法理解，主要用於去噪，這一項似乎也是受 Feifei 這篇啟發。（Perceptual Losses for Real-Time Style Transfer and Super-Resolution）

結論：這篇論文讓人不禁回想起以前的論文搞創新往往是在模型上增加先驗項。理論上似乎受 Feifei（Perceptual Losses for Real-Time Style Transfer and Super-Resolution）以及 SRGAN 啟發很大，其中 pixel mse loss，VGG loss 和 TV 在兩篇文章中出現過，方法上表現為對傳統方法的集成，難點在於實現，其中 VGG loss 的使用使得效率不會很高。

YadiraF：The synthesized results are so amazing not because of innovations in algorithms but authors strong ability in engineering.

3 networks: the two-pathway generator, the discriminator and the pretrained recognizer have equipped the designed framework enough power to learn both the local and global and idendity-preserved information about faces.

And 4 losses: L_pixel and L_sym keep the details and symmetry of frontal faces, L_adv keeps the reality, L_ip keeps the identity. (And all these losses are common used in researches about face)

So, synthesized frontal faces can be generated. Then the big problem is how to balance all these losses and reach the equilibrium. (engineering problem and not easy for us to implement :-D)

And.. worth learning: two path-way (local and global) network used in generating faces. symmetry loss can help generate the details of the other side of a face, which is customized for frontal face. Clever Overall, a great work and thanks the authors!

993917172：該方法的「局部+全局」並行處理策略值得我們學習。在局部和全局網路中，他借鑒了文獻「Image Restoration Using Very Deep Convolutional Encoder-Decoder Networks with Symmetric Skip Connections」的「編碼+解碼」的思路，主要是解決姿態的問題，而解析度的問題則是由後來的判別網路不斷調優所得。

2. 知識圖譜專題小組

Modeling Relational Data with Graph Convolutional Networks

karis：本文介紹了 R-GCN（關係型圖卷積神經網路）並將其應用於知識庫構建所涉及的兩大任務——實體分類和關係預測。（1）R-GCN 基於一階 GCN 框架，不同點在於：GCN 是無標記無方向的網路結構，目標是對圖中的節點進行分類；R-GCN 有標記有方向，可以對實體和關係進行分類。（2）利用 R-GCN 進行實體和關係的分類，都需要進行節點的編碼。Entity encoder 的輸入是當前節點的相鄰節點的信息，包括關係類型、關係的方向以及節點自循環的信息。隱藏層的輸入是前一個隱藏層的輸出，其計算公式中 a(rb) 和 V(b) 是模型要訓練的關鍵參數，被整個網路共享使用，相當於 CNN 中的濾波器。（3）利用 R-GCN 進行關係分類的訓練和預測時，其與實體分類的不同點在於，增加了關係的解碼器，即基於全集上的關係 R 對單個 s-r-o 的關係計算其得分。論文中使用了 DistMult factorization 計分。（4）在學習方法上使用了 Adam optimizer、full batch、dropout 等。（5）實體分類的評測是在 AIFB、MUTAG 和 BGS 三個集合上進行。在 AIFB 集合上，此論文的結果高於 baseline，但在其它兩個集合上明顯低於 baseline。

由此論文可以進一步了解的方向可能是：（1）了解 R-GCN 的細節，論文（Kipf & Welling, 2016）和代碼（https://github.com/tkipf/gcn）（2）通用 GCN 框架，並非一階GCN（Defferrard et al. ,NIPS 2016）（3）在實體分類上的 baseline models（Petar Ristoski et al. ,2016）。

zengpingweb：本文提出用 R-GCNs 進行鏈接預測和實體分類，這與以往的主流的 Trans 系列模型不同，是知識表示學習領域的一個新思路，是我見到的第一篇將 GCN 用於此類任務的文章。

針對鏈接預測任務，該文章提出用 R-GCNs 充當 encoder，而採用 DistMult 充當 decoder，我對 GCN 和 DistMult 均不熟悉，因此無法進一步探討這種做法的優劣。

由於之前讀了 Trans 系列的若干文章，因此感覺此文在一些概念上的解釋沒有這些文章清晰，而且該文的 baseline 不是最新成果，在鏈接預測領域的實驗結果也沒有這兩年提出的模型好。

簡而言之，這篇文章提供的思路對我有啟發，但模型有待進一步改進。

lizhili：對 GCN 並不熟悉，直觀上感覺採用圖模型利用知識庫進行鏈接預測是一種比較舒服的思路，文章模型相較於一些較為流行的知識表示模型（比如翻譯模型等）結果差的原因可能是剛開始將 GCN 應用到這些自然語言處理任務中模型相對來說還有些粗糙，還具備改進空間。本文主要將模型應用於鏈接預測以及實體分類兩個任務中。本文模型主要是為了處理現實知識庫中多種關係數據、特性。實體分類模型就是在圖中每個 node 後面用 softmax 鏈接預測模型主要分為：1.編碼部分：R-GCN 產生實體潛在特徵表示 2.解碼部分：一種張量分解模型主要是利用這些表示去預測標記邊的，文中主要採用 DistMult 作為 score function，用來計算分數。

3. 多模態專題小組

Person Search with Natural Language Description

csz：這篇文章提出了一個新的更細粒度的圖片檢索問題：根據自然語言描述檢索人的圖片。該任務有 2 個難點：1）句子描述中不是每一個詞都是檢索的關鍵詞，如何對不同的詞賦予不同的檢索權重；2）每個詞和圖片的匹配關係怎麼計算。針對這兩個問題文章分別提出了 2 個子模塊：1）word-level gate：根據 LSTM 的 hidden state 計算每個詞的重要性；2）attention over visual units：對圖片做一個 multi-label 詞分類的問題是不容易的，難點在於需要預測的 concepts 怎麼來（phrase 太多了），因此文章不顯式地直接訓練 visual 上的 multi-label 分類器，而是用結合 language model 和 visual model 自動地學習需要預測的 concepts 以及圖片中是否出現了該 concepts。

LinDayong：文本和圖片的匹配，一種方法是將整個文本和整個圖片分別編碼成文本向量和圖片向量，然後讓匹配的圖文對在向量空間中的距離儘可能近，不匹配的圖文對在向量空間中的距離儘可能遠。

這篇論文使用的是更細粒度的單詞級別的圖文匹配。要判斷一個句子是否和某張圖片匹配，那就要看句子中的單詞是否和圖片里的某些東西能夠對應上。

具體到模型而言，對於句子中的每個單詞，Unit-level Attention 得到句子和圖片特徵的關聯度有多大，Unit Activation 得到該圖片是否包含該特徵。兩者結合可以得到單詞和圖片特徵的關聯度。Word-level Gate 用來衡量句子中每個單詞的重要性。三者組合起來得到句子和圖片的匹配程度。

dengdan：由於不深入做這類 topic，只看到了網路結構的描述部分。有三個關鍵點：

1. visual units. CNN 後加 fc 輸出。希望每個輸出都能代表一種 visual feature；

2. attention over visual units. 希望將 word 與 visual units 關聯起來；

3. word gate. 希望將重要的 word 挑選出來。

從宏觀上講，要完成以 NL 搜索 person 的關鍵要素都有了。有監督的 deep 方法就是這樣。給定輸入和 label，給定寄予希望的網路結構，然後訓練，至於特定的網路部件能不能學出預先希望的效果，運氣應該很重要吧。簡單地來說就是給你（i.e.,DNN）肥料（i.e.數據），給你模板（i.e.特定的網路結構），你，給我長成我希望的樣子。

閱讀小組參與細則

1. 參與者需具備小組專題方向的研究背景，目前開放申請的閱讀小組有「知識圖譜」、「多模態」、「GAN」和「Chatbot」。

2. 添加主持人微信zhangjun168305，註明閱讀小組名稱，如「Chatbot」。

關於PaperWeekly

PaperWeekly是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事AI領域，歡迎在微信公眾號後台點擊「交流群」，小助手將把你帶入PaperWeekly的交流群里。

微信公眾號：PaperWeekly

新浪微博：@PaperWeekly