DeepPath 閱讀筆記

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

強化學習里有Action,State,Reward,transition probability matrix

對於這篇論文

Action是所有的 邊 也就是 實體之間的關係,

State是agent在KG的位置,採取一個action之後agent從一個實體移動到另一個實體,

Reward有三個組成

Global accuracy

Path efficiency

Path diversity(正確路徑越多越好)

Policy Network

一個全連接神經網路將state vector s 映射到所有可能的action,如圖

Training Pipeline

因為可能的action太多,所以用廣度優先搜索預訓練

Supervised Policy Learning(預訓練)

(這塊看代碼吧,論文沒看懂)

(感覺應該是把action下一個目標限定在附近幾個action)

Retraining with Rewards

這時已經有了一個policy π(a|s) 也就是一個所有action/relation的概率分布

用這個更新網路參數

就是經典的強化學習reinforce演算法

https://github.com/pytorch/examples/blob/master/reinforcement_learning/reinforce.py#L69github.com

Bi-directional Path-constrained Search

比如關係personNationality?1就是關係personNationality的逆向意思,

這塊是要做一個路徑的檢查,(具體看代碼吧)

Experiments

實驗結果是和trans系列比的,不知道怎麼回事,得熟悉trans系列再說


推薦閱讀:

為什麼知識圖譜終於火了?|甲子光年

TAG:自然語言處理 | 知識圖譜 |