DeepPath 閱讀筆記
02-27
DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning
強化學習里有Action,State,Reward,transition probability matrix
對於這篇論文
Action是所有的 邊 也就是 實體之間的關係,
State是agent在KG的位置,採取一個action之後agent從一個實體移動到另一個實體,
Reward有三個組成
Global accuracy
Path efficiency
Path diversity(正確路徑越多越好)
Policy Network
一個全連接神經網路將state vector s 映射到所有可能的action,如圖
Training Pipeline
因為可能的action太多,所以用廣度優先搜索預訓練
Supervised Policy Learning(預訓練)
(這塊看代碼吧,論文沒看懂)
(感覺應該是把action下一個目標限定在附近幾個action)
Retraining with Rewards
這時已經有了一個policy π(a|s) 也就是一個所有action/relation的概率分布
用這個更新網路參數
就是經典的強化學習reinforce演算法
https://github.com/pytorch/examples/blob/master/reinforcement_learning/reinforce.py#L69Bi-directional Path-constrained Search
比如關係personNationality?1就是關係personNationality的逆向意思,
這塊是要做一個路徑的檢查,(具體看代碼吧)
Experiments
實驗結果是和trans系列比的,不知道怎麼回事,得熟悉trans系列再說
推薦閱讀: