HIN2Vec:異質信息網路中的表示學習 | PaperDaily #18
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背後的探索和思考。 在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。 點擊即刻加入社區,查看更多最新論文推薦。
本期推薦的論文筆記來自 PaperWeekly 社區用戶 @YFLu。這篇論文發表在剛剛結束的 2017CIKM 會議上,論文提出了一種針對異質信息網路的表示學習框架 HIN2Vec。
不同於之前很多基於 Skip-gram 語言模型的工作,HIN2Vec 的核心是一個神經網路模型,不僅能夠學習網路中節點的表示,同時還學到了關係(元路徑)的表示。
如果你對本文工作感興趣,點擊即可查看原論文。
關於作者:陸元福,北京郵電大學計算機系碩士生,研究方向為異質信息網路的表示學習。
論文 | HIN2Vec: Explore Meta-paths in Heterogeneous Information Networks for Representation Learning
鏈接 | https://www.paperweekly.site/papers/1182
作者 | YFLu
HIN2Vec 是一篇關於異質信息網路中的表示學習的論文,發表在剛剛結束的 2017CIKM 會議上。這篇論文和我最近的工作有一些相似之處,一些想法甚至有些相同,同樣有很多地方值得借鑒。
論文提出了一種針對異質信息網路的表示學習框架 HIN2Vec,不同於之前很多基於 Skip-gram 語言模型的工作,HIN2Vec 的核心是一個神經網路模型,不僅能夠學習網路中節點的表示,同時還學到了關係(元路徑)的表示。
同時論文還對異質信息網路中表示學習的一些問題做了研究實驗,例如:元路徑向量的正則化、負採樣過程中節點的選擇以及隨機遊走中的循環序列問題。
Introduction
論文首先指出了現有模型存在的一些問題,之前的很多工作僅僅局限於同質信息網路,而且往往只考慮節點之間的整合的信息或者限制類型的關係。雖然 ESim 模型考慮了節點間的不同關係,但是該模型過於依賴人為定義的元路徑以及每條元路徑人為設置的權重。
基於現有模型存在的問題,論文提出了 HIN2Vec 模型,通過研究節點之間不同類型的關係和網路結構,學習異質信息網路中豐富的信息。由於不同的元路徑可能有不同的語義信息,所以作者認為對嵌入在元路徑和整個網路結構中的豐富信息進行編碼,有助於學習更有意義的表示。
和之前的一些模型相比,HIN2Vec 模型保留了更多的上下文信息,不僅假設存在關係的兩個節點是相關的,而且還區分節點之間的不同關係,並通過共同學習關係向量區別對待。
論文的主要貢獻:
- 證明了節點間不同類型的關係能夠更好的捕獲更多嵌入在網路結構中的細節信息,因此通過捕獲節點間各種不同類型的關係,有助於網路的表示學習。
- 提出了 HIN2Vec 模型,包括兩部分:首先,基於隨機遊走和負採樣生成訓練數據,然後,設計邏輯二元分類器用於預測兩個給定的節點是否存在特定的關係。同時,考慮了循環序列、負採樣和正則化問題。
- 實驗很充分,包括多標籤分類和鏈路預測,同時實驗研究了循環序列、負採樣以及正則化對實驗分類結果的影響。
HIN2Vec
Framework
HIN2Vec 模型分為兩部分:基於隨機遊走的數據生成部分和表示學習部分。數據生成部分,基於隨機遊走和負採樣生成符合目標關係的數據,以用於表示學習。表示學習部分是一個神經網路模型,通過最大化預測節點之間關係的可能性,同時學習節點和關係的表示向量,模型的整體框架可以見下圖。
值得注意的是,HIN2Vec 模型同時學習了節點和關係(元路徑)的表示向量,這種多任務學習(multi-task learning)方法能夠把不同關係的豐富信息和整體網路結構聯合嵌入到節點向量中。
Representation Learning
HIN2Vec 模型的基本想法是對於多個預測任務,每個任務對應於一條元路徑,聯合學習一個模型,學到每個節點的向量表示,所以一個簡單的想法就是構建一個神經網路模型,預測任意給定節點對之間的一組目標關係。
論文最初的想法是一個多分類模型,即給定兩個節點和一個目標關係集合,通過下圖 2 的神經網路模型訓練預測概率值 P(ri|x,y),(i=1…|R|),但是對於這樣的一個模型的訓練數據的獲取是非常複雜的,因為對於一個複雜網路而言,獲取網路中兩個節點的所有關係是很困難的。
所以論文退而求其次,將問題簡化成二分類問題,即給定兩個節點 x,y,預測節點間是否存在確定的關係 r,這樣就避免了遍歷網路中的所有關係,圖 3 所示就是 HIN2Vec 的神經網路模型。
模型的輸入層是三個 one-hot 編碼的向量 ,經過隱層層轉換到隱含向量 ,值得注意的是,因為關係和節點的語義含義是不同的,所以論文對關係向量 r 做了正則化處理,這種處理方式限制了關係向量的值在 0 到 1 之間。
然後,模型對三個隱含向量運用一個 Hadamard 函數(例如,對應元素相乘),對乘積再運用一個線性激活函數,最後輸出層對成績求和後的值進行一個 sigmoid 非線性轉換。
模型的訓練數據集是以四元組的形式給出的,形如 $,其中,其中 L(x,y,r) 指示指示 x,y 之間是否存在關係之間是否存在關係 r。具體的:
Traning Data Preparation
論文採用隨機遊走的方式生成節點序列,但是需要注意的是,不同於 metapath2vec[1] 按照給定元路徑模式遊走的方式,HIN2Vec 模型完全隨機選擇遊走節點,只要節點有連接均可遊走。
例如,隨機遊走得到序列 P1,P2,A1,P3,A1,那麼對於節點 P1,可以產生訓練數據 $和$。
在論文中,作者討論了隨機遊走過程中可能出現的循環的情況,提出通過檢查重複節點的方式消除循環,並在實驗部分分析了是否消環對實驗結果的影響,但是個人認為這個地方的原理性介紹比較欠缺,對於消除循環的具體做法沒有給出很詳細的說明解釋,循環的檢測是根據前面已生成的所有節點還是部分節點,也沒有給出說明。
論文還討論了訓練數據集中負樣本的選擇,論文也是採用 word2vec 中的負採樣的方法產生負樣本。對於一個正樣本 $,通過隨機替換,通過隨機替換 x,y,r 中的任意一個,生成負樣本中的任意一個,生成負樣本,其中,其中 x』』 和 y』』 之間不一定有確定的關係之間不一定有確定的關係 r』』$。
但是,由於網路中的關係數量是很少的,節點的數量遠遠大於關係的數量,這樣就很容易產生錯誤的負樣本(其實是可能正樣本),所以論文採用只隨機替換 x 或 y 中的一個,而保持 r 是不變的,同時保持 x 或 y 的類型不變。
Summary
總體來說,論文的想法還是很新穎的,把節點和節點間的關係作為一種二分類問題考慮,給定兩個節點 x,y,通過預測節點之間是否存在確定的關係 r,同時學習到了節點和關係的向量表示。
此外,論文考慮到了節點和關係的語義是不同的,因此它們的表示空間也應該不通,所以論文對關係向量運用了一個正則函數。對於隨機遊走過程中可能會出現循環節點的問題,論文也給出了實驗分析,同時闡述了負採樣時候節點及節點類型的選擇。
個人認為,論文的不足之處在於隨機遊走過程中如何消除循環,沒有給出較為詳細的說明。此外,對於學習到的關係的表示如何應用到實際的數據挖掘任務中,論文也沒有給出實驗分析。
Reference
[1] Dong Y, Chawla N V, Swami A. metapath2vec: Scalable representation learning for heterogeneous networks[C]//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2017: 135-144.
本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智慧、機器學習、數據挖掘和信息檢索等研究方向,點擊即刻加入社區!
我是彩蛋
解鎖新姿勢:用微信刷論文!
PaperWeekly小程序上線啦
今日arXiv√猜你喜歡√熱門資源√
隨時緊跟最新最熱論文
解鎖方式
1. 掃描下方小程序碼打開小程序
2. 用PaperWeekly社區賬號進行登陸
3. 登陸後即可解鎖所有功能
關於PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事 AI 領域,歡迎在公眾號後台點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
微信公眾號:PaperWeekly
新浪微博:@PaperWeekly
推薦閱讀:
※如何處理不均衡數據?
※現在計算機自然語言處理的最高水平是什麼?
※招2000人來審核內容,他們是今日頭條的數據勤雜工還是機器學習的訓練師?
※《Generating Factoid QuestionsWith Recurrent Neural Networks:nThe 30M Factoid Question...》閱讀筆記
TAG:自然语言处理 |