《Relation of the Relations A New Paradigm of the Relation Extraction Problem》論文閱讀筆記
原文
代碼
摘要
為了解決傳統的關系抽取(RE)方法只能識別兩個實體之間的關系,而忽略了同一上下文中多個關系之間的相互依賴性,即關系的關系(relation of relations,RoR)的問題,本文提出了一種新的RE范式,它將所有關系的預測作為一個整體進行優化。本文設計了一種數據驅動的方法,利用圖神經網絡和關系矩陣Transformer自動學習RoR,無需人工規則。在兩個公開的數據集ACE05和SemEval 2018任務7.2上,本文的模型分別比最先進的方法提高了+1.12%和+2.55%,達到了顯著的改進效果。
1 Introduction

概述:
圖1中的句子涉及到七個實體。在廣泛使用的ACE 05數據集(Walker et al., 2006)中,有99.76%的數據實例涉及到兩個以上的實體,而且每個文本中平均存在9.21個關系。
傳統方法:
采用了一種簡化的設置,即只對每兩個實體之間的關系進行分類(Zeng et al., 2014; Luan et al., 2018; Li and Ji, 2014; Gormley et al., 2015; Miwa and Bansal, 2016)。這意味著對于圖1中有7個實體的句子,大多數以前的方法需要執行49個獨立的關系分類任務(如果考慮自反關系)。由于現有的方法需要對輸入的實體進行顯式標注,因此無法減少這個數量的分類任務。例如,要預測實體對(obstetricians, California)之間的關系,輸入需要轉換為“...<e1> obstetricians <\e1> in <e2> California <\e2> will pay $60,000 in Los Angeles ...”。
傳統方法的問題:
它不僅效率低下,而且忽略了同一上下文中多個關系之間的相互依賴性。例如,在圖1中的49個關系中,如果已經知道了關系(Miami, is part of, south Florida),其中“is part of”是定義在兩個對象上的關系,那么Miami就不太可能與其他任何人際關系有關,比如“is the father of...”。
RoR:
在ACE 05數據集中,每個文本中平均存在9.21個關系,這意味著每個關系都可能對同一文本中的其他關系有影響。將同一文本中多個關系之間的頻繁出現的相互依賴性稱為“關系的關系”(RoR)。
為了捕捉RoR,本文提出了一種新的關系抽取(RE)范式,它將同一文本中所有關系的預測作為一個整體來處理。本文的工作與(Wang et al., 2019)不同,后者仍然將每個實體對的關系視為獨立的分類任務,但以犧牲準確性為代價節省了計算能力,通過一次編碼所有實體。相反,本文新提出的范式不是關于計算成本和準確性之間的權衡,而是通過捕捉RoR來提高性能。
2 New formulation of RE

傳統的任務定義:
把每個文本序列和其中的兩個實體之間的關系作為一個獨立的分類問題來處理的。即:
給定一個文本序列
,以及
中的兩個實體提及
和
,還有一個預定義的關系類型集合
,任務是預測
和
之間屬于哪種關系類型。這樣的 RE 問題可以歸結為一個經典的句子分類任務。
,以及
中的兩個實體提及
和
,還有一個預定義的關系類型集合
,任務是預測
和
之間屬于哪種關系類型。這樣的 RE 問題可以歸結為一個經典的句子分類任務。本文的任務定義:
給定一個文本序列
,以及
中的所有實體提及
,模型需要預測
中任意兩個實體
之間的關系
,其中 ![]()
。本文使用一個矩陣
來表示
中所有可能的關系,如圖 2 所示。
,以及
中的所有實體提及
,模型需要預測
中任意兩個實體
之間的關系
,其中
。本文使用一個矩陣
來表示
中所有可能的關系,如圖 2 所示。3 Statistical analysis of RoR
本文的案例研究基于 ACE05 數據集 (Walker et al., 2006)。下面將介紹兩種 RoR 的形式:
-
biRoR,只考慮兩個關系之間的相互作用。
-
multiRoR,考慮三個或更多關系之間的復雜關聯。
3.1 Data overview

ACE05 (Walker et al., 2006) 是最廣泛使用的關系抽取數據集。它的文本來自多種來源,包括新聞節目、報紙、新聞報道和音頻轉錄。它有 6 種關系類型,如表 1 所示。對于這些關系,有 7 種有效的實體類型:設施 (FAC)、地緣政治實體 (GPE)、位置 (LOC)、組織 (ORG)、人 (PER)、車輛 (VEH)、武器 (WEA)。
3.2 BiRoR: Interdependency of two relations
3.2.1 Entity type-constrained biRoR(受實體類型約束)
給定兩個實體和它們之間的關系類型![]()
,可以判斷
是否不可能與另一種關系類型
同時出現。為了說明這種方法,用 ACE05 數據集中的七種實體類型舉例。表 1 顯示了不同的關系類型允許的實體類型參數。根據這些信息,可以得出 12 條不兼容的規則。比如,同一個實體不能同時是 Per-Soc 的 arg0 和 Part-Whole 的 arg0,因為 Per-Soc 的 arg0 必須是人 (PER),而 Part-Whole 不能包含 PER。所有的不兼容規則都列在附錄 A.1 中。

,可以判斷
是否不可能與另一種關系類型
同時出現。為了說明這種方法,用 ACE05 數據集中的七種實體類型舉例。表 1 顯示了不同的關系類型允許的實體類型參數。根據這些信息,可以得出 12 條不兼容的規則。比如,同一個實體不能同時是 Per-Soc 的 arg0 和 Part-Whole 的 arg0,因為 Per-Soc 的 arg0 必須是人 (PER),而 Part-Whole 不能包含 PER。所有的不兼容規則都列在附錄 A.1 中。3.2.2 Semantic-constrained biRoR(受語義約束)
一個關系的含義可以決定它是否能夠與另一個關系共存或者必須與另一個關系互斥。例如,Art 關系可以表示一個人(arg0)擁有一個設施(arg1),其中 arg1 必須是一個設施。如果已經存在這樣的關系,那么同一個設施就不能再與一個城市構成 Part-Whole 關系,因為從語義上講,城市(比如波士頓)不可能是一個設施的一部分。這種不兼容性不是由實體類型強制規定的,而是由關系的語義所暗示的。
語義也可以暗示一個關系是否應該具有對稱性。例如,Per-Soc 關系總是對稱的,因為家庭和朋友是可以互換的關系,而 Org-Aff 關系總是非對稱的(Walker et al., 2005)。因此,如果一個關系
,那么
也等于
。而如果
,那么
。
,那么
也等于
。而如果
,那么
。3.2.3 Empirical biRoR

本文對圖 3 中的每對關系進行了相關性分析。從圖中可以看出,3.2.1 節提出的不兼容性規則在紅色的負相關區域得到了驗證,3.2.2 節描述的 Per-Soc 和 Phys 的對稱性在深藍色的高相關區域得到了體現。此外,圖中還顯示了一些其他的相關性,例如 Part-Whole 和 Phys 關系經常同時出現。
3.3 MultiRoR: Correlation of 3+ relations
3.3.1 Entity type-constrained multiRoR

biRoR 是一種只涉及兩個關系的規則,但還有一些更復雜的規則,它們可以作用于多個關系,稱之為 multiRoR。multiRoR 是一種基于實體類型的規則,它把 3.2.1 節中介紹的兩個關系的不兼容性推廣到 3 個或更多的關系。舉個例子,如果一個實體同時是 Org-Aff 和 Phys 關系的 arg1,那么根據實體類型的約束,它就不能再是 Art 關系的 arg1(因為它必須是 GPE)。圖 4 顯示了,當一個實體的關系數量增加時,所有可能的多個關系組合中,無效的組合所占的比例也會迅速上升,當有 7 個關系時,甚至高達 83%。
3.3.2 Numerically correlated multiRoR

從數據集中的所有關系矩陣 R 中,可以發現不同類別的關系之間存在數值相關性。這種相關性不是針對兩個具體的關系,而是針對兩類關系的總數,因此屬于 multiRoR 的范疇(每一類關系都可能有多次出現)。圖 5 中的相關性圖顯示了,Per-Soc 和 Gen-Aff 兩類關系的總數呈現出明顯的正相關,而 Art 和 Org-Aff 兩類關系的總數則呈現出負相關。
4 Method

手工制定各種類型的RoR規則是一種簡單的方法,但是它不適用于具有不同特征的數據集,也無法識別一些難以人工發現的RoR。因此,本文的目標是設計一個不依賴于手工規則的RoR學習模型。 訓練策略如圖6所示。接下來,將詳細介紹三個關鍵的模型組件:
-
實體和關系的初始嵌入。
-
基于GNN的biRoR學習器。
-
學習multiRoR的矩陣變換器。
4.1 Initialization of entities and relations
在準備階段,首先為每個實體生成嵌入。利用預訓練的BERT模型(Devlin et al., 2019)處理文本,并通過對BERT最后一層的每個詞的隱藏狀態取平均,得到每個實體的表示。本文的框架可以靈活地采用其他獲取預訓練嵌入的方法,例如(Yang et al., 2019; Liu et al., 2019)。接著,將兩個相關實體的嵌入拼接起來,并通過一個前饋層,得到每個關系的初始嵌入。
4.2 BiRoR Learner
本文的目標是利用圖神經網絡(GNN)來學習文本序列中不同關系之間的相互作用,實現雙向關系推理(biRoR)。給定一個包含
個實體的文本序列
,將其表示為一個圖
,其中
是由所有的實體和關系組成的節點集合,
是由每個關系節點和其對應的兩個實體節點組成的邊集合。
個實體的文本序列
,將其表示為一個圖
,其中
是由所有的實體和關系組成的節點集合,
是由每個關系節點和其對應的兩個實體節點組成的邊集合。采用圖神經網絡來捕捉節點之間的信息傳遞,特別是在關系節點之間。圖神經網絡的第一層以第4.1節中得到的節點嵌入(包括實體嵌入和關系嵌入)為輸入。在第
層,圖神經網絡通過從鄰居節點收集隱藏狀態來更新當前層的節點表示,進而得到第
層的節點表示。具體地,有
層,圖神經網絡通過從鄰居節點收集隱藏狀態來更新當前層的節點表示,進而得到第
層的節點表示。具體地,有
其中
表示第
層中第
個節點的隱藏狀態,
表示一個前饋網絡,
表示一個權重矩陣,
表示節點
的鄰居節點集合,
表示節點
對節點
的注意力權重。這個注意力權重
由下式計算:
表示第
層中第
個節點的隱藏狀態,
表示一個前饋網絡,
表示一個權重矩陣,
表示節點
的鄰居節點集合,
表示節點
對節點
的注意力權重。這個注意力權重
由下式計算:
其中
和
分別表示計算注意力時的鍵和查詢權重矩陣。
和
分別表示計算注意力時的鍵和查詢權重矩陣。4.3 MultiRoR Learner
圖神經網絡(GNN)具有強大的建模節點間交互的能力,這與雙向關系推理(biRoR)相對應,但它在捕捉更復雜的多重關系推理(multiRoR)方面并不那么強大。例如,如果一個實體同時具有Org-Aff和Phys兩種關系,那么它就不能具有Art關系。但是GNN結構并不一定能夠捕捉涉及嵌套條件的這種復雜的multiRoR。因此,需要另一個模塊來對關系矩陣
進行建模,它考慮了所有關系之間的動態,以便捕捉multiRoR。本文提出了一個簡單而有效的模塊,即關系矩陣Transformer。由于關系矩陣
中的每個關系
都需要關注所有其他關系,本文定制了基于Transformer的編碼器架構來構建關系矩陣Transformer,它允許所有元素之間進行廣泛的相互注意力(Vaswani et al., 2017)。將Transformer中的位置編碼定制為兩部分:行編碼和列編碼,每一部分都是一個從位置索引到
維向量空間的可學習映射。關系矩陣Transformer將位置編碼,即行和列嵌入的和,加到4.1節中得到的關系的初始表示上。接著,關系矩陣Transformer學習所有關系之間的動態,并通過一個變換后的矩陣
輸出所有關系的新特征,從而捕捉multiRoR。最后,將GNN和關系矩陣Transformer學習到的關系嵌入相加,然后將它們輸入到最終的分類層,以獲得每個關系的類型。
進行建模,它考慮了所有關系之間的動態,以便捕捉multiRoR。本文提出了一個簡單而有效的模塊,即關系矩陣Transformer。由于關系矩陣
中的每個關系
都需要關注所有其他關系,本文定制了基于Transformer的編碼器架構來構建關系矩陣Transformer,它允許所有元素之間進行廣泛的相互注意力(Vaswani et al., 2017)。將Transformer中的位置編碼定制為兩部分:行編碼和列編碼,每一部分都是一個從位置索引到
維向量空間的可學習映射。關系矩陣Transformer將位置編碼,即行和列嵌入的和,加到4.1節中得到的關系的初始表示上。接著,關系矩陣Transformer學習所有關系之間的動態,并通過一個變換后的矩陣
輸出所有關系的新特征,從而捕捉multiRoR。最后,將GNN和關系矩陣Transformer學習到的關系嵌入相加,然后將它們輸入到最終的分類層,以獲得每個關系的類型。

浙公網安備 33010602011771號