《Boosting Document-Level Relation Extraction by Mining and Injecting Logical Rules》論文閱讀筆記
代碼
原文地址
摘要
文檔級關(guān)系抽取(DocRE)旨在從文檔中抽取出所有實體對的關(guān)系。DocRE 面臨的一個主要難題是實體對關(guān)系之間的復(fù)雜依賴性。與大部分隱式地學(xué)習(xí)強大表示的現(xiàn)有方法不同,最新的 LogiRE 通過學(xué)習(xí)邏輯規(guī)則來顯式地建模這種依賴性。但是,LogiRE 需要在訓(xùn)練好骨干網(wǎng)絡(luò)之后,再用額外的參數(shù)化模塊進(jìn)行推理,這種分開的優(yōu)化過程可能導(dǎo)致結(jié)果不夠理想。本文提出了 MILR,一個利用挖掘和注入邏輯規(guī)則來提升 DocRE 的邏輯框架。MILR 首先基于頻率從標(biāo)注中挖掘出邏輯規(guī)則。然后在訓(xùn)練過程中,使用一致性正則化作為輔助損失函數(shù),來懲罰那些違反挖掘規(guī)則的樣本。最后,MILR 基于整數(shù)規(guī)劃從全局視角進(jìn)行推理。與 LogiRE 相比,MILR 沒有引入任何額外的參數(shù),并且在訓(xùn)練和推理過程中都使用了邏輯規(guī)則。在兩個基準(zhǔn)數(shù)據(jù)集上的大量實驗表明,MILR 不僅提升了關(guān)系抽取的性能(1.1%-3.8% F1),而且使預(yù)測更加符合邏輯(超過 4.5% Logic)。更重要的是,MILR 在這兩個方面都顯著優(yōu)于 LogiRE。
1 Introduction

文檔級關(guān)系抽取(DocRE):旨在從文檔中識別出所有實體對之間的關(guān)系。
DocRE 面臨的一個主要挑戰(zhàn):實體對之間的關(guān)系并非是獨立的,而是存在著復(fù)雜的依賴關(guān)系。例如,在圖 1 中,文本只直接表達(dá)了 Alisher 是 Chusovitina 的孩子,以及 Bakhodir 和 Chusovitina 是夫妻。但是,根據(jù)關(guān)系之間的常見依賴關(guān)系,可以用圖 1 中的邏輯規(guī)則來表示,這兩個事實就能推導(dǎo)出許多隱含的事實(比如,Alisher 是 Bakhodir 的孩子)。
為了捕獲實體對之間的依賴關(guān)系,大部分之前的工作都側(cè)重于利用精細(xì)的神經(jīng)網(wǎng)絡(luò),如預(yù)訓(xùn)練語言模型或圖神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)強大的表示。盡管這些模型取得了很大的成功,但它們?nèi)狈ν该餍裕以谛枰壿嬐评淼那闆r下仍然容易出錯。比如,圖 1 還展示了一個最先進(jìn)的 DocRE 模型 ATLOP 的預(yù)測結(jié)果。可以看到,ATLOP 只提取了一些顯式的事實,如 spouse_of(Chusovitina, Bakhodir),而沒有識別出一些隱含的事實,如 parent_of(Bakhodir, Alisher)。實際上,這些隱含的事實可以通過顯式地考慮關(guān)系之間的邏輯規(guī)則來更容易地識別(比如,parent_of(v0, v2) ← spouse_of(v0, v1) ∧ parent_of(v1, v2))。基于此,LogiRE提出了一種方法,它基于訓(xùn)練好的 DocRE 模型(即骨干網(wǎng)絡(luò))的輸出對數(shù)來生成邏輯規(guī)則,并通過對規(guī)則進(jìn)行推理來重新提取關(guān)系。然而,LogiRE 需要在訓(xùn)練好骨干網(wǎng)絡(luò)之后,再使用額外的參數(shù)化模塊來進(jìn)行推理,這種分離的優(yōu)化過程可能導(dǎo)致結(jié)果不夠理想。比如,LogiRE 不能在訓(xùn)練過程中讓骨干網(wǎng)絡(luò)具有邏輯一致性的感知,而且可能導(dǎo)致錯誤的累積。
為了提升DocRE的效果,本文提出了一個通用的框架 MILR,它能夠挖掘和注入邏輯規(guī)則。由于現(xiàn)有的邏輯規(guī)則不夠明確,MILR 首先根據(jù)訓(xùn)練集上的條件相對頻率來發(fā)現(xiàn)邏輯規(guī)則。然后,它利用一致性正則化作為一個輔助損失函數(shù),對違反發(fā)現(xiàn)規(guī)則的訓(xùn)練實例進(jìn)行懲罰。一致性正則化和常見的分類損失函數(shù)相結(jié)合,用于訓(xùn)練骨干網(wǎng)絡(luò)。最后,MILR 采用了一種基于 0-1 整數(shù)規(guī)劃的全局推理方法,它可以視為在邏輯約束條件下對基于閾值的推理方法的一種擴(kuò)展。這樣,MILR 能夠使骨干網(wǎng)絡(luò)在訓(xùn)練和預(yù)測時將所有關(guān)系作為一個整體來處理,顯式地捕捉關(guān)系之間的依賴性,從而增強解釋性。
2 Preliminaries
Problem Formulation
DocRE的目的是從完整的文檔中找出多個實體之間的語義關(guān)系。給定一個文檔
,其中包含
個命名實體
,DocRE 需要預(yù)測每一對不同的實體
之間的關(guān)系類型。關(guān)系類型的集合是
,其中
是預(yù)先定義好的,
表示“無關(guān)系”。DocRE比句子級關(guān)系抽取更具挑戰(zhàn)性,因為它需要綜合利用文檔中多個句子的信息,并處理跨句實體之間的復(fù)雜依賴關(guān)系。
,其中包含
個命名實體
,DocRE 需要預(yù)測每一對不同的實體
之間的關(guān)系類型。關(guān)系類型的集合是
,其中
是預(yù)先定義好的,
表示“無關(guān)系”。DocRE比句子級關(guān)系抽取更具挑戰(zhàn)性,因為它需要綜合利用文檔中多個句子的信息,并處理跨句實體之間的復(fù)雜依賴關(guān)系。Atoms and Rules
一個原子
(或
) 是一個二元變量,表示頭實體
和尾實體
之間是否存在關(guān)系
。如果存在,
。否則
。
(或
) 是一個二元變量,表示頭實體
和尾實體
之間是否存在關(guān)系
。如果存在,
。否則
。規(guī)則是一個具有如下形式的合取公式:

其中![]()
是表示任意實體的變量,
是規(guī)則的長度。
和
分別稱為頭原子和體原子。本文采用概率軟邏輯 (Kimmig 等人, 2012; Bach 等人, 2017) 的框架,給每個規(guī)則賦予一個置信度屬性,其值在 [0, 1] 區(qū)間內(nèi)。一個規(guī)則
可以被看作是一個模板,它可以通過將
從變量替換為特定的實體
來實例化(記為
)。如果
的所有體原子都成立,稱
是一個由
推導(dǎo)出的預(yù)測,即預(yù)測頭原子由于
而成立。注意,一個不合理的規(guī)則可能沒有對應(yīng)的預(yù)測,因為它的體原子不可能同時成立。

是表示任意實體的變量,
是規(guī)則的長度。
和
分別稱為頭原子和體原子。本文采用概率軟邏輯 (Kimmig 等人, 2012; Bach 等人, 2017) 的框架,給每個規(guī)則賦予一個置信度屬性,其值在 [0, 1] 區(qū)間內(nèi)。一個規(guī)則
可以被看作是一個模板,它可以通過將
從變量替換為特定的實體
來實例化(記為
)。如果
的所有體原子都成立,稱
是一個由
推導(dǎo)出的預(yù)測,即預(yù)測頭原子由于
而成立。注意,一個不合理的規(guī)則可能沒有對應(yīng)的預(yù)測,因為它的體原子不可能同時成立。Paradigm of Backbones
對于每個原子
,
表示其對數(shù)幾率。通過sigmoid函數(shù),
可以用來估計在給定
的條件下,關(guān)系
是否成立的概率,即
,
表示其對數(shù)幾率。通過sigmoid函數(shù),
可以用來估計在給定
的條件下,關(guān)系
是否成立的概率,即
其中
是sigmoid函數(shù)。
是sigmoid函數(shù)。為了訓(xùn)練模型,使用分類損失函數(shù)(例如,二元交叉熵(BCE)損失或自適應(yīng)閾值損失來優(yōu)化目標(biāo)函數(shù)(即
)。
)。在推理過程中,
通過將預(yù)測概率與分類閾值進(jìn)行比較來確定
的預(yù)測關(guān)系:
通過將預(yù)測概率與分類閾值進(jìn)行比較來確定
的預(yù)測關(guān)系:
其中
表示
是一個預(yù)測事實,反之則否,
表示指示函數(shù),
是
的分類閾值。常見的基于閾值的推理方法有全局閾值法(Yao等,2019;Zeng等,2020)和自適應(yīng)閾值法(Zhou等,2021a;Yang Zhou等,2022)。這兩種方法的主要區(qū)別在于
是否與
相關(guān)。
表示
是一個預(yù)測事實,反之則否,
表示指示函數(shù),
是
的分類閾值。常見的基于閾值的推理方法有全局閾值法(Yao等,2019;Zeng等,2020)和自適應(yīng)閾值法(Zhou等,2021a;Yang Zhou等,2022)。這兩種方法的主要區(qū)別在于
是否與
相關(guān)。3 Methodology

本文提出了一種與模型無關(guān)的框架 MILR,它能夠讓現(xiàn)有的 DocRE 模型在訓(xùn)練和推理時具有邏輯一致性。MILR 的核心思想是,既要約束輸出的對數(shù)幾率,也要約束最終的預(yù)測,使它們符合邏輯規(guī)則。由于大多數(shù)數(shù)據(jù)集沒有提供金標(biāo)準(zhǔn)的邏輯規(guī)則,MILR 采用了一種從關(guān)系標(biāo)注中直接挖掘規(guī)則的數(shù)據(jù)驅(qū)動方法(見第 3.1 節(jié))。在訓(xùn)練時,MILR 通過一致性正則化作為一個輔助損失,來懲罰那些違反挖掘規(guī)則的實例(見第 3.2 節(jié))。在推理時,MILR 將對數(shù)幾率和挖掘規(guī)則結(jié)合起來,進(jìn)行全局預(yù)測(見第 3.3 節(jié))。最后,第 3.4 節(jié)對 MILR 和 LogiRE 進(jìn)行了詳細(xì)的比較。
3.1 Rule Mining

受知識庫和知識圖譜相關(guān)工作的啟發(fā),MILR 采用了一種基于頻率的簡單而有效的方法來挖掘邏輯規(guī)則。直觀地說,如果一個規(guī)則能夠反映關(guān)系之間的依賴性,例如 child_of(v0, v1) ← parent_of(v1, v0),那么它的頭原子就傾向于與它的體原子同時出現(xiàn)。此外,一個規(guī)則的置信度可以通過當(dāng)體原子成立時,頭原子成立的條件概率來估計。
本文采用了閉世界假設(shè)(CWA),即認(rèn)為任何不在關(guān)系標(biāo)注中的原子都是反例。在 CWA 下,如果一個規(guī)則
的預(yù)測
的頭原子在標(biāo)注中,就稱
為真預(yù)測。否則,稱之為假預(yù)測。一個規(guī)則
的置信度定義為所有預(yù)測中真預(yù)測的比例:
的預(yù)測
的頭原子在標(biāo)注中,就稱
為真預(yù)測。否則,稱之為假預(yù)測。一個規(guī)則
的置信度定義為所有預(yù)測中真預(yù)測的比例:
其中
是
的縮寫,
和
分別是規(guī)則
在訓(xùn)練集中的真預(yù)測和假預(yù)測的數(shù)量。公式 4 可以看作是用條件相對頻率來估計條件概率。注意,如果一個規(guī)則
沒有預(yù)測,
被設(shè)為 0。
是
的縮寫,
和
分別是規(guī)則
在訓(xùn)練集中的真預(yù)測和假預(yù)測的數(shù)量。公式 4 可以看作是用條件相對頻率來估計條件概率。注意,如果一個規(guī)則
沒有預(yù)測,
被設(shè)為 0。規(guī)則挖掘器(RM)以訓(xùn)練集的標(biāo)注
、擴(kuò)展的關(guān)系集
、構(gòu)造規(guī)則的最大長度
和過濾荒謬規(guī)則的最小置信度
作為輸入。如算法 1 所示,RM 枚舉所有可能的規(guī)則(第 2-4 行)。在枚舉過程中,RM 根據(jù)公式 4 計算
(第 5 行)。如果
高于
,RM 將
和相應(yīng)的
添加到輸出中(第 6-7 行)。
、擴(kuò)展的關(guān)系集
、構(gòu)造規(guī)則的最大長度
和過濾荒謬規(guī)則的最小置信度
作為輸入。如算法 1 所示,RM 枚舉所有可能的規(guī)則(第 2-4 行)。在枚舉過程中,RM 根據(jù)公式 4 計算
(第 5 行)。如果
高于
,RM 將
和相應(yīng)的
添加到輸出中(第 6-7 行)。3.2 Consistency Regularization
為了統(tǒng)一離散的約束和現(xiàn)有的 DocRE 模型的損失驅(qū)動的學(xué)習(xí)范式,本文需要解決一個關(guān)鍵的技術(shù)問題:如何在具有置信度的邏輯規(guī)則下進(jìn)行推理。本文借鑒了乘積 t-范數(shù)的思想,將一個規(guī)則 R 的理想概率形式定義為

其中
是
的長度,
是一個與
相關(guān)的松弛超參數(shù),
是由公式 2 計算的輸出概率。在這個定義下,如果一個規(guī)則的置信度很高(接近 1),那么它的頭原子的概率應(yīng)該不低于它的體原子的聯(lián)合概率,這里簡單地用
來近似。這意味著規(guī)則的頭原子可以由它的體原子或其他途徑推出,比如明確的上下文或其他有相同頭原子的規(guī)則。隨著置信度的降低,這個約束也會相應(yīng)地放寬。(本文定義
)
是
的長度,
是一個與
相關(guān)的松弛超參數(shù),
是由公式 2 計算的輸出概率。在這個定義下,如果一個規(guī)則的置信度很高(接近 1),那么它的頭原子的概率應(yīng)該不低于它的體原子的聯(lián)合概率,這里簡單地用
來近似。這意味著規(guī)則的頭原子可以由它的體原子或其他途徑推出,比如明確的上下文或其他有相同頭原子的規(guī)則。隨著置信度的降低,這個約束也會相應(yīng)地放寬。(本文定義
)然而,如果沒有正則化,上述規(guī)則的理想概率形式在訓(xùn)練骨干網(wǎng)絡(luò)時很可能被破壞,特別是當(dāng)頭原子的關(guān)系類型是不常見的時候(Huang 等人, 2022)。因此,本文認(rèn)為,除了 DocRE 模型的原始分類損失
外,還有另一個與邏輯一致性相關(guān)的損失
,應(yīng)該被最小化。為了將
和
都放在概率的對數(shù)空間中,給定一個文檔
,將
表示為
外,還有另一個與邏輯一致性相關(guān)的損失
,應(yīng)該被最小化。為了將
和
都放在概率的對數(shù)空間中,給定一個文檔
,將
表示為
枚舉了所有實例化的規(guī)則,并正則化相應(yīng)的對數(shù)值,使其滿足公式 5 定義的理想形式。如果規(guī)則的理想概率形式幾乎被滿足,那么一致性正則化損失
及其梯度都很小,因此對骨干網(wǎng)絡(luò)的訓(xùn)練影響不大。如果不是,
將在訓(xùn)練中產(chǎn)生很大的梯度幅度,從而正則化骨干網(wǎng)絡(luò)以滿足邏輯一致性。總之,MILR 中的訓(xùn)練目標(biāo)是

其中
是一個用于平衡兩個損失的超參數(shù)。通過這種方式,學(xué)習(xí)過程試圖統(tǒng)一單個原子的似然性質(zhì)和多個關(guān)系之間的邏輯性質(zhì),從而支持骨干網(wǎng)絡(luò)全面理解給定的注釋。
是一個用于平衡兩個損失的超參數(shù)。通過這種方式,學(xué)習(xí)過程試圖統(tǒng)一單個原子的似然性質(zhì)和多個關(guān)系之間的邏輯性質(zhì),從而支持骨干網(wǎng)絡(luò)全面理解給定的注釋。3.3 Global Inference
盡管在訓(xùn)練過程中,已經(jīng)注入了邏輯規(guī)則,但骨干網(wǎng)絡(luò)在推理過程中仍有可能產(chǎn)生違反邏輯規(guī)則的預(yù)測。為了解決這個問題,MILR 采用了一種基于編程的方法,在推理過程中強制執(zhí)行邏輯規(guī)則,從而實現(xiàn)了一種全局推理方法。這種方法可以看作是公式 3 中提到的基于閾值的方法的一種改進(jìn)。為了便于理解,先回顧一下基于閾值的方法,并從 0-1 整數(shù)規(guī)劃的角度進(jìn)行分析:
Fact 1.
設(shè)
為一個 DocRE 模型,
為輸出的對數(shù)值,
為閾值,
為原子
的預(yù)測結(jié)果,![]()
。對于以下問題:
為一個 DocRE 模型,
為輸出的對數(shù)值,
為閾值,
為原子
的預(yù)測結(jié)果,
。對于以下問題:
一個最優(yōu)解是
,其中
。證明見附錄 A。目標(biāo)函數(shù)的構(gòu)造受到了 BCE 損失函數(shù)的啟發(fā)。因此,基于閾值的方法可以被看作是利用潛在的預(yù)測結(jié)果
作為二元決策變量,無約束地最小化分布
相對于分布
的交叉熵之和。
,其中
。證明見附錄 A。目標(biāo)函數(shù)的構(gòu)造受到了 BCE 損失函數(shù)的啟發(fā)。因此,基于閾值的方法可以被看作是利用潛在的預(yù)測結(jié)果
作為二元決策變量,無約束地最小化分布
相對于分布
的交叉熵之和。這種觀點激發(fā)了本文將邏輯規(guī)則作為編程問題的約束條件。直觀地說,對于一個規(guī)則
,邏輯一致性要求它的預(yù)測體原子都成立,那么它的預(yù)測頭原子也成立。如果任何一個體原子失敗,邏輯一致性對預(yù)測頭原子沒有約束。這可以用數(shù)學(xué)表達(dá)為 ![]()
。添加這些邏輯約束和對稱約束,就可以得到全局推理方法的原始形式:
,邏輯一致性要求它的預(yù)測體原子都成立,那么它的預(yù)測頭原子也成立。如果任何一個體原子失敗,邏輯一致性對預(yù)測頭原子沒有約束。這可以用數(shù)學(xué)表達(dá)為 
。添加這些邏輯約束和對稱約束,就可以得到全局推理方法的原始形式:
這種原始形式的目標(biāo)是利用推理結(jié)果在邏輯約束下最小化 BCE 損失,與公式 7 定義的訓(xùn)練目標(biāo)相一致。可以用分支定界法 (Lawler 和 Wood, 1966) 或現(xiàn)成的優(yōu)化器如 Gurobi (Gurobi Optimization, LLC, 2022) 來求解這種原始形式。
但是,這個問題涉及
個邏輯約束,其中
是實體的數(shù)量。這些冗余的約束會導(dǎo)致計算速度非常慢。為了解決這個問題,本文提出了一種啟發(fā)式策略來簡化約束,具體見算法 2。該策略的思想是,只對那些由基于閾值的方法預(yù)測為真的體原子的預(yù)測施加邏輯約束,用邏輯規(guī)則來修正它們和相應(yīng)的頭原子。而其他原子的預(yù)測結(jié)果則保持與通過閾值化概率產(chǎn)生的銀標(biāo)簽一致。從數(shù)學(xué)上看,這種策略相當(dāng)于對最優(yōu)解處的正約束做了近似。這樣做的好處是,由于大多數(shù)實體對沒有關(guān)系,約束的數(shù)量可以大大減少。
個邏輯約束,其中
是實體的數(shù)量。這些冗余的約束會導(dǎo)致計算速度非常慢。為了解決這個問題,本文提出了一種啟發(fā)式策略來簡化約束,具體見算法 2。該策略的思想是,只對那些由基于閾值的方法預(yù)測為真的體原子的預(yù)測施加邏輯約束,用邏輯規(guī)則來修正它們和相應(yīng)的頭原子。而其他原子的預(yù)測結(jié)果則保持與通過閾值化概率產(chǎn)生的銀標(biāo)簽一致。從數(shù)學(xué)上看,這種策略相當(dāng)于對最優(yōu)解處的正約束做了近似。這樣做的好處是,由于大多數(shù)實體對沒有關(guān)系,約束的數(shù)量可以大大減少。
在評估模型時,本文發(fā)現(xiàn)添加補償項來構(gòu)造目標(biāo)函數(shù)可以進(jìn)一步提高性能。修改后的目標(biāo)函數(shù)如下:

其中,
是超參數(shù),
是在訓(xùn)練集上評估的關(guān)系
的頻率。這些補償項可以幫助緩解DocRE的類不平衡問題。
是超參數(shù),
是在訓(xùn)練集上評估的關(guān)系
的頻率。這些補償項可以幫助緩解DocRE的類不平衡問題。總之,最終的全局推理形式以公式10為目標(biāo),并利用算法2構(gòu)造邏輯約束集合。基于整數(shù)規(guī)劃,可以過濾掉低概率的邏輯不一致,從而提高性能和可解釋性。
3.4 Comparison with LogiRE
LogiRE 和 MILR 都是將邏輯規(guī)則注入到主干網(wǎng)絡(luò)的方法,但 MILR 有以下三個優(yōu)勢。首先,MILR 不需要額外訓(xùn)練任何模塊,因此更加高效。其次,MILR 在訓(xùn)練過程中利用一致性正則化,使主干網(wǎng)絡(luò)具有邏輯一致性的能力。而 LogiRE 不改變訓(xùn)練過程,所以主干網(wǎng)絡(luò)更容易受到噪聲標(biāo)簽的影響,這在 DocRE (Huang等人, 2022) 中是比較常見的情況。第三,MILR 可以處理更多種類的錯誤,這些錯誤是根據(jù)它們發(fā)生在邏輯規(guī)則的哪個部分來分類的。MILR 在推理過程中采用了一種基于編程的方法,可以在理論上減少頭原子的假陰性 (FNH) 和體原子的假陽性 (FPB)。相反,LogiRE 只能處理 FNH,因為 LogiRE 是通過元路徑來計算要評估的原子的最終邏輯值的,這些邏輯值可能被主干網(wǎng)絡(luò)誤導(dǎo)。當(dāng) LogiRE 遇到 FPB (即主干網(wǎng)絡(luò)錯誤地為不成立的三元組輸出了高邏輯值) 時,LogiRE 就會盲目地認(rèn)為這些邏輯值是真陽性,從而導(dǎo)致頭原子的假陽性 (FPH)。值得注意的是,MILR 和 LogiRE 都無法處理 FPH 和體原子的假陰性 (FNB),因為這些情況下沒有什么可以推理的,邏輯約束已經(jīng)被滿足了。為了方便理解,本文在表1中對上述討論進(jìn)行了總結(jié)。


浙公網(wǎng)安備 33010602011771號