《SagDRE: Sequence-Aware Graph-Based Document-Level Relation Extraction with Adaptive Margin Loss》論文閱讀筆記

SagDRE論文閱讀筆記

代碼

原文地址

關鍵參考文獻：

Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling

摘要

關系抽取（RE）是許多自然語言處理應用的重要任務，它的目標是從文檔中抽取出實體之間的關系。文檔級RE任務面臨著許多挑戰，因為它不僅需要跨句子進行推理，還要處理同一文檔中存在的多種關系。為了更好地捕捉文檔中的長距離相關性，現有的最先進的文檔級RE模型都采用了圖結構。本文提出了一種新的文檔級RE模型，名為SagDRE，它能夠有效地利用文本中的原始順序信息。該模型通過學習句子級別的有向邊來表示文檔中的信息流，同時利用詞級別的順序信息來編碼實體對之間的最短路徑。此外，本文還設計了一種自適應邊距損失函數，來解決文檔級RE任務中的長尾多標簽問題，即一個實體對可能在一個文檔中涉及到多種關系，而且有些關系比較常見。該損失函數能夠有效地增加正負類之間的間隔。本文在多個領域的數據集上進行了實驗，結果表明本文的方法具有很好的效果。

1 INTRODUCTION

關系抽取（RE）：從文本中識別并提取實體之間的語義關系。

句子級RE：只關注單個句子內的實體關系。

文檔級RE（DocRE）：需要從多個句子中抽取實體關系。

DocRE面臨的挑戰1：

在一個文檔中，同一個實體可能有多次提及，但并非所有的提及都與目標關系有關，這就要求RE模型能夠篩選出文檔中最相關的信息。
文檔中的實體提及可能分布在不同的句子中，這就要求RE模型能夠有效地捕捉長距離的語義信息。

目前應對挑戰1的方法：

采用基于圖的模型來表示文檔，這些方法使用了雙向邊的規則圖結構來傳遞特征，而忽視了原始文本中的序列特征。由于圖結構的置換不變性，這些方法無法編碼序列信息，這可能限制了文檔級RE任務的性能。

DocRE面臨的挑戰2：

同一實體對在文檔中可能涉及多個不同的關系，導致多標簽的問題。

目前應對挑戰2的方法：

將多標簽問題拆分為多個二分類問題，根據預測概率是否超過一個全局閾值來確定是否賦予相應的標簽。但是，這個全局閾值往往是基于經驗或在驗證集上調節的，可能并不適用于所有的情況。另外，多標簽問題還存在一個常見的現象，就是標簽的長尾分布。有些關系的訓練樣本很少，而有些關系的訓練樣本很多。基于常規概率分布的損失函數容易使模型對熱門的關系過擬合，而對冷門的關系欠擬合。

本文提出了一種序列感知圖文檔級關系抽取模型（SagDRE），它能夠利用原始文本的序列信息來進行文檔級關系抽取。對于一個給定的文檔，首先構建了一個帶有有向邊的序列感知圖，用于表示文檔中句子之間的序列關系。本文在圖中添加了從前向后的有向邊，連接每一句的根節點，并用注意力機制來學習邊的權重。基于這樣的圖結構，本文使用圖卷積神經網絡和多頭自注意力來編碼文檔的局部和全局特征。為了利用詞級的序列信息，SagDRE在圖上尋找從頭實體到尾實體的條最短路徑，并用原始的詞序和一些輔助詞來重建路徑。然后，用LSTM來對路徑進行編碼，并用多頭注意力層來對路徑進行加權，從而突出重要的路徑。最后，將路徑編碼和其他特征拼接起來，作為預測的輸入。為了解決文檔級關系抽取中的長尾多標簽問題，本文提出了一種基于Hinge Loss的自適應邊界損失函數。它的思想是為每一對實體之間的正類和負類學習一個分隔類。當一個樣本被錯誤地分類或者分類在分隔類的邊界附近時，就會觸發自適應邊界損失函數。通過這個損失函數的優化，可以通過分隔類來增加正類和負類之間的間隔。

在實驗部分，本文在三個來自不同領域的文檔級關系抽取數據集上對SagDRE進行了評估。實驗結果表明，SagDRE模型在所有數據集上都顯著優于現有的最先進的模型。通過消融實驗，發現自適應邊界損失函數和序列組件是提高模型性能的關鍵因素。

2 RELATED WORK

基于BERT的方法：

Tang等人構建了一個分層推理網絡，利用BERT的輸出來從實體、句子和文檔三個層面進行推理。
Ye等人在BERT的基礎上引入了共指信息，以提升其共指推理的能力。
Zhou等人設計了一種自適應閾值損失函數，它能夠動態地調整正負樣本的劃分閾值。

基于圖的方法：

Sahu等人首次在文檔級關系抽取任務中引入了圖結構，它通過語言工具構建了包括共指邊在內的各種邊，從而捕獲句間和句內的依賴關系，并使用圖卷積神經網絡進行特征學習。
Guo等人利用注意力機制來自動構建圖中的邊，并關注圖中與關系推理相關的子結構。
Zeng等人提出了一種雙圖模型，分別構建提及級和實體級的圖，來預測文檔中的關系，而不是簡單地使用詞級的圖。
Christopoulou等人構建了一個包含不同類型節點和邊的圖，并采用了一種面向邊的圖神經網絡來進行文檔級關系抽取。
Nan等人則應用了一種迭代細化策略來聚合多跳信息進行推理。
Zhou等人提出了一種全局上下文增強的圖卷積網絡，能夠考慮全局上下文信息進行關系推理。

3 PRELIMINARY

3.1 Graph Convolutional Networks

給定一個圖

，其中

和

分別表示圖中的節點集和邊集。每個節點

有一個特征向量

。鄰接矩陣

用于表示圖中的連接。圖神經網絡 (GNNs) 從圖結構和節點特征中學習節點和圖的特征表示。大多數現有的圖神經網絡遵循一種鄰域聚合學習策略，即每個節點迭代地從其鄰域聚合特征并更新其特征。特別地，對于圖卷積網絡 (GCN)，第

層的 GCN 定義為：

其中

是鄰接矩陣，

是度矩陣，

是第

層的輸入特征矩陣，

是可訓練的參數矩陣，

表示一個激活函數。

3.2 Relation Extraction Task Formulation

文檔級關系抽取的任務是這樣定義的：給定一個包含

個句子

的文檔

，以及文檔中的一對實體

，其中

是頭實體，

是尾實體，目標是預測這對實體在文檔中的關系。這里預先定義了一組關系標簽

，其中

是第

種關系。一個關系抽取模型應該根據文檔的內容，為每對實體輸出一個空集或者一個關系標簽的子集。如果兩個實體的任意一對提及之間存在某種關系，那么這兩個實體就具有這種關系。在測試階段，需要對文檔中的所有實體對進行關系抽取。（詳細見原文）

4 SAGDRE

4.1 Sequence-Aware Graph Construction

為了更好地捕捉DocRE任務中的長距離信息，現有的DocRE方法通常采用基于依賴解析器[4, 31]構建的無向圖結構來表示文檔圖，從而增加了頭尾實體對之間的連通性。然而，這種構建圖的方式無法顯式地反映語言序列信息，而且雙向圖的排列不變性特性使得捕捉文本中表達的序列信息更具挑戰性。

將文本中的原始序列信息進行編碼是至關重要的，因為改變詞的順序或句子的順序可能會導致一對實體之間的關系語義發生變化。如果忽略了文本中的序列信息，可能會對基于圖的關系抽取模型的性能產生負面影響。

為了保持頭尾實體對之間的高連通性，并有效地編碼原始序列信息，本文提出了一種能夠捕捉句子級序列信息的序列感知文檔圖。具體來說，給定一個文檔，首先用一個編碼器對文檔中的每個詞進行上下文特征編碼：

其中

是文檔中第

個句子的第

個詞的詞嵌入，

是同一個詞的編碼特征表示。這個編碼器可以是預訓練的 BERT 模型或 LSTM 模型。

接下來，構建一個文檔圖，它由兩類節點組成：詞節點和實體節點。文檔中的每個詞都對應一個詞節點，它的編碼特征作為節點特征。文檔中的每個實體都對應一個實體節點，它的節點特征由它的提及中的詞的特征的平均值得到。

圖中有兩類邊：雙向邊和有向邊。雙向邊來自三個來源：依賴句法樹、相鄰句子的根節點和實體-詞關系。把文檔中的每個句子輸入到一個依賴解析器中，得到一個依賴句法樹。在句法樹中，每對相連的詞之間都有一條雙向邊。然后，在相鄰句子的依賴句法樹的根節點之間也加上雙向邊，因為相鄰句子之間有緊密的上下文關系。最后，在每個實體和它的提及中的詞之間也加上雙向邊。在這個圖中，雙向邊的權重都是1，表示節點之間有強連接。

有向邊用來捕獲文檔中的句子級序列信息。具體來說，在前面的句子根節點和后面的句子根節點之間加上前向邊，因為文檔中的信息通常是從前面的句子向后面的句子傳播的。但是，并不是所有的句子都和前面的句子密切相關，所以使用一個注意力機制來自動學習給定任務下每對句子之間的緊密程度，并把得到的相似度分數作為這些有向邊的權重。

具體地，對于兩個句子根節點

和

，根據它們的特征向量計算從節點

到節點

的有向邊的權重

：

其中

和

是詞

和

的編碼。利用這些學習到的邊的權重，關系抽取模型可以自動識別文檔中從前面的句子到后面的句子的重要邏輯流。注意，如果

和

是相鄰句子的根節點，那么

和

都是1，因為它們之間已經有一條雙向邊了。

4.2 Local and Global Feature Encoding

本文根據特征矩陣

和鄰接矩陣

構建了文檔圖，然后從局部和全局兩個層面提取圖形特征。使用圖卷積網絡層 (GCN) 來對特征進行聚合和編碼。GCN 層只能從相鄰節點聚合信息，所以它得到的特征是局部特征編碼，反映了局部上下文的信息。本文還在 GCN 編碼得到的上下文嵌入上使用多頭自注意力層。多頭自注意力層能夠對輸入圖中的所有節點進行注意力計算，所以它得到的特征是全局特征編碼，反映了整個文檔圖的信息。將局部和全局的特征嵌入相加，得到圖中每個節點的更新后的特征。將第

層的局部和全局特征提取過程公式化為：

其中

是第

層的輸入特征矩陣，

是可訓練的權重。

和

分別表示一個 GCN 層和一個注意力層。

4.3 Sequence-Aware Path Encoding

為了解決文檔圖中實體之間距離過長和信息不相關的問題，本文提出了一種基于順序感知路徑的編碼方法，能夠有效地捕捉實體關系的推理信息。給定一個圖和一對實體

，首先從

到

的圖中選擇前

條最短路徑作為候選路徑，定義第

條最短路徑為

，其中,

表示第

條最短路徑上的第

個節點。然后，在每條候選路徑上為每個節點添加附加詞節點，以豐富路徑的信息量，得到擴充后的路徑

。接著，按照文本中的原始順序對每條擴充后的路徑上的節點進行排序，得到順序感知路徑

。為了編碼順序感知路徑的特征，本文應用一個方向 LSTM 層，并用一個最大池化層來獲得每條路徑的特征表示：

其中，

表示

中第

個節點的LSTM的隱藏層表示。

由于并非所有路徑都包含用于關系推理的相關信息，因此本文在??最短路徑編碼上使用多頭注意層來識別最相關的路徑。將這一過程表述為:

其中

是可訓練參數，

代表注意力層。

該注意力層以從頭實體到尾實體的實體編碼向量作為查詢，并將其加權聚合為最終的實體關系表示。

4.4 Relation Prediction Head

本文使用一個關系預測頭來預測一對實體之間的關系。預測基于兩個實體的特征表示和它們的聚合路徑編碼。沿用之前的方法[43]，本文將兩個實體的編碼

，兩個實體編碼的絕對值差

，兩個實體編碼的逐元素乘積

，以及序列感知的路徑編碼

拼接起來，得到這對實體的總體編碼：

本文計算所有關系類別的預測值

：

其中

是可訓練的參數，

是逐元素的激活函數。另外，預測一個分隔類

來分離正類和負類：

其中

是可訓練的參數，

是逐元素的激活函數。在預測時，對于每一對實體，SagDRE輸出一組類別

，其中

。注意，如果沒有一個類別的值大于

，SagDRE 輸出一個空集，表示給定的實體對

之間沒有關系。

4.5 Adaptive Margin Loss

大多數現有的關系抽取模型都是基于概率的，它們輸出

作為實體對

之間存在第

個關系

的概率。為了將概率轉換為關系標簽，需要一個預先確定的全局閾值。一些方法使用啟發式閾值或者在驗證集上學習一個能夠達到最高 F1 分數的全局閾值。然而，全局閾值可能并不適合所有的實例，而且可能導致錯誤的判斷。為了解決這個問題，周等人提出了一個額外的閾值類，用來將正類和負類分開。然而，這樣的基于概率分布的方法在面對長尾問題時可能會遇到困難，即大部分的標簽只與少量的訓練樣本有關。即使預測是正確的（高于閾值），基于概率分布的損失函數，如交叉熵損失，仍然會造成很大的損失。占據主導地位的類別有更多的訓練樣本，會對整個模型產生更大的影響，導致對主導類別的過擬合。

為了克服多類學習任務中的長尾問題，已經有許多 Hinge 損失的變體被提出，并應用于各個領域。Hinge 損失不是對概率分布進行建模，而是構造一個最大間隔分類器。然而，這些 Hinge 損失的變體不能直接應用于多標簽學習問題，其中一個實例可能同時屬于多個類別。

本文提出了一種多標簽學習任務的適應性邊緣損失函數，它能夠增加正類和負類之間的間隔。對于任意一對實體

，根據它們之間是否存在關系，將關系標簽劃分為正類

和負類

。正類

是指兩個實體之間實際存在的關系，如果兩個實體之間沒有任何關系，那么正類

就是空集。負類

是指兩個實體之間不存在的關系。圖 2 給出了一個示例。本文定義了一個新的標簽向量

，其中的元素

的取值為：

對于一對實體，適應性邊緣損失函數是所有關系類別的損失之和，具體如下：

其中

是一個控制邊緣大小的超參數。注意，當關系抽取任務是二元的時候，適應性邊緣損失函數就退化為 Hinge 損失函數。

當預測正確（即

和

同號）且預測值超過分離類的邊緣（即

）時，損失為 0。否則，損失與

成正比。這樣，模型就不會追求“完美”的預測，而是“合理”的預測。因此，模型可以避免對任何類別的過擬合，尤其是對占優勢的類別的過擬合。

5 EXPERIMENTS

5.1 Experiments on the General Domain Dataset

Datasets：

DocRED。

Evaluation Metrics：

Ign F1和 F1 scores，兩個指標都是值越高越好。

Baseline Models：

基于序列的模型： CNN-GloVe、BiLSTM-GloVe、BERT、ATLOP-BERT、CorefBERT和HIN-BERT。
基于圖的模型： AGGCN-GloVe、EoGGloVe、LSR-GloVe/BERT和GAIN-GloVe/-BERT。

SagDRE Setups：

使用 Huggingface 的 Transformers來實現 BERT 模型，并在最后的預測層加入了保留率為 0.6 的 dropout。采用 AdamW 優化器對 SagDRE 模型進行優化，學習率設置為 1e-3。在使用 BERT 編碼器的訓練過程中，對前 6% 的步驟采用線性預熱，然后逐漸降低學習率至 0。在使用 Glove 嵌入的情況下，根據驗證集上的 F1 值是否提升來調整學習率。所有的超參數都是在驗證集上調節得到的。使用一塊 Tesla V100 GPU 來訓練所有的 RE 模型。

Main Results：

本文在表 2 中總結了各個模型的比較結果。結果表明，SagDRE在所有方面都超過了之前的最先進模型。與沒有使用預訓練 BERT 模型的方法相比，GAIN-GloVe 是基準方法中性能最好的一個。SagDRE-GloVe 在驗證集上分別提高了 0.64% 和 1.4%，在測試集上分別提高了 1.19% 和 1.11%，相比 GAIN-GloVe，這里的評價指標分別是 Ign F1 和 F1。所有的方法在使用預訓練 BERT 模型后都有了顯著的提升。與基準模型相比，SagDRE-BERTBASE 在驗證集和測試集上也取得了更好的性能。特別地，與 ATLOP-BERTBASE 相比，本文的模型在驗證集上分別提高了 1.1% 和 1.12%，在測試集上分別提高了 0.8% 和 1.02%，這里的評價指標也是 Ign F1 和 F1。兩組比較結果都表明，本文提出的方法無論是使用 GloVe 嵌入還是預訓練的Transformer模型，都能帶來一致的性能提升。值得注意的是，當K = 1時，SagDRE 的結果與K = 3時相近。這是因為最短路徑已經包含了推理所需的大部分信息，而且在使用預訓練的 Bert 模型時，還能獲得豐富的上下文信息。

5.2 Experiments on Biomedical Datasets

Datasets：

CDR和CHR。

Evaluation Metrics：

F1 scores。

Baseline Models：

CNN-BioGloVe、BiLSTM-BioGloVe、EoGBioGloVe、GAIN-GloVe、ATLOP-SciBERT和SciBERT。

SagDRE Setups：

實驗設置基本沿用了第 5.1 節的方法，但也有一些不同之處。這里編碼器采用了 SciBERT，它是在大量科學領域的標注語料上預訓練得到的語言模型。用 AdamW 算法優化了 SagDRE 模型，初始學習率設置為 1e-3。在訓練過程中，先對前 6% 的步驟進行線性預熱，然后再將學習率逐漸降為 0。為了節省計算資源，在評估 SagDRE 模型時只使用了 K = 1 的設置。

Main Results：

結果總結在表3中。SagDRE在這兩個生物醫學RE數據集上的表現始終優于以前最先進的模型。與之前的最佳模型ATLOP-SciBERT相比，提出的SagDRE在CDR和CHR上分別高出2.4%和2.8%。這證明了本文提出的方法在生物醫學數據集上的有效性。

5.3 Ablation Study of SagDRE

為了研究每個組件對整體模型性能的影響，本文基于 SagDRE 模型進行了消融實驗。分別移除了 GNN 編碼器、有向邊、路徑 LSTM、路徑增強和自適應邊距損失這五個組件，并使用 DocRED 的驗證集評估了不同的模型配置。還測試了一個不包含任何序列組件（即有向邊和路徑 LSTM）的 SagDRE 模型，以檢驗序列信息的重要性。本文在 SagDRE-GloVe 和 SagDRE-BERTBASE 兩種模型上都進行了消融實驗，結果如表 4 所示。

從表 4 中可以看出，本文提出的每個組件都對模型性能有正向的貢獻。其中，最重要的兩個組件是自適應邊距損失和序列組件。如果用最佳閾值的交叉熵損失或者中的自適應閾值損失來替換自適應邊距損失，F1 分數會分別下降 2.43% 和 4.31%。如果移除序列組件，性能也會下降 2.39%，這說明文本中的序列信息對于文檔級關系抽取任務是非常關鍵的。具體來說，句級和詞級的序列信息都能提升 SagDRE 模型的性能，這從移除有向邊和路徑 LSTM 時的性能降低可以看出。

5.4 Parameter Study in Adaptive Margin Loss

本文提出了一種自適應邊距損失，其中有一個超參數

用于調節邊距大小。為了探究

值對模型性能的影響，本文在 DocRED 數據集的驗證集上，用不同的

值（0.0，0.5，和 1.0）來測試SagDRE 模型。表 5 展示了實驗結果。從表中可以看出，當

= 1時，SagDRE 模型取得了最好的效果，這也是基于邊距的損失中常見的邊距選擇。另外，本文發現較大的邊距能夠提高模型的精確度，因為這要求模型給出更高的分數才能預測出一個標簽。

5.5 Error Analysis

為了更好地理解 SagDRE 的瓶頸并為未來的工作提供啟示，本文對 SagDRE 產生的錯誤進行了一個案例研究。這里選擇了 CDR 數據集，因為它是由領域專家標注的，所以標簽噪聲可能最少。本文隨機挑選了 SagDRE 的 50 個錯誤預測，并分析了造成錯誤的原因。把它們歸為三個主要原因和一個其他原因：1) 標簽噪聲 (LN)，這類錯誤是由于實體對被領域專家標注錯誤導致的，2) 困難 (H)，這類錯誤是由于推斷實體對之間的關系需要額外的知識或高級推理導致的，3) 模糊 (A)，這類錯誤是由于文檔對關系的表達不清晰導致的，4) 其他 (O)，這類錯誤包括了所有其他原因導致的錯誤。表 6 顯示了這些錯誤的分布情況。表 7 給出了每類錯誤的一些例子。從本文的分析中，可以發現大部分錯誤沒有明顯的原因。但是，注意到，模型對含有某些關鍵詞的實體對更容易出錯。例如，文檔 #24897009 中說：“伊索尼酰胺已知會導致...很少...多神經病變”。否定詞“很少”可能使模型誤判實體對之間沒有關系。本文還發現其他一些影響模型判斷的關鍵詞，如否定詞“沒有”和表示不確定性的詞“可能”。

文檔的模糊性是導致錯誤的另一個主要原因。這類錯誤主要出現在藥物副作用事件的報告中。比如，文檔 #3297909 記載了一名男子在接觸噻苯達唑后患上了黃疸，文檔 #24729111 記載了一名男子在用胺碘酮治療后發生了呼吸衰竭。這兩個案例中，癥狀是否由藥物引發并不清楚，而且專家對這兩個案例的標注也不一樣。訓練數據中可能還存在更多這樣的案例，導致模型無法做出一致的預測。

另外，一些領域專家提供的標簽可能也有錯誤。例如，文檔 #24618873 明確地說明了疾病和藥物之間有因果關系。但是，這對實體的標簽卻是“無關的”。

還有一些難以處理的案例，可能需要借助外部知識。例如，文檔 #24659727 表示，在接受給定治療的 57 只狗中，只有 1 只出現了癥狀，所以這種關系在統計上是不顯著的。要正確地標注這對癥狀-藥物實體，模型需要理解“3%”的概率太低，不能證明這種關系。常識抽取和數字抽取的研究或許可以幫助解決這種情況。

6 CONCLUSION

本文提出了一種基于順序信息的文檔級關系抽取模型，命名為 SagDRE。SagDRE 同時考慮了文檔中句子和詞的順序信息。為了利用句子的順序信息，本文在文檔圖中引入了有向邊，并用注意力機制學習它們的權重。這些有向邊能夠反映文檔中句子的邏輯流程。為了利用詞的順序信息，SagDRE 從頭實體到尾實體抽取并重構了增強的最短路徑，并用 LSTM 編碼它。為了克服常規損失函數在優化關系抽取模型時的不足，本文設計了自適應邊際損失。這個損失函數引入了一個閾值類，并放大了正類和負類之間的邊際。在兩個來自通用和生物醫學領域的文檔級關系抽取數據集上，本文的方法都取得了有效的結果。SagDRE 的消融實驗表明，本文提出的每個組件都有助于提高模型性能。其中，自適應邊際損失和順序信息的利用是最重要的貢獻。

posted @ 2024-02-15 21:18 大雄的叮當貓閱讀(223) 評論(0) 收藏舉報

刷新頁面返回頂部