摘要

本文研究的是文檔級關系抽取，即從文檔中抽取出多個實體之間的關系。現有的方法主要是基于圖或基于Transformer的模型，它們只考慮實體自身的信息，而忽略了關系三元組之間的全局信息。為了解決這個問題，本文提出了一種新的方法，它通過預測一個實體級關系矩陣來同時捕獲局部和全局信息。這種方法類似于計算機視覺中的語義分割任務。本文的主要貢獻是提出了一個文檔U形網絡，它由一個編碼器模塊和一個U形分割模塊組成。編碼器模塊用于捕獲實體的上下文信息，U形分割模塊用于捕獲圖像風格特征圖上的三元組之間的全局相互依賴性。本文在三個公開的數據集DocRED、CDR和GDA上進行了實驗，結果表明，本文的方法可以達到最先進的性能。

1 Introduction

每個關系三元組可以向同一文本中的其他關系三元組提供信息。

為了捕獲文檔中多個三元組的相互依賴關系，本文將文檔級關系抽取任務轉化為一種實體級的分類問題[Jiang et al., 2019]，也叫做表格填充[Miwa and Sasaki, 2014; Gupta et al., 2016]，如圖2所示。這種問題類似于語義分割（一個廣泛應用的計算機視覺任務），它的目標是用卷積網絡給圖像的每個像素分配一個對應的類別標簽。受此啟發，本文提出了一種新穎的模型，名為文檔U形網絡（DocuNet），它將文檔級關系抽取建模為語義分割問題。在這個模型中，本文將實體對之間的相關特征作為圖像輸入，然后預測每個實體對的關系類型作為像素級的輸出。具體來說，本文設計了一個編碼器模塊來獲取實體的上下文信息，以及一個U形分割模塊來獲取三元組之間的全局依賴信息。本文還提出了一種平衡的softmax方法來處理關系類別的不平衡分布。本文的主要貢獻有以下幾點：

首次將文檔級關系抽取問題建模為語義分割問題。
提出了模型DocuNet，它能夠有效地捕獲文檔級關系抽取的局部和全局信息。
在三個公開的數據集上進行了實驗，證明了本文模型相比于現有的方法有顯著的性能提升。

2 Related Work

一方面，本文受到了[Jin et al., 2020]的啟發，他們是首次考慮關系之間全局交互的研究，而這方面的研究還很少見。另一方面，本文注意到卷積神經網絡（CNN）在關系抽取（RE）領域已經有了很多應用，這些研究[Nguyen and Grishman, 2015; Shen and Huang, 2016]表明CNN可以有效地提取圖像風格的特征圖。因此，本文的工作也與[Liu et al., 2020]的研究有關，他們將不完整的話語重寫視為一種語義分割任務，這激發了本文從計算機視覺的角度來探索RE問題。本文采用了U-Net [Ronneberger et al., 2015]，它由一個收縮路徑和一個對稱的擴展路徑組成，分別用于捕獲上下文信息和實現精確的定位。據本文所知，這是第一次將RE問題建模為語義分割任務。

3 Methodology

3.1 Preliminary

給定一個文檔

，其中包含一組實體

，任務是提取這些實體之間的關系。一個文檔中可能有多個相同的實體。為了抽取實體

和

之間的關系，本文用一個

的矩陣

表示，其中

是

和

的關系類型。本文的目標是得到矩陣

的輸出，這類似于語義分割的任務。本文按照實體在文檔中首次出現的順序排列矩陣

中的實體，利用實體間的相關性估計生成特征圖，并把特征圖當作一張圖像。注意，輸出的實體級關系矩陣

和語義分割中的像素級掩碼是對應的，這就把關系抽取和語義分割聯系起來了。本文的方法也適用于句子級別的關系抽取。由于文檔中的實體更多，所以實體級關系矩陣可以學習更多的全局信息，從而提高性能。

3.2 Encoder Module

考慮一個文檔

，其中包含了一些實體提及。為了標記實體的位置，在每個提及的開始和結束處添加特殊符號

和

。使用一個預訓練的語言模型作為編碼器，將文檔中的每個詞

轉換為一個向量

，得到文檔的嵌入表示：

由于有些文檔的長度超過了語言模型的最大輸入限制（例如 512），本文使用一個滑動窗口的方法來編碼整個文檔。對于每個窗口，取其嵌入的平均值作為最終的表示。然后，使用

的嵌入來表示每個實體提及，這是一種簡單而有效的方法，參考了 [Verga et al., 2018]。

為了得到每個實體的嵌入，使用一種平滑的最大池化操作，即 logsumexp 池化，將一個實體的所有提及的嵌入進行聚合：

其中

是第

個實體的嵌入，

是該實體在文檔中出現的次數，

是該實體的第

個提及的嵌入。這種池化操作可以有效地捕捉文檔中提及的信息，得到一個全局的實體表示。

為了計算文檔中實體之間的關系，本文構建一個實體級的關系矩陣，其中每個元素表示兩個實體的相關性。使用一個

維的特征向量

來表示源實體

和目標實體

之間的關系特征。本文提出了兩種計算

的方法，一種是基于相似度的方法，另一種是基于上下文的方法?；谙嗨贫鹊姆椒ㄊ菍?nbsp;

和

之間的三種相似度度量拼接起來，分別是哈達瑪積（element-wise product）、余弦相似度（cosine similarity）和雙線性相似度（bi-linear similarity）：

其中

是一個可學習的權重矩陣。這種方法可以直接捕捉實體嵌入之間的相似程度，反映它們的關系強度。基于上下文的方法是利用實體感知的注意力機制，根據文檔的嵌入和實體的重要性，計算出一個特征向量：

其中

是一個可學習的權重矩陣，

是文檔的嵌入，

是 transformer 中的頭數，

和

分別是第

個頭的源實體和目標實體的注意力權重，

是實體感知的注意力權重。這種方法可以利用文檔的上下文信息，生成更加豐富和靈活的關系特征。

3.3 U-shaped Segmentation Module

本文將實體級關系矩陣

看作是一個

通道的圖像，并將文檔級關系預測問題轉化為在

上進行像素級的分割。其中

是數據集中所有樣本的最大實體數。為了實現這一目標，本文借鑒了計算機視覺領域的經典語義分割模型 U-Net。如圖 3 所示，該模型由一個 U 型的分割網絡組成，包括兩個下采樣模塊和兩個上采樣模塊，并通過跳躍連接實現信息的融合。在下采樣模塊中，每個模塊包含兩個最大池化層和兩個卷積層，同時每個模塊的通道數翻倍。如圖 2 所示，實體級關系矩陣中的分割區域對應于實體對之間的關系共現情況。U 型分割網絡能夠在接受域內實現實體對之間的信息交換，類似于一種隱式的推理過程。具體來說，CNN 和下采樣模塊能夠擴大當前實體對嵌入