《An End-to-end Model for Entity-level Relation Extraction using Multi-instance Learning》閱讀筆記

jerex論文閱讀筆記

預備知識：

1.什么是MIL？

多示例學習（MIL）是一種機器學習的方法，它的特點是每個訓練數據不是一個單獨的實例，而是一個包含多個實例的集合（稱為包）。每個包有一個標簽，但是包中的實例沒有標簽。MIL的目的是根據包的標簽來學習實例的特征和分類規則，或者根據實例的特征來預測包的標簽。MIL的應用場景包括藥物活性預測、圖像分類、文本分類、關系抽取等。MIL的挑戰在于如何處理實例之間的相關性、標簽的不確定性和數據的不平衡性。MIL的常用算法有基于貝葉斯、KNN、決策樹、規則歸納、神經網絡等的方法，以及基于注意力機制、自編碼器、變分推斷等的方法。

2.什么是基于跨度（span）的命名實體識別方法?

跨度分類是一種常用的嵌套命名實體識別方法。為了識別全跨度命名實體，基于跨度的模型必須枚舉和驗證句子中所有可能的實體跨度，這會導致計算復雜性和數據不平衡等嚴重問題。

3.什么是基于跨度的聯合實體關系抽取?

在基于跨度的聯合實體關系抽取方法中，對句子中的詞跨度進行枚舉，并在一個模型中共享跨度的表示嵌入，以完成NER和RE的任務。

4.什么是前饋神經網（feed-forward neural network，FFNN）?

前饋神經網絡是人工神經網絡中最簡單的一種。在這個網絡中，信息只向一個方向移動——從輸入節點，通過隱藏節點(如果有的話)，到達輸出節點。網絡中沒有循環。

5.CNN和FFNN有什么區別?

卷積神經網絡是一種結構化的神經網絡，其中前幾層是稀疏連接的，以便處理信息(通常是視覺信息)。前饋網絡被定義為不包含任何循環。如果它有循環，它就是一個循環神經網絡。

6.什么是重疊的提及（overlapping mentions）？

重疊的提及 (overlapping mentions) 是指在文檔中，一個實體可能有多個不同的表達方式，這些表達方式被稱為提及 (mentions)。例如，下面這句話中，“Barack Obama”和“he”都是指代同一個實體，因此它們是重疊的提及：Barack Obama was the 44th president of the United States. He served two terms from 2009 to 2017.

重疊的提及給文檔級關系抽取帶來了一些挑戰，因為需要識別出文檔中所有的提及，并將它們與對應的實體進行匹配。同時，還需要考慮不同提及之間的指代關系，以及它們在不同句子中的語義信息。

本文提出了一種從文檔中抽取實體級關系的聯合模型，與其他方法不同的是，該模型不需要在提及級別上進行注釋，而是直接在實體級別上運行。為了實現這一目標，本文采用了一種多任務方法，首先利用共同參考解析來識別文檔中的實體，其次通過多實例學習來抽取實體之間的關系，最后通過多層次表示來融合全局實體和局部提及的信息。在DocRED數據集上的實驗結果表明，該模型在實體級關系提取任務上達到了最先進的性能。本文還報告了第一個實體級端到端關系提取結果，為未來的研究提供了一個新的基準。最后，本文的分析結果顯示，該模型與特定任務學習相比，具有更高的效率和泛化能力，這主要歸功于參數和訓練步驟的共享。

1 Introduction

隨著神經網絡的發展，關系抽取領域出現了兩個重要的轉變：

從句子級層面的抽取轉向了從長文本段落（文檔級）的抽取，這樣可以利用更多的上下文信息，提高關系抽取的準確性和魯棒性。
從使用單獨的模型解決實體提及檢測和關系提取轉向了使用聯合模型解決這些任務，這樣可以避免錯誤傳播，提高模型的效率和泛化能力。

本文提出了JEREX(Joint Entity-Level Relation Extractor)，作為一種新穎的聯合信息提取方法，它能夠在文檔級別上抽取實體和關系。與傳統方法不同，JEREX無需對每個實體提及進行標注，而是將文檔中的實體聚類為實體集群，并使用多實例學習(MIL)的方法預測集群之間的關系。JEREX還能夠同時在提及檢測、共指消解、實體分類和關系提取等任務上進行聯合訓練（見圖1）。此外，本文還提出了一種新的關系提取表示，它能夠結合實體集群的全局信息和實體提及的局部信息，從而提高關系抽取的性能。為了驗證JEREX，本文在DocRED數據集上進行了實體級關系提取的實驗，該數據集是一個大規模的文檔級關系提取數據集，包含了多個領域和多種關系類型。實驗結果表明，本文的方法在關系提取的準確率和召回率上均優于最近的基于圖傳播或預訓練的方法，達到了當前的最佳水平。本文還在DocRED數據集上進行了端到端關系提取的實驗，這是首次在該數據集上進行這樣的實驗，為未來的研究提供了一個基準。通過消融研究，本文證明了(1)全局和局部表示的結合對于關系提取是有效的，(2)聯合訓練的方法與單獨訓練每個任務的方法相比沒有顯著差異。

2 Related Work

Document-level Relation Extraction

最近在文檔級關系抽取方面的工作聚焦于從文檔中直接學習實體（同一實體的不同提及）之間的關系，而無需對每個提及對進行關系標注。為了獲取跨句子的相關信息，多實例學習被成功地應用于這個任務。在多實例學習中，目標是給實體對（作為包）分配關系標簽，每個實體對包含多個提及對（作為實例）。Verga等人（2018）利用多實例學習來檢測生物文本中的特定領域關系。他們計算兩個實體集合中每個提及對的關系分數，并使用平滑的最大池化操作來聚合這些分數。Christopoulou等人（2019）和Sahu等人（2019）通過構建文檔級圖來模擬全局交互，從而改進了Verga等人（2018）的方法。雖然上述模型都是針對具有少量關系類型的非常特定的領域，但最近發布的DocRED數據集（Yao等人，2019）使得在豐富的關系類型集合（96種）上進行通用領域的研究成為可能。Yao等人（2019）提供了幾種基線模型，例如基于CNN、LSTM或Transformer的模型，它們都是基于全局的、提及平均的實體表示進行關系抽取的。Wang等人（2019）使用兩步過程，首先識別相關實體，然后對它們進行關系分類。Tang等人（2020）采用了一個分層推理網絡，將實體表示與對單個句子的注意力相結合，形成最終的關系判斷。Nan等人（2020）應用了一個圖神經網絡（Kipf和Welling，2017），構建了一個由提及、實體和元依賴節點組成的文檔級圖。目前的最先進的模型是Ye等人（2020）提出的CorefRoBERTa模型，它是一個RoBERTa（Liu等人，2019）的變體，它是在檢測共指短語上進行預訓練的。他們表明，用CorefRoBERTa替換RoBERTa可以提高在DocRED上的性能。

所有這些模型都有一個共同的假設，就是實體和它們的提及都是已知的。與之相反，本文的方法同時抽取提及，將它們聚類為實體，并對實體對進行關系分類。

Joint Entity Mention and Relation Extraction

以前的聯合模型主要關注句子中提及級別的關系抽取。這些模型通常使用BIO（或BILOU）標記來識別提及，并將它們配對進行關系分類。但是，這些模型無法處理重疊的實體提及之間的關系。最近，基于跨度的方法（Lee等人, 2017）在這個任務上取得了成功（Luan等人, 2018; Eberts和Ulges, 2020）。這些方法通過枚舉句子中的所有詞跨度，可以自然地處理重疊的提及。Sanh等人 (2019)訓練了一個多任務模型，同時進行命名實體識別、共指消解和關系抽取。Luan等人 (2019)通過引入共指消解作為輔助任務，實現了通過共指鏈的信息傳遞。然而，這些模型仍然依賴于提及級別的標注，只能檢測句內的提及關系。與之不同的是，本文的模型顯式地構建了共指提及的簇，并利用多實例推理的方法，檢測長文檔中的復雜實體級別的關系。

3 Approach

JEREX是一個能夠從多句文檔中自動識別、聚類和分類實體及其關系的端到端的關系提取模型。它由四個任務特定的組件組成，它們共享相同的編碼器和提及表示，并聯合訓練。JEREX首先對輸入文檔進行標記，產生n個BPE (Sennrich等人, 2016)標記序列。然后，JEREX使用預訓練的transformer網絡BERT (Devlin等人, 2019)來獲取每個BPE標記的上下文化嵌入

。在推理階段，JEREX不需要任何實體或提及的先驗知識，而是自動地從文檔中識別和聚類它們。

3.1 Model Architecture

本文使用一個多層次的模型：

通過基于跨度的方法定位文檔中的所有實體提及。
通過共指消解將檢測到的提及聚類為實體。
通過對局部提及表示的融合（實體分類）對每個實體簇的類型（如人或公司）進行分類。
通過對提及對的推理提取實體之間的關系。

完整的模型架構圖2所示。

(a) Entity Mention Localization

本文的模型對文檔中的所有子序列（或跨度spans）進行搜索，以找出實體提及。與基于BIO/BILOU的方法不同，該方法可以檢測出重疊的提及。給定一個候選跨度

，本文根據 Eberts 和 Ulges (2020) 的方法，通過最大池化操作來獲取跨度的 token 嵌入的表示：

本文的提及分類器將跨度表示

和跨度大小嵌入

(Lee等人 , 2017) 作為輸入，進行二元分類，并使用 sigmoid 函數來計算

是實體提及的概率：

其中

表示向量串聯，

是一個包含 ReLu激活函數的兩層前饋神經網絡。本文對所有長度不超過 L 的 token 跨度進行分類，并根據一個閾值

過濾出概率高于

的跨度，作為最終的實體提及集合

。

(b) Coreference Resolution

在輸入文檔中，可能有多個指代同一實體的提及，例如“Elizabeth II.”和“the Queen”。為了在實體級別上提取關系，需要通過指代消解，將這些局部提及分組到文檔級別的實體簇中。本文使用一個簡單的提及對模型（Soon等人, 2001），來判斷檢測到的實體提及對

是否共指。本文的方法是將兩個提及的跨度表示

和

與它們之間的編輯距離嵌入

結合起來。然后計算兩個提及的跨度之間的 Leven-shtein 距離

，并使用一個學習的嵌入

。接著，通過連接得到一個提及對的表示：

與跨度分類類似，本文使用 sigmoid 激活函數進行二元分類，得到兩個提及的相似度得分：

其中

的架構與

相同。本文構造一個相似度矩陣

（其中 m 是文檔的總提及數），包含每一對提及之間的相似度得分。通過應用一個過濾閾值

，使用完全鏈接（Mullner , 2011）對提及進行聚類，得到一個包含實體提及簇的集合

，并把這些簇稱為實體或實體簇。

(c) Entity Classification

接下來，需要給每個實體指定一個類型，比如位置或人物等。為此，本文首先對一個實體簇中的所有提及

進行最大池化，得到一個實體的表示：

然后，利用這個實體表示

進行實體分類，讓模型能夠綜合文檔中不同位置的提及信息。本文將實體表示

輸入到一個 softmax 分類器中，得到一個實體類型的概率分布：

將概率最高的類型賦給實體。

(d) Relation Classification

最后一個組件的任務是給每一對實體分配一種關系類型。在這個過程中，需要考慮兩個方面：一是關系的方向性，即確定哪個實體是關系的頭，哪個實體是關系的尾；二是關系的多樣性，即同一個實體對在文檔中可能存在多種不同的關系。本文假設有一組預定義的關系類型

。本文的關系分類器對每一對實體

進行分析，判斷它們之間是否有

中的某種關系。具體來說，對每個候選三元組

計算一個分數，表示

(作為頭) 和

(作為尾) 之間有關系

的可能性。本文提出了兩種關系分類器：一種是全局關系分類器，它作為基線方法，直接使用實體簇的表示

作為輸入；另一種是多實例關系分類器，它考慮了某些實體提及對對特定關系的支持程度，并將這些信息融合成一個實體對級別的表示。

Global Relation Classifier (GRC)

全局分類器利用實體對

的最大池化實體簇表示

和

來進行訓練。本文還將實體類型

嵌入到實體表示中，這在 Yao等人(2019) 的工作中已經證明了其有效性。然后，將兩個實體的表示和類型連接起來，得到一個實體對表示：

接著，將這個表示輸入到一個兩層的

(與

類似) 中，將其映射到

個關系類型上。最后一層使用 sigmoid 激活函數進行多標簽分類，并將超過閾值

的關系類型標記為正類：

Multi-instance Relation Classifier (MRC)

與全局分類器（GRC）相比，多實例關系分類器在提及層面上進行操作。由于只有實體級別的標簽可用，本文將實體提及對視為潛在變量，并通過對這些提及對的融合來估計關系。對于任意一對實體簇

和

，本文計算任意

的提及對表示。這個表示是由全局實體嵌入（公式（5））和提及的局部跨度表示（公式（1））拼接而成的：

此外，由于本文期望相鄰的提及是關系的更強指示器，本文添加了兩個提及之間的距離

的元嵌入，分別在句子

和詞

層面上。另外，根據 Eberts 和 Ulges (2020) 的工作，本文還添加了兩個提及之間的最大池化上下文

。這個局部化的上下文提供了一個更聚焦的文檔視角，并且對于長而嘈雜的輸入特別有益：

這個提及對表示被一個單層的前饋神經網絡映射到原始的詞嵌入大小（768）：

這些聚焦的表示然后通過最大池化進行組合：

與 GRC 類似，本文將

與實體類型嵌入

連接起來，并應用一個兩層的

（類似于

）。注意，對于兩種分類器（GRC/MRC），需要對

和

都進行評分，以推斷非對稱關系的方向。

3.2 Training

本文提出了一個有監督的多任務學習框架，它可以同時處理四個子任務：實體提及定位、共指消解、實體分類和關系分類。每個訓練文檔都有這四個子任務的真實標簽。本文的目標是最小化所有四個子任務的聯合損失函數：

其中，

和

是跨度、共指和關系分類器的二元交叉熵損失，

是實體分類器的交叉熵損失。

，

和

是平衡不同子任務的超參數。本文從每個文檔中采樣正負樣本來構成一個批次，發現這種單遍處理的方法可以顯著提高學習和推理的效率。具體來說，多任務學習框架包括以下四個子任務：

實體提及定位：使用文檔中所有的真實實體提及作為正樣本，從預定義長度內的隨機非提及跨度中采樣個負樣本。本文只在數據集的分詞方式下對完整的詞進行訓練和評估，不對字節對編碼的詞進行操作，以降低計算復雜度。另外，只采樣句內跨度作為負樣本。由于句內提及跨度具有較高的挑戰性（如“紐約”和“紐約市”），本文采樣至多個句內提及跨度作為負樣本。
共指消解：在所有真實實體簇中抽取的跨度對上訓練共指分類器，作為正樣本。本文還從不同簇的隨機真實實體提及對中采樣個負樣本。
實體分類：在所有真實實體簇上訓練實體分類器。由于實體分類器在推理時只接收假定的實體簇，因此不需要采樣負樣本。
關系分類：使用真實實體簇之間的關系作為正樣本，從中抽取與真實標簽無關的個負樣本。

本文通過對所有樣本求平均來計算每個子任務的損失，在訓練過程中，學習子任務特定層的參數和元嵌入，并且還對BERT進行了微調。

4 Experiments

本文使用DocRED數據集來評估JEREX模型。DocRED是目前最具多樣性的關系抽取數據集，涵蓋了6種實體類型和96種關系類型。它包含了超過5000篇文檔，每篇文檔都由多個句子構成。Yao等人 (2019)指出，DocRED需要運用多種推理能力，如邏輯推理或常識推理，才能推斷出關系。

以往的工作只是利用DocRED進行關系抽?。ㄏ喈斢诒疚牡年P系分類器部分），并且假設實體已經給定（例如Wang等人, 2019; Nan等人, 2020）。而DocRED則對提及、實體和實體級關系進行了全面的標注，使其適用于端到端的系統。因此，本文不僅將JEREX作為關系分類器（與現有方法進行比較），還將其作為聯合模型（作為未來聯合實體級關系抽取研究的基準）。

盡管之前的聯合模型只專注于提及級別的關系（例如Gupta等人，2016; Bekoulis等人，2018; Chi等人，2019），但本文將嚴格的評估標準擴展到實體級別：只有當提及的跨度與真實的提及跨度完全一致時，才認為提及是正確的。只有當實體簇與真實的簇完全一致，并且相應的提及跨度也正確時，才認為實體簇是正確的。同樣，只有當簇和實體類型與真實的實體完全一致時，才認為實體是正確的。最后，只有當關系的參數實體和關系類型與真實的關系完全一致時，才認為關系是正確的。本文分別對每個子任務計算精確率、召回率和微平均F1值，并報告微平均得分。

Dataset split

原始的DocRED數據集分為訓練集（3,053篇文檔）、開發集（1,000篇文檔）和測試集（1,000篇文檔）。但測試集的關系標簽不公開，評估需要在Codalab上提交結果。為了對端到端的系統進行評估，本文把訓練集和開發集合并，重新劃分為訓練集（3,008篇文檔）、開發集（300篇文檔）和測試集（700篇文檔）。這里剔除了45篇文檔，因為它們的實體標注有誤，同一個實體的不同提及被標為不同的類型。表2展示了本文端到端劃分的統計數據，同時本文把這個劃分作為未來研究的基準發布。

Hyperparameters

本文使用

（Devlin等，2019）作為編碼器，它是一個基于注意力的語言模型，在大量英文文本上進行了預訓練。本文根據端到端的開發集調整了超參數。本文沿用了（Devlin等，2019）的一些設置，例如使用Adam優化器，采用線性預熱和線性衰減的學習率調度策略，設置峰值學習率為5e-5，以及在模型的各個部分應用0.1的dropout。本文將元嵌入的維度

設置為25，將訓練輪數設置為20，每輪訓練后在開發集上評估模型的性能，選擇性能最佳的模型在測試集上進行最終評估。本文對提及、共指和關系的過濾閾值

進行了網格搜索，步長為0.05。手動調整了負樣本的數量

和子任務的損失權重

。另外，注意到DocRED中的一些文檔長度超過了

的最大輸入長度（512 BPE tokens）。對于這些文檔，本文重新訓練了

的位置嵌入。

4.1 End-to-End Relation Extraction

JEREX在DocRED上進行了訓練和評估。本文對每個實驗重復了5次，并報告了平均結果。為了研究聯合訓練的效果，本文嘗試了兩種方法：（a）所有四個子任務在一個單一的模型中聯合訓練；（b）構建了一個流水線系統，分別訓練每個子任務，而不共享文檔編碼器。

表1展示了聯合方法（左）和流水線方法（右）的結果。如第3節所述，每個子任務都基于前一個子任務的結果進行推理。本文發現關系分類任務的性能下降最大，說明檢測文檔級關系是一項困難的任務。此外，基于多實例的關系分類器（MRC）比全局關系分類器（GRC）的F1分數高出約2.4%。本文認為，通過多實例學習融合局部證據，有助于模型關注文檔中的重要部分，并減輕長文檔中的噪聲影響。而且，本文發現多實例選擇提供了良好的可解釋性，通常選擇最相關的實例（見圖3的例子）?？偟膩碚f，本文發現聯合訓練和流水線系統的性能相近。

這一發現也得到了表4中的結果的支持，其中本文獨立地評估了四個子任務，即每個子任務從層次結構中的前一步接收真實樣本（例如，用于共指消解的真實提及）。同樣，本文發現聯合模型和流水線模型之間的性能差異可以忽略不計。這表明，沒有必要為每個子任務構建單獨的模型，這將導致由于多次昂貴的BERT傳遞而產生的訓練和推理開銷。相反，一個單一的神經模型能夠聯合學習文檔級關系抽取所需的所有子任務，從而簡化了訓練、推理和維護的過程。

4.2 Relation Extraction

JEREX在DocRED關系抽取任務上與最新技術進行了比較。在這個任務中，實體簇是已知的。本文在DocRED原始數據集的劃分上訓練和測試了關系分類組件。由于測試集的標簽是不公開的，本文通過CodaLab提交了開發集上的最佳結果，以獲得測試集的評分。表3展示了當前最先進模型的先前報告的結果。本文的全局分類器（GRC）與（Yao等人, 2019）的基線類似。但是，本文用最大池化代替了提及跨度的平均，并且也用最大池化將提及聚合成實體表示，這樣就顯著提高了基線的性能。另外，使用多實例分類器（MRC）可以進一步提升約4.5%的性能。在這里，本文的模型也超越了基于圖注意力網絡（Nan等人, 2020）或專門預訓練（Ye等人, 2020）的復雜方法，在DocRED的關系抽取任務上達到了新的最高水平。

4.3 Ablation Studies

為了評估本文提出的多實例關系分類器的改進效果，本文進行了幾個消融實驗：分別去掉了全局實體表示

（公式5）和局部上下文表示

（公式10）。結果顯示，當沒有全局實體表示時，F1 分數下降了約 0.66%，說明多實例推理需要結合實體級的上下文信息。當沒有局部上下文表示時，F1 分數下降了約 0.90%，表明模型需要關注輸入中的相關部分。最后，讓模型只考慮句內的提及對。如果一個實體對沒有句內的實例，就選取最近的（按詞距離）提及對。這樣做雖然可以降低計算復雜度和內存消耗，尤其是對于大型文檔，但是發現句內的提及對并不能覆蓋所有的相關信號，而把一個實體對的所有提及都配對起來可以提高 0.67% 的性能。

5 Conclusions

本文提出了一種新穎的多任務模型JEREX，它能夠端到端地進行關系抽取。不同于以往的系統，JEREX能夠同時定位實體提及并消解指代，從而在實體級別上抽取實體類型和關系。本文首次給出了實體級別、端到端關系抽取的結果，為未來的工作提供了參考標準。此外，本文在DocRED關系抽取任務上達到了最佳的性能，通過利用全局實體表示和局部上下文來增強多實例推理，優于幾種更復雜的方法。本文還展示了使用單個模型同時訓練所有子任務，而不是采用流水線方式，可以獲得近似的效果，從而避免了訓練多個模型的開銷，提高了推理速度。然而，本文仍然面臨一個挑戰，就是如何減少根據實體類型推斷出的假陽性關系，這些關系在文檔中并沒有明確表達。探索解決這個問題的方法似乎是一個有趣的未來研究方向。

posted @ 2024-01-06 19:18 大雄的叮當貓閱讀(178) 評論(0) 收藏舉報

刷新頁面返回頂部