《DREEAM Guiding Attention with Evidence for Improving Document-Level Relation Extraction》閱讀筆記
代碼
原文地址
預(yù)備知識(shí):
1.什么是K-L散度(Kullback-Leibler Divergence)?
K-L散度,是一種量化兩種概率分布P和Q之間差異的方式,又叫相對(duì)熵。在概率學(xué)和統(tǒng)計(jì)學(xué)上,我們經(jīng)常會(huì)使用一種更簡單的、近似的分布來替代觀察數(shù)據(jù)或太復(fù)雜的分布。K-L散度能幫助我們度量使用一個(gè)分布來近似另一個(gè)分布時(shí)所損失的信息量。
2.什么是自訓(xùn)練(self-training)?
自訓(xùn)練算法是一種半監(jiān)督學(xué)習(xí)算法,在這種算法中,學(xué)習(xí)者不斷標(biāo)記未標(biāo)記的樣本,并在一個(gè)擴(kuò)大的標(biāo)記訓(xùn)練集上對(duì)自己進(jìn)行再訓(xùn)練。由于自訓(xùn)練過程可能會(huì)錯(cuò)誤地標(biāo)記一些未標(biāo)記的示例,因此有時(shí)學(xué)習(xí)到的假設(shè)不能很好地執(zhí)行。
摘要
文檔級(jí)關(guān)系抽取(DocRE)的目標(biāo)是從文檔中找出所有實(shí)體之間的關(guān)系。為了提高DocRE的效果,需要利用證據(jù),也就是包含實(shí)體關(guān)系線索的句子,來篩選出相關(guān)的文本。但是,DocRE中的證據(jù)檢索(evidence retrieval,ER)存在兩個(gè)主要挑戰(zhàn):內(nèi)存消耗過大和缺乏標(biāo)注數(shù)據(jù)。本文針對(duì)這些問題,提出了一種提升ER在DocRE中應(yīng)用的方法。首先,本文設(shè)計(jì)了DREEAM,這是一種節(jié)省內(nèi)存的模型,它利用證據(jù)信息作為監(jiān)督信號(hào),指導(dǎo)DocRE模型的注意力機(jī)制更加關(guān)注證據(jù)。其次,采用了一種自訓(xùn)練的策略,讓DREEAM能夠從大量無標(biāo)注的數(shù)據(jù)中自動(dòng)學(xué)習(xí)ER,而不需要人工標(biāo)注證據(jù)。實(shí)驗(yàn)結(jié)果顯示,DREEAM在DocRED數(shù)據(jù)集上,在DocRE和ER兩個(gè)任務(wù)上都達(dá)到了最優(yōu)的性能。
1 Introduction
證據(jù)句:包含實(shí)體對(duì)之間關(guān)系線索的一組句子。

如圖1所示,確定Prince Edmund和Blackadder之間的關(guān)系,只需閱讀第1句和第2句,它們就是證據(jù)句。第5句和第6句雖然也提到了Edmund,但與它們二者的關(guān)系無關(guān)。
提取證據(jù)句面臨的兩個(gè)問題:
(1)現(xiàn)有的ER方法都占用太多內(nèi)存
以前的系統(tǒng)把ER和DocRE當(dāng)作兩個(gè)獨(dú)立的任務(wù),需要額外的神經(jīng)網(wǎng)絡(luò)層來同時(shí)學(xué)習(xí)ER和DocRE(Huang等人, 2021a;Xie等人, 2022; Xiao等人, 2022)。ER模塊一般用一個(gè)雙線性分類器,輸入是實(shí)體對(duì)的嵌入和句子的嵌入。為了得到每個(gè)句子對(duì)每個(gè)實(shí)體對(duì)的證據(jù)分?jǐn)?shù),該模塊要遍歷所有的(實(shí)體對(duì),句子)組合。這樣的計(jì)算大大增加了內(nèi)存的消耗,尤其是在句子和實(shí)體很多的文檔中。
(2)人工標(biāo)注證據(jù)的資源很少
DocRE的金標(biāo)準(zhǔn)數(shù)據(jù)比句子級(jí)的數(shù)據(jù)更難獲得。人工標(biāo)注的成本很高,而低成本的證據(jù)標(biāo)注方法還缺乏研究。即使利用遠(yuǎn)程監(jiān)督自動(dòng)生成RE的銀標(biāo)準(zhǔn)數(shù)據(jù),從文檔中篩選出與RE實(shí)例相關(guān)的證據(jù)也是一項(xiàng)挑戰(zhàn)。
為了節(jié)省內(nèi)存,本文提出了一種結(jié)合DocRE和ER的高效方法,即基于證據(jù)引導(dǎo)的注意機(jī)制的文檔級(jí)關(guān)系抽取(DREEAM)。本文基于ATLOP(Zhou等人, 2021),這是一種廣泛應(yīng)用于前人研究的基于Transformer的DocRE系統(tǒng)。本文不需要外部的ER模塊,而是直接讓DocRE系統(tǒng)專注于證據(jù)。具體來說,本文對(duì)實(shí)體對(duì)的局部上下文嵌入進(jìn)行監(jiān)督學(xué)習(xí)。局部上下文嵌入是根據(jù)編碼器的注意力機(jī)制,對(duì)所有詞嵌入進(jìn)行加權(quán)平均得到的,它被訓(xùn)練為對(duì)證據(jù)賦予更高的權(quán)重,對(duì)其他部分賦予更低的權(quán)重。
為了解決證據(jù)標(biāo)注的不足,本文提出了一種弱監(jiān)督的ER方法,它基于DREEAM在大量的無標(biāo)注數(shù)據(jù)上進(jìn)行自訓(xùn)練。這些無標(biāo)注數(shù)據(jù)是通過遠(yuǎn)程監(jiān)督自動(dòng)添加關(guān)系標(biāo)簽的,但沒有證據(jù)標(biāo)簽。目標(biāo)是利用人工標(biāo)注數(shù)據(jù)的指導(dǎo),讓ER知識(shí)在無標(biāo)注數(shù)據(jù)上逐漸積累和擴(kuò)展。具體來說,先用一個(gè)在人工標(biāo)注數(shù)據(jù)上預(yù)訓(xùn)練的教師模型,從無標(biāo)注數(shù)據(jù)中篩選出可靠的證據(jù)作為銀色證據(jù)。然后,用這些銀色證據(jù)來訓(xùn)練一個(gè)學(xué)生模型,同時(shí)實(shí)現(xiàn)RE和ER的目標(biāo)。最后,在人工標(biāo)注數(shù)據(jù)上對(duì)學(xué)生模型進(jìn)行微調(diào),以優(yōu)化其效果。在DocRED數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文的方法在RE和ER方面都取得了最佳的性能。
2 Preliminary
2.1 Problem Formulation
給定一個(gè)文檔
,它由一組句子![]()
和一組實(shí)體
組成。DocRE的目標(biāo)是預(yù)測(cè)文檔中每一對(duì)實(shí)體之間的所有可能的關(guān)系。文檔中的每一個(gè)實(shí)體
至少有一個(gè)專有名詞指稱,用
表示。文檔中的每一對(duì)實(shí)體
可以有多種關(guān)系,構(gòu)成一個(gè)關(guān)系子集
,其中
是一個(gè)預(yù)定義的關(guān)系集合。用
表示兩個(gè)實(shí)體之間沒有關(guān)系,
也屬于
。另外,如果兩個(gè)實(shí)體
之間有一個(gè)有效的關(guān)系
,ER的目標(biāo)是從文檔中找出能夠支持預(yù)測(cè)三元組
的證據(jù)句子集合
。
,它由一組句子
和一組實(shí)體
組成。DocRE的目標(biāo)是預(yù)測(cè)文檔中每一對(duì)實(shí)體之間的所有可能的關(guān)系。文檔中的每一個(gè)實(shí)體
至少有一個(gè)專有名詞指稱,用
表示。文檔中的每一對(duì)實(shí)體
可以有多種關(guān)系,構(gòu)成一個(gè)關(guān)系子集
,其中
是一個(gè)預(yù)定義的關(guān)系集合。用
表示兩個(gè)實(shí)體之間沒有關(guān)系,
也屬于
。另外,如果兩個(gè)實(shí)體
之間有一個(gè)有效的關(guān)系
,ER的目標(biāo)是從文檔中找出能夠支持預(yù)測(cè)三元組
的證據(jù)句子集合
。2.2 ATLOP
Text Encoding
編碼前,在每個(gè)實(shí)體提及的首尾加上一個(gè)特殊的標(biāo)記“*” 。然后,用一個(gè)基于Transformer的預(yù)訓(xùn)練語言模型對(duì)文檔
中的詞元
進(jìn)行編碼,得到每個(gè)詞元的嵌入和跨詞元的依賴。雖然原始的ATLOP只使用了最后一層的輸出,但本文采用了最后三層的平均值(試點(diǎn)實(shí)驗(yàn)表明,使用最后3層比只使用最后一層的性能更好)。具體來說,對(duì)于每個(gè)Transformer層有d個(gè)隱藏維度的預(yù)訓(xùn)練語言模型,詞元嵌入
和跨詞元依賴
的計(jì)算公式如下:
中的詞元
進(jìn)行編碼,得到每個(gè)詞元的嵌入和跨詞元的依賴。雖然原始的ATLOP只使用了最后一層的輸出,但本文采用了最后三層的平均值(試點(diǎn)實(shí)驗(yàn)表明,使用最后3層比只使用最后一層的性能更好)。具體來說,對(duì)于每個(gè)Transformer層有d個(gè)隱藏維度的預(yù)訓(xùn)練語言模型,詞元嵌入
和跨詞元依賴
的計(jì)算公式如下:
其中
是每個(gè)詞元在最后三層的隱藏狀態(tài)的平均值,![]()
是最后三層所有注意力頭的注意力權(quán)重的平均值。
是每個(gè)詞元在最后三層的隱藏狀態(tài)的平均值,
是最后三層所有注意力頭的注意力權(quán)重的平均值。Entity Embedding
ATLOP用![]()
表示每個(gè)實(shí)體
的嵌入,它是由它的所有提及
的信息匯總而來的。具體而言,ATLOP采用了logsumexp池化方法。logsumexp池化的公式是:

表示每個(gè)實(shí)體
的嵌入,它是由它的所有提及
的信息匯總而來的。具體而言,ATLOP采用了logsumexp池化方法。logsumexp池化的公式是:
其中
是提及
開始位置的特殊標(biāo)記“*”的嵌入。
是提及
開始位置的特殊標(biāo)記“*”的嵌入。Localized Context Embedding
ATLOP提出了一種利用長文本信息的局部上下文嵌入方法,它根據(jù)實(shí)體對(duì)
的重要性來選擇詞語。直觀地說,對(duì)
和
都有貢獻(xiàn)的詞語應(yīng)該被更多地考慮。每個(gè)詞語的重要性由公式1得到的詞語之間的依賴關(guān)系
決定。對(duì)于實(shí)體
,它的所有提及
的詞語依賴關(guān)系被收集并平均,得到每個(gè)詞語對(duì)
的重要性
。然后,每個(gè)詞語對(duì)實(shí)體對(duì)
的重要性
,由
和
計(jì)算得到:
的重要性來選擇詞語。直觀地說,對(duì)
和
都有貢獻(xiàn)的詞語應(yīng)該被更多地考慮。每個(gè)詞語的重要性由公式1得到的詞語之間的依賴關(guān)系
決定。對(duì)于實(shí)體
,它的所有提及
的詞語依賴關(guān)系被收集并平均,得到每個(gè)詞語對(duì)
的重要性
。然后,每個(gè)詞語對(duì)實(shí)體對(duì)
的重要性
,由
和
計(jì)算得到:
其中
表示哈達(dá)瑪積。
是一個(gè)分布,反映了每個(gè)詞語對(duì)實(shí)體對(duì)
的重要性。接下來,ATLOP執(zhí)行一個(gè)局部上下文池化:
表示哈達(dá)瑪積。
是一個(gè)分布,反映了每個(gè)詞語對(duì)實(shí)體對(duì)
的重要性。接下來,ATLOP執(zhí)行一個(gè)局部上下文池化:
其中
是所有詞語嵌入的加權(quán)平均,權(quán)重由
決定。
是所有詞語嵌入的加權(quán)平均,權(quán)重由
決定。Relation Classification
為了預(yù)測(cè)實(shí)體對(duì)
之間的關(guān)系,ATLOP 首先生成了考慮上下文的頭實(shí)體和尾實(shí)體表示:
之間的關(guān)系,ATLOP 首先生成了考慮上下文的頭實(shí)體和尾實(shí)體表示:
表示兩個(gè)向量的拼接,其中
為可訓(xùn)練參數(shù)。然后,在上下文感知表示上應(yīng)用雙線性分類器來計(jì)算關(guān)系分?jǐn)?shù)
:
其中,
和
是可訓(xùn)練參數(shù)。因此,實(shí)體
與
之間關(guān)系
成立的概率為![]()
,其中
為sigmoid函數(shù)。
和
是可訓(xùn)練參數(shù)。因此,實(shí)體
與
之間關(guān)系
成立的概率為
,其中
為sigmoid函數(shù)。Loss Function
ATLOP 提出了一種自適應(yīng)閾值損失(ATL),它在訓(xùn)練過程中學(xué)習(xí)一個(gè)虛擬的閾值類
,作為每個(gè)關(guān)系類
的動(dòng)態(tài)閾值。對(duì)于每一對(duì)實(shí)體
,ATL 強(qiáng)制模型對(duì)正向關(guān)系類
產(chǎn)生高于
的分?jǐn)?shù),對(duì)負(fù)向關(guān)系類
產(chǎn)生低于
的分?jǐn)?shù),如下式所示:
,作為每個(gè)關(guān)系類
的動(dòng)態(tài)閾值。對(duì)于每一對(duì)實(shí)體
,ATL 強(qiáng)制模型對(duì)正向關(guān)系類
產(chǎn)生高于
的分?jǐn)?shù),對(duì)負(fù)向關(guān)系類
產(chǎn)生低于
的分?jǐn)?shù),如下式所示:
設(shè)置閾值類的想法類似于Flexible threshold (Chen等人, 2020)。
3 Proposed Method: DREEAM

為了進(jìn)行信息過濾,ATLOP利用基于Transformer的編碼器計(jì)算了一個(gè)基于注意力權(quán)重的局部上下文嵌入。這是基于這樣一個(gè)基本原理:Transformer層中的注意力權(quán)重能夠編碼跨詞依賴關(guān)系。本文提出的DREEAM通過引入證據(jù)信息來增強(qiáng)ATLOP的效果。具體來說,它對(duì)注意力模塊進(jìn)行了監(jiān)督,使其在確定關(guān)系時(shí),更多地關(guān)注有用的證據(jù)句子,而不是其他無關(guān)的句子。DREEAM可以用于有監(jiān)督和自監(jiān)督的訓(xùn)練,它們的架構(gòu)相同,但使用了不同的監(jiān)督信號(hào),如圖2(a)所示。另外,本文還參考了Tan等人(2022a)的工作,提出了一個(gè)實(shí)現(xiàn)ER自監(jiān)督的流程,其數(shù)據(jù)流如圖2(b)所示。該流程包括以下幾個(gè)步驟:首先,在人工標(biāo)注的數(shù)據(jù)上訓(xùn)練一個(gè)帶有金標(biāo)準(zhǔn)關(guān)系和證據(jù)標(biāo)簽的教師模型;然后,用教師模型預(yù)測(cè)遠(yuǎn)程監(jiān)督的數(shù)據(jù)的銀標(biāo)準(zhǔn)證據(jù);接著,在遠(yuǎn)程監(jiān)督的數(shù)據(jù)上訓(xùn)練一個(gè)學(xué)生模型,用銀標(biāo)準(zhǔn)證據(jù)來監(jiān)督ER;最后,在人工標(biāo)注的數(shù)據(jù)上對(duì)學(xué)生模型進(jìn)行微調(diào),以優(yōu)化其知識(shí)。
3.1 Teacher Model
本文用一個(gè)證據(jù)分布
來為每一對(duì)實(shí)體
生成一個(gè)基于證據(jù)的局部上下文嵌入。
可以給出
和
的詞級(jí)別的重要性,但句級(jí)別的證據(jù)只能從人工標(biāo)注中得到,如圖1所示。為了彌補(bǔ)這個(gè)差距,本文對(duì)每個(gè)句子中的每個(gè)詞的權(quán)重求和。具體來說,對(duì)于一個(gè)由詞
組成的句子
,計(jì)算句子級(jí)別的重要性為:
來為每一對(duì)實(shí)體
生成一個(gè)基于證據(jù)的局部上下文嵌入。
可以給出
和
的詞級(jí)別的重要性,但句級(jí)別的證據(jù)只能從人工標(biāo)注中得到,如圖1所示。為了彌補(bǔ)這個(gè)差距,本文對(duì)每個(gè)句子中的每個(gè)詞的權(quán)重求和。具體來說,對(duì)于一個(gè)由詞
組成的句子
,計(jì)算句子級(jí)別的重要性為:
然后把所有句子的重要性匯總成一個(gè)分布
,它反映了文檔中每個(gè)句子對(duì)實(shí)體對(duì)
的重要性。本文還用人工標(biāo)注的證據(jù)分布來指導(dǎo)
。首先,對(duì)于每個(gè)有效的關(guān)系標(biāo)簽
,定義一個(gè)二值向量
,它標(biāo)記了文檔中的每個(gè)句子
是否是關(guān)系三元組
的證據(jù)。如果是,就設(shè)為1,否則為0。例如,如果
是
的證據(jù),那么
就設(shè)為1,否則為0。
,它反映了文檔中每個(gè)句子對(duì)實(shí)體對(duì)
的重要性。本文還用人工標(biāo)注的證據(jù)分布來指導(dǎo)
。首先,對(duì)于每個(gè)有效的關(guān)系標(biāo)簽
,定義一個(gè)二值向量
,它標(biāo)記了文檔中的每個(gè)句子
是否是關(guān)系三元組
的證據(jù)。如果是,就設(shè)為1,否則為0。例如,如果
是
的證據(jù),那么
就設(shè)為1,否則為0。然后,對(duì)所有有效的關(guān)系求和,并歸一化,得到
:
:
其中
是一個(gè)全1向量。公式9的原理是,在關(guān)系分類器之前的模塊并不顯式地知道具體的關(guān)系類型。因此,引導(dǎo)編碼器中的注意力模塊產(chǎn)生與關(guān)系無關(guān)的詞依賴。
是一個(gè)全1向量。公式9的原理是,在關(guān)系分類器之前的模塊并不顯式地知道具體的關(guān)系類型。因此,引導(dǎo)編碼器中的注意力模塊產(chǎn)生與關(guān)系無關(guān)的詞依賴。Loss Function
為了生成一個(gè)能夠反映實(shí)體對(duì)
之間關(guān)系的局部上下文嵌入
,本文利用人工標(biāo)注的證據(jù)
來指導(dǎo)每個(gè)實(shí)體對(duì)的證據(jù)分布
。用K-L散度損失來訓(xùn)練模型,使![]()
之間關(guān)系的局部上下文嵌入
,本文利用人工標(biāo)注的證據(jù)
來指導(dǎo)每個(gè)實(shí)體對(duì)的證據(jù)分布
。用K-L散度損失來訓(xùn)練模型,使
盡可能地接近
,從而減少兩者之間的統(tǒng)計(jì)差異:
,從而減少兩者之間的統(tǒng)計(jì)差異:
同時(shí),用一個(gè)超參數(shù)
來調(diào)節(jié)ER損失和RE損失的權(quán)重,使模型能夠同時(shí)優(yōu)化兩個(gè)目標(biāo):
來調(diào)節(jié)ER損失和RE損失的權(quán)重,使模型能夠同時(shí)優(yōu)化兩個(gè)目標(biāo):
3.2 Student Model
為了在大規(guī)模數(shù)據(jù)上進(jìn)行ER自訓(xùn)練,本文使用在人工標(biāo)注數(shù)據(jù)上訓(xùn)練的系統(tǒng)作為教師模型。這些大規(guī)模數(shù)據(jù)是通過關(guān)系遠(yuǎn)程監(jiān)督得到的,它們只有RE的噪聲標(biāo)簽,沒有ER的信息。本文在這些數(shù)據(jù)上訓(xùn)練一個(gè)學(xué)生模型,它的監(jiān)督由兩部分組成:一個(gè)是RE的二元交叉熵?fù)p失,另一個(gè)是ER的自訓(xùn)練損失。本文用教師模型的預(yù)測(cè)作為ER訓(xùn)練的監(jiān)督信號(hào)。具體來說,先讓教師模型在遠(yuǎn)程監(jiān)督數(shù)據(jù)上進(jìn)行推理,得到每個(gè)實(shí)體對(duì)
的證據(jù)分布
。然后,讓學(xué)生模型學(xué)習(xí)復(fù)現(xiàn)每個(gè)實(shí)體對(duì)
的證據(jù)分布
。
的證據(jù)分布
。然后,讓學(xué)生模型學(xué)習(xí)復(fù)現(xiàn)每個(gè)實(shí)體對(duì)
的證據(jù)分布
。Loss Function
自訓(xùn)練目標(biāo)是和有監(jiān)督訓(xùn)練一樣的。用KL散度損失來訓(xùn)練學(xué)生模型的ER,公式如下:

其中
是學(xué)生模型對(duì)實(shí)體對(duì)
的證據(jù)分布,由公式2得出。
和
有兩點(diǎn)不同。第一,
是用句子級(jí)別的監(jiān)督信號(hào),而
是用詞級(jí)別的監(jiān)督信號(hào)。這是因?yàn)樵~級(jí)別的證據(jù)分布更容易獲得。在人工標(biāo)注的數(shù)據(jù)上,要從句子級(jí)別的標(biāo)注中得到詞級(jí)別的證據(jù)分布很困難。在遠(yuǎn)程監(jiān)督的數(shù)據(jù)上,詞級(jí)別的證據(jù)分布可以從教師模型的預(yù)測(cè)中直接得到。所以,本文用詞級(jí)別的證據(jù)分布來給ER自訓(xùn)練提供微觀的監(jiān)督。第二,
只在有有效關(guān)系的實(shí)體對(duì)上計(jì)算,而
在文檔中的所有實(shí)體對(duì)上計(jì)算。這是因?yàn)檫h(yuǎn)程監(jiān)督數(shù)據(jù)上的關(guān)系標(biāo)簽不太可靠。這些關(guān)系標(biāo)簽是自動(dòng)收集的,可能有些標(biāo)注的關(guān)系和文檔無關(guān)。所以,從自動(dòng)標(biāo)注中很難分辨哪些關(guān)系是有效的,哪些是無效的。為了避免漏掉重要的實(shí)例,本文對(duì)所有實(shí)體對(duì)計(jì)算損失。總的損失是由公式11中的超參數(shù)
來平衡的,公式如下:
是學(xué)生模型對(duì)實(shí)體對(duì)
的證據(jù)分布,由公式2得出。
和
有兩點(diǎn)不同。第一,
是用句子級(jí)別的監(jiān)督信號(hào),而
是用詞級(jí)別的監(jiān)督信號(hào)。這是因?yàn)樵~級(jí)別的證據(jù)分布更容易獲得。在人工標(biāo)注的數(shù)據(jù)上,要從句子級(jí)別的標(biāo)注中得到詞級(jí)別的證據(jù)分布很困難。在遠(yuǎn)程監(jiān)督的數(shù)據(jù)上,詞級(jí)別的證據(jù)分布可以從教師模型的預(yù)測(cè)中直接得到。所以,本文用詞級(jí)別的證據(jù)分布來給ER自訓(xùn)練提供微觀的監(jiān)督。第二,
只在有有效關(guān)系的實(shí)體對(duì)上計(jì)算,而
在文檔中的所有實(shí)體對(duì)上計(jì)算。這是因?yàn)檫h(yuǎn)程監(jiān)督數(shù)據(jù)上的關(guān)系標(biāo)簽不太可靠。這些關(guān)系標(biāo)簽是自動(dòng)收集的,可能有些標(biāo)注的關(guān)系和文檔無關(guān)。所以,從自動(dòng)標(biāo)注中很難分辨哪些關(guān)系是有效的,哪些是無效的。為了避免漏掉重要的實(shí)例,本文對(duì)所有實(shí)體對(duì)計(jì)算損失。總的損失是由公式11中的超參數(shù)
來平衡的,公式如下:
在遠(yuǎn)程監(jiān)督的數(shù)據(jù)上訓(xùn)練后,學(xué)生模型再用人工標(biāo)注的數(shù)據(jù)進(jìn)行微調(diào),用可靠的監(jiān)督信號(hào)來改進(jìn)它對(duì)DocRE和ER的知識(shí)。
3.3 Inference
本文根據(jù)Zhou等人(2021)的方法,用自適應(yīng)閾值法得到RE的預(yù)測(cè),選出得分超過閾值的關(guān)系類別。對(duì)于ER,用靜態(tài)閾值法,選出重要性超過閾值的句子作為證據(jù)。本文還采用了Xie等人(2022)提出的推理階段融合策略。具體來說,對(duì)于每個(gè)預(yù)測(cè)的關(guān)系三元組
和它的證據(jù)預(yù)測(cè)
,從
中收集證據(jù)句子
,構(gòu)建一個(gè)偽文檔
。然后,把偽文檔輸入訓(xùn)練好的模型,重新給關(guān)系三元組評(píng)分。為了把偽文檔和整個(gè)文檔的預(yù)測(cè)結(jié)合起來,用一個(gè)只有一個(gè)參數(shù)
的混合層,
是一個(gè)閾值。只有當(dāng)一個(gè)三元組
在整個(gè)文檔和偽文檔上的得分之和大于
時(shí),才把它作為最終的預(yù)測(cè)結(jié)果。調(diào)整
,讓RE在開發(fā)集上的二元交叉熵?fù)p失最小。
和它的證據(jù)預(yù)測(cè)
,從
中收集證據(jù)句子
,構(gòu)建一個(gè)偽文檔
。然后,把偽文檔輸入訓(xùn)練好的模型,重新給關(guān)系三元組評(píng)分。為了把偽文檔和整個(gè)文檔的預(yù)測(cè)結(jié)合起來,用一個(gè)只有一個(gè)參數(shù)
的混合層,
是一個(gè)閾值。只有當(dāng)一個(gè)三元組
在整個(gè)文檔和偽文檔上的得分之和大于
時(shí),才把它作為最終的預(yù)測(cè)結(jié)果。調(diào)整
,讓RE在開發(fā)集上的二元交叉熵?fù)p失最小。4 Experiments
4.1 Setting
Dataset

本文實(shí)驗(yàn)是在DocRED這個(gè)具有人工標(biāo)注的DocRE數(shù)據(jù)集上進(jìn)行的。表1顯示,DocRED包含了一小部分人工標(biāo)注的數(shù)據(jù)和一大部分遠(yuǎn)程監(jiān)督的數(shù)據(jù)。這些遠(yuǎn)程監(jiān)督的數(shù)據(jù)是通過把維基百科文章和Wikidata知識(shí)庫對(duì)齊而得到的。本文直接使用了DocRED提供的遠(yuǎn)程監(jiān)督的數(shù)據(jù)。
Configuration
為了實(shí)現(xiàn)DREEAM,本文基于Hugging Face的Transformers框架,使用
和
作為預(yù)訓(xùn)練語言模型(PLM)編碼器。參考前人的工作,通過網(wǎng)格搜索從
中選取了合適的參數(shù),分別為
的0.1和
的0.05,來平衡ER損失和RE損失。在訓(xùn)練和評(píng)估DREEAM時(shí),使用單個(gè)Tesla V100 16GB GPU來運(yùn)行
,使用單個(gè)NVIDIA A100 40GB GPU來運(yùn)行
。超參數(shù)和運(yùn)行時(shí)間的細(xì)節(jié)見附錄A。
和
作為預(yù)訓(xùn)練語言模型(PLM)編碼器。參考前人的工作,通過網(wǎng)格搜索從
中選取了合適的參數(shù),分別為
的0.1和
的0.05,來平衡ER損失和RE損失。在訓(xùn)練和評(píng)估DREEAM時(shí),使用單個(gè)Tesla V100 16GB GPU來運(yùn)行
,使用單個(gè)NVIDIA A100 40GB GPU來運(yùn)行
。超參數(shù)和運(yùn)行時(shí)間的細(xì)節(jié)見附錄A。Evaluation
本文在推理階段,根據(jù)公式8得到的
值,篩選出
大于0.2的句子
,作為證據(jù)的來源。在評(píng)估階段,使用DocRED的官方評(píng)估指標(biāo),分別對(duì)RE和ER進(jìn)行Ign F1和F1、Evi F1的評(píng)估。Ign F1是在去除了訓(xùn)練集中已有的關(guān)系后,對(duì)開發(fā)集和測(cè)試集進(jìn)行的評(píng)估,以消除訓(xùn)練集的影響。用不同的隨機(jī)種子,對(duì)系統(tǒng)進(jìn)行了五次訓(xùn)練,并給出了這些訓(xùn)練的平均分?jǐn)?shù)和標(biāo)準(zhǔn)誤差。
值,篩選出
大于0.2的句子
,作為證據(jù)的來源。在評(píng)估階段,使用DocRED的官方評(píng)估指標(biāo),分別對(duì)RE和ER進(jìn)行Ign F1和F1、Evi F1的評(píng)估。Ign F1是在去除了訓(xùn)練集中已有的關(guān)系后,對(duì)開發(fā)集和測(cè)試集進(jìn)行的評(píng)估,以消除訓(xùn)練集的影響。用不同的隨機(jī)種子,對(duì)系統(tǒng)進(jìn)行了五次訓(xùn)練,并給出了這些訓(xùn)練的平均分?jǐn)?shù)和標(biāo)準(zhǔn)誤差。4.2 Main Results

Performance of the Student Model
表2顯示,利用遠(yuǎn)程監(jiān)督數(shù)據(jù)的學(xué)生模型在RE上優(yōu)于現(xiàn)有系統(tǒng)。尤其是,當(dāng)使用BERTbase作為PLM編碼器時(shí),DREEAM在開發(fā)集上的Ign F1/F1比先前的最先進(jìn)系統(tǒng)KD-DocRE高出0.6/1.0個(gè)百分點(diǎn)。在測(cè)試集上,Ign F1和F1都提高了1.1個(gè)百分點(diǎn)。值得注意的是,DREEAM使用
甚至能夠與在弱監(jiān)督設(shè)置下使用
的SSAN (Xu等人, 2021a)相比肩。當(dāng)使用
作為PLM編碼器時(shí),DREEAM在開發(fā)集和測(cè)試集上仍然保持優(yōu)勢(shì)。這些結(jié)果證明了本文的假設(shè),即ER自訓(xùn)練能夠改善RE,這是之前的工作未能展示的。
甚至能夠與在弱監(jiān)督設(shè)置下使用
的SSAN (Xu等人, 2021a)相比肩。當(dāng)使用
作為PLM編碼器時(shí),DREEAM在開發(fā)集和測(cè)試集上仍然保持優(yōu)勢(shì)。這些結(jié)果證明了本文的假設(shè),即ER自訓(xùn)練能夠改善RE,這是之前的工作未能展示的。Performance of the Teacher Model
表2的上半部分顯示,用人工標(biāo)注數(shù)據(jù)訓(xùn)練的教師模型在RE和ER兩個(gè)任務(wù)上與EIDER相媲美。盡管DREEAM和SAIS在性能上有一定差距,但本文認(rèn)為這主要是由于監(jiān)督信號(hào)的不同造成的。DREEAM只是將RE和無關(guān)聯(lián)的ER結(jié)合在一起,而SAIS則在此之上增加了三個(gè)額外的任務(wù):共指消解、實(shí)體類型和關(guān)聯(lián)特定的ER (Xiao等人, 2022)。這些附加的監(jiān)督信號(hào)可能有助于提升SAIS的性能。除了性能外,DREEAM還在內(nèi)存效率方面優(yōu)于以前的ER-incorporated DocRE系統(tǒng)。在第4.4節(jié)中對(duì)此進(jìn)行了詳細(xì)的討論。
Effectiveness of ER Self-Training
學(xué)生模型在ER任務(wù)上遠(yuǎn)遠(yuǎn)超過了其他現(xiàn)有的系統(tǒng)。DREEAM是第一個(gè)采用弱監(jiān)督ER訓(xùn)練的方法,它通過自我訓(xùn)練有效地利用了大量無需證據(jù)標(biāo)注的數(shù)據(jù)。實(shí)驗(yàn)結(jié)果顯示,DREEAM在Evi F1指標(biāo)上比目前最好的監(jiān)督方法高出了約2.0個(gè)百分點(diǎn)。因此,本文認(rèn)為,ER自我訓(xùn)練方法能夠成功地從無需證據(jù)標(biāo)注的關(guān)系遠(yuǎn)程監(jiān)督數(shù)據(jù)中學(xué)習(xí)到證據(jù)知識(shí)。
4.3 Ablation Studies
Teacher Model

本文探索了如何利用證據(jù)指導(dǎo)注意力來提升人工標(biāo)注數(shù)據(jù)的RE訓(xùn)練效果,訓(xùn)練了一個(gè)不包含ER訓(xùn)練的教師模型,并在DocRED開發(fā)集上進(jìn)行了評(píng)估。結(jié)果顯示,如果關(guān)閉ER訓(xùn)練,教師模型的RE性能會(huì)降到與ATLOP相似的基線水平。如表3(a)所示,沒有ER訓(xùn)練的情況下,DREEAM的RE性能有所下降。這一觀察驗(yàn)證了利用證據(jù)指導(dǎo)注意力可以提高RE性能的假設(shè)。本文還進(jìn)一步可視化了一些實(shí)例的詞元重要性
,以分析證據(jù)指導(dǎo)訓(xùn)練的影響,發(fā)現(xiàn)本文的方法能夠有效地將注意力集中在相關(guān)的上下文上。更多細(xì)節(jié)可以參見附錄B。此外,本文還從關(guān)閉ER訓(xùn)練的教師模型中檢索出證據(jù),作為重要性超過預(yù)設(shè)閾值的句子。通過這種方式,發(fā)現(xiàn)Evi F1與開啟ER訓(xùn)練的教師模型相差無幾。這一觀察說明,ER是一個(gè)與RE緊密相關(guān)的任務(wù)。
,以分析證據(jù)指導(dǎo)訓(xùn)練的影響,發(fā)現(xiàn)本文的方法能夠有效地將注意力集中在相關(guān)的上下文上。更多細(xì)節(jié)可以參見附錄B。此外,本文還從關(guān)閉ER訓(xùn)練的教師模型中檢索出證據(jù),作為重要性超過預(yù)設(shè)閾值的句子。通過這種方式,發(fā)現(xiàn)Evi F1與開啟ER訓(xùn)練的教師模型相差無幾。這一觀察說明,ER是一個(gè)與RE緊密相關(guān)的任務(wù)。Student Model
本文研究了在遠(yuǎn)程監(jiān)督數(shù)據(jù)上訓(xùn)練并在人工標(biāo)注數(shù)據(jù)上微調(diào)的學(xué)生模型。目的是檢驗(yàn)在不同訓(xùn)練階段用證據(jù)指導(dǎo)注意力的效果。為了實(shí)現(xiàn)這一目的,本文去掉了學(xué)生模型在遠(yuǎn)程監(jiān)督和人工標(biāo)注數(shù)據(jù)上的訓(xùn)練過程中的ER監(jiān)督信號(hào)。基線模型也同樣排除了ER監(jiān)督,它只在遠(yuǎn)程監(jiān)督數(shù)據(jù)上預(yù)訓(xùn)練,然后在人工標(biāo)注數(shù)據(jù)上僅為RE微調(diào)。如表3(b)所示,沒有ER自訓(xùn)練的DREEAM與基線模型表現(xiàn)相當(dāng),而沒有ER微調(diào)的DREEAM與沒有任何消融的原始模型表現(xiàn)相當(dāng)。這些結(jié)果表明,ER自訓(xùn)練對(duì)于學(xué)生模型的效果比ER微調(diào)更重要。一方面,可以觀察到,在大量數(shù)據(jù)上禁用ER自訓(xùn)練會(huì)導(dǎo)致證據(jù)知識(shí)的巨大損失,而這種損失無法通過在更小的證據(jù)標(biāo)注數(shù)據(jù)集上的微調(diào)來恢復(fù)。另一方面,可以得出結(jié)論,DREEAM能夠成功地從沒有任何證據(jù)標(biāo)注的數(shù)據(jù)中檢索出證據(jù)知識(shí),證明了ER自訓(xùn)練策略的有效性。
4.4 Memory Efficiency
這一小節(jié)分析了之前的ER方法存在的內(nèi)存效率問題,以及DREEAM如何克服它。之前的方法把ER當(dāng)作一個(gè)與RE相獨(dú)立的任務(wù),需要額外的神經(jīng)網(wǎng)絡(luò)層來完成。為了進(jìn)行ER,它們都采用了一個(gè)雙線性證據(jù)分類器,它的輸入是一個(gè)實(shí)體對(duì)相關(guān)的嵌入和一個(gè)句子嵌入。例如,EIDER用以下公式計(jì)算句子
對(duì)于實(shí)體對(duì)
的證據(jù)分?jǐn)?shù):
對(duì)于實(shí)體對(duì)
的證據(jù)分?jǐn)?shù):
其中
是一個(gè)句子嵌入,
是根據(jù)公式3得到的局部上下文嵌入,
和
是可訓(xùn)練的參數(shù)。EIDER和其他現(xiàn)有的系統(tǒng)因此需要對(duì)所有的(句子,實(shí)體對(duì))組合進(jìn)行計(jì)算。具體來說,假設(shè)一個(gè)文檔
有
個(gè)句子
,和
個(gè)實(shí)體
,則有
個(gè)實(shí)體對(duì)。為了得到證據(jù)分?jǐn)?shù),EIDER必須通過公式14進(jìn)行
次雙線性分類,導(dǎo)致巨大的內(nèi)存消耗。相比之下,DREEAM直接用注意力權(quán)重在詞上的求和作為證據(jù)分?jǐn)?shù),因此無需引入新的可訓(xùn)練參數(shù),也無需進(jìn)行昂貴的矩陣計(jì)算。因此,可以看到,DREEAM比它的競(jìng)爭對(duì)手更節(jié)省內(nèi)存。
是一個(gè)句子嵌入,
是根據(jù)公式3得到的局部上下文嵌入,
和
是可訓(xùn)練的參數(shù)。EIDER和其他現(xiàn)有的系統(tǒng)因此需要對(duì)所有的(句子,實(shí)體對(duì))組合進(jìn)行計(jì)算。具體來說,假設(shè)一個(gè)文檔
有
個(gè)句子
,和
個(gè)實(shí)體
,則有
個(gè)實(shí)體對(duì)。為了得到證據(jù)分?jǐn)?shù),EIDER必須通過公式14進(jìn)行
次雙線性分類,導(dǎo)致巨大的內(nèi)存消耗。相比之下,DREEAM直接用注意力權(quán)重在詞上的求和作為證據(jù)分?jǐn)?shù),因此無需引入新的可訓(xùn)練參數(shù),也無需進(jìn)行昂貴的矩陣計(jì)算。因此,可以看到,DREEAM比它的競(jìng)爭對(duì)手更節(jié)省內(nèi)存。表4展示了當(dāng)使用
作為預(yù)訓(xùn)練語言模型(PLM)編碼器時(shí),現(xiàn)有方法和提出的方法的內(nèi)存消耗和可訓(xùn)練參數(shù)的數(shù)量。數(shù)值是在使用相應(yīng)的官方倉庫和批量大小為四的情況下訓(xùn)練系統(tǒng)時(shí)測(cè)量的。本文發(fā)現(xiàn),DREEAM的內(nèi)存消耗只有EIDER的27.4%和SAIS的25.5%。值得注意的是,DREEAM的內(nèi)存消耗也比KD-DocRE少,突出了本文提出的方法的內(nèi)存效率。
作為預(yù)訓(xùn)練語言模型(PLM)編碼器時(shí),現(xiàn)有方法和提出的方法的內(nèi)存消耗和可訓(xùn)練參數(shù)的數(shù)量。數(shù)值是在使用相應(yīng)的官方倉庫和批量大小為四的情況下訓(xùn)練系統(tǒng)時(shí)測(cè)量的。本文發(fā)現(xiàn),DREEAM的內(nèi)存消耗只有EIDER的27.4%和SAIS的25.5%。值得注意的是,DREEAM的內(nèi)存消耗也比KD-DocRE少,突出了本文提出的方法的內(nèi)存效率。4.5 Performance on Re-DocRED

盡管DocRED是一個(gè)廣泛使用的基準(zhǔn),但最近的一些工作指出,該數(shù)據(jù)集的標(biāo)注存在不完整性。也就是說,DocRED中有很多關(guān)系三元組沒有被人類標(biāo)注出來,導(dǎo)致數(shù)據(jù)集有很多假負(fù)例的問題。為了解決這一問題,Tan等人(2022b)提出了ReDocRED,一個(gè)更可靠的DocRE的基準(zhǔn),對(duì)DocRED進(jìn)行了修正和補(bǔ)充。本文在ReDocRED上評(píng)估了DREEAM,以驗(yàn)證其有效性。
與第4.2節(jié)類似,本文在兩種不同的設(shè)置下進(jìn)行了實(shí)驗(yàn):(a)不使用遠(yuǎn)程監(jiān)督數(shù)據(jù)的全監(jiān)督設(shè)置和(b)使用遠(yuǎn)程監(jiān)督數(shù)據(jù)的弱監(jiān)督設(shè)置。需要注意的是,ReDocRED增加了一些新的關(guān)系三元組,但沒有給出相應(yīng)的證據(jù)句子。如表5所示,與DocRED相比,ReDocRED的訓(xùn)練集中有更多的關(guān)系三元組缺少證據(jù)句子。這可能導(dǎo)致基于ReDocRED訓(xùn)練的DREEAM在證據(jù)關(guān)系(ER)上不夠準(zhǔn)確,受到缺失證據(jù)的影響。因此,在學(xué)生模型的ER自訓(xùn)練過程中,本文使用了基于DocRED訓(xùn)練的教師模型預(yù)測(cè)的記號(hào)證據(jù)分布作為監(jiān)督信號(hào)。然后,在ReDocRED上對(duì)學(xué)生模型進(jìn)行了微調(diào),以提高其關(guān)系抽取(RE)的能力。
表6展示了DREEAM與現(xiàn)有方法的性能比較。可以發(fā)現(xiàn),DREEAM在全監(jiān)督設(shè)置和弱監(jiān)督設(shè)置下都超過了現(xiàn)有方法。這一結(jié)果證明了本文提出的方法的合理性。

浙公網(wǎng)安備 33010602011771號(hào)