<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      《DREEAM Guiding Attention with Evidence for Improving Document-Level Relation Extraction》閱讀筆記

      代碼

       

      原文地址

       

      預(yù)備知識(shí):

      1.什么是K-L散度(Kullback-Leibler Divergence)?

      K-L散度,是一種量化兩種概率分布P和Q之間差異的方式,又叫相對(duì)熵。在概率學(xué)和統(tǒng)計(jì)學(xué)上,我們經(jīng)常會(huì)使用一種更簡單的、近似的分布來替代觀察數(shù)據(jù)或太復(fù)雜的分布。K-L散度能幫助我們度量使用一個(gè)分布來近似另一個(gè)分布時(shí)所損失的信息量。
       

      2.什么是自訓(xùn)練(self-training)?

      自訓(xùn)練算法是一種半監(jiān)督學(xué)習(xí)算法,在這種算法中,學(xué)習(xí)者不斷標(biāo)記未標(biāo)記的樣本,并在一個(gè)擴(kuò)大的標(biāo)記訓(xùn)練集上對(duì)自己進(jìn)行再訓(xùn)練。由于自訓(xùn)練過程可能會(huì)錯(cuò)誤地標(biāo)記一些未標(biāo)記的示例,因此有時(shí)學(xué)習(xí)到的假設(shè)不能很好地執(zhí)行。
       

       摘要

      文檔級(jí)關(guān)系抽取(DocRE)的目標(biāo)是從文檔中找出所有實(shí)體之間的關(guān)系。為了提高DocRE的效果,需要利用證據(jù),也就是包含實(shí)體關(guān)系線索的句子,來篩選出相關(guān)的文本。但是,DocRE中的證據(jù)檢索(evidence retrieval,ER)存在兩個(gè)主要挑戰(zhàn):內(nèi)存消耗過大和缺乏標(biāo)注數(shù)據(jù)。本文針對(duì)這些問題,提出了一種提升ER在DocRE中應(yīng)用的方法。首先,本文設(shè)計(jì)了DREEAM,這是一種節(jié)省內(nèi)存的模型,它利用證據(jù)信息作為監(jiān)督信號(hào),指導(dǎo)DocRE模型的注意力機(jī)制更加關(guān)注證據(jù)。其次,采用了一種自訓(xùn)練的策略,讓DREEAM能夠從大量無標(biāo)注的數(shù)據(jù)中自動(dòng)學(xué)習(xí)ER,而不需要人工標(biāo)注證據(jù)。實(shí)驗(yàn)結(jié)果顯示,DREEAM在DocRED數(shù)據(jù)集上,在DocRE和ER兩個(gè)任務(wù)上都達(dá)到了最優(yōu)的性能。
       

      1 Introduction

      證據(jù)句:包含實(shí)體對(duì)之間關(guān)系線索的一組句子。
      如圖1所示,確定Prince Edmund和Blackadder之間的關(guān)系,只需閱讀第1句和第2句,它們就是證據(jù)句。第5句和第6句雖然也提到了Edmund,但與它們二者的關(guān)系無關(guān)。
       
      提取證據(jù)句面臨的兩個(gè)問題:
      (1)現(xiàn)有的ER方法都占用太多內(nèi)存
      以前的系統(tǒng)把ER和DocRE當(dāng)作兩個(gè)獨(dú)立的任務(wù),需要額外的神經(jīng)網(wǎng)絡(luò)層來同時(shí)學(xué)習(xí)ER和DocRE(Huang等人, 2021a;Xie等人, 2022; Xiao等人, 2022)。ER模塊一般用一個(gè)雙線性分類器,輸入是實(shí)體對(duì)的嵌入和句子的嵌入。為了得到每個(gè)句子對(duì)每個(gè)實(shí)體對(duì)的證據(jù)分?jǐn)?shù),該模塊要遍歷所有的(實(shí)體對(duì),句子)組合。這樣的計(jì)算大大增加了內(nèi)存的消耗,尤其是在句子和實(shí)體很多的文檔中。
      (2)人工標(biāo)注證據(jù)的資源很少
      DocRE的金標(biāo)準(zhǔn)數(shù)據(jù)比句子級(jí)的數(shù)據(jù)更難獲得。人工標(biāo)注的成本很高,而低成本的證據(jù)標(biāo)注方法還缺乏研究。即使利用遠(yuǎn)程監(jiān)督自動(dòng)生成RE的銀標(biāo)準(zhǔn)數(shù)據(jù),從文檔中篩選出與RE實(shí)例相關(guān)的證據(jù)也是一項(xiàng)挑戰(zhàn)。
       
      為了節(jié)省內(nèi)存,本文提出了一種結(jié)合DocRE和ER的高效方法,即基于證據(jù)引導(dǎo)的注意機(jī)制的文檔級(jí)關(guān)系抽取(DREEAM)。本文基于ATLOP(Zhou等人, 2021),這是一種廣泛應(yīng)用于前人研究的基于Transformer的DocRE系統(tǒng)。本文不需要外部的ER模塊,而是直接讓DocRE系統(tǒng)專注于證據(jù)。具體來說,本文對(duì)實(shí)體對(duì)的局部上下文嵌入進(jìn)行監(jiān)督學(xué)習(xí)。局部上下文嵌入是根據(jù)編碼器的注意力機(jī)制,對(duì)所有詞嵌入進(jìn)行加權(quán)平均得到的,它被訓(xùn)練為對(duì)證據(jù)賦予更高的權(quán)重,對(duì)其他部分賦予更低的權(quán)重。
       
      為了解決證據(jù)標(biāo)注的不足,本文提出了一種弱監(jiān)督的ER方法,它基于DREEAM在大量的無標(biāo)注數(shù)據(jù)上進(jìn)行自訓(xùn)練。這些無標(biāo)注數(shù)據(jù)是通過遠(yuǎn)程監(jiān)督自動(dòng)添加關(guān)系標(biāo)簽的,但沒有證據(jù)標(biāo)簽。目標(biāo)是利用人工標(biāo)注數(shù)據(jù)的指導(dǎo),讓ER知識(shí)在無標(biāo)注數(shù)據(jù)上逐漸積累和擴(kuò)展。具體來說,先用一個(gè)在人工標(biāo)注數(shù)據(jù)上預(yù)訓(xùn)練的教師模型,從無標(biāo)注數(shù)據(jù)中篩選出可靠的證據(jù)作為銀色證據(jù)。然后,用這些銀色證據(jù)來訓(xùn)練一個(gè)學(xué)生模型,同時(shí)實(shí)現(xiàn)RE和ER的目標(biāo)。最后,在人工標(biāo)注數(shù)據(jù)上對(duì)學(xué)生模型進(jìn)行微調(diào),以優(yōu)化其效果。在DocRED數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文的方法在RE和ER方面都取得了最佳的性能。
       

      2 Preliminary

      2.1 Problem Formulation

      給定一個(gè)文檔,它由一組句子和一組實(shí)體組成。DocRE的目標(biāo)是預(yù)測(cè)文檔中每一對(duì)實(shí)體之間的所有可能的關(guān)系。文檔中的每一個(gè)實(shí)體至少有一個(gè)專有名詞指稱,用表示。文檔中的每一對(duì)實(shí)體可以有多種關(guān)系,構(gòu)成一個(gè)關(guān)系子集,其中是一個(gè)預(yù)定義的關(guān)系集合。用表示兩個(gè)實(shí)體之間沒有關(guān)系,也屬于。另外,如果兩個(gè)實(shí)體之間有一個(gè)有效的關(guān)系,ER的目標(biāo)是從文檔中找出能夠支持預(yù)測(cè)三元組的證據(jù)句子集合
       

      2.2 ATLOP

      Text Encoding

      編碼前,在每個(gè)實(shí)體提及的首尾加上一個(gè)特殊的標(biāo)記“*” 。然后,用一個(gè)基于Transformer的預(yù)訓(xùn)練語言模型對(duì)文檔中的詞元進(jìn)行編碼,得到每個(gè)詞元的嵌入和跨詞元的依賴。雖然原始的ATLOP只使用了最后一層的輸出,但本文采用了最后三層的平均值(試點(diǎn)實(shí)驗(yàn)表明,使用最后3層比只使用最后一層的性能更好)。具體來說,對(duì)于每個(gè)Transformer層有d個(gè)隱藏維度的預(yù)訓(xùn)練語言模型,詞元嵌入和跨詞元依賴的計(jì)算公式如下:
      其中是每個(gè)詞元在最后三層的隱藏狀態(tài)的平均值,是最后三層所有注意力頭的注意力權(quán)重的平均值。
       

      Entity Embedding

      ATLOP用表示每個(gè)實(shí)體的嵌入,它是由它的所有提及的信息匯總而來的。具體而言,ATLOP采用了logsumexp池化方法。logsumexp池化的公式是:
      其中是提及開始位置的特殊標(biāo)記“*”的嵌入。
       

      Localized Context Embedding

      ATLOP提出了一種利用長文本信息的局部上下文嵌入方法,它根據(jù)實(shí)體對(duì)的重要性來選擇詞語。直觀地說,對(duì)都有貢獻(xiàn)的詞語應(yīng)該被更多地考慮。每個(gè)詞語的重要性由公式1得到的詞語之間的依賴關(guān)系決定。對(duì)于實(shí)體,它的所有提及的詞語依賴關(guān)系被收集并平均,得到每個(gè)詞語對(duì)的重要性。然后,每個(gè)詞語對(duì)實(shí)體對(duì)的重要性,由計(jì)算得到:
      其中表示哈達(dá)瑪積。是一個(gè)分布,反映了每個(gè)詞語對(duì)實(shí)體對(duì)的重要性。接下來,ATLOP執(zhí)行一個(gè)局部上下文池化:
       
      其中是所有詞語嵌入的加權(quán)平均,權(quán)重由決定
       

      Relation Classification

      為了預(yù)測(cè)實(shí)體對(duì)之間的關(guān)系,ATLOP 首先生成了考慮上下文的頭實(shí)體和尾實(shí)體表示:
      表示兩個(gè)向量的拼接,其中為可訓(xùn)練參數(shù)。然后,在上下文感知表示上應(yīng)用雙線性分類器來計(jì)算關(guān)系分?jǐn)?shù):
      其中,是可訓(xùn)練參數(shù)。因此,實(shí)體之間關(guān)系成立的概率為,其中為sigmoid函數(shù)。
       

      Loss Function

      ATLOP 提出了一種自適應(yīng)閾值損失(ATL),它在訓(xùn)練過程中學(xué)習(xí)一個(gè)虛擬的閾值類,作為每個(gè)關(guān)系類的動(dòng)態(tài)閾值。對(duì)于每一對(duì)實(shí)體,ATL 強(qiáng)制模型對(duì)正向關(guān)系類產(chǎn)生高于的分?jǐn)?shù),對(duì)負(fù)向關(guān)系類產(chǎn)生低于的分?jǐn)?shù),如下式所示:
      設(shè)置閾值類的想法類似于Flexible threshold (Chen等人, 2020)。
       

      3 Proposed Method: DREEAM

      為了進(jìn)行信息過濾,ATLOP利用基于Transformer的編碼器計(jì)算了一個(gè)基于注意力權(quán)重的局部上下文嵌入。這是基于這樣一個(gè)基本原理:Transformer層中的注意力權(quán)重能夠編碼跨詞依賴關(guān)系。本文提出的DREEAM通過引入證據(jù)信息來增強(qiáng)ATLOP的效果。具體來說,它對(duì)注意力模塊進(jìn)行了監(jiān)督,使其在確定關(guān)系時(shí),更多地關(guān)注有用的證據(jù)句子,而不是其他無關(guān)的句子。DREEAM可以用于有監(jiān)督和自監(jiān)督的訓(xùn)練,它們的架構(gòu)相同,但使用了不同的監(jiān)督信號(hào),如圖2(a)所示。另外,本文還參考了Tan等人(2022a)的工作,提出了一個(gè)實(shí)現(xiàn)ER自監(jiān)督的流程,其數(shù)據(jù)流如圖2(b)所示。該流程包括以下幾個(gè)步驟:首先,在人工標(biāo)注的數(shù)據(jù)上訓(xùn)練一個(gè)帶有金標(biāo)準(zhǔn)關(guān)系和證據(jù)標(biāo)簽的教師模型;然后,用教師模型預(yù)測(cè)遠(yuǎn)程監(jiān)督的數(shù)據(jù)的銀標(biāo)準(zhǔn)證據(jù);接著,在遠(yuǎn)程監(jiān)督的數(shù)據(jù)上訓(xùn)練一個(gè)學(xué)生模型,用銀標(biāo)準(zhǔn)證據(jù)來監(jiān)督ER;最后,在人工標(biāo)注的數(shù)據(jù)上對(duì)學(xué)生模型進(jìn)行微調(diào),以優(yōu)化其知識(shí)
       

      3.1 Teacher Model

      本文用一個(gè)證據(jù)分布來為每一對(duì)實(shí)體生成一個(gè)基于證據(jù)的局部上下文嵌入。可以給出的詞級(jí)別的重要性,但句級(jí)別的證據(jù)只能從人工標(biāo)注中得到,如圖1所示。為了彌補(bǔ)這個(gè)差距,本文對(duì)每個(gè)句子中的每個(gè)詞的權(quán)重求和。具體來說,對(duì)于一個(gè)由詞組成的句子,計(jì)算句子級(jí)別的重要性為:
      然后把所有句子的重要性匯總成一個(gè)分布,它反映了文檔中每個(gè)句子對(duì)實(shí)體對(duì)的重要性。本文還用人工標(biāo)注的證據(jù)分布來指導(dǎo)。首先,對(duì)于每個(gè)有效的關(guān)系標(biāo)簽,定義一個(gè)二值向量,它標(biāo)記了文檔中的每個(gè)句子是否是關(guān)系三元組的證據(jù)。如果是,就設(shè)為1,否則為0。例如,如果的證據(jù),那么就設(shè)為1,否則為0。
      然后,對(duì)所有有效的關(guān)系求和,并歸一化,得到
      其中是一個(gè)全1向量。公式9的原理是,在關(guān)系分類器之前的模塊并不顯式地知道具體的關(guān)系類型因此,引導(dǎo)編碼器中的注意力模塊產(chǎn)生與關(guān)系無關(guān)的詞依賴。
       

      Loss Function

      為了生成一個(gè)能夠反映實(shí)體對(duì)之間關(guān)系的局部上下文嵌入,本文利用人工標(biāo)注的證據(jù)來指導(dǎo)每個(gè)實(shí)體對(duì)的證據(jù)分布。用K-L散度損失來訓(xùn)練模型,使
      盡可能地接近,從而減少兩者之間的統(tǒng)計(jì)差異:
      同時(shí),用一個(gè)超參數(shù)來調(diào)節(jié)ER損失和RE損失的權(quán)重,使模型能夠同時(shí)優(yōu)化兩個(gè)目標(biāo):
       

      3.2 Student Model

      為了在大規(guī)模數(shù)據(jù)上進(jìn)行ER自訓(xùn)練,本文使用在人工標(biāo)注數(shù)據(jù)上訓(xùn)練的系統(tǒng)作為教師模型。這些大規(guī)模數(shù)據(jù)是通過關(guān)系遠(yuǎn)程監(jiān)督得到的,它們只有RE的噪聲標(biāo)簽,沒有ER的信息。本文在這些數(shù)據(jù)上訓(xùn)練一個(gè)學(xué)生模型,它的監(jiān)督由兩部分組成:一個(gè)是RE的二元交叉熵?fù)p失,另一個(gè)是ER的自訓(xùn)練損失。本文用教師模型的預(yù)測(cè)作為ER訓(xùn)練的監(jiān)督信號(hào)。具體來說,先讓教師模型在遠(yuǎn)程監(jiān)督數(shù)據(jù)上進(jìn)行推理,得到每個(gè)實(shí)體對(duì)的證據(jù)分布。然后,讓學(xué)生模型學(xué)習(xí)復(fù)現(xiàn)每個(gè)實(shí)體對(duì)的證據(jù)分布
       

      Loss Function

      自訓(xùn)練目標(biāo)是和有監(jiān)督訓(xùn)練一樣的。用KL散度損失來訓(xùn)練學(xué)生模型的ER,公式如下:
      其中是學(xué)生模型對(duì)實(shí)體對(duì)的證據(jù)分布,由公式2得出。有兩點(diǎn)不同。第一,是用句子級(jí)別的監(jiān)督信號(hào),而是用詞級(jí)別的監(jiān)督信號(hào)。這是因?yàn)樵~級(jí)別的證據(jù)分布更容易獲得。在人工標(biāo)注的數(shù)據(jù)上,要從句子級(jí)別的標(biāo)注中得到詞級(jí)別的證據(jù)分布很困難。在遠(yuǎn)程監(jiān)督的數(shù)據(jù)上,詞級(jí)別的證據(jù)分布可以從教師模型的預(yù)測(cè)中直接得到。所以,本文用詞級(jí)別的證據(jù)分布來給ER自訓(xùn)練提供微觀的監(jiān)督。第二,只在有有效關(guān)系的實(shí)體對(duì)上計(jì)算,而在文檔中的所有實(shí)體對(duì)上計(jì)算。這是因?yàn)檫h(yuǎn)程監(jiān)督數(shù)據(jù)上的關(guān)系標(biāo)簽不太可靠。這些關(guān)系標(biāo)簽是自動(dòng)收集的,可能有些標(biāo)注的關(guān)系和文檔無關(guān)。所以,從自動(dòng)標(biāo)注中很難分辨哪些關(guān)系是有效的,哪些是無效的。為了避免漏掉重要的實(shí)例,本文對(duì)所有實(shí)體對(duì)計(jì)算損失。總的損失是由公式11中的超參數(shù)來平衡的,公式如下:
      在遠(yuǎn)程監(jiān)督的數(shù)據(jù)上訓(xùn)練后,學(xué)生模型再用人工標(biāo)注的數(shù)據(jù)進(jìn)行微調(diào),用可靠的監(jiān)督信號(hào)來改進(jìn)它對(duì)DocRE和ER的知識(shí)。
       

      3.3 Inference

      本文根據(jù)Zhou等人(2021)的方法,用自適應(yīng)閾值法得到RE的預(yù)測(cè),選出得分超過閾值的關(guān)系類別。對(duì)于ER,用靜態(tài)閾值法,選出重要性超過閾值的句子作為證據(jù)。本文還采用了Xie等人(2022)提出的推理階段融合策略。具體來說,對(duì)于每個(gè)預(yù)測(cè)的關(guān)系三元組和它的證據(jù)預(yù)測(cè),從中收集證據(jù)句子,構(gòu)建一個(gè)偽文檔。然后,把偽文檔輸入訓(xùn)練好的模型,重新給關(guān)系三元組評(píng)分。為了把偽文檔和整個(gè)文檔的預(yù)測(cè)結(jié)合起來,用一個(gè)只有一個(gè)參數(shù)的混合層,是一個(gè)閾值。只有當(dāng)一個(gè)三元組在整個(gè)文檔和偽文檔上的得分之和大于時(shí),才把它作為最終的預(yù)測(cè)結(jié)果。調(diào)整,讓RE在開發(fā)集上的二元交叉熵?fù)p失最小。
       

      4 Experiments

      4.1 Setting

      Dataset

      本文實(shí)驗(yàn)是在DocRED這個(gè)具有人工標(biāo)注的DocRE數(shù)據(jù)集上進(jìn)行的。表1顯示,DocRED包含了一小部分人工標(biāo)注的數(shù)據(jù)和一大部分遠(yuǎn)程監(jiān)督的數(shù)據(jù)。這些遠(yuǎn)程監(jiān)督的數(shù)據(jù)是通過把維基百科文章和Wikidata知識(shí)庫對(duì)齊而得到的。本文直接使用了DocRED提供的遠(yuǎn)程監(jiān)督的數(shù)據(jù)。
       

      Configuration

      為了實(shí)現(xiàn)DREEAM,本文基于Hugging Face的Transformers框架,使用作為預(yù)訓(xùn)練語言模型(PLM)編碼器。參考前人的工作,通過網(wǎng)格搜索從中選取了合適的參數(shù),分別為的0.1和的0.05,來平衡ER損失和RE損失。在訓(xùn)練和評(píng)估DREEAM時(shí),使用單個(gè)Tesla V100 16GB GPU來運(yùn)行,使用單個(gè)NVIDIA A100 40GB GPU來運(yùn)行。超參數(shù)和運(yùn)行時(shí)間的細(xì)節(jié)見附錄A。
       

      Evaluation

      本文在推理階段,根據(jù)公式8得到的值,篩選出大于0.2的句子,作為證據(jù)的來源。在評(píng)估階段,使用DocRED的官方評(píng)估指標(biāo),分別對(duì)RE和ER進(jìn)行Ign F1和F1、Evi F1的評(píng)估。Ign F1是在去除了訓(xùn)練集中已有的關(guān)系后,對(duì)開發(fā)集和測(cè)試集進(jìn)行的評(píng)估,以消除訓(xùn)練集的影響。用不同的隨機(jī)種子,對(duì)系統(tǒng)進(jìn)行了五次訓(xùn)練,并給出了這些訓(xùn)練的平均分?jǐn)?shù)和標(biāo)準(zhǔn)誤差。
       

      4.2 Main Results

      Performance of the Student Model

      表2顯示,利用遠(yuǎn)程監(jiān)督數(shù)據(jù)的學(xué)生模型在RE上優(yōu)于現(xiàn)有系統(tǒng)。尤其是,當(dāng)使用BERTbase作為PLM編碼器時(shí),DREEAM在開發(fā)集上的Ign F1/F1比先前的最先進(jìn)系統(tǒng)KD-DocRE高出0.6/1.0個(gè)百分點(diǎn)。在測(cè)試集上,Ign F1和F1都提高了1.1個(gè)百分點(diǎn)。值得注意的是,DREEAM使用甚至能夠與在弱監(jiān)督設(shè)置下使用的SSAN (Xu等人, 2021a)相比肩。當(dāng)使用作為PLM編碼器時(shí),DREEAM在開發(fā)集和測(cè)試集上仍然保持優(yōu)勢(shì)。這些結(jié)果證明了本文的假設(shè),即ER自訓(xùn)練能夠改善RE,這是之前的工作未能展示的。
       

      Performance of the Teacher Model

      表2的上半部分顯示,用人工標(biāo)注數(shù)據(jù)訓(xùn)練的教師模型在RE和ER兩個(gè)任務(wù)上與EIDER相媲美。盡管DREEAM和SAIS在性能上有一定差距,但本文認(rèn)為這主要是由于監(jiān)督信號(hào)的不同造成的。DREEAM只是將RE和無關(guān)聯(lián)的ER結(jié)合在一起,而SAIS則在此之上增加了三個(gè)額外的任務(wù):共指消解、實(shí)體類型和關(guān)聯(lián)特定的ER (Xiao等人, 2022)。這些附加的監(jiān)督信號(hào)可能有助于提升SAIS的性能。除了性能外,DREEAM還在內(nèi)存效率方面優(yōu)于以前的ER-incorporated DocRE系統(tǒng)。在第4.4節(jié)中對(duì)此進(jìn)行了詳細(xì)的討論。
       

      Effectiveness of ER Self-Training

      學(xué)生模型在ER任務(wù)上遠(yuǎn)遠(yuǎn)超過了其他現(xiàn)有的系統(tǒng)。DREEAM是第一個(gè)采用弱監(jiān)督ER訓(xùn)練的方法,它通過自我訓(xùn)練有效地利用了大量無需證據(jù)標(biāo)注的數(shù)據(jù)。實(shí)驗(yàn)結(jié)果顯示,DREEAM在Evi F1指標(biāo)上比目前最好的監(jiān)督方法高出了約2.0個(gè)百分點(diǎn)。因此,本文認(rèn)為,ER自我訓(xùn)練方法能夠成功地從無需證據(jù)標(biāo)注的關(guān)系遠(yuǎn)程監(jiān)督數(shù)據(jù)中學(xué)習(xí)到證據(jù)知識(shí)。
       

      4.3 Ablation Studies

      Teacher Model

      本文探索了如何利用證據(jù)指導(dǎo)注意力來提升人工標(biāo)注數(shù)據(jù)的RE訓(xùn)練效果,訓(xùn)練了一個(gè)不包含ER訓(xùn)練的教師模型,并在DocRED開發(fā)集上進(jìn)行了評(píng)估。結(jié)果顯示,如果關(guān)閉ER訓(xùn)練,教師模型的RE性能會(huì)降到與ATLOP相似的基線水平。如表3(a)所示,沒有ER訓(xùn)練的情況下,DREEAM的RE性能有所下降。這一觀察驗(yàn)證了利用證據(jù)指導(dǎo)注意力可以提高RE性能的假設(shè)。本文還進(jìn)一步可視化了一些實(shí)例的詞元重要性,以分析證據(jù)指導(dǎo)訓(xùn)練的影響,發(fā)現(xiàn)本文的方法能夠有效地將注意力集中在相關(guān)的上下文上。更多細(xì)節(jié)可以參見附錄B。此外,本文還從關(guān)閉ER訓(xùn)練的教師模型中檢索出證據(jù),作為重要性超過預(yù)設(shè)閾值的句子。通過這種方式,發(fā)現(xiàn)Evi F1與開啟ER訓(xùn)練的教師模型相差無幾。這一觀察說明,ER是一個(gè)與RE緊密相關(guān)的任務(wù)。
       

      Student Model

      本文研究了在遠(yuǎn)程監(jiān)督數(shù)據(jù)上訓(xùn)練并在人工標(biāo)注數(shù)據(jù)上微調(diào)的學(xué)生模型。目的是檢驗(yàn)在不同訓(xùn)練階段用證據(jù)指導(dǎo)注意力的效果。為了實(shí)現(xiàn)這一目的,本文去掉了學(xué)生模型在遠(yuǎn)程監(jiān)督和人工標(biāo)注數(shù)據(jù)上的訓(xùn)練過程中的ER監(jiān)督信號(hào)。基線模型也同樣排除了ER監(jiān)督,它只在遠(yuǎn)程監(jiān)督數(shù)據(jù)上預(yù)訓(xùn)練,然后在人工標(biāo)注數(shù)據(jù)上僅為RE微調(diào)。如表3(b)所示,沒有ER自訓(xùn)練的DREEAM與基線模型表現(xiàn)相當(dāng),而沒有ER微調(diào)的DREEAM與沒有任何消融的原始模型表現(xiàn)相當(dāng)。這些結(jié)果表明,ER自訓(xùn)練對(duì)于學(xué)生模型的效果比ER微調(diào)更重要。一方面,可以觀察到,在大量數(shù)據(jù)上禁用ER自訓(xùn)練會(huì)導(dǎo)致證據(jù)知識(shí)的巨大損失,而這種損失無法通過在更小的證據(jù)標(biāo)注數(shù)據(jù)集上的微調(diào)來恢復(fù)。另一方面,可以得出結(jié)論,DREEAM能夠成功地從沒有任何證據(jù)標(biāo)注的數(shù)據(jù)中檢索出證據(jù)知識(shí),證明了ER自訓(xùn)練策略的有效性。
       

      4.4 Memory Efficiency

      這一小節(jié)分析了之前的ER方法存在的內(nèi)存效率問題,以及DREEAM如何克服它。之前的方法把ER當(dāng)作一個(gè)與RE相獨(dú)立的任務(wù),需要額外的神經(jīng)網(wǎng)絡(luò)層來完成。為了進(jìn)行ER,它們都采用了一個(gè)雙線性證據(jù)分類器,它的輸入是一個(gè)實(shí)體對(duì)相關(guān)的嵌入和一個(gè)句子嵌入。例如,EIDER用以下公式計(jì)算句子對(duì)于實(shí)體對(duì)的證據(jù)分?jǐn)?shù):
      其中是一個(gè)句子嵌入,是根據(jù)公式3得到的局部上下文嵌入,是可訓(xùn)練的參數(shù)。EIDER和其他現(xiàn)有的系統(tǒng)因此需要對(duì)所有的(句子,實(shí)體對(duì))組合進(jìn)行計(jì)算。具體來說,假設(shè)一個(gè)文檔個(gè)句子,和個(gè)實(shí)體,則有個(gè)實(shí)體對(duì)。為了得到證據(jù)分?jǐn)?shù),EIDER必須通過公式14進(jìn)行次雙線性分類,導(dǎo)致巨大的內(nèi)存消耗。相比之下,DREEAM直接用注意力權(quán)重在詞上的求和作為證據(jù)分?jǐn)?shù),因此無需引入新的可訓(xùn)練參數(shù),也無需進(jìn)行昂貴的矩陣計(jì)算。因此,可以看到,DREEAM比它的競(jìng)爭對(duì)手更節(jié)省內(nèi)存。
      表4展示了當(dāng)使用作為預(yù)訓(xùn)練語言模型(PLM)編碼器時(shí),現(xiàn)有方法和提出的方法的內(nèi)存消耗和可訓(xùn)練參數(shù)的數(shù)量。數(shù)值是在使用相應(yīng)的官方倉庫和批量大小為四的情況下訓(xùn)練系統(tǒng)時(shí)測(cè)量的。本文發(fā)現(xiàn),DREEAM的內(nèi)存消耗只有EIDER的27.4%和SAIS的25.5%。值得注意的是,DREEAM的內(nèi)存消耗也比KD-DocRE少,突出了本文提出的方法的內(nèi)存效率。
       

      4.5 Performance on Re-DocRED

      盡管DocRED是一個(gè)廣泛使用的基準(zhǔn),但最近的一些工作指出,該數(shù)據(jù)集的標(biāo)注存在不完整性。也就是說,DocRED中有很多關(guān)系三元組沒有被人類標(biāo)注出來,導(dǎo)致數(shù)據(jù)集有很多假負(fù)例的問題。為了解決這一問題,Tan等人(2022b)提出了ReDocRED,一個(gè)更可靠的DocRE的基準(zhǔn),對(duì)DocRED進(jìn)行了修正和補(bǔ)充。本文在ReDocRED上評(píng)估了DREEAM,以驗(yàn)證其有效性。
       
      與第4.2節(jié)類似,本文在兩種不同的設(shè)置下進(jìn)行了實(shí)驗(yàn):(a)不使用遠(yuǎn)程監(jiān)督數(shù)據(jù)的全監(jiān)督設(shè)置和(b)使用遠(yuǎn)程監(jiān)督數(shù)據(jù)的弱監(jiān)督設(shè)置。需要注意的是,ReDocRED增加了一些新的關(guān)系三元組,但沒有給出相應(yīng)的證據(jù)句子。如表5所示,與DocRED相比,ReDocRED的訓(xùn)練集中有更多的關(guān)系三元組缺少證據(jù)句子。這可能導(dǎo)致基于ReDocRED訓(xùn)練的DREEAM在證據(jù)關(guān)系(ER)上不夠準(zhǔn)確,受到缺失證據(jù)的影響。因此,在學(xué)生模型的ER自訓(xùn)練過程中,本文使用了基于DocRED訓(xùn)練的教師模型預(yù)測(cè)的記號(hào)證據(jù)分布作為監(jiān)督信號(hào)。然后,在ReDocRED上對(duì)學(xué)生模型進(jìn)行了微調(diào),以提高其關(guān)系抽取(RE)的能力。
       
      表6展示了DREEAM與現(xiàn)有方法的性能比較。可以發(fā)現(xiàn),DREEAM在全監(jiān)督設(shè)置和弱監(jiān)督設(shè)置下都超過了現(xiàn)有方法。這一結(jié)果證明了本文提出的方法的合理性。
       

       

       
      posted @ 2024-01-21 11:38  大雄的叮當(dāng)貓  閱讀(514)  評(píng)論(0)    收藏  舉報(bào)
      主站蜘蛛池模板: 精品国产迷系列在线观看| 小嫩模无套内谢第一次| 精品综合一区二区三区四区| 精品偷拍一区二区三区| 午夜综合网| 婷婷伊人久久| 亚洲av伦理一区二区| 中文字幕天天躁日日躁狠狠躁免费 | 亚洲国产一区二区三区亚瑟| 常宁市| 久久精品国产蜜臀av| 五月婷婷中文字幕| 久久久国产精品樱花网站| 日韩成人无码影院| 天堂av网一区二区三区| 久久天天躁夜夜躁狠狠820175| 乱人伦中文字幕成人网站在线 | 免费看亚洲一区二区三区| 丁香五月亚洲综合在线国内自拍| 永川市| 国产欧美精品一区二区三区-老狼| 五月天免费中文字幕av| 亚洲av成人无码天堂| 波多野结衣久久一区二区| 亚洲高清中文字幕在线看不卡| 精品偷拍被偷拍在线观看| 久久精品国产99麻豆蜜月| 国产va免费精品观看精品| 欧美性猛交xxxx免费看| 欧美极品色午夜在线视频| 女高中生自慰污污网站| 久久96热人妻偷产精品| 国产精品午夜福利精品| 亚洲偷自拍国综合| 欧美人与性囗牲恔配| 国产精品毛片av999999| 国产午夜在线观看视频播放| 国产成人精品电影在线观看| 日韩av日韩av在线| 强奷白丝美女在线观看| 无码国产69精品久久久久网站 |