《Similarity-based Memory Enhanced Joint Entity and Relation Extraction》論文閱讀筆記
代碼
原文
摘要
文檔級聯合實體和關系抽取是一項難度很大的信息抽取任務,它要求用一個神經網絡同時完成四個子任務,分別是:提及檢測、共指消解、實體分類和關系抽取。目前的方法大多采用順序的多任務學習方式,這種方式將任務任意分解,使得每個任務只依賴于前一個任務的結果,而忽略了任務之間可能存在的更復雜的相互影響。為了解決這些問題,本文提出了一種新的多任務學習框架,設計了一個統一的模型來處理所有的子任務,該模型的工作流程如下:首先,識別出文本中的實體提及,并將它們聚合成共指簇;其次,為每個實體簇分配一個合適的實體類型;最后,在實體簇之間建立關系。圖 1 給出了一個來自 DocRED 數據集的文檔示例,以及模型期望輸出的實體簇圖。為了克服基于流水線的方法的局限性,在模型中引入了雙向的記憶式依賴機制,使得各個子任務能夠相互影響和提升,從而更有效地完成聯合任務。

模型架構

該方法受到了 JEREX 的啟發,由四個任務特定的組件組成:提及抽取(
)、共指消解(
)、實體抽取(
)和關系抽取(
)。與原來的流水線式架構不同,這里引入了圖 2 所示的記憶模塊,使得各個組件的輸入表示能夠通過基于記憶的擴展表示模塊進行更新。該模塊使用 Memory Read 操作從記憶矩陣
和
中讀取信息,這兩個矩陣分別由實體和關系分類器寫入。這樣,各個組件之間就形成了雙向的信息交互,從而更有效地完成聯合任務。
)、共指消解(
)、實體抽取(
)和關系抽取(
)。與原來的流水線式架構不同,這里引入了圖 2 所示的記憶模塊,使得各個組件的輸入表示能夠通過基于記憶的擴展表示模塊進行更新。該模塊使用 Memory Read 操作從記憶矩陣
和
中讀取信息,這兩個矩陣分別由實體和關系分類器寫入。這樣,各個組件之間就形成了雙向的信息交互,從而更有效地完成聯合任務。Memory reading
該方法與 TriMF 類似,都是利用注意力機制,將輸入表示與從記憶中讀取的信息相結合,得到擴展的表示。如圖 2 所示,本文的架構對兩種輸入表示進行了擴展:一種是詞嵌入
,另一種是提及候選的跨度表示
。對于每一種輸入表示
(
),以及每一種記憶矩陣
(
),注意力機制將輸入表示
作為鍵和值,其中
是表示向量的個數,
是嵌入的維度。
,另一種是提及候選的跨度表示
。對于每一種輸入表示
(
),以及每一種記憶矩陣
(
),注意力機制將輸入表示
作為鍵和值,其中
是表示向量的個數,
是嵌入的維度。作為查詢,注意力機制使用記憶矩陣
,其中
是記憶槽的個數,
是記憶槽的維度。為了計算注意力權重向量
,對記憶槽的維度求和,公式如下:
,其中
是記憶槽的個數,
是記憶槽的維度。為了計算注意力權重向量
,對記憶槽的維度求和,公式如下:
其中
是注意力機制的可學習參數矩陣,
是
的第
個記憶槽。然后,
向量用于對
進行加權,得到擴展的輸入表示
:
是注意力機制的可學習參數矩陣,
是
的第
個記憶槽。然后,
向量用于對
進行加權,得到擴展的輸入表示
:
對于每一種輸入表示
,記憶讀取操作基于兩種記憶矩陣生成兩種擴展表示
和
。最終的擴展表示是通過對
和
求逐元素平均值得到的。
,記憶讀取操作基于兩種記憶矩陣生成兩種擴展表示
和
。最終的擴展表示是通過對
和
求逐元素平均值得到的。Memory writing
和
是兩個記憶矩陣,它們分別存儲了不同的實體和關系類別的表示。這些表示是通過相關分類器的損失函數的梯度來更新的,
對應實體分類器,
對應關系分類器。為了提高表示的精度,損失函數取決于類別嵌入和屬于該類別的實例表示之間的相似度,這個相似度是根據實例的標簽來確定的。因此,實體和關系分類器都基于輸入表示和相應的記憶矩陣之間的相似度函數
來進行分類。給定實體
的表示向量
,它的實體類型的概率分布如下:
給定實體對
的表示向量
,它的關系類型的存在概率如下:
的表示向量
,它的關系類型的存在概率如下:
定義
為實例表示
和記憶矩陣
之間的雙線性相似度,形式如下:
為實例表示
和記憶矩陣
之間的雙線性相似度,形式如下:
其中
是一個可學習的參數矩陣。對于實體和關系分類器,分別使用了不同的雙線性相似度權重矩陣:
和
,其中
和
是實體和實體對表示的維度。
和
是實體和關系記憶矩陣的記憶槽的維度。在這里,記憶矩陣的記憶槽的數量與分類器的類別的數量相同。
是一個可學習的參數矩陣。對于實體和關系分類器,分別使用了不同的雙線性相似度權重矩陣:
和
,其中
和
是實體和實體對表示的維度。
和
是實體和關系記憶矩陣的記憶槽的維度。在這里,記憶矩陣的記憶槽的數量與分類器的類別的數量相同。Training
最后,模型被訓練優化關節損失
,該關節包含與JEREX中相同的四個子任務相關的損失
,并以固定的任務相關權值
加權:
,該關節包含與JEREX中相同的四個子任務相關的損失
,并以固定的任務相關權值
加權:
本文還納入了TriMF中提出的兩階段訓練方法,在超參數搜索過程中調整記憶預熱比例。

浙公網安備 33010602011771號