隨著自然語言處理 (NLP , Natural Language Processing) 的發展,以及在語言信息處理與人工智慧領域的地位愈發重要。作為自然語言處理的一項基礎性任務,語義角色標註(SRL,Semantic Role Labeling)逐漸成為研究的重點。本文介紹了來自上海交通大學與雲從科技聯合創新實驗室的 AAAI 2019 論文。本屆大會共收到 7700 餘篇有效投稿,其中 7095 篇論文進入評審環節,最終有 1150 篇論文被錄用,錄取率為近年最低僅為 16.2%。

論文:Dependency or Span, End-to-End Uniform Semantic Role Labeling

論文地址:bcmi.sjtu.edu.cn/~zhaoh

語義角色標註(SRL)旨在發現句子的謂詞-論元結構。它以句子的謂詞為中心,分析句子中各成分與謂詞之間的關係,即句子的謂詞(Predicate)- 論元(Argument)結構。謂詞是對主語的陳述或說明,指出「做什麼」、「是什麼」或「怎麼樣,代表了一個事件的核心,跟謂詞搭配的名詞稱為論元。語義角色是指論元在動詞所指事件中擔任的角色。主要有:施事者(Agent)、受事者(Patient)、客體(Theme)、經驗者(Experiencer)、受益者(Beneficiary)、工具(Instrument)、處所(Location)、目標(Goal)和來源(Source)等。

例如:「小明昨天晚上在公園遇到了小紅。」

「遇到」是句子的謂詞,「小明」是謂詞的發起者,角色為「施事者」,「小紅」是謂詞的接受者,角色是「受事者」,「公園」是謂詞的發生地點,據說是「處所」等。

作為自然語言處理的一項基礎性任務,語義角色標註能提供上層應用的非常重要的語義信息。例如在閱讀理解應用中,把語義角色標註作為輸入的一部分,可以幫助閱讀理解應用更加準確確定各部分的語義角色,從而提高閱讀理解的準確性。

比如:「小明打了小華」和「小華被小明打了」,這兩句話語義完全一致,但由於被動語態引起的主語和賓語位置上的變化,當提問「誰捱打了?」時,閱讀理解演算法在處理這兩句時,有可能會給出不同的答案。但如果我們把語義角色標註也作為閱讀理解的輸入信息,由於兩句話中「小華」都是「受事者」角色,問題也是在問「受事者」是誰,這時閱讀理解演算法往往比較容易給出一致準確的答案。

明確了一個句子中各個成分的語義角色,可以更好的幫助自然語言的理解和處理。比如在「信息提取」任務中,準確的提取出動作的發出者信息;在「閱讀問答」中給出事件發生的時間、地點等。因此,語義角色標註時很多自然語言理解與處理任務的基礎,對於實現自然語言處理意義非常重要。

傳統的語義角色標註是建立在句法分析的基礎上的,但由於構建準確的語法樹比較困難,基於此方法的語義角色標註準確率並不高,因此,近年來無句法輸入的端到端語義角色標註模型受到了廣泛的關注。這些模型演算法,根據對論元的表示不同,又劃分為基於區間(span)和基於依存(dependency)兩類方法,不同方法的模型只能在對應的論元表示形式上進行優化,不能擴展、應用到另一種論元表示上。

圖 1:Span 與 Dependency 統一語義角色標註架構

我們的論文則通過提出一個統一的謂詞與論元表示層,實現了將論元表示形式的統一(參見上圖中的 Predicate&Argument Representation 層),因此,該模型可以接受不同論元表示形式的數據集進行訓練。

此外,我們的模型通過對謂詞、論元評分,以及謂詞和論元的一個雙仿射變換,同時實現了對謂詞的識別、以及謂詞與論元的聯合預測(參見上圖中 Biaffine Scorer 層)。我們的單一模型在 CoNLL 2005、2012(基於 Span 的數據集)和 CoNLL 2008、2009(基於 Dependency 的數據集)SRL 基準數據集上,無論是在自主識別謂詞、還是在給定謂詞的情況下,相比於學術上目前已知的演算法,都取得了較領先的結果,尤其是在 span 數據集、給定謂詞的情況下,我們的單一模型甚至在所有指標上領先於已知的 Ensemble 模型。結果可參見表二、三、四、五。

圖 2:端到端設置下謂詞與論元聯合預測 Span 結果
圖 3:端到端設置下謂詞與論元聯合預測 Dependency 結果
圖 4:給定謂詞情況下只預測論元 Span 結果
圖 5:給定謂詞情況下只預測論元 Dependency 結果

  1. 本文報告了第一個在 span 和 Dependency 兩種形式的語義角色標註的標準樹庫上同時獲得最高精度的系統;
  2. 本文首次把目前最為有效的三大建模和機器學習要素集成到一個系統內,包括 span 選擇模型、雙仿射(biaffine)注意力機制以及預訓練語言模型(ELMo);
  3. 本文首次針對依存形式的語義角色標註報告了超過 90% 的 F 值的里程碑精度。


推薦閱讀:
相關文章