BERT 等模型的進展已讓 GLUE 基準在新模型的評估方面日漸乏力,為推動 NLP 技術的進一步發展,有必要對 GLUE 指標進行更新。為此,紐約大學、Facebook 人工智慧研究所、華盛頓大學和劍橋大學的多名研究者聯合整理髮布了 SuperGLUE 基準,其中保留了兩項 GLUE 任務,另外又加入了其它五項新任務。相關工具包和數據集將於五月初發布。

選自Medium,作者:Alex Wang等,機器之心編譯,參與:Panda。

  • GLUE 基準與 SuperGLUE 發布地址:gluebenchmark.com
  • 論文:w4ngatang.github.io/sta

過去一年來,機器學習模型在 NLP 領域很多語言理解任務上的表現都獲得了極大提升。Elmo、BERT、ALICE、之前被稱為 BigBird 的模型(現在叫做 MT-DNN)都取得了顯著進展,OpenAI GPT 也有一種非常有效的方案,即將用簡單的多任務在大量文本數據集上預訓練的語言建模方法與將所得模型適應到下游應用的遷移學習技術結合起來。

一年前發布的 GLUE 是用於評估這些方案的一套基準和工具包。GLUE 是九種(英語)語言理解任務的集合,包括文本蘊涵、情感分析和語法判斷等。其設計目的是覆蓋足夠大的 NLP 領域,以使得只有開發出足夠通用的工具,才能在這一基準上表現良好;這樣也有助於解決未來可能新遇到的語言理解問題。

基於 GLUE 基準的進展

在 GLUE 基準上表現最佳的模型已經非常接近人類在這些任務上的水平:

不同模型相對於人類水平的 GLUE 進展。Y 軸是相對於人類水平的表現。

隨著 GPT 和 BERT 的出現,模型水平大幅提升;而且隨著研究者持續開發更好的演算法以將 BERT 用於其它任務,模型的表現正在穩步追趕人類水平。在三個 GLUE 任務(QNLI、 MRPC 和 QQP)上,最佳的模型已經超過了人類基準,但這並不意味著機器已掌握英語。比如,WNLI 任務涉及到確定一個句子「John couldn』t fit the trophy in the suitcase because it was too big.(約翰沒法把獎盃放進箱子,因為它太大了。)」究竟是指「獎盃太大」還是「箱子太大」。人類可以完美地解決這一任務,而機器的表現還和隨機亂猜差不多。

在創造能夠理解自然語言的機器之路上,我們顯然還有很大的進步空間,但 GLUE 在進一步發展的道路上已不適合作為評估基準了。

進入 SuperGLUE 時代

吉祥物的誕生,來自 Nikita Nangia

SuperGLUE 與 GLUE 類似,是一個用於評估通用 NLP 模型的基準,同樣也基於在多種不同語言理解任務集上的評估。

為了發現新的挑戰性任務集,SuperGLUE 提出者向更廣泛的 NLP 社區發起了任務提議徵集,得到了一個包含約 30 種不同 NLP 任務的列表。在選擇 SuperGLUE 的任務時,提出者考慮了多項設計原則,包括必須涉及到語言理解、這些任務還無法通過已有的方法解決、存在公開的訓練數據、任務格式以及證書。經過驗證,最終得到了一個包含七個任務的集合。

革新之處

SuperGLUE 遵照了 GLUE 的基本設計:包含一個圍繞這七個語言理解任務構建的公開排行榜、基於已有數據的抽取、一個單個數值的表現指標和一套分析工具包。

SuperGLUE 與 GLUE 也有很多差異:

  • SuperGLUE 僅保留了 GLUE 九項任務中的兩項(其中一項還經過修改),還引入了五個難度更大的新任務。這些任務的選擇標準包括為了實現難度和多樣性的最大化。
  • 初始的 SuperGLUE 基準版本即包含了人類水平估計結果。在 SuperGLUE 中這些被選中的任務上,基於 BERT 的強基線與人類水平之間還存在顯著的差距。
  • 任務格式(API)的集合在 GLUE 中的句子和句子對分類上進行了擴展,SuperGLUE 另外還包含共指消解、句子完成和問答。
  • 為了促使研究者針對這種多樣性的任務集合開發統一的新方法,與 SuperGLUE 一起發布的還有一套用於操作 NLP 的預訓練、多任務學習和遷移學習的模塊化建模工具包。這套工具包基於 PyTorch 和 AllenNLP。
  • 管理 SuperGLUE 排行榜的規則有多個地方不同於 GLUE 排行榜的管理規則,這些變化都是為了確保該排行榜競爭公平、信息豐富,並能充分體現數據和任務創建者的貢獻。

SuperGLUE 與 GLUE 的兩項共同任務是:識別文本蘊涵(RTE)和 Winograd 模式挑戰賽(WSC)。此外,SuperGLUE 還添加了測試模型問答、執行共指消解和執行常識推理能力的任務。下表給出了 SuperGLUE 包含的任務:

SuperGLUE 包含的任務。WSD 是詞義消岐、NLI 是自然語言推理、coref. 是共指消解、SC 是句子完成、QA 是問答。其中,MultiRC 列出了 456/83/166 個 train/dev/test 問題的總答案數。

下面對這些任務進行更詳細的說明和示例介紹:

CB:CommitmentBank(De Marneffe et al., 2019)是一個短文本語料庫,其中至少有一個句子包含一個嵌入從句。其中每個嵌入從句都標註了該從句的預期的真實性程度。所得到的任務框架是三類文本蘊涵(three-class textual entailment),其樣本來自《華爾街日報(Wall Street Journal)》、英國國家語料庫(British National Corpus)的小說、Switchboard。每個樣本都包含一個含有一個嵌入從句的前提(premise),對應的假設(hypothesis)則是該從句的提取。SuperCLUE 使用了該數據集的一個子集,該子集中注釋之間的一致程度超過 0.85。這些數據不很平衡(中性樣本相對較少),所以評估指標是準確度和 F1 分數,其中多類 F1 分數是每類 F1 分數的不加權的平均值。

COPA:Choice Of Plausible Alternatives(Roemmele et al., 2011)數據集代表了一項因果推理任務,其會向系統提供一個前提句子和兩個可能的可選項。系統必須選擇與前提句子有更可信因果關係的可選項。用於構建可選項的方法要確保需要因果推理才能解決該任務。樣本要麼針對前提句子的可能原因,要麼則是可能結果,再加上模型的兩個實例類型之間的簡單問題消岐。所有的樣本都是人工設計的,關注的主題有網路博客和與攝影相關的百科內容。根據 COPA 作者的建議,SuperCLUE 使用準確度作為評估指標。

GAP:Gendered Ambiguous Pronoun Coreference(Webster et al., 2018)是一個性別方面平衡的語料庫,其測試的是識別有歧義代詞的指代目標的能力。給定一個句子、該句子中的一個特定代詞以及該句子中的兩個名詞短語,任務目標是預測哪個名詞短語(或兩者同時)與那個代詞共指。SuperCLUE 將其中公開可用的開發集用於訓練,公開可用的測試集用於驗證,另外 GAP 作者還提供了一個私有的測試集。評估指標為 F1 分數和偏見(bias),即在測試樣本的男性代詞和女性代詞子集上的 F1 分數的比值。

MultiRC:Multi-Sentence Reading Comprehension 數據集(Khashabi et al., 2018)代表了一項真假問答任務。每個樣本都包含一個上下文段落、一個有關該段落的問題和一個該問題的可能答案的列表,這些答案必須標註了「真(true)」或「假(false)」。問答是很常見的問題,有很多數據集。這裡選擇 MultiRC 的原因包括:(1)每個問題都可以有多個可能的正確答案,所以每個問答對都必須獨立於其它問答對進行評估;(2)問題的設計方式使得每個問題的解答都需要從多個上下文句子中提取事實;(3)相比於基於範圍的抽取型問答,這個數據集的問答對格式更匹配其它 SuperGLUE 任務的 API。這些段落取自七個領域,包括新聞、小說和歷史文本。評估指標是每個問題的正確答案集的 macro-average F1 分數(F1m)和在所有答案選項上的 binary F1 分數(F1a)。

RTE:Recognizing Textual Entailment 數據集來自一系列文本蘊涵方面的年度競賽。文本蘊涵任務是要預測給定的前提句子是否蘊涵給定的假設句子(也稱為自然語言推理/NLI)。GLUE 之前就已包含 RTE。SuperGLUE 使用了一樣的數據和格式:融合了來自 RTE1 (Dagan et al., 2006)、 RTE2 (Bar Haim et al., 2006)、RTE3 (Giampiccolo et al., 2007) 和 RTE5 (Bentivogli et al., 2009) 的數據。所有數據集經過組合,並被轉換成了兩類分類問題:entailment 和 not_entailment。相比於其它 GLUE 任務,RTE 是從遷移學習獲益最多的任務,準確度表現水平從 GLUE 發布時的接近隨機(約 56%)提升至了目前的 85%,但這一表現與人類水平仍有 8 個百分點的差距,所以還值得進一步研究探索。

WiC:Word-in-Context(Pilehvar and Camacho-Collados, 2019)數據集針對的是詞義消岐任務,該任務被設定成了在句子對上的二元分類問題。給定兩個句子和一個出現在這兩個句子中的多義詞(歧義詞),任務目標是決定該詞在這兩個句子中是否含義相同。數據集中句子取自 WordNet (Miller, 1995)、VerbNet (Schuler, 2005) 和維基百科。這項任務的評估指標是準確度。

WSC:Winograd Schema Challenge(Levesque et al., 2012)是一個閱讀理解任務,其中系統必須閱讀一個帶有一個代詞的句子,並從一個選項列表中選擇該代詞所代指的目標。GLUE 中就已包含 WSC 任務,這個任務難度頗大,仍有很大的進步空間。SuperGLUE 中的 WSC 數據集被重新設定成了其共指形式,任務則被設定成了一個二元分類問題,而不再是 N 項多選題;這樣做的目的是單獨驗證模型理解句子中共指鏈接的能力,而不會涉及到多選題環境中可能用到的其它策略。

綜合以上各項任務,SuperGLUE 基準也設置了一個總體評估指標:SuperGLUE 分數。該分數即是在以上所有任務上所得分數的平均。對於 Commitment Bank 和 MultiRC,會首先先取該任務在各項指標上的平均,比如對於 MultiRC,會首先先平均 F1m 和 F1a,之後在整體平均時將所得結果作為單個數值納入計算。另外,GAP 的偏見(bias)分數不會納入 SuperGLUE 分數的計算;原因是在性別平衡的 GAP 上訓練的大多數系統在偏見分數上都表現良好。

模型基準與人類水平

SuperGLUE 提出者已經提供了在其中七項任務上的基準結果,這些結果是使用基於 BERT 的方法得到的,因為 BERT 在 GLUE 上是當前最成功的方法。具體而言,基準結果來自 BERT-LARGE-CASED variant.11,遵照了 Devlin et al. (2019) 的標準實踐方法。對於每個任務,所選擇的架構都是基於 BERT 的儘可能最簡單的架構。下表給出了得到的基準結果:

在 SuperGLUE 各項任務的測試集上得到的初步基準結果,加粗數值是機器在該任務上的當前最佳水平;最後一行是估計的人類水平。

可以看到,最佳的預訓練基準結果仍大幅落後於人類水平。平均而言,BERT++ 的結果與人類水平相差 16.8;其中在 WSC 上差距最大,為 27.5,而人類在這一任務上表現完美。期待未來的新思路和新方法進一步減小這些差距,甚至解決這些任務。

原文鏈接:medium.com/@wang.alex.c


推薦閱讀:
相關文章