BERT 等模型的進展已讓 GLUE 基準在新模型的評估方面日漸乏力,為推動 NLP 技術的進一步發展,有必要對 GLUE 指標進行更新。為此,紐約大學、Facebook 人工智慧研究所、華盛頓大學和劍橋大學的多名研究者聯合整理髮布了 SuperGLUE 基準,其中保留了兩項 GLUE 任務,另外又加入了其它五項新任務。相關工具包和數據集將於五月初發布。
選自Medium,作者:Alex Wang等,機器之心編譯,參與:Panda。
- GLUE 基準與 SuperGLUE 發布地址:https://gluebenchmark.com
- 論文:https://w4ngatang.github.io/static/papers/superglue.pdf
過去一年來,機器學習模型在 NLP 領域很多語言理解任務上的表現都獲得了極大提升。Elmo、BERT、ALICE、之前被稱為 BigBird 的模型(現在叫做 MT-DNN)都取得了顯著進展,OpenAI GPT 也有一種非常有效的方案,即將用簡單的多任務在大量文本數據集上預訓練的語言建模方法與將所得模型適應到下游應用的遷移學習技術結合起來。
一年前發布的 GLUE 是用於評估這些方案的一套基準和工具包。GLUE 是九種(英語)語言理解任務的集合,包括文本蘊涵、情感分析和語法判斷等。其設計目的是覆蓋足夠大的 NLP 領域,以使得只有開發出足夠通用的工具,才能在這一基準上表現良好;這樣也有助於解決未來可能新遇到的語言理解問題。
基於 GLUE 基準的進展
在 GLUE 基準上表現最佳的模型已經非常接近人類在這些任務上的水平: