新智元報道

  來源:arxiv等

  編輯:大明

  【新智元導讀】如果把中學生的英語閱讀理解選擇題讓AI來做,會做出什麼水平?近日,上交大團隊訓練的“雙向協同匹配網絡”(DCMN)取得了74% 的正確率。儘管和人類學生相比只能算馬馬虎虎,但對AI來說,這已經達到了目前的最高水平。

  目前,在英語考試的閱讀理解上,AI雖然無法擊敗更有能力的人類學生,但它仍然是衡量機器對語言理解能力的最佳量度之一。

  近日,上海交通大學的趙海團隊對AI模型進行了超過25000次英語閱讀理解測試訓練。訓練材料和中國現行英語水平考試的閱讀理解形式類似,每篇文章大約200到300個詞,文後是一系列與文章內容相關的多項選擇題。這些測試來自針對12至18歲中國學生的英語水平考試。

  雖然這些問題有些可以在文中找到答案,但其中一半以上的題目仍需要一定程度的推理。例如,有些問題會要求從四個選項中選出文章的“最佳標題”。在訓練結束後,AI參加了測試,其中包括1400次以前從未見過的考試。綜合得分爲74分(百分制),優於之前的所有機器測試。

  上交大的AI系統可以識別與問題相關的文章相關部分,然後選出在含義上和邏輯上最相似的答案。在測試中排名第二的是騰訊的AI系統,在同一次考試中得分爲72分。騰訊的AI學會了比較每個選項中包含的信息,並將不同選項間的信息差異作爲提示,在文章中尋找證據。

  目前最厲害的AI,閱讀理解只能得個C+

  儘管在測試中分數處於領先,趙海團隊仍在努力提高AI系統的能力。“如果從真人學生的視角來看,我們的AI的表現也就是一般水平,最多得個C+,”他說。 “對於那些想進入中國優秀大學的學生來說,他們的目標是90分。”

  爲了提高分數,團隊將嘗試修改AI,以便理解嵌入在句子結構中的信息,併爲AI提供更多數據,擴大其詞彙量。

  如何理解人類的語言,一直是AI領域的一個主要問題,因爲這種理解通常是不精確的,這個問題涉及機器難以掌握的隱含語境信息和社會線索問題。

  卡內基梅隆大學的Guokun Lai表示,目前我們仍不清楚AI在學習我們的語言時會遵循什麼規則, “不過在閱讀了大量的句子和文章之後,AI似乎能夠理解我們的邏輯。”

  該研究的相關論文已經發表在Arxiv上,以下是論文的主要內容:

  讓AI做閱讀理解是一項具有挑戰性的任務,需要複雜的推理過程。AI需要從一組候選答案中選擇正確的答案。本文提出雙重協同匹配網絡(DCMN),該網絡可以雙向地模擬通道,問題和答案之間的關係。

  與僅就問題感知或選擇性文章表示進行計算的現有方法不同,DCMN能夠計算文章感知問題表示和文章感知答案表示。爲了證明DCMN模型的有效性,我們在大型閱讀理解數據集(即RACE)上評估了模型。結果表明,該模型達到了目前AI閱讀理解的最高水平。

  機器閱讀理解和問答已經成爲評估自然語言處理和理解領域人工智能系統進展的關鍵應用問題。計算語言學界對機器閱讀理解和問答的一般問題給予了極大的關注。

  本文主要關注選擇題閱讀理解數據集,如RACE,該數據集中每個問題後都帶有一組答案選項。大多數問題的正確答案可能不會在原文中完全復現,問題類型和範圍也更加豐富和廣泛,比如涉及某一段落的提要和對文章作者態度的分析。

  這需要AI能夠更深入地瞭解文章內容,並利用外部世界知識來回答這些問題。此外,與傳統的閱讀理解問題相比,我們需要充分考慮通過文章-問題-答案三者之間的關係,而不僅僅是問題-答案的配對。

  新模型DCMN:在文章、問題、答案三者之間建立聯繫

  DCMN模型可以將問題-答案與給定文章內容進行雙向匹配,利用了NLP領域的最新突破——BERT進行上下文嵌入。在介紹BERT的原論文中提到,對應於第一輸入令牌(CLS)的最終隱藏向量被用作聚合表示,然後利用分類層計算標準分類損失。

  我們認爲這種方法太粗糙,無法處理文章-問題-答案的三者關係組合,因爲這種方法只是粗略地將文章-問題的聯繫作爲第一序列,將問題作爲第二序列,沒有考慮問題和文章內容之間的關係。因此,我們提出了一種新方法來模擬文章、問題和候選答案之間的關係。

  使用BERT作爲編碼層,分別得到文章、問題和答案選項的上下文表示。

  構造匹配層以獲得文章-問題-答案三者之間匹配表示,對問題在文章中對應的位置信息與特定上下文匹配的候選答案進行編碼。

  對從字級到序列級的匹配表示應用層次聚合方法,然後從序列級到文檔級應用。

  我們的模型在BERT模型的基礎上,於RACE數據集上將當前最高得分提高了2.6個百分點,並使用大規模BERT模型進一步將得分提高了3個百分點。

  實驗及測試結果

  在RACE數據集上對模型進行了評估。這個數據集由兩個子集組成:RACE-M和RACE-H。RACE-M來自初中考試試題,RACE-H來自高中考試試題。RACE是這兩者的結合。我們將我們的模型與以下基線方法進行了比較:MRU(多範圍推理),DFN(動態融合網絡),HCM(等級協同匹配),OFT(OpenAI 微調語言轉換模型),RSM(閱讀策略模型)。

  我們還將我們的模型與BERT基線進行比較,並實現BERT原論文(2018)中描述的方法,該方法使用對應於第一個輸入標記([CLS])的最終隱藏向量作爲聚合表示,然後是分類層,最後計算標準分類損失。測試結果如上表所示。

  我們可以看到BERT基線模型的性能非常接近先前的最高水平,而大型BERT模型的表現甚至超過了之前SOTA水平3.7%。但是實驗結果表明,我們的DCMN模型更強大,將最高得分進一步分別提升了2.2%。

  論文及參考鏈接:

  https://arxiv.org/pdf/1901.09381.pdf

  https://www.newscientist.com/article/2198333-ai-achieves-its-best-ever-mark-on-a-set-of-english-exam-questions/

相關文章