近日,由微軟亞洲研究院自然語言處理組與微軟雷德蒙語音對話組研究員組成的團隊,在斯坦福大學發起的對話式問答挑戰賽CoQA(Conversational Question Answering Challenge)中榮登榜首,成為目前排行榜上唯一一個模型分數超過人類分數的團隊。

CoQA是由關於不同領域文章的一組組對話式問答構成的大型數據集,要求機器對文本進行閱讀理解,然後對一系列相互關聯的問題作出回答。此前,微軟亞洲研究院自然語言計算組開發的系統在斯坦福大學發起的SQuAD(Stanford Question Answering Dataset)文本理解挑戰賽中,取得了單輪問答媲美人類成績的突破。與SQuAD相比, CoQA具有多輪問答的「對話」屬性,而且機器的回答形式也更加自由,以確保對話的自然流暢。

由於人類在對話中的句子通常比較簡短,為了更好地模仿這一表達特徵,CoQA數據集中的問題也都非常簡短。同時,在對話式問答中,首個問題後的每個問題都是基於前序對話展開的。CoQA的這些特性為機器的分析理解帶來了更大的困難。比如,當你詢問「微軟的創始人是誰?」,並接著追問「他何時出生?」時,系統必須意識到你在就同一個話題進行討論。

CoQA數據集中的一組對話,CoQA論文參見 https://arxiv.org/abs/1808.07042

為了測試模型的泛化能力,CoQA數據集是從兒童故事、文學、初高中英語考試、新聞、維基百科、Reddit和科學等七個完全不同的領域進行收集的。其中,前五個領域的數據集用於訓練、開發和測試,而後兩個領域的數據集僅作為測試使用。 CoQA數據集使用F1值來衡量預測值和真實值之間的平均單詞重合率,以評估模型的性能。其中,領域內(in-domain)F1值表示測試集數據與訓練集數據來自相同的領域,領域外(out-of-domain)F1值表示測試集數據與訓練集數據來自不同的領域,而綜合(overall)F1值代表了整個測試集的最終得分。

為了破解這些挑戰,微軟研究人員採取了一種特殊的策略,利用機器閱讀系統從幾個相關任務中學習到的信息來改進它在目標機器閱讀理解任務中的表現。在這種多階段、多任務的精調方法中,研究人員首先在多任務場景下,讓機器閱讀系統從與目標任務相關的任務中學習背景信息,然後在目標任務上對模型進行精調。除此之外,語言建模在兩個階段中都起到了輔助作用,有效幫助對話式問答模型減少過擬合。該系統在CoQA挑戰賽中的傑出表現證明了這一方法的有效性。

多階段、多任務精調模型示意圖

目前,微軟團隊在2019年3月29日提交的整合系統在領域內、領域外、綜合F1值上的得分分別為89.9 / 88.0 / 89.4,均超越人類在同一組會話問答中的平均表現89.4 / 87.4 / 88.8,在CoQA挑戰賽排行榜中位列第一。

這項突破標誌著以Bing為代表的搜索引擎和以Cortana為代表的智能助手,將以類似於人類溝通一樣自然的方式與人類進行互動和提供信息,成為人們工作生活的得力助手。儘管今天的技術正在飛速迭代和進步,廣義的機器閱讀理解和問答仍然是自然語言處理中懸而未決的難題。為了對這一問題進行更加深入的探索,微軟研究團隊正致力於開發更加強大的預訓練模型,不斷拓展機器閱讀理解和自然語言生成的邊界。


本賬號為微軟亞洲研究院的官方知乎賬號。本賬號立足於計算機領域,特別是人工智慧相關的前沿研究,旨在為人工智慧的相關研究提供範例,從專業的角度促進公眾對人工智慧的理解,並為研究人員提供討論和參與的開放平台,從而共建計算機領域的未來。

微軟亞洲研究院的每一位專家都是我們的智囊團,你在這個賬號可以閱讀到來自計算機科學領域各個不同方向的專家們的見解。請大家不要吝惜手裡的「邀請」,讓我們在分享中共同進步。

也歡迎大家關注我們的微博和微信 (ID:MSRAsia) 賬號,了解更多我們的研究。


推薦閱讀:
相关文章