近日,由微軟亞洲研究院自然語言處理組與微軟雷德蒙語音對話組研究員組成的團隊,在斯坦福大學發起的對話式問答挑戰賽CoQA(Conversational Question Answering Challenge)中榮登榜首,成為目前排行榜上唯一一個模型分數超過人類分數的團隊。
CoQA是由關於不同領域文章的一組組對話式問答構成的大型數據集,要求機器對文本進行閱讀理解,然後對一系列相互關聯的問題作出回答。此前,微軟亞洲研究院自然語言計算組開發的系統在斯坦福大學發起的SQuAD(Stanford Question Answering Dataset)文本理解挑戰賽中,取得了單輪問答媲美人類成績的突破。與SQuAD相比, CoQA具有多輪問答的「對話」屬性,而且機器的回答形式也更加自由,以確保對話的自然流暢。
由於人類在對話中的句子通常比較簡短,為了更好地模仿這一表達特徵,CoQA數據集中的問題也都非常簡短。同時,在對話式問答中,首個問題後的每個問題都是基於前序對話展開的。CoQA的這些特性為機器的分析理解帶來了更大的困難。比如,當你詢問「微軟的創始人是誰?」,並接著追問「他何時出生?」時,系統必須意識到你在就同一個話題進行討論。