2018-2019對於 NLP領域無疑是一個突破性進展的時期,而作為NLP的頂級會議之一 ACL19 明天將會公佈論文錄用結果,大家有什麼滿意的工作 可以拿出來分享下呀!


說一下自己的參會體驗,我的興趣方向是QA,dialogue和IR

1. Ming Zhous talk: The Bright Future of ACL/NLP

https://www.microsoft.com/en-us/research/uploads/prod/2019/08/ACL-MingZhou-50min-ming.v9.pdf

指出NLP需要 Linguistics, knowledge, common sense and symbolic reasoning, 現有數據集還存在high cost, bias, noises, privacy and discrepancy from real scenarios 的問題,以及深度學習的huge cost of computer power and annotated data問題

2. Improving Multi-turn Dialogue Modelling with Utterance ReWriter

這個論文比較好的點是提出了用Utterance rewriting的方式解決多輪問答問題,其實這個方法正好也在我的workshop論文裡面提出了:https://www.aclweb.org/anthology/W19-4108, 另外一個貢獻是提出了一個新的數據集,這個工作感覺是這個領域非常稀缺的,不過現在code和data都還沒放出來。

3. Token-level Dynamic Self-Attention Network for Multi-Passage Reading Comprehension

提出了一個壓縮self-attention的方法:選擇top K的token進行dot-product而不是所有token,輸出進行padding之類再attention,因為不是所有詞都需要attention。詢問之後瞭解用的數據集passage的token數目比較多(1000?),K在實驗中取250。因為能把更大的模型放進GPU,效果也得到了提升。

4. Explicit Utilization of General Knowledge in Machine Reading Comprehension

提出了用WordNet來幫助閱讀理解的方法:對WordNet裡面詞義相近的詞強行進行fusion,增加他們attention的相關度。相比於在網路中引入KG embedding的方法,這種方法更加hard。

5. Multi-style Generative Reading Comprehension

提出了一種融合不同task/data的方法:在輸入中引入一個Style label對應不同數據集,在測試的時候如果已知task/數據集就用對應的Style label。實驗在MS MARCO和NarrativeQA進行。MS MARCO 2.1有QA task和Natural Language Generation task。NarrativeQA訓練的時候用了MS MARCO的NLG部分。

6. Retrieve, Read, Rerank: Towards End-to-End Multi-Document Reading Comprehension

效果很好,可惜沒見到作者。特點是在open domain QA中對多個answer span用span representation進行rerank。細節還要參考paper。

7. Multi-Hop Paragraph Retrieval for Open-Domain Question Answering

這篇論文用vector search的方法做retrieval,用reformulation layer對question vector進行改寫,訓練數據從RC的數據集中推導出來:如果reformulated query和原始document足夠相似,則用作正樣例。相比於用RL做reformation的辦法更簡潔。

8. E3: Entailment-driven Extracting and Editing for Conversational Machine Reading

這篇論文對Conversational Machine Reading提出了三個module的解決方案:Extraction Module,Entailment Module和Decision Module。Extraction提取answer/rule,Entailment判斷rule有沒有被對話中提到,decision對所有rule進行排序,並判斷應該inquire一個rule或者回答yes/no或者判定為irrelevant。實驗在ShARC CMR數據集上進行。

9.XQA: A Cross-lingual Open-domain Question Answering Dataset

這個文章有意思的是Multilingual BERT在英語上訓練,在其他語言上測試(zero-shot)效果比用翻譯做訓練/測試還好。

10. Avoiding Reasoning Shortcuts: Adversarial Evaluation, Training, and Model Development for Multi-Hop QA

指出了現有multi-hop QA數據集比如HotpotQA中存在的shortcut的問題,並生成新的Adversarial Doc避免shortcut。

11. Compositional Questions Do Not Necessitate Multi-hop Reasoning

指出了Multi-hop QA用單文本而不是reasoning就可以達到比較好的效果

12. MULTIQA: An Empirical Investigation of Generalization and Transfer in Reading Comprehension

這篇論文研究多個source的RC數據集如何訓練的問題,有很多有意思的insight,我個人非常喜歡。不過作者私下也和我說具體如何訓練還是case by case。

13. Latent Retrieval for Weakly Supervised Open Domain Question Answering

這篇論文也用用vector search的方法做retrieval,用BERT作為question/block encoder,在自定義任務Inverse Cloze Task上進行訓練,在RC上進行fine-tune, fine-tune的時候只更新question encoder,原因是ICT裡面的block和fine-tune的是同一類語料,而question是偽造的。實驗在Natural Questions,WebQuestions,CuratedTrec三個數據集上比BM25更好,但是在TriviaQA,SQuAD上不如BM25,作者說可能原因是後倆數據集在編寫問題的時候看到了document,所以很多用詞來自於document,這樣對更注重exact match的BM25更有利,而前三個數據集的問題用戶沒有看到document,更需要學習得到的semantic match。論文裏的ICT任務其實是可以提升的,比如在NQ之類的數據集上訓練等。

14. Synthetic QA Corpora Generation with Roundtrip Consistency

這篇論文提出了一個生成QA數據集的方法:首先用訓練好的reader找到所有answer span(這一步主要目的是選出可能成為answer的span),然後生成問題,再用reader回答這個問題,如果能答出span則加入數據集。實驗在SQuAD2和NQ上進行,數據增強後效果提升還是比較明顯的。這個論文的一個小問題是Table 2變數控制的不太好。

15. Are You Looking? Grounding to Multiple Modalities in Vision-and-Language Navigation

因為看到是DK在展示所以跟他聊了一下,這篇論文指出了現在的Vision-and-Language Navigation數據集中不需要對vision feature充分使用就能達到比較好的效果,在同一個場景下訓練和測試,vision feature是有幫助的,但是如果訓練測試不同場景,vision feature還不如抽象後的Object representation。最後作者把不同方式訓練的模型進行混合得到了最好的結果。


感謝有個回答幫忙做了宣傳。今年非常幸運有11篇長文被ACL 2019錄用,可以說這都是同學們過去一年的主要心血,能夠得到同行們的認可非常開心。幾年前每次有頂會論文錄用,我會把論文列到微信朋友圈慶祝,後來被學術界前輩勸告不應當以論文數論英雄,而更關注研究成果本身的價值。我深以為然,因此在這裡認真介紹我們工作的想法以資討論,而且其中頗有幾個可以介紹的小插曲:

Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, Qun Liu. ERNIE: Enhanced Language Representation with Informative Entities.

這是我們在大規模無監督文本預訓練深度學習模型方面的最新嘗試,主要想解決的問題是ELMo、GPT、BERT等模型都只考慮無監督文本信息,但實際上文本中包含大量實體及其複雜關係,沒有被有效考慮。我們在BERT基礎上設計了一個融合實體表示和相應預測任務的改進方案。這個工作主要由本科生張正彥(今年大四、將留組讀博)和博士生韓旭開展,同時也是與Huawei Noah Lab蔣欣/劉羣老師團隊合作的成果。源碼:https://github.com/thunlp/ERNIE 論文arxiv版:https://arxiv.org/abs/1905.07129。

這篇文章有個小插曲,在我們北京時間3月5日完成投稿後,發現Baidu團隊在媒體上發布了他們的同樣叫ERNIE的BERT改進模型Enhanced Representation from kNowledge IntEgration(新聞:https://zhuanlan.zhihu.com/p/59436589)。由於ACL 2019審稿期間對匿名的嚴格要求,我們在投稿後一直沒有吱聲直到現在。幸虧這次ACL 2019錄用了這篇文章,不然可能我們模型就要改名字了。做這些解釋的目的之一還有,這次出現兩個ERNIE,完全是獨立開展的兩份工作的重名巧合(由ELMo和BERT聯想到ERNIE是再自然不過的事兒),兩份工作雖然都與實體有關但想要解決的問題和方案完全不同,希望不要引起大家不必要的猜想。

Hao Zhu, Yankai Lin, Zhiyuan Liu, Jie Fu, Tat-Seng Chua, Maosong Sun. Graph Neural Networks with Generated Parameters for Relation Extraction.

這是使用GNN來解決關係抽取任務推理問題的工作。朱昊是我組大四本科生,他這份工作做完有1年多時間,只是由於演算法思想有些複雜,投過幾次才中,果然堅持才能勝利。這篇文章的arxiv版本:https://arxiv.org/abs/1902.00756 。他畢業將去CMU LTI讀博,本科期間已經在ACL、EMNLP、NAACL、IJCAI上發了9篇論文,是我見過的最優秀的本科生之一,祝他未來早日成長為NLP的優秀學者(主頁:http://www.zhuhao.me/)!

Jie Zhou, Xu Han, Cheng Yang, Zhiyuan Liu, Lifeng Wang, Changcheng Li, Maosong Sun. GEAR: Graph-based Evidence Aggregating and Reasoning for Fact Verification.

這是使用GNN來解決事實驗證任務推理問題的工作。周界是我組一年級碩士生,他之前還撰寫了一篇GNN綜述:Graph Neural Networks: A Review of Methods and Applications(https://arxiv.org/abs/1812.08434 ),還比較全面。我認為GNN將會在知識推理等方面發揮重要作用,歡迎關注。

Yuan Yao, Deming Ye, Peng Li, Xu Han, Yankai Lin, Zhenghao Liu, Zhiyuan Liu, Lixin Huang, Jie Zhou, Maosong Sun. DocRED: A Large-Scale Document-Level Relation Extraction Dataset.

這是在關係抽取方面構建的一份數據集,目標是讓關係抽取跨越句子邊界,能夠在文檔級別開展,我認為這是關係抽取的重要技術趨勢之一。姚遠是我們組的一年級直博生,也是我的第2個博士生。這個工作是與微信周傑/李鵬團隊合作的成果,數據標註花了他們不少錢,讓我們成長為NLP領域的RMB玩家。

Weize Chen, Hao Zhu, Xu Han, Zhiyuan Liu, Maosong Sun. Quantifying Similarity between Relations with Fact Distribution.

這是朱昊和韓旭帶大二本科生陳暐澤完成的一份很有意思的工作,就是用包含某個關係的三元組事實的分佈來表示該關係的語義,從而來定量計算關係之間的相似度,在OpenIE的冗餘關係合併等方面效果拔羣。關係的關係,眾妙之玄,之前還很少有學者關注過這類問題,相信會有很多人對此感興趣。暐澤從大一剛結束就來到我們組,將近一年的成長終於在這次ACL獲得認可!

Shun Zheng, Xu Han, Yankai Lin, Peilin Yu, Lu Chen, Ling Huang, Zhiyuan Liu, Wei Xu. DIAG-NRE: A Neural Pattern Diagnosis Framework for Distantly Supervised Neural Relation Extraction.

這是交叉信息院博士生鄭順(導師是可愛的徐葳老師)的工作,創新地將關係模板和人工標註等思想融入到關係抽取過程中,應該是未來真正開展高效知識獲取值得考慮的方案。

Yixin Cao, Zhiyuan Liu, Chengjiang Li, Zhiyuan Liu, Juanzi Li, Tat-Seng Chua. Multi-Channel Graph Neural Network for Entity Alignment.

這是與清華博士畢業生、NUS博士後曹藝馨合作的工作,用GNN來做實體對齊,也是個硬骨頭問題。注意第二作者Zhiyuan Liu(劉致遠)是西安交大畢業生,曾經在我們組訪問過一段時間,現在NUS做研究實習生。自從認識他,我就想能發一篇同時有兩個Zhiyuan Liu的論文,這次終於實現了。

Jiahua Liu, Yankai Lin, Zhiyuan Liu, Maosong Sun. XQA: A Cross-lingual Open-domain Question Answering Dataset.

這是孫茂松老師博士生劉家驊和林衍凱在跨語言OpenQA方面構造的一個數據集,並在其上做了一些方法的效果考察。

Fanchao Qi, Junjie Huang, Chenghao Yang, Zhiyuan Liu, Xiao Chen, Qun Liu, Maosong Sun. Modeling Semantic Compositionality with Sememe Knowledge.

這是北航大三本科生黃俊傑、大四本科生楊承昊合作的工作,這次是首次將HowNet的義原知識用於短語的語義組合定量分析,得到很多有意思的觀察和結論。在深度學習時代義原知識大有可為!

Jifan Yu, Chenyu Wang, Gan Luo, Lei Hou, Juanzi Li, Jie Tang, Zhiyuan Liu. Course Concept Expansion in MOOCs with External Knowledge and Interactive Game.

這是李涓子、唐傑老師的學生於濟凡的工作,主要面向MOOC進行課程概念擴展,未來有可能在清華學堂在線MOOC平臺上用上這些成果。

Ziran Li, Ning Ding, Haitao Zheng, Zhiyuan Liu, Ying Shen. Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge.

這是清華深研院研究生李自然、丁寧(導師鄭海濤老師)的研究工作,面向中文關係抽取任務,提出用Lattice LSTM來融合多粒度信息,並且將HowNet義原知識也考慮進來,顯著提升了原始關係抽取深度學習模型的效果。樂見HowNet義原知識開始在更多語言處理任務上得到深度應用!


ACL 2019的最佳論文已經出爐,共八篇文章獲獎,長文1篇,短文1篇,demo 1篇,傑出論文5篇。

其中華為諾亞方舟首席科學家劉羣以及計算所馮洋(劉羣的學生)等人獲得了最佳長論文獎,該工作解決了seq2seq轉換中長期存在的暴露偏差問題。

南京理工大學夏睿團隊也獲得了傑出論文。這個論文有意思的地方在於,提出了一項新的有趣的任務:在文本中通過聯合學習來識別情感及原因。

其他華人獲獎的論文包括港科大馮燕團隊的傑出論文,以及俄亥俄州立大學蔣南江的最佳短論文。

具體內容可參見這篇文章:

AI科技評論:剛剛,ACL2019最佳論文獎出爐,劉羣團隊獲最佳長論文獎?

zhuanlan.zhihu.com圖標

瀉藥~

來傳播一下自家的研究成果。

在本屆ACL的錄取論文中,共有25篇來自微軟亞洲研究院和微軟(亞洲)互聯網工程院。內容涵蓋文本摘要、機器閱讀理解、推薦系統、視頻理解、語義解析、機器翻譯、人機對話等多個熱門領域。本文將按類別介紹具有代表性的8篇論文。歡迎大家下載。

預警!圖多乾貨多!

一、抽取式文本摘要

近兩年,自然語言中的預訓練模型如ELMo、GPT和BERT給自然語言處理帶來了巨大的進步,成為研究熱點中的熱點。這些模型首先需要在大量未標註的文本上訓練一個從左到右(left-to-right language model)或從右到左(right-to-left language)或完形填空式(masked language model)的語言模型。以上過程稱為預訓練(pre-training)。預訓練完的模型便具有了表示一個句子或一個詞序列的能力,再針對不同的下游任務進行微調(finetuning),然後可以在下游任務上取得不錯的效果。

但是上述預訓練模型無論是對句子還是文章進行建模時都把它們看成一個詞的序列。而文章是有層級結構的,即文章是句子的序列,句子是詞的序列。微軟亞洲研究院針對文章的層級結構提出文章表示模型HIBERT(HIerachical Bidirectional Encoder Representations from Transformers),HIBERT模型在抽取式文本摘要任務中取得了很好的效果。

代表論文:HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization

論文鏈接:

HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization?

arxiv.org

如圖1所示,HIBERT的編碼器是一個Hierachical Transformer(句子級別的Transformer和文章級別的Transformer)。句子級別的Transformer通過句內信息學習句子表示,而文章級別的Transformer通過句間信息學習帶上下句背景的句子表示。

圖1:HIBERT模型架構

與BERT類似,HIBERT需要先進行無監督的預訓練(pre-training),然後在下游任務上進行有監督的微調(finetuning)。HIBERT預訓練的任務是掩蓋(MASK)文章中的幾句話,然後再預測這幾句話。如圖1所示,文章的第三句話被MASK掉了,我們用一個Decoder Transformer去預測這句話。

在大量未標註數據上進行預訓練後,我們把HIBERT用在抽取式摘要中。抽取式摘要的任務定義如下:給定一篇文章,摘要模型判斷文章中的每個句子是否為這篇文章的摘要。得分最高的K個句子將被選為文章摘要(K一般在dev數據上調試得到)。基於HIBERT的摘要模型架構如圖2所示,編碼器仍然是一個Hierachical Transformer,一篇文章的句子被HIBERT讀入後,對通過HIBERT學習到的帶上下句背景的句子表示進行分類。

圖2:基於HIBERT的摘要模型架構

HIBERT在兩個著名的摘要數據集CNN/DailyMail和New York Times上結果都表現很好,超越了BERT及其它在2018年和2019年初提出的所有摘要模型。

表1:摘要數據集CNN/DailyMail上不同模型的實驗結果
表2:摘要數據集New York Times上不同模型的實驗結果

二、機器閱讀理解

機器閱讀理解在近兩年取得了巨大的進步,當答案為文檔中的一個連續片段時,系統已經可以十分準確地從文檔中抽取答案。有許多工作從模型結構的角度來提高閱讀理解系統的表現,藉助大規模標註數據訓練複雜模型,並不斷刷新評測結果;同時也有工作通過增強訓練數據來幫助系統取得更好的結果,如藉助其它數據集聯合訓練、通過回譯(back translation)豐富原文等。

然而在現實生活中,往往無法保證給定的文檔一定包含某個問題的答案,這時閱讀理解系統應拒絕回答,而不是強行輸出文檔中的一個片段。針對這一問題,同樣有很多工作從模型角度切入,以提高系統判斷問題是否可以被回答的能力,做法可大致分為在抽取答案的同時預測問題可答性和先抽取答案再驗證兩類。而微軟亞洲研究院的研究員從數據增廣的角度來嘗試解決這一問題。

代表論文:Learning to Ask Unanswerable Questions for Machine Reading Comprehension

論文鏈接:

Learning to Ask Unanswerable Questions for Machine Reading Comprehension?

arxiv.org

該論文提出根據可答問題、原文和答案來自動生成相關的不可答問題,進而作為一種數據增強的方法來提升閱讀理解系統的表現。我們利用現有閱讀理解數據集SQuAD 2.0來構造不可答問題生成模型的訓練數據,引入Pair2Seq作為問題生成模型來更好地利用輸入的可答問題和原文。

圖3:SQuAD 2.0數據集中的問題樣例

SQuAD 2.0數據集包含5萬多個不可答問題,並且為不可答問題標註了一個看起來正確的答案(plausible answer)。圖3展示了SQuAD 2.0中一個文檔和相應的可答與不可答問題,可以看到這兩個問題的(plausible)答案對應到同一個片段,用詞十分相似且答案具有的類型(organization),通過對可答問題進行修改就能得到相應的不可答問題。根據這一觀察,我們以被標註的文本片段為支點來構造訓練問題生成模型所需的數據。

圖4:Pair2Seq模型與Seq2Seq模型的流程圖對比

在閱讀理解系統中,問題與文檔的交互是最為關鍵的組成部分,受此啟發,該論文提出Pair2Seq模型,在編碼(encoding)階段通過注意力機制(attention mechanism)得到問題和文檔的加強表示,共同用於解碼(decoding)。如表3所示,Pair2Seq模型在多個評價指標上超過Seq2Seq模型。

表3:Pair2Seq模型與Seq2Seq模型在多個評價指標上的對比結果

如表4所示,生成的問題作為增強數據能夠提高機器閱讀理解模型的表現。

表4:SQuAD 2.0數據集上的實驗結果

三、個性化推薦系統

個性化新聞推薦是解決新聞信息過載和實現個性化新聞信息獲取的重要技術,能夠有效提升用戶的新聞閱讀體驗,被廣泛應用於各種在線新聞網站和新聞APP中。學習準確的用戶興趣的表示是實現個性化新聞推薦的核心步驟。對於很多用戶來說,他們不僅存在長期的新聞閱讀偏好,也往往由於受社會和個人環境的影響,擁有一些短期和動態的興趣。然而已有的新聞推薦方法通常只構建單一的用戶表示,很難同時準確建模這兩種興趣。

代表論文:Neural News Recommendation with Long- and Short-term User Representations

論文鏈接:

https://nvagus.github.io/paper/ACL19NewsRec.pdf?

nvagus.github.io

該論文提出了Long- and Short-term User Representations(LSTUR)模型,用於在新聞推薦任務中同時學慣用戶長期和短期的興趣表示。模型的整體結構可分為四個模塊,分別是新聞編碼器、用戶長期興趣和短期興趣模型、以及候選新聞的個性化分數預測模型。

新聞編碼器模塊從新聞標題、新聞的類別和子類別構建新聞表示向量。新聞標題的原始文本先映射為詞向量,然後通過CNN獲得局部表示,最後通過Attention網路選取重要的語義信息構成新聞標題表示。新聞的類別和子類別分別映射為稠密向量,與新聞標題表示拼接作為最終的新聞表示。

圖5:LSTUR模型架構

用戶短期興趣表示模塊用於從用戶近期點擊過的新聞歷史中學慣用戶的表示向量,然後將這些點擊的新聞的表示向量按時間順序依次通過GRU模型得到用戶短期興趣表示。用戶長期興趣表示模塊則是從用戶的ID中學慣用戶的表示向量。對於如何同時學慣用戶長期和短期的興趣表示,該論文提出了兩種結合方式:(1)將用戶長期興趣表示作為用戶短期用戶表示計算中GRU的初始狀態(LSTUR-ini);(2)將用戶長短期興趣表示拼接作為最終用戶表示(LSTUR-con)。候選新聞的個性化分數通過用戶表示向量和新聞表示向量的內積計算,作為眾多候選新聞針對特定用戶個性化排序的依據。

該論文提出的方法存在的一個問題是無法學習新到來用戶的長期興趣的表示向量。在預測的過程中簡單地將新用戶的長期興趣表示置為零向量可能無法取得最優的效果。為瞭解決這個問題,該論文提出在模型訓練的過程中模擬新用戶存在的情況,具體做法是隨機掩蓋(mask)部分用戶的長期興趣表示向量,即用戶的長期興趣表示向量會以概率p被置為全零向量。實驗表明,無論是LSTUR-ini還是LSTUR-con,在訓練過程中加入長期興趣隨機掩蓋(random mask)的做法均能明顯提升模型效果。

該論文在MSN新聞推薦數據集上進行了實驗,並和眾多基線方法進行了對比,結果如表5所示。

表5:不同模型在MSN新聞推薦數據集上的實驗結果

實驗結果表明,同時學習長期和短期用戶興趣表示能夠有效地提升新聞個性化推薦的效果,因此該論文提出的兩種方法均明顯優於基線方法。

四、視頻理解

近年來,隨著運算能力的提升和數據集的湧現,有關視頻理解的研究逐漸成為熱點。視頻數據往往蘊含著豐富的信息。其中,既包含較底層的特徵信息,例如視頻幀的編碼表示;也包含一些高級的語義信息,例如視頻中出現的實體、實體所執行的動作和實體之間的交互等;甚至還包含很多時序結構性語義信息,例如動作序列、步驟和段落結構等。而從數據的角度來看,視頻往往同時包含了圖像序列、音頻(波形)和語音(文本)等模態。視頻理解的目的就是通過各種精心設計的任務,利用多種不同模態的數據,來讓計算機學會「瀏覽」視頻,併產生「理解」行為。

代表論文:Dense Procedure Captioning in Narrated Instructional Videos

論文鏈接:

https://www.msra.cn/wp-content/uploads/2019/06/DenseProcedureCaptioninginNarratedInstructionalVideos.pdf?

www.msra.cn

視頻可以看作是在時間維度上展開的一系列圖像幀,但相較於「一目瞭然」的圖片,視頻需要人們花費更多的精力去觀看並進行理解。如果機器能自動地提取視頻內容的摘要,並對視頻中的每一個結構化的片段給出相應的文字描述,這將能夠大量地節省用戶的時間——用戶不再需要完整地瀏覽整個視頻,而只需要瀏覽文字化的摘要即可獲悉其中內容。(場景如圖6所示)

圖6:視頻結構化片段相應文字描述的場景展示

為了滿足這個需求,我們針對 「指導性視頻 (Instructional Video)」,設計了一個名為Procedure Extractor的視頻理解系統:通過輸入視頻和視頻內的敘述性旁白(Narrative Transcript),輸出視頻中每一個步驟(Procedure)的時間片段(起始時間與結束時間),並且為每一個視頻片段生成一段文本描述。

模型結構如圖7所示。我們首先對視頻旁白(Transcript)進行分句,再使用一個經過預訓練的BERT模型提取句子特徵表示,然後通過多層self attention獲得整個transcript的特徵表示,將其與利用ResNet抽取的視頻幀特徵拼接,並形成一個完整的特徵矩陣。為了能處理不同長度Procedure的信息流動,我們仿照Fast-RCNN系列模型的方法,使用了多個不同大小的卷積核和多個不同尺度的Anchor來對整個視頻特徵矩陣進行卷積操作,並通過一個LSTM模型來挑選包含正確Procedure的Anchors。在描述生成階段,我們使用與片段時間對應的視頻、Transcript信息,通過一個Sequence to Sequence模型來生成最終的視頻片段描述。

圖7:Procedure Extractor模型架構

這項工作通過Azure Speech to Text雲服務從視頻中抽取旁白中Transcript。在YouCook II數據集上的Procedure Extraction和Procedure Captioning任務上都取得了最好的成績。

表6:不同模型在YouCook II數據集的Procedure Extraction任務上的實驗結果
表7:不同模型在YouCook II數據集的Procedure Captioning任務上的實驗結果

五、語義解析

語義解析 (semantic parsing) 的目的是把自然語言自動轉化為一種機器可以理解並執行的表達形式。在基於知識庫的搜索場景中,語義解析模型可以將用戶查詢轉換為可以在結構化知識庫 (如Microsoft Satori、Google Knowledge Graph) 上可以執行的SPARQL語句;在企業數據交互場景中,語義解析模型可以將用戶的語言轉換為結構化查詢語句 (Structured Query Language, SQL) ;在虛擬語音助手場景中,語義解析模型可以將用戶的語言轉換為調用不同應用程序的API語句。

代表論文:Coupling Retrieval and Meta-Learning for Context-Dependent Semantic Parsing

論文鏈接:

Coupling Retrieval and Meta-Learning for Context-Dependent Semantic Parsing?

arxiv.org

在該論文中,我們以對話式問答和基於上下文的代碼生成為例介紹了我們在語義解析領域的研究進展。人們在對樣例x做決策的時候,往往不是從頭開始寫,而是先從已有的知識庫中找到相似的樣例(x』, y』),然後進行改寫。傳統的retrieve-and-edit的方法通常只考慮一個(x』, y』)樣例,而一個結構化規範語義表示可能來自於多個相關的樣例中。以此為出發點,本論文提出了一種結合檢索與元學習(meta-learning)的語義解析方法。

圖8:結合檢索與元學習和語義解析方法框架

整體框架如圖8所示,其中包含了檢索和元學習兩部分。在檢索部分,首先採樣一批測試數據D』,然後利用基於上下文的檢索模型R找到相似的樣例S』作為訓練數據,從而構成一個任務。在訓練階段,首先使用訓練數據得到特定任務的模型M_(θ^)(step 1),然後再利用測試數據更新元學習器M_θ(step 2)。在預測階段,先使用相似樣本更新元學習器的參數,然後再進行預測。

圖9:基於上下文的檢索模型框架

圖9是基於上下文的檢索模型,該模型是一個建立在變分自編碼器(VAE)框架下的編碼-解碼(encoder-decoder)模型,將文本和上下文環境編碼成一個潛層變數z,然後利用該變數解碼出邏輯表達式。在檢索的過程中,使用KL散度作為距離度量得到相似的樣本。

該論文在CONCODE和CSQA兩個公開數據集上進行實驗,可以看出結合檢索和元學習取得了最好的成績。

表8:不同模型在CONCODE數據集上的實驗結果
表9:不同模型在CSQA數據集上的實驗結果

同時,這種檢索模型不僅能夠考慮語義信息,如「spouse」 和 「married」,而且能夠考慮上下文信息,如HashMap和Map,因此能夠很好提升檢索的質量。

圖10:檢索模型在CONCODE和CSQA數據集上的結果展示

代表論文:Towards Complex Text-to-SQL in Cross-Domain Database with Intermediate Representation

論文鏈接:

Towards Complex Text-to-SQL in Cross-Domain Database with Intermediate Representation?

arxiv.org

近年來,通過自然語言直接生成SQL查詢語句引起了越來越多的關注。目前比較先進的模型在已有的NL-to-SQL的數據集上(例如WikiSQL, ATIS, GEO等)都取得超過80%的準確率。然而,在最近發布的Spider數據集上,這些已有的模型並沒有取得令人滿意的效果。究其原因,Spider數據集有兩個特點:首先,Spider數據集裏的SQL查詢語句比目前已有的Text-to-SQL數據集更加複雜,例如SQL語句中包含GROUPBY、HAVING、JOIN、Nested Query等部分。通過自然語言生成複雜的SQL查詢語句尤其困難,本質原因是面向語義的自然語言和麪向執行的SQL查詢語句之間不匹配,SQL越複雜,不匹配的越明顯;其次,Spider數據集是跨領域的(cross-domain),即訓練和測試是在完全不同的database上做的。在跨領域的設置下,自然語言中出現了大量的out-of-domain(OOD)的單詞,給預測列名造成了困難。

針對這兩個挑戰,我們提出了IRNet模型。IRNet使用了一個schema linking模塊,根據資料庫的schema信息,識別自然語言中的提到的表名和列名,建立自然語言和資料庫之間的連接。接下來,為瞭解決面向語義的自然語言和麪向執行的SQL查詢語句之間不匹配的問題,與以往的Text-to-SQL方法直接生成SQL查詢語句不同的是,IRNet首先生成一種中間的語義表示形式SemQL,然後再將中間表示轉換成SQL查詢語句。

圖11:IRNet模型框架

實驗結果如表10所示,在Spider數據集上,IRNet實現了46.7%的準確率,比已有的最好方法提升了19.5%的準確率。同時,IRNet+Bert實現了54.7%的準確率。

表10:不同模型在Spider數據集上的實驗結果

到目前為止,微軟亞洲研究院的IRNet模型在Spider Challenge比賽上取得了第一名的成績。

圖12:Spider Challenge比賽結果

六、無監督機器翻譯

無監督機器翻譯僅僅利用單語的數據而不是雙語並行數據進行訓練,對於低資源的語言翻譯非常重要。當前,無監督機器翻譯在相似語言對上(例如英語-德語、葡萄牙語-加利西亞語)取得了非常好的效果。然而在距離較遠的語言對上(例如丹麥語-加利西亞語),由於無監督的語義對齊比較困難,通常表現較差。在實驗中,我們發現在距離較近的葡萄牙語-加利西亞語上能取得23.43的BLEU分,而在距離較遠的丹麥語-加利西亞語上只有6.56分。微軟亞洲研究院的研究人員嘗試解決遠距離語言的無監督翻譯問題。

代表論文:Unsupervised Pivot Translation for Distant Languages

論文鏈接:

Unsupervised Pivot Translation for Distant Languages?

arxiv.org

我們考慮到兩個距離較遠的語言能通過多個中轉語言鏈接起來,其中兩個相鄰的中轉語言間的翻譯易於兩個原始語言的翻譯(距離更近或者可用單語數據更多)。如圖13所示,距離較遠的丹麥語-加利西亞語(Da-Gl,圖中紅色路徑)能拆分成丹麥語-英語(Da-En)、英語-西班牙語(En-Es)、西班牙語-加利西亞語(Es-Gl)三跳無監督翻譯路徑(圖中藍色路徑),拆分後的翻譯性能為12.14分,相比直接的丹麥語-加利西亞語翻譯(6.56分)有大幅提高。因此,我們在論文中針對遠距離語言對提出了無監督中轉翻譯(Unsupervised Pivot Translation)方法。

圖13:無監督中轉翻譯在兩個語言之間有多條可選路徑

無監督中轉翻譯面臨的一個挑戰是兩個語言之間可選路徑很多(如圖13藍色、黑色路徑所示,實際場景中可選路徑更多),而不同路徑的翻譯精度不同,如何選擇精度最高的路徑對於保證無監督中轉翻譯的效果非常重要。由於可選路徑隨著跳數以及中轉語言數呈指數增長趨勢,遍歷計算每條路徑的精度代價巨大。對此,我們提出了Learning to Route(LTR)的路徑選擇演算法,該演算法以單跳的BLEU分及語言ID作為特徵,利用多層LSTM模型預測多跳翻譯的精度,並據此來選擇最好的中轉路徑。關於LTR演算法的詳細內容可參考論文。

我們在20個語言一共294個語言對上進行了實驗,來驗證我們的無監督中轉翻譯以及LTR路徑選擇演算法的性能。表11列出了部分語言對的實驗結果,其中DT代表直接從源語言到目標語言的無監督翻譯,LTR代表我們提出的中轉演算法,GT(Ground Truth)代表最好的中轉翻譯,也決定了我們方法的上限,GT(?)和LTR(?)分別代表GT和LTR相對於直接翻譯DT的提升,Pivot-1和Pivot-2代表中轉路徑的兩個中轉語言(我們最多考慮三跳路徑)。如果是一個兩跳路徑,那麼Pivot-1和Pivot-2相同;如果是直接翻譯,那麼Pivot-1和Pivot-2為空。

表11:Learning to Route(LTR)路徑選擇演算法在部分語言對上的實驗結果

可以看到,無監督中轉翻譯相比無監督直接翻譯有較大的BLEU分提升,而且我們提出的LTR方法的精度非常接近於最好的中轉翻譯GT,表明了我們提出的無監督中轉翻譯以及LTR路徑選擇演算法的有效性。例如,我們的方法(LTR)在丹麥語-加利西亞語(Da-Gl)、保加利亞語-瑞典語(Bg-Sv)、葡萄牙-白俄羅斯語(Pt-Be)上分別有5.58、5.20、4.10分的提升。

七、人機對話

端到端開放域對話生成是人機對話領域近幾年的一個研究熱點。開放域對話生成中的一個基本問題是如何避免產生平凡回復 (safe response)。一般來講,平凡回復的產生來源於開放域對話中存在的輸入和回復間的 「一對多」關係。相對於已有工作「隱式」地對這些關係進行建模,我們考慮「顯式」地表示輸入和回復間的對應關係,從而使得對話生成的結果變得可解釋。不僅如此,我們還希望生成模型可以允許開發者能夠像「拼樂高玩具」一樣通過控制一些屬性定製對話生成的結果。

代表論文:Neural Response Generation with Meta-Words

論文鏈接:

https://arxiv.org/pdf/1906.06050.pdf?

arxiv.org

在這篇論文中,我們提出用meta-word來表示輸入和回復間的關係。Meta-word代表了一組回復屬性(如圖14中的回復意圖(Act),回復長度(Len)等)。利用meta-word進行對話生成的好處包括:(1)模型具有很好的可解釋性;(2)通過訂製meta-word,開發者可以控制回復生成;(3)情感,話題,人格等都可以定義為meta-word中的一個屬性,因此諸如情感對話生成,個性化對話生成等熱點問題都可通過該論文提出的框架解決;(4)工程師們可以通過增加或調整meta-word不斷提升生成模型的性能。

圖14:基於meta-word的回復生成

利用meta-word進行回復生成需要解決兩個問題 (1)如何確保回復和輸入相關;(2)如何確保回復能夠如實地表達預先定義的meta-word。為瞭解決這兩個問題,我們將meta-word的表達形式化成回復生成中的目標,提出了一個基於目標跟蹤記憶網路的生成模型(如圖15)。該網路由一個狀態記憶板和一個狀態控制器組成,前者記錄生成過程中meta-word的表達情況,後者則根據當前已經生成的部分動態地更新記憶板中的存儲並將目前的表達情況和最終表達目的的差距傳達給解碼器。在模型學習過程中,我們在傳統的似然目標之外增加了一個狀態更新損失,以使得目標追蹤能夠更好地利用訓練數據中的監督信號。不僅如此,我們還提出了一個meta-word的預測方案,從而使得整個架構可以在實際中使用。

圖15:目標追蹤記憶網路

我們在Twitter和Reddit兩個數據集上考察了生成回復的相關性、多樣性、「一對多「關係建模的準確性、以及meta-word表達的準確性。不僅如此,我們還對生成結果進行了人工評測。實驗結果如下

表12:相關性、多樣性、「一對多」關係建模準確性評測結果
表13:Meta-word表達準確性評測結果
表14:人工評測結果

更有意思的是,當我們逐漸地增加meta-word中的屬性變數,我們發現驗證集上的PPL會逐漸降低,這也印證了「通過調整meta-word可以不斷提升模型性能」的論斷。

表15:不同屬性帶來的驗證集PPL變化

本賬號為微軟亞洲研究院的官方知乎賬號。本賬號立足於計算機領域,特別是人工智慧相關的前沿研究,旨在為人工智慧的相關研究提供範例,從專業的角度促進公眾對人工智慧的理解,並為研究人員提供討論和參與的開放平臺,從而共建計算機領域的未來。

微軟亞洲研究院的每一位專家都是我們的智囊團,你在這個賬號可以閱讀到來自計算機科學領域各個不同方向的專家們的見解。請大家不要吝惜手裡的「邀請」,讓我們在分享中共同進步。

也歡迎大家關注我們的微博和微信 (ID:MSRAsia) 賬號,瞭解更多我們的研究。

發佈於 2019-07-17繼續瀏覽內容知乎發現更大的世界打開Chrome繼續墨雨蕭軒墨雨蕭軒?

計算機碩士在讀

專業已有 1 人贈與了專業徽章

我們實驗室的大佬@Phoenix Cat 在ACL發了一篇高分論文——Cognitive Graph。在ACL19出結果前,該模型在HotpotQA (Fullwiki Setting) 上碾壓當時的第二名好多個點。

論文目前已經掛在arXiv上了。

Cognitive Graph for Multi-Hop Reading Comprehension at Scale?

arxiv.org

Github link:

THUDM/CogQA?

github.com圖標

我們實驗室的大佬@Phoenix Cat 在ACL發了一篇高分論文——Cognitive Graph。在ACL19出結果前,該模型在HotpotQA (Fullwiki Setting) 上碾壓當時的第二名好多個點。

論文目前已經掛在arXiv上了。

Cognitive Graph for Multi-Hop Reading Comprehension at Scale?

arxiv.org

Github link:

THUDM/CogQA?

github.com圖標

以下ACL 2019論文與大家分享:

1,《Improving Multi-turn Dialogue Modelling with Utterance ReWriter》,https://zhuanlan.zhihu.com/p/78072901,使用表達改寫提升多輪對話系統效果。這篇論文構建了一個高質量的中文對話改寫數據集用於指代消解和信息不全,同時提出了一種表達改寫模型。

2,《Scoring Sentence Singletons and Pairs for Abstractive Summarization 》,https://zhuanlan.zhihu.com/p/76777221,基於單句和雙句打分的生成式摘要。本文提出了一種對單個句子和句子進行聯合打分的方法,用來篩選代表性的句子或句子對。同時探索了多種句子表示方式,並報告了詳細的實驗結果。

3,《Matching the Blanks: Distributional Similarity for Relation Learning》,https://zhuanlan.zhihu.com/p/76775288,Matching the Blanks 預訓練關係表示模型。本論文關注於通用目的關係抽取,使用Bert進行關係表示,並且提出了Matching the blanks 預訓練任務。論文模型在多個數據集上達到了SOTA的結果,並且在小樣本的情況下提升明顯。

4,《Few-Shot Representation Learning for Out-Of-Vocabulary Words》,https://zhuanlan.zhihu.com/p/74012761,Few-shot Learning學習詞表外的詞表示。本文將學習詞表外詞表示看做few-shot回歸問題,提出了一種新的基於層次關注的架構作為神經回歸函數,利用該神經回歸函數,從K個觀察值對單詞的上下文信息進行編碼和聚合。此外,還可以利用模型不可知元學習(MAML)來快速有效地使學習模型適應新的語料庫。

5,《Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs》,https://zhuanlan.zhihu.com/p/72945864,為知識圖譜添加註意力機制。注意力機制(Attention)是近些年來提出的一種改進神經網路的方法,在圖像識別、自然語言處理和圖網路表示等領域都取得了很好的效果,可以說注意力機制的加入極大地豐富了神經網路的表示能力。

6,《Cognitive Graph for Multi-Hop Reading Comprehension at Scale》,https://zhuanlan.zhihu.com/p/72943666,揭祕認知圖譜!從多跳閱讀理解問答開始。本篇論文介紹了基於認知中「雙過程理論(dual process theory)」的CogQA模型,文章提出一種新穎的迭代框架:演算法模擬認知學中人類的兩個認知系統,並維護一張認知圖譜(Cognitive Graph),系統一在文本中抽取與問題相關的實體名稱並擴展節點和匯總語義向量,系統二利用圖神經網路在認知圖譜上進行推理計算。文章在HotpotQA全維基百科數據集上持續佔據第一近三個月之久,直到文章在被ACL高分接收後公開。


推薦閱讀:
相關文章