SGM：用序列生成的方法來處理多標籤文本分類問題

COLING 2018的一篇多標籤文本分類的文章，思路比較新穎，用序列生成的方法來做的，而且效果非常好。

SGM: Sequence Generation Model for Multi-label Classification?

arxiv.org

abstract

多標籤文本分類是NLP中一項非常重要且有挑戰性的任務。由於多個label之間往往相互依賴，所以多標籤分類比單標籤分類更複雜。這篇文章將多標籤文本分類看成序列生成問題，然後用seq2seq的架構來解決。實驗證明瞭該方法的有效性，該方法不僅能捕捉label之間的相關性，而且在預測不同label時能自動選擇最有信息量的詞。

introduction

multi-label classification（MLC）是NLP中一項重要任務，現實中也有許多應用場景，比如給文本歸類打標籤、信息檢索等等。

一般的做法：

binary relevance，Boutell 等人2004提出，最早的做法，將MLC轉換為單標籤分類問題，忽略了label之間相關性；

classifier chain，Read 等人2011提出，將MLC問題轉換為一連串二分類問題來建模label之間相關性，然而，複雜度太高；

還有一些其他的方法，比如ML-DT (Clare and King, 2001), Rank-SVM (Elisseeff and Weston, 2002), 以及ML-KNN (Zhang and Zhou, 2007)，這些方法要麼就是隻考慮了label之間一階或二階相關性，要麼就是計算複雜度太高。

近些年來，神經網路在NLP領域取得了巨大成功，MLC方面也有一些重要進展。受機器翻譯、自動摘要等領域Seq2Seq模型的啟發，本文提出了一種序列生成模型，使用了一種創新性的解碼器，來解決MLC問題，模型就叫SGM，SGM包括編碼器和帶注意力機制的解碼器。解碼器一步步生成multi-label，每一步生成label的時候都會基於上一步解碼的結果，因此可以建模label之間的相關性。另外，注意力機制在解碼不同label的時候可以聚焦文本不同部分。本文的主要貢獻如下：

將多標籤分類看成序列生成問題來建模標籤之間相關性；
提出了一種新的解碼器用於序列生成模型，能捕捉label之間相關性，而且預測不同label的時候能聚焦輸入不同部分
實驗結果比基線好a large margin

proposed method

先定義問題， $mathcal{L} = {l1, l2, ..., l_L}$ 是分類目標空間，給定一個包含m個詞的文本序列，我們的目標是確定包含n個label的。傳統的分類任務一般是針對一個樣本給出一個label，在MLC問題中，每個樣本可以有多個label。從序列生成的角度來看，MLC任務可以建模為找 $m {y^*}$ 使得條件概率最大：