SGM：用序列生成的方法来处理多标签文本分类问题

COLING 2018的一篇多标签文本分类的文章，思路比较新颖，用序列生成的方法来做的，而且效果非常好。

SGM: Sequence Generation Model for Multi-label Classification?

arxiv.org

abstract

多标签文本分类是NLP中一项非常重要且有挑战性的任务。由于多个label之间往往相互依赖，所以多标签分类比单标签分类更复杂。这篇文章将多标签文本分类看成序列生成问题，然后用seq2seq的架构来解决。实验证明了该方法的有效性，该方法不仅能捕捉label之间的相关性，而且在预测不同label时能自动选择最有信息量的词。

introduction

multi-label classification（MLC）是NLP中一项重要任务，现实中也有许多应用场景，比如给文本归类打标签、信息检索等等。

一般的做法：

binary relevance，Boutell 等人2004提出，最早的做法，将MLC转换为单标签分类问题，忽略了label之间相关性；

classifier chain，Read 等人2011提出，将MLC问题转换为一连串二分类问题来建模label之间相关性，然而，复杂度太高；

还有一些其他的方法，比如ML-DT (Clare and King, 2001), Rank-SVM (Elisseeff and Weston, 2002), 以及ML-KNN (Zhang and Zhou, 2007)，这些方法要么就是只考虑了label之间一阶或二阶相关性，要么就是计算复杂度太高。

近些年来，神经网路在NLP领域取得了巨大成功，MLC方面也有一些重要进展。受机器翻译、自动摘要等领域Seq2Seq模型的启发，本文提出了一种序列生成模型，使用了一种创新性的解码器，来解决MLC问题，模型就叫SGM，SGM包括编码器和带注意力机制的解码器。解码器一步步生成multi-label，每一步生成label的时候都会基于上一步解码的结果，因此可以建模label之间的相关性。另外，注意力机制在解码不同label的时候可以聚焦文本不同部分。本文的主要贡献如下：

将多标签分类看成序列生成问题来建模标签之间相关性；
提出了一种新的解码器用于序列生成模型，能捕捉label之间相关性，而且预测不同label的时候能聚焦输入不同部分
实验结果比基线好a large margin

proposed method

先定义问题， $mathcal{L} = {l1, l2, ..., l_L}$ 是分类目标空间，给定一个包含m个词的文本序列，我们的目标是确定包含n个label的。传统的分类任务一般是针对一个样本给出一个label，在MLC问题中，每个样本可以有多个label。从序列生成的角度来看，MLC任务可以建模为找 $m {y^*}$ 使得条件概率最大：