文本摘要的应用

文本摘要的应用 文献自动标引,新闻信息服务,信息检索等。

  • 文献自动标引

它是图书情报领域的主要研究内容,一般标引包括关键词标引,主题词标引,摘要标引。以前都是人来做,现在如果由机器自动来做,会节省大量的人力。

  • 新闻的信息服务

当新闻服务提供商提供新闻信息的时候,不管是提供单一新闻还是提供聚合新闻,用户有时候不想看全文,或者看很多相关新闻,还希望看到一篇摘要,所以一些网站上会提供新闻的摘要显示在新闻网站上。有一款应用叫做Summly,原名Trimit,是一款在iOS上运行的新闻阅读类应用,是英国天才少年尼克德阿洛伊西奥(Nick DAloisio)在15岁时创建,该应用可以通过全篇幅语义分析演算法,将整篇新闻精简成一个有明确标题并配有几句概述的新闻摘要,用户只要花上不到一分钟时间就可以了解新闻中最关键的信息,该应用在2018年被雅虎以3000万美金收购。

  • 信息检索

信息检索(Information Retrieval)是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。输入相关的关键词会得到相关的网页,

信息检索中的典型应用搜索,当你打开搜索引擎,输入搜索关键词,返回搜索的结果,网页会显示多条符合关键词条件的信息结果,每条结果都会显示结果信息片段,这个信息结果片段会包含搜索关键词,同时是网页内容中最重要的部分,对原文的一种摘要。这是一种特殊的摘要,内容要和关键词相关。很多年前有专门的人在研究这个领域,由于技术的成熟,现在研究的人比较少了。

文本摘要技术

在图书情报领域,IBM计算机科学家 H.P.Luhn于1958年发表《The automatic creation of literature abstracts》,一篇关于自动构建文献摘要论文。这篇论文提出一篇文章中最重要的句子就是那些带有最多关键词的句子,而关键词则是那些出现次数最多的词。他的摘要就是把最重要的句子组合在一起。从这篇论文开始到现在,人们在自动文本摘要已经研究了60多年的历史,取得了一定进展,但是仍不能让人满意。

当前实现自动文本摘要还有很大的困难:

第一:写摘要是一项非常智能的工作,这样智能的任务又很自由 假设有一个任务,要10个人甚至更多的人根据同样一篇长文档写摘要,很可能每个人写的都不一样,但是每个人写的摘要可能都还可以。这种没有统一标准,相对自由发挥的工作,机器其实很难做。这个任务本质上对机器来说是搜索问题。当你给的越多信息,组合就会越多,搜索空间就会越大,结果越不可控,相反信息越少,搜索空间越小,机器越容易做。

自然语言处理中的机器翻译的工作相对于于自动文本摘要会容易一些,机器翻译的任务是,给出一个源语言的句子,经过机器翻译后,得到目标语言的句子。这个任务有有一个很强的约束,要求前后语言的语义报保持一致,甚至每个词都能对上。这种有强烈约束关系的任务会相对容易做一些。

第二:机器写摘要和专家写摘要不一样

人在写摘要前,在脑中已经对文章内容要表达的内容和意思有了很好的理解和体会,然后动笔撰写形成摘要,摘要写成之后就可以扩展成文章,有摘要再有文章。机器写摘要反过来,要先要文章,再去生成摘要。这样会对机器自动生成摘要有挑战。

自动摘要代表性系统

  • 密歇根大学的NewsInEssence

是一个简单的系统,主要是采用语句抽取的方式实现,NewsInEssence是应用于新闻领域域的摘要系统,它提供新闻文章的主题群集(Topic Clustering),即时搜寻,文章摘要及使用者互动(User Interaction)等功能。

  • 哥伦比亚大学的NewsBlaster

美国哥伦比亚大学开发的多文档文摘系统Newsblaster 它利用文本聚类 作为预处理过程,将每天发生的重要新闻进 行文本聚类 息融合和文本生成等处理之后就生成了一篇言简意赅的摘要。这个工作比稍微复杂,可以对句子进行调整,可以把任意句子断开后重新组合。它的结果会有语句不通顺,丢失标点符号等问题。

摘要长度

自动文本摘要的长度在实际应用场景中比较重要的问题,他会影响到用户的阅读体验,以及系统是否能在多少长度的文字内有效表达文章内容。,

《Introduction to the Special Issue on Summarization》论文作者Radev认为摘要是「一段从一份或多份文本中提取出来的文字,它包含了原文本中的重要信息,其长度不超过或远少于原文本的一半」。

生成摘要的长度可以根据需要由用户指定,可以按照摘要和原文的比例,如10%或者20%,也可以根据摘要的词数或者位元组数,100个words,250个汉字等等,可以根据用户的定义,还可以根据句子数目,是三句话还是五句话。

在实践中也有人在研究自动计算合适的摘要长度,这其实是没有一个很好的答案的,因为自动文本摘要的长度是跟用户的需求有关系,需要长短都可以,如果需要机器预测摘要长度,其实很困难。实际应用中自动摘要生成模型,生成的摘要有长有短,在模型运行前会设置其他阈值参数,本质上其实摘要长度参数转为设置其他阈值参数,长度变成了其他参数在控制。我们知道一个意思可以用多种表达方式,表达的句子有很多种,虽然他们表达的都是一个意思,所以自动生成摘要的内容,可能也会有多种结果,结果可长可短,所以预测生成摘要的长度很难。

摘要任务多样化

对于传统新闻摘要任务

  • 单文档摘要:对单篇文档进行摘要
  • 多文档摘要:对文档集进行摘要
  • 查询相关的多文档摘要:用户输入查询描述,如词或者句子,描述用户关心的内容,然后系统对目标文档生成一个摘要,生成的摘要要跟查询描述相关。

请看前文:

飘哥:自然语言处理系列之文本自动摘要技术(一)信息摘要概述?

zhuanlan.zhihu.com图标

请看自然语言处理其他系列文章:

飘哥:自然语言系列学习之表示学习与知识获取(一)分散式表示?

zhuanlan.zhihu.com
图标
飘哥:自然语言系列学习之表示学习与知识获取(二)word2vec?

zhuanlan.zhihu.com
图标
飘哥:自然语言系列学习之表示学习与知识获取(三)知识图谱?

zhuanlan.zhihu.com
图标
飘哥:自然语言系列学习之表示学习与知识获取(四)TransE?

zhuanlan.zhihu.com
图标
飘哥:自然语言系列学习之表示学习与知识获取(五)融合文本和知识,利用cnn方法进行关系抽取?

zhuanlan.zhihu.com
图标
飘哥:自然语言系列学习之表示学习与知识获取(六)融合实体描述的知识表示和融合实体所在句子的知识表示?

zhuanlan.zhihu.com
图标
飘哥:自然语言系列学习之表示学习与知识获取(七)利用关系路径进行关系抽取?

zhuanlan.zhihu.com
图标
飘哥:自然语言系列学习之表示学习与知识获取(八)利用远程监督多实例的关系抽取?

zhuanlan.zhihu.com
图标

推荐阅读:
相关文章