基于知识图谱的智能问答系统

1 任务背景：

本次实验拟设计一个智能问答系统，并应当保证该智能问答系统可以回答5个及其以上的问题。由于本实验室目前正在使用知识图谱搭建问答系统，故而这里将使用知识图谱的方式构建该智能问答系统。这里将构建一个关于歌曲信息的问答系统。以「晴天」为例，本系统应当能够回答晴天的歌词是什么，晴天是哪首专辑的歌曲，该专辑是哪一年发行的，该专辑对应的歌手是谁，该歌手的的基本信息是什么。

本系统的环境配置过程以及全部代码均已上传Github。下面的文章主要介绍的是系统总体结构以及部分代码解析。

zhangtao-seu/Jay_KG?

github.com

2 系统总体工作流程图

在搭建系统之前，第一步的任务是准备数据。这里的准备的数据包括周杰伦的姓名，个人简介，出生日期，以及发行的所有专辑名字，《叶惠美》专辑的名字，简介以及发行日期，《以父之名》、《晴天》的歌曲名和歌词。

准备好数据之后，将数据整理成RDF文档的格式。这里采用手工的方式在protégé中构建本体以及知识图谱。本体作为模式层，这里声明了三个类，包括歌手类、专辑类和歌曲类；声明了四种关系，也叫objectProperty,包括include,include_by,release和release_by。其中include和include_by声明为inverseOf关系，表示专辑和歌曲之间的包含和被包含的关系。Release和release_by声明为inverseOf关系表示歌手和专辑之间的发行和被发行的关系；声明了8种数据属性，也叫DataProperty，分别为singer_name,singer_birthday,singer_introduction,album_name,album_introduction,album_release_date,song_name和song_content。将上述准备好的数据以individual和dataProperty的形式写进知识图谱。至此，就准备好了我们的RDF/OWL文件了。

接著，为了使用RDF查询语言SPARQL做后续的查询操作，这里使用Apache Jena的TDB和Fuseki组件。TDB是Jena用于存储RDF的组件，是属于存储层面的技术。Fuseki是Jena提供的SPARQL伺服器，也就是SPARQL endpoint。这一步中，首先利用Jena将RDF文件转换为tdb数据。接著对fuseki进行配置并打开SPARQL伺服器，就可以通过查询语句完成对知识图谱的查询。

最后，将自然语言问题转换成SPARQL查询语句。首先使用结巴分词将自然语言问题进行分词以及词性标注。这里将专辑名字和歌曲名字作为外部词典以保证正确的分词和词性标注。以「叶惠美」为例，结巴分词将「叶惠美」标注为nr，即人名，这里「叶惠美」作为专辑名字应该标注为nz，即专有名词。对于不同类型的问题，我们将问题匹配给不同的查询语句生成函数从而得到正确的查询语句。将查询语句作为请求参数和Fuseki伺服器通信就能得到相应的问题结果。上述工作流程图如图2-1所示。