基於知識圖譜的智能問答系統

1 任務背景：

本次實驗擬設計一個智能問答系統，並應當保證該智能問答系統可以回答5個及其以上的問題。由於本實驗室目前正在使用知識圖譜搭建問答系統，故而這裡將使用知識圖譜的方式構建該智能問答系統。這裡將構建一個關於歌曲信息的問答系統。以「晴天」為例，本系統應當能夠回答晴天的歌詞是什麼，晴天是哪首專輯的歌曲，該專輯是哪一年發行的，該專輯對應的歌手是誰，該歌手的的基本信息是什麼。

本系統的環境配置過程以及全部代碼均已上傳Github。下面的文章主要介紹的是系統總體結構以及部分代碼解析。

zhangtao-seu/Jay_KG?

github.com

2 系統總體工作流程圖

在搭建系統之前，第一步的任務是準備數據。這裡的準備的數據包括周杰倫的姓名，個人簡介，出生日期，以及發行的所有專輯名字，《葉惠美》專輯的名字，簡介以及發行日期，《以父之名》、《晴天》的歌曲名和歌詞。

準備好數據之後，將數據整理成RDF文檔的格式。這裡採用手工的方式在protégé中構建本體以及知識圖譜。本體作為模式層，這裡聲明了三個類，包括歌手類、專輯類和歌曲類；聲明了四種關係，也叫objectProperty,包括include,include_by,release和release_by。其中include和include_by聲明為inverseOf關係，表示專輯和歌曲之間的包含和被包含的關係。Release和release_by聲明為inverseOf關係表示歌手和專輯之間的發行和被發行的關係；聲明了8種數據屬性，也叫DataProperty，分別為singer_name,singer_birthday,singer_introduction,album_name,album_introduction,album_release_date,song_name和song_content。將上述準備好的數據以individual和dataProperty的形式寫進知識圖譜。至此，就準備好了我們的RDF/OWL文件了。

接著，為了使用RDF查詢語言SPARQL做後續的查詢操作，這裡使用Apache Jena的TDB和Fuseki組件。TDB是Jena用於存儲RDF的組件，是屬於存儲層面的技術。Fuseki是Jena提供的SPARQL伺服器，也就是SPARQL endpoint。這一步中，首先利用Jena將RDF文件轉換為tdb數據。接著對fuseki進行配置並打開SPARQL伺服器，就可以通過查詢語句完成對知識圖譜的查詢。

最後，將自然語言問題轉換成SPARQL查詢語句。首先使用結巴分詞將自然語言問題進行分詞以及詞性標註。這裡將專輯名字和歌曲名字作為外部詞典以保證正確的分詞和詞性標註。以「葉惠美」為例，結巴分詞將「葉惠美」標註為nr，即人名，這裡「葉惠美」作為專輯名字應該標註為nz，即專有名詞。對於不同類型的問題，我們將問題匹配給不同的查詢語句生成函數從而得到正確的查詢語句。將查詢語句作為請求參數和Fuseki伺服器通信就能得到相應的問題結果。上述工作流程圖如圖2-1所示。