基於知識圖譜的智能問答

基於知識圖譜的相關應用大致可以分為搜索、問答、決策、推薦等幾種常見的類別，對於知識圖譜的理解，可以參考之前的文章《三個角度理解知識圖譜》，本文主要就年初規劃的xx智能問答建設方案，介紹一下基於知識圖譜的智能問答，主要分為如下幾個方面：

1、人機對話體系結構

2、問答產品知識結構

3、典型的智能問答產品

4、智能問答的關鍵技術

5、基於知識圖譜的智能問答

1、人機對話體系結構

對於一個基於人機對話的問答系統，主要包括喚醒、識別、理解、反饋四個過程，其中語音喚醒、語音識別、自然語言生成以及語音合成是為用戶的語音體驗服務的，而問答的核心部分是對問題進行理解，並給出相應的答案，主要涉及到語言理解、語義搜索、知識圖譜、情感分析、對話管理以及深度問答等。對於不同的問答系統可以對該體系中的相關部分進行增刪和修改，或看成一個由簡單到完善的發展過程。比如，對於xx問答系統，在初期階段，可能做不到語音問答的形式，那麼，重點就應該落在理解這個部分，以實現初步的文本識別、文本理解和文本回答。

2、問答產品知識結構

問答類產品的主要目標是輸入問題，獲得答案。從問題的類型上可以分為事實類/非事實類，不同類型的處理方式以及技術難度都存在一定差異。在問答形式上可以分為單輪問答、多輪以及聊天式的情感互動，其中單輪問答相對簡單，多輪問答以及情感互動還處於較為初級的發展階段。對於問答系統的實現方式也有多種，對技術需求也不盡相同，要根據具體的需求具體規劃。

3、典型的智能問答產品

蘋果 Siri

Siri 作為 iPhone 4S 推出時的一個亮點特徵，定位是語音個人助理。在推出之時，引起了極大的轟動。雖然這麼多年 Siri 的技術也不斷提升，但他更大的價值是作為聊天機器人之門開啟的開門磚，教育了用戶和市場。回到剛剛的分類，Siri 其實是一個面向特定任務的對話系統。對接了很多本地服務如通訊錄、音樂播放等以及 Web 服務如訂餐、訂票和導航等功能服務。針對這些服務意圖，他通過實體驅動的自然語言理解（Natural LanguageUnderstanding, NLU）來識別問句中涉及到的對象和相關服務，從而實現特定任務下的多輪功能交互。對於解決不了的問題，即服務意圖範疇外的需求，則直接調用搜索引擎返回相關答案來返回。隨後，Siri 的核心人員 Dag Kittlaus 和 Adam Cheyer 於 2016 年推出了 Viv。Viv 被認為是 Siri 的升級版，雖然其在多服務組合，服務編排等方面做了不少亮點工作，但背後的基本原理和定位和 Siri 無差異。

微軟小冰和小娜

微軟針對娛樂化和工具化這兩個截然不同的定位，分別推出了小冰和小娜（Cortana）。小娜，作為嵌入在 Windows 或 Windows Mobile 等微軟操作系統內核的語音個人助理，承載著類似 Siri 或 Viv 的角色，它的目的是提升用戶的工作效率，據說 Cortana 有 1.5 億多用戶，這也使得微軟吸引到 Bengio 這樣的大師作為顧問加入。另一方面，小冰是微軟中國團隊推出的娛樂聊天機器人。她的人設是一位 16 歲的少女。小冰是一個基於搜索的回複檢索系統。通過各種基於深度學習的語義匹配演算法，從海量的問答對語料中返回最佳的回復（Message response 而非 Answer）。小冰也會不定期推出新的技能供大家使用，這些技能往往包含了微軟團隊在圖像理解、語音和自然語言理解方面的各種小應用嘗試。更值得一提的是：微軟針對日本、北美和歐洲等市場陸續推出了具有不同人設的少女如 Rinna、Tay和 Zo，她們往往可以方便的通過微信、微博或 Twitter 等平台進行交流。

IBM Watson 系統

Watson 系統是典型的問答系統，其由 IBM 研究院在 2011 年推出，參加美國知識競賽Jeopardy!（危險邊緣）並挑落人類冠軍而名聲大躁。相比 AlphaGo 或早年 IBM 研製的戰勝卡斯帕羅夫的國際象棋人工智慧程序深藍，Watson 具有更清晰的商業路徑。IBM 斥巨資成立醫療事業部，並與 MD Anderson 等知名醫療機構合作推出面對特定病種（尤其是癌症）的輔助診斷 AI 醫生。與此同時，Ross Intelligence 依託 Watson 認知計算平台推出了法律諮詢系統。回到技術層面，Watson 所用到的知識庫是一個廣義的知識庫，不僅包含各種結構化知識、也包含各種文本語料和語言學知識。整個流程稱為 Deep QA，包含問題分解、假設生成、基於證據的融合排序等關鍵步驟。這裡的 Deep QA 並非指通過深度學習（Deep Learning）技術來提供問答。事實上，Watson 誕生於深度學習大熱之前，這裡的Deep 是指通過深度解析（Deep Parsing）來實現對問句的真正理解。

Facebook Messenger

Facebook Messenger 是一個龐大的 Bot 平台，有非常活躍的開發者群體，平台包含上萬種 Bots。針對 Messenger，第一，它在 2014 年收購了 wit.ai。Wit.ai 類似於谷歌所收購的 api.ai，包含大量的行業相關或場景相關的對話。基於以上高質量海量的對話數據，Facebook 基於深度學習技術推出了一個用於自然語言處理的框架叫 DeepText，用於自然語言表示學習和各種分類等任務。有名的 Fast Text 也包含在內。Facebook 更是基於Deep Text 推出了 CLUE，進一步提高了其易用性。通過以上的數據和技術積累，Facebook就可快速構建一個端到端的 Chatbot 或者問答系統。此外，還有一點需要強調的是，我們可以發現 Facebook Bot 的很多應用場景涉及到購物、遞送禮物、預約參觀和安排旅程等非實時任務，即相對比較複雜，但不要求馬上得到反饋。傳統的做法是，通過指派一名客服來對接，提供進一步的服務。對於這些非實時任務，Facebook 結合機器返回的自動化推薦結果和人工的進一步編輯和審核來保證用戶體驗的同時也降低了純人工對接存在效率低、工作量大等弊端。而這也是近期大家很推崇的人機融合，即賦予人工智慧新的內涵：ArtificialIntelligence+Human Intelligence（人類智能）=Augmented Intelligence（增強智能）。

亞馬遜Alexa

Alexa 作為亞馬遜 Echo 智能音箱背後的 Bot 框架，通過 Skill Set 的形式不斷擴展其功能，其內核是亞馬遜在 2016 年底發布的 Lex，並對接專註圖像識別的 Rekognition 和基於機器學習特別是深度學習技術的快速 TTS（文本到語音轉換）。細心的觀眾會發現 Echo 音箱並沒有提供任何屏幕，僅通過語音進行交互，依託 Amazon 的內容資源和電商購物優勢提供各種智能交互。這種以語音為主的交互方式在家庭、車載等領域得到廣泛關注和應用，由此也提出了 Voice UI 的概念。除了語義理解，這裡需要強調的是：對於 Echo 音箱的交互，是採用遠場（通常 3-5 米）溝通的。對於遠場語音交互，目前遠比近場通訊的難度大，涉及到聲源定位、雜訊（如回聲、背景雜訊、各種聲波反射折射產生的混響）消除、人聲分離、聲音增強甚至是聲紋識別等各種技術挑戰。目前通用的做法是採用麥克風陣列+波束成形等方案，不過有很大的提升空間。不過智能音箱是否能在中國成為一個爆款，這個還是一個未知數，當然這裡涉及到更多使用習慣、價格、內容質量等很多非技術因素的考量，在此就不做具體展開。

Google Assistant

從 Google Now 到 Google Assistant，谷歌一直沒有停止過在語音個人助理方面的嘗試。Allo是基於 Google Assistant 的新一代人工智慧類微信 IM 應用。Allo 具有幾個亮點：首先，其具備一定的自我學習能力。這裡包括兩方面的學習，一方面是學慣用戶的習慣，包括說話風格和交互模式。值得一提的是，Allo 的開發者也參與了 Gmail Smart Reply功能的開發，幫用戶草擬回復的郵件。具體來說，根據郵件接收的對象、主題和關聯的場景等，根據用戶口吻來盡量完成要回復內容。另一方面也包括用戶偏好的學習，這一點在推薦系統中是非常重要的，屬於用戶畫像的學習。Allo 學慣用戶畫像的低維稠密向量化表示（User Embedding）。將 User Embedding 加入 Chatbot 的回復生成解碼模型中，將有助於回復的相對一致性和個性化。

百度度秘

度秘（英文名：Duer）是百度出品的對話式人工智慧秘書，2015年9月在百度世界大會中推出。它是基於DuerOS對話式人工智慧系統，通過語音識別、自然語言處理和機器學習，用戶可以使用語音、文字或圖片，以一對一的形式與度秘進行溝通。目前DuerOS已經具備10大類目100多項能力，可以為不同行業的合作夥伴賦能，廣泛支持手機、電視、音箱、汽車、機器人等多種硬體設備，實現語音控制、日常聊天、直接提供多種O2O服務等的智能化轉變，被國內外同行稱為「具有劃時代意義的對話式人工智慧操作系統」。依託於百度強大的搜索及智能交互技術，度秘可以在對話中清晰的理解用戶的多種需求，進而在廣泛索引真實世界的服務和信息的基礎上，為用戶提供各種優質服務。

搜狗汪仔

搜狗汪仔機器人是搜狗公司打造的問答機器人，搜狗汪仔能聽、會說、會看、會思考，代表了人工智慧領域的前沿技術。搜狗汪仔背後依靠的是基於人工智慧技術的搜狗立知問答系統。立知問答系統是搜狗搜索研發的面向未來的搜索技術，在理解用戶的問題或信息需求後，利用海量網路信息及大規模知識庫，直接給出答案，方便快捷，適用於多種交互方式。其背後蘊含語義分析、問題理解、信息抽取、知識圖譜、信息檢索、深度學習等眾多技術。

阿里小蜜

阿里小蜜是一個無線端多領域私人助理，依託於客戶真實的需求，通過智能+人工的方式提供客戶極致的購物體驗服務，提升客戶留存並創造價值。在跨終端、多場景領域支持多輪交互、多模式交互(文本、語音和圖像)和問題推薦預測、支持多模型識別客戶意圖，基於客戶需求的垂直領域(服務、導購、助手等)均通過智能+人工的方式提供客戶極致的客戶體驗。

科大訊飛靈犀

靈犀是中國移動和科大訊飛聯合推出的智能語音助手，更是國內首款支持粵語的語音助手。靈犀既能語音打電話、發簡訊、查天氣、搜航班，還能查話費、查流量、買彩票、訂彩鈴，還可以陪你語音閑聊講笑話。

其它

其它還包括叮咚智能音箱、小i機器人、海知智能的機器人等。這裡的智能問答助手主要都是通過機器人、虛擬語音助手、音箱等形態來承接，並且具有多模態識別以及服務推薦、引導、聊天等功能，比一般的文本問答都更智能、更方便。

4、智能問答的關鍵技術

智能問答系統的能力需求

根據AI應用能力框架，對於智能問答系統的能力需求，可以分為基礎能力、業務積累以及智能技術三部分。其中基礎能力主要是解決智能問答中的比較基礎的、通用的、基礎的能力如敏感詞過濾、多種問法識別等；業務積累主要是指針對具體的問答領域，在業務上所需積累的經驗，比如大致可以把問題分成幾類，每種類型有哪些，一般採取什麼樣的回答方式等；智能技術主要是面對更高級的應用的技術，如怎樣實現多輪對話、識別多種模態、動態載入等。

智能問答系統的技術範圍

目前國際上的智能問答技術主要採用檢索技術、知識網路、深度學習這三大技術，當然，對於以上三種技術最後都需要應用在自然語言處理領域才能最終實現所需的功能。

不同類別的問答系統

問答系統可分為面向任務、面向知識和面向聊天三類，從關鍵技術上分，還可以把其分成基於搜索技術的問答系統、基於協同的問答系統、基於知識庫的問答系統。

面向任務的問答系統是一種閉域應用，通常使用基於規則的或基於模板的方法，並採用對話狀態跟蹤技術。在幫助服務中所使用的槽位填充方法，就是一種基於模板的方法。

面向知識的問答系統可用於閉域和開放域，通常使用以數據為驅動的信息檢索模型。該類方法基於從問答知識庫中查找與提問問題最匹配的知識。一份最新的研究工作嘗試使用基於神經網路的方法實現問題間的匹配。最常用的一種方法是基於知識圖譜與信息檢索相結合的方法，檢索知識圖譜可給出高準確率的問答，並以信息檢索為補充。

基於聊天的問答系統常用於開放域，使用方法包括信息檢索和生成模型。

5、基於知識圖譜的智能問答

對於知識圖譜的構建需要從兩個角度來進行抽象，一個是實體維度的挖掘，一個是短句維度進行挖掘，通過獲取各種網上積累的大量數據，通過主題模型的方式進行挖掘、標註與清洗，再通過預設定好的關係進行實體之間關係的定義最終形成知識圖譜，下表為知識圖譜作為問答匹配的優缺點對比：

基於知識圖譜的問答匹配

優點

在對話結構和流程的設計中支持實體間的上下文會話識別與推理
通常在一般型問答的準確率相對比較高(當然具備推理型場景的需要特殊的設計，會有些複雜)

缺點

模型構建初期可能會存在數據的鬆散和覆蓋率問題，導致匹配的覆蓋率確實；
對於知識圖譜增量維護相比傳統的QA Pair對知識的維護上的成本會更大一些；

對於知識圖譜處理問答匹配的流程一般可以總結為如下圖，主要包括8個過程：

自然語言的輸入：問題文本
問題分類器：對輸入的自然語言進行問題分類；
問題分析：主要完成分詞、詞性標註、實體識別和實體消岐工作；
語義槽提取：完成類別判別；
SPARQL抽取：主要完成構造SQPARQL模板工作；
語義鏈接：主要解決語義槽中待鏈接的自然語言表達分別鏈接到<類別，資源，實體>對應的知識圖譜中的URL上；
SAPQRL查詢生成：查詢生成模塊以及問題類別，以及連接完成的實體，構造標準的SPARQL查詢；
結果生成：由SPARQL查詢返回相應的結果，並轉化成用戶易於理解的形式；

基於知識圖譜的智能問答，以上只是一種簡單的實現方式，實際的情況遠比這個要複雜，如果要達到比較好的智能問答效果，需要在語料庫、技術架構、演算法、業務理解等方面下功夫。這裡借用電信業務場景的智能問答機器人的架構，簡單展示一下具體的邏輯架構，更多詳細資料可以參考相關論文（基於電信業務場景的智能問答機器人關鍵技術）。