作者:阿里雲科技快訊;

來源:https://www.jianshu.com/p/caa3afe2c2d2

阿里妹導讀:“The world is not made of strings , but is made of things.” 大千世界,萬物相聯。保險領域的知識圖譜之路,該如何構建?本文將爲你介紹健康知識圖譜構建流程、整體框架和遇到的問題,並總結健康知識圖譜在保險理賠領域應用場景和對應設計。

背景


健康知識圖譜,阿里工程師如何實現?


健康知識圖譜,阿里工程師如何實現?


隨着互聯網和AI智能的發展,近年來我國的健康險業務迎來了飛速發展和變革。健康險,即健康保險,是保險業務的一個重要分支,有着廣闊的發展前景,是本財年保險領域排兵佈陣的重要戰場。健康險是以被保險人的身體爲保險標的,依據合同約定當被保險人遭遇疾病或意外傷害時,對被保險人的醫療費用或財產損失進行補償或給付的一種保險。

爲了支撐日益劇增的理賠單量的挑戰,在不增加客服小二工作量的前提下,健康險理賠需要做到智能化、自動化和低風險化。因此,理賠天平團隊在智能理賠、理賠機器智能問答和反騙賠等方面做出了相應嘗試,而是以上各種嘗試所依賴的底層基礎技術。

健康知識圖譜和Schema示例


健康知識圖譜,阿里工程師如何實現?


健康知識圖譜樣例如圖1所示,其中存儲着用戶、險種、疾病、醫院等各類節點信息以及它們之間的關聯信息。比如,用戶張三投保了門診保險金,當該用戶患慢性肺炎申請理賠時,我們可以根據圖譜來判斷購買的險種對慢性肺炎時免責的,進行智能拒賠即可。

健康知識圖譜的具體節點和邊屬性如下:


健康知識圖譜,阿里工程師如何實現?


健康知識圖譜整體框架


健康知識圖譜,阿里工程師如何實現?


健康知識圖譜整體框架如圖2所示,主要由信息源、實體抽取、數據源、更新框架和數據存儲和質量控制等部分組成,具體如下:

1、信息源

健康知識圖譜,阿里工程師如何實現?


保單類:用戶購買的保單信息,包含用戶、險種、時間、保障疾病範圍等信息。

外部網站數據:通過爬蟲,可以獲取各種渠道的信息,包括醫院信息、科室信息等。

2、實體/關係抽取

信息源有很多形式,包括圖片、文字、語音、視頻等類型,需要從中提取有用的實體信息和實體關係。這部分可以通過機器學習(包括深度學習、規則引擎等)或者人工方式實現。

3、數據源

數據源包括各種類型的數據,包括上傳的文件、ODPS中的用戶畫像信息、關係型數據庫中的數據、事件或日誌等。

4、更新框架

一般通過三種方式將提取的數據導入到Geabase中,如下圖所示:

健康知識圖譜,阿里工程師如何實現?


  • 初始化方式,將全量數據寫入ODPS表某個分區中,全量初始化導入Geabase。
  • T+1批量更新方式,通過MR Job定時任務將更新數據寫入最新分區中,每天批量新增、更新和刪除Geabase中數據。
  • 實時更新,將更新的數據發送到事件系統或者日誌蒐集系統,然後實時消費,將數據更新到Geabase數據庫中。

5、數據存儲

Geabase爲了實現對數據進行分佈式存儲和計算,將整個圖按節點分割爲多個子圖,每個子圖存放在同一個shard中,每個shard都有自己的備份。Geabase數據庫線上存儲的都是有向邊,如果需要存儲無向邊,則需要存儲兩份,即正向和反向都要進行存儲。

健康知識圖譜,阿里工程師如何實現?


Geabase在分塊過程中,對於交界處的邊,Geabase會同時生成2條邊,即一條出邊和一條入邊,分別屬於相鄰的兩個Shard。

6、保障機制

數據抽樣/校驗:對更新數據(批量或者實時)進行隨機抽取特定比例的樣本,進行校驗,來驗證數據導入準確性。

日誌監控:對Geabase更新異常、查詢性能等進行實時監控。

開關:可以利用開關控制數據版本,來決定採用哪個版本的穩定數據。另外,對接口或者流程中的某些環節進行開關切換控制。

應用場景

智能系統理賠

將險種和疾病之間的免責/非免責關係,作爲理賠因子,加入到系統智能核賠規則中,完善智能理賠。

健康知識圖譜,阿里工程師如何實現?


比如,用戶張三購買了門診報銷金險種,進行理賠慢性肺炎時,會從圖譜中查看門診報銷金和慢性肺炎的關係-免責,因此會在理賠系統審覈階段的規則引擎中直接拒掉,無需進入人工審覈,實現快賠快拒。

智能問答

在熱線工作臺或者機器人端應用時,當用戶諮詢某種疾病是否可以理賠或者投保時,可以將圖譜和知識庫、模版庫相結合,實現智能問答,提升小二工作效率或者減少小二工作量。

健康知識圖譜,阿里工程師如何實現?


健康知識圖譜,阿里工程師如何實現?


機器人端

反騙賠

場景1:

健康知識圖譜,阿里工程師如何實現?


利用知識推理算法,比如用戶1的周邊用戶(用戶10-用戶14)都是灰度騙賠用戶,則用戶1騙賠的概率就很大,存在騙賠風險。

場景2:

健康知識圖譜,阿里工程師如何實現?


比如用戶1的一代和二代直系親屬都沒有多指症(屬於先天性遺傳病),那麼用戶1患這種先天性疾病的概率就比較小,存在騙賠風險。

另外,還可以通過用戶的報案位置和醫院位置就行判斷騙賠的風險。

個性化推薦

健康知識圖譜,阿里工程師如何實現?


可以根據張三的一度(甚至可以擴展到二度、三度)關係中,查找和張三用戶畫像比較類似的朋友,將他們購買的險種推薦給張三。

相關文章