作者:像風一樣i
來源:https://www.cnblogs.com/yueshutong/p/10144922.html

一.科學性

1.研究意義

​ 信息科技經過 60 餘年的發展,已經普及到社會生活的每一個角落。隨着信息技術在國家治理、經濟運行的方方面面的應用,大量的數據隨之產生。而互聯網技術的爆發式發展使得近年來產生的數據總量超過了人類以往產生的歷史數據的總和,醫療行業的數據增長幅度尤爲突出。

​ 醫療大數據具有巨大的價值,尤其是在臨牀輔助診療和健康管理方面。醫療大數據已經上升到國家戰略,同時也是全球學術界與產業界競爭的研究熱點。如何利用這些醫療數據,挖掘數據的深層價值,是未來信息科技發展的趨勢,也是醫療大數據技術產生的背景。

​ 本項目利用知識圖譜將各種瑣碎、零散的醫療信息知識相互連接,以支持綜合型知識檢索問答、輔助決策和智能醫療診斷。精準醫學知識與大數據相結合,能夠利用龐大的全人類對疾病的理解和醫生的經驗形成知識庫,讓醫生能夠通過大數據的信息系統直接根據病人的個體實際情況來對他們進行針對性的診斷和治療,輔助醫生的診療過程,使得普通醫生也能夠像最好的資深醫生一樣爲病人提供高質量的診療服務。

​ 本項目結合知識圖譜和醫療大數據技術,可以幫助患者自我評估病情,幫助醫生找到最佳治療方案,提高醫生工作效率和診療質量,爲慢病患者提供遠程指導和干預。

2.醫療大數據的爬取與存儲

(1) 利用互聯網搜尋可靠、權威的醫療數據來源,按照疾病所屬科室利用多線程技術分段爬取全部數據,保證涵蓋全部疾病內容,並在數據爬取過程中,分析數據結構,包括科室、症狀、病因、併發症、治療、預防等。

(2) 針對爬取的數據進行分詞,用於後續算法設計,最後將全部數據結構化存儲至本地 MySQL 數據庫。

(3) 利用 Elastic Search 數據庫快速地儲存、搜索和分析海量數據。將MySQL 中存儲的數據抽取部分部分存入到 Elastic Search 數據庫,然後開發相應接口,返回JSON 格式的數據。ES 數據庫的主要功能:一是用戶在輸入框輸入症狀詞時提供實時搜索結果;二是點擊部位時搜索到全部相關症狀。

(4) 使用 Neo4j 圖形數據庫存儲一部分結構化的數據,便於進行算法設計,搭配分詞、檢索、排除、統計等算法提升診斷正確率。

3.系統運行流程

​ 本系統需要用戶輸入個人信息(年齡、性別、職業、提供的症狀詞),系統根據用戶年齡、性別、症狀等個人信息進行算法分析、統計、排除、排序、得出相關性得分,最後將算法分析結果反饋給用戶。關於算法的設計細節,本申報書的創新性部分會詳細說明。項目的大致流程圖如圖一所示:

基於知識圖譜的分佈式智能醫療診斷系統

​ 圖一:系統運行流程圖

二.創新性

1.研究並實現一種基於知識圖譜的智能醫療診斷方法

本項目從互聯網爬取了龐大的醫療知識庫,總體可以分爲疾病庫與症狀庫,如何分析出疾病與疾病、疾病與症狀、症狀與症狀的內在聯繫是本系統設計的難點與核心。基於此問題,我們研究出了一種基於知識圖譜的智能醫療診斷方法。

1.1 醫療知識圖譜的構建

知識圖譜可以大致概括爲節點與關係的組成圖譜,非常有助於本項目對醫療數據的分析與研究。關於知識圖譜的節點設計,我們抽取醫療知識庫中的全部症狀詞與全部疾病詞構成了知識圖譜的全部節點,這部分數據也成爲了本項目的醫學詞典。每個節點都有許多屬性,包括科室、症狀、病因、併發症、治療、預防等,但這些屬性都是以長文本的形式存儲,醫學命名實體並沒有被單獨標註區分。前面已經說明,研究的主要方向是針對疾病與症狀的聯繫,我們利用醫學詞典對疾病的症狀屬性進行分詞。由此症狀節點與疾病節點有了直接的關聯,此時的節點知識圖譜如圖二所示:

基於知識圖譜的分佈式智能醫療診斷系統

​ 當每個疾病節點都與它所屬的症狀或一些併發症進行了關聯之後,相互之間難免出現交叉。以圖二所示舉例,偏頭痛會導致一系列症狀與併發症,這種關係以箭頭指向表示,偏頭痛指向叢集性頭痛,叢集性頭痛又指向症狀詞頭痛,偏頭痛也指向了頭痛,各種複雜的疾病、症狀關係正是通過這種複雜的指向關係(也就是知識圖譜),進行了清晰的展示。

1.2 智能診斷方法

​ 如何基於這種複雜的知識圖譜研究出一套科學的智能診斷算法是本系統的核心與關鍵。前面已經提到,系統在診斷之前需要用戶提供症狀、年齡、性別等信息,當獲取用戶提供的本系統醫學詞典範圍內的症狀詞後,系統會馬上根據症狀詞獲取此症狀的知識圖譜,假設用戶提供了“頭痛”與“噁心”兩個症狀詞,此時的知識圖譜如圖三、圖四所示:

基於知識圖譜的分佈式智能醫療診斷系統

基於知識圖譜的分佈式智能醫療診斷系統

由知識圖譜可以看到指向它們自身的節點,也就是導致這兩個症狀的疾病是存在共同之處的。當我們把這兩張知識圖譜合二爲一後,此時的知識圖譜如圖五所示:

基於知識圖譜的分佈式智能醫療診斷系統

該方法到此正式分析出了引起用戶症狀的“病因”,但此刻獲取的疾病結果還是有些籠統,存在一些誤差,這些誤差來源於每個人的性別、年齡、職業等具體的個人特徵,因此需要進一步的提升診斷準確率。

針對疾病所屬的部分科室對人羣的嚴格劃分,我們詳細列出了特殊科室人羣分佈表格,如表格1所示:

表 1 特殊科室人羣分佈表

基於知識圖譜的分佈式智能醫療診斷系統

由此表格輔助,再搭配用戶提供的年齡、性別信息,可以成功排除相當大的一部分不可能疾病,大大提升了診斷的正確率。

到此,系統已初步診斷出引發這些症狀的一系列疾病。但這些的疾病哪些的正確率最大,哪些的正確率最小暫時還不知道。爲了解決這個問題,特提出“相關性得分”的概念進行最終的排序。系統需要計算診斷得出的疾病的匹配症狀的多少,比如,用戶提供了3個症狀詞,系統診斷得出了10個疾病結果,其中有的疾病的所有症狀中只匹配用戶提供的3個症狀的其中2個,有的疾病的所有症狀中包含全部的3個症狀,匹配症狀越多的疾病得分越高,這是第一步的大體排序。但此時很容易就出現匹配度相同的疾病,類似出現兩種疾病的所有症狀都匹配了兩個症狀的情況。如何處理這種情況,僅使用匹配算法是不能滿足的。因此,需要進一步對匹配度相同的疾病結果進行單獨的排序。經過兩次排序後的結果就是診斷系統的最終診斷結果。

2.提出一種面向大規模知識圖譜快速存儲和數據讀寫的方法

本系統在開發過程中,涉及到的技術與框架繁多,爲了使各個業務系統分離,使用微服務架構,爲了進一步提高系統併發量與高可用,使用分佈式技術。系統架構如圖六所示:

基於知識圖譜的分佈式智能醫療診斷系統

(1) 針對支撐知識圖譜的Neo4j數據庫、支撐快速檢索醫學詞典的Elastic Search數據庫與提供醫學知識庫的MySQL數據庫,爲了進一步提升三個數據庫的讀寫能力,使用分佈式架構,將三者有關的功能模塊進行分離。

(2) 在系統的前後端分離上,使用Nginx服務器進行靜態資源的讀寫,進一步提升系統的吞吐等待量與高可用。

(3) 使用Spring Cloud框架用於分離各個系統功能模塊,便於後續系統的升級與維護。

三.實用性

1.使用範圍

(1)是爲個人提供快速自診服務,輕鬆掌握自身病情的一種方法,病急不再亂投醫。

(2)是爲研究人員或醫生提供輔助診斷服務,幫助醫生髮現症狀與疾病的各種關聯,輔助診斷研究過程。

2.可行性

我們將逐步完善以知識圖譜的形式對醫療數據進行展示的功能,作爲醫生進行診斷的參考,也可以幫助用戶瞭解更多的醫療知識。

本項目的開發已經基本完成,原型系統已經上線。整個項目從技術上來講,是完全可行的。

本項目已內部進行多次測試,輔助診斷的正確率能夠達到80%以上,系統的可用性也是有保證的。

3.推廣前景

越來越多的民衆願意積極參與健康管理。這種意願正在延伸到 AI 和機器人領域。此外,智能醫療市場前景廣闊,且增速可觀。到 2020 年市場規模將達 79.88 億美元,未來 5 年 CAGR 達 52.68%。同時, 資本和政策的雙重支持將驅動智能醫療繼續加速發展。 自 2012 年以來, 智能醫療的融資總額一直是最高的。目前, 無論是科技巨頭還是傳統的醫療機構, 都在紛紛搶灘智能醫療領域。科技巨頭主要是通過與醫療機構合作獲取海量的醫療數據來訓練自己的模型從而提供更好的產品和服務。而醫療機構更傾向與垂直行業的領先公司合作,從各個方面來智能化整個機構。

​ 在中國新醫改的大背景下,智能醫療正在走進尋常百姓的生活。隨着人均壽命的延長、出生率的下降和人們對健康的關注,現代社會人們需要更好的醫療系統。這樣,遠程醫療、電子醫療(e-health)就顯得非常急需。

本項目作爲智能醫療的一個具體應用,具有良好的推廣前景和市場價值。

4.經濟社會效益預測

基於知識圖譜的智能診療系統的建設和推廣,可以取得以下經濟社會效益:

(1)可以爲廣大人民羣衆可提供便利的病情自我評估,利於人們儘早發現病情並積極診治,“病急不再亂投醫”;

(2)可以爲醫生提供豐富的醫學知識圖譜,利於醫生查找相關疾病知識,以準確分析患者病症;

(3)可以根據知識圖譜和患者病症,全面分析推斷可能的疾病並提供潛在的醫療方案,輔助醫生的診療過程,減少醫療事故的發生。

本項目的研究和推廣,能夠產生巨大的社會效益,減少社會的醫療成本支出,提高醫療質量,改善人們生活。

項目地址
Github:https://github.com/yueshutong/Doctor
Gitee:https://gitee.com/zyzpp/Doctor
相关文章