黃智生教授：大數據時代的語義技術(公號回復「黃智生語義技術」下載彩標PDF論文)

黃智生教授：大數據時代的語義技術(公號回復「黃智生語義技術」下載彩標PDF論文) 原創：黃智生數據簡化DataSimp 今天

數據簡化DataSimp導讀：介紹面向大數據環境的語義處理技術，包括大數據時代的語義數據環境、海量語義數據處理平臺及語義技術在智慧城市與醫學大數據中的應用。作者黃智生博士是荷蘭阿姆斯特丹自由大學計算機系終身教授；研究方向：人工智慧與大數據。附黃智生簡歷。祝大家學習愉快~ 關注本公號「數據簡化DataSimp」後，在輸入欄回復「黃智生語義技術」可獲取下載鏈接。數據簡化DataSimp社區分享：信息與數據處理分析、數據科學研究前沿、數據資源現狀和數據簡化基礎的科學知識、技術應用、產業活動、人物機構等信息。歡迎大家參與投稿，為數據科學技術做貢獻，使國人儘快提高數據能力，提高社會信息流通效率。要推進人類文明，不可止步於敲門吶喊；設計空想太多，無法實現或虛度一生；工程能力至關重要，秦隴紀與君共勉之。黃智生教授：大數據時代的語義技術(11272字)目錄A大數據時代的語義技術(10116字)

1 大數據時代的語義數據環境

2 海量語義數據處理平臺3 語義技術在智慧城市與醫學大數據方面的應用4 小結參考文獻B黃智生簡歷(741字)醫學知識圖譜及其應用黃智生教授個人簡歷參考文獻(305字)Appx(845字).數據簡化DataSimp社區簡介

A大數據時代的語義技術(10116字)

大數據時代的語義技術文|黃智生，源|《數字圖書館論壇》2017年06月22日，數據簡化DataSimp-20181109Fri

內容提要：當前正處於大數據時代，大數據為智慧城市提供豐富的數據環境。智慧城市技術需要面向萬維網大數據處理及其知識服務的支持。語義技術為海量數據處理及知識管理提供有效的技術手段。本文系統化介紹面向大數據環境的語義處理技術，包括大數據時代的語義數據環境、海量語義數據處理平臺及語義技術在智慧城市與醫學大數據中的應用。

關鍵詞：大數據語義技術知識圖譜知識管理智慧城市技術中圖分類號：TP182萬維網為大數據時代提供海量的異構數據環境，進而為智慧城市技術及其知識服務提供巨大的開發空間。但是，數據異構性使我國面臨如何對大數據進行有效語義整合和處理的巨大挑戰。有效整合海量異構數據，其中一個核心主題就是如何實現異構數據的互操作(Interoperability)。數據互操作指多源數據能夠實現類似單一系統數據般的無縫鏈接。語義網思想及圍繞語義網目標實現所開發的一系列技術，稱為語義網技術，簡稱語義技術(Semantic Technology)。語義技術為異構數據提供數據互操作的技術基礎，也為大數據的有效分析提供一種技術途徑[1-3]。本文將系統化地介紹面向大數據環境的語義處理技術。1 大數據時代的語義數據環境

1.1 語義技術的基本思想

面對海量的萬維網數據，一個核心問題是如何快速有效地尋找所需信息。目前通用的辦法是通過網路搜索引擎，採用鍵入對應的關鍵字來獲得結果。但是，傳統搜索引擎主要通過關鍵字對網路資源進行字元串匹配獲取檢索結果，易獲得包含部分關鍵字的雜訊數據。如檢索「化學」，檢索結果卻出現「自動化學習」和「機械化學習」。為避免此類字元串誤匹配，可通過對網路中的文本描述進行結構化處理，即採用專業詞典，將長串文本描述進行分詞處理，切割成獨立的子部分。如把「自動化學習」切分成「自動化」和「學習」兩個獨立的部分，在使用「化學」進行查找時就不會匹配到「自動化學習」，因為需要滿足同時匹配兩個獨立的子結構。將長串文本切分成子結構的處理方法稱為結構化處理，但結構化處理不能實現數據互操作。在進行網路搜索使用的關鍵字只是表達語義上的需求，而並不在意網路資源是採用何種具體的詞來表達。因此，需要一種網路資源描述方式，來刻畫語義上的關聯性。刻畫某個特定領域的概念集合及該領域概念間的關聯性被稱為本體(Ontology)[4-5]。近十多年，國際萬維網組織制定和出臺了一系列語義技術標準，得到廣泛的應用。其中主要的語義技術標準包括以下四類。(1)網路資源描述框架(ResourceDescription Framework，RDF)和網路資源描述框架模式(ResourceDescription Framework Scheme，RDFS)。主要用於描述網路信息資源，前者用於描述具體的網路信息資源及其對應概念，後者用於描述網路信息資源概念間的關聯性。RDF/RDFS可以採用不同的數據格式表達，可被寫成類似XML格式的文件。經常使用的RDF/RDFS表達格式是Ntriple三元組格式。(2)網路本體語言(Web OntologyLanguage，OWL)。RDF/RDFS僅能描述網路信息資源及其相關概念的基本特徵，但邏輯表達能力不強。OWL對RDF/RDFS的邏輯表達能力進行擴展，使之能夠表達更複雜的邏輯關係，提供邏輯推理能力[5]。(3)RDF查詢語言SPARQL。SPARQL是一種針對RDF/RDFS語義數據的查詢語言，也可用於OWL數據查詢；若語義數據處理平臺已嵌入對應的推理機，SPAROL還可用於對語義數據的推理結果查詢。一個規範的語義數據處理平臺通常會提供規範的SPAROL查詢介面，被稱為SPAROL服務端。(4)規則交換格式(Rule InterchangeFormat，RIF)。RIF語言標準提供一種面向網路信息資源的高級規則知識表達能力，可彌補OWL對領域概念邏輯相關性描述的不足。語義技術標準，建立在對網路信息資源進行數據連接的統一概念格式上，其主要概念表達方法是三元組(Triple)法，即將信息資源以類似主語、謂語和賓語結構來表達。為增強語義標示的唯一性，通過網路資源進行唯一性語義標定是語義技術的核心思想之一。所以，語義技術標準的基本作用是對網路資源進行描述，用於提供語義唯一標識，同時讓數據內容獨立於表達形式。語義網(語義技術)的主要思想包括：(1)任何信息系統都需要數據；(2)數據表示要獨立於具體的應用和平臺，以保證最大程度的可重用性；(3)採用統一的數據概念表示，以保證數據表示獨立於具體系統(可採用Triple/Tuple形式)；(4)數據應能描述網路資源(要採用RDF/RDFS或其他類似的語言)；(5)數據應提供初步推理支持(要採用OWL或其他知識表示語言)。值得注意的是RDF/RDFS/OWL均採用Triple語義模型。1.2 現代信息系統的數據基礎——關聯語義數據雲圖

近十年，信息領域的重大進展之一是獲得關聯語義數據雲圖(Linked DataCloud)，其中每個結點表示一個開放的數據源，結點間的弧表示數據源相互鏈接。截至2011年9月，關聯語義數據雲圖已覆蓋295個數據集、310億條RDF語句、5.04億個RDF鏈接(見圖1)。其領域涵蓋地理信息、生命科學、媒體、出版、政府信息、計算機與通信技術、工程學科、社會科學等。2011年6月，谷歌、雅虎和微軟共同宣佈推出新的語義搜索的技術標準；2012年5月，谷歌搜索引擎推出基於語義技術的知識圖譜；截至2016年，關聯語義數據雲圖的規模已經超過一張圖所能表達的程度。

圖1 關聯語義數據雲圖

數據集均採用語義技術標準(RDF或者OWL形式)來表達，且絕大多數數據集是公開的，可以免費下載。由於採用國際語義技術標準與規範的本體工程技術開發方法，很容易將數據載入語義數據處理平臺。關聯語義數據雲圖的核心部分是維基百科，知識採用語義技術標準表達的數據DBpedia，其他領域數據集均可在語義上同維基百科的概念融合，其中Freebase是類似維基百科的數據集。2012年，谷歌以1億美元購買Freebase，將其改造成知識圖譜(knowledge graph)。從形式上看，知識圖譜採用語義技術形式表達系統化、結構化、集成化的特定領域知識結構，是面向萬維網信息環境的重要的知識表達形式，是未來網路面向知識決策與分析的基礎設施之一。知識圖譜通常採用一種基於圖的數據結構，旨在描述真實世界中存在的各種實體或概念，頂點表示實體或者概念，邊代表實體與概念間的各種語義關係。從本質上看，知識圖譜、語義數據集和本體沒有根本性的區別；但是，知識圖譜的構建更多地關注特定領域的基本事實。龐大的語義數據集提供覆蓋廣泛領域的基礎知識庫，為信息系統開發提供全新的數據環境，是現代信息系統的數據基礎。在大數據語義支撐環境下，可便捷地開發應用系統。語義技術具有兩大技術優勢：(1)由於採用國際規範的數據表達格式，應用系統可方便地融合海量開源數據，節省前期數據準備工作，有利於未來系統功能的擴充；(2)由於採用面向語義表達的知識描述語言，使應用系統可方便地進行面向萬維網環境的大數據處理，特別是進行知識提取和數據整合，代替現有的大量人工幹預工作。2 海量語義數據處理平臺通過關聯語義數據雲圖，不僅可獲得覆蓋多領域的公開共享的海量數據，還可以使用一切採用語義技術標準描述的數據或者知識資源。由於採用面向語義的知識描述方式，使應用系統可實現更加智能化的面向知識表達和知識處理的各種服務。面向語義數據存儲和處理的系統稱為三元組存儲系統，統稱TripleStore，類似於關係資料庫。語義數據處理平臺是三元組存儲系統的功能擴展。當然，一個三元組存儲系統的功能需求遠超過關係資料庫所能提供的支持，因為其需要適應面向知識處理和推理的能力需求，也需要提供規範的語義數據查詢服務，即SPARQL服務端的支持。

2.1 海量語義數據處理平臺一覽

由於語義數據處理平臺需要提供SPARQL查詢服務端，需要一定的圖數據處理能力。但傳統面向SQL的關係資料庫系統在提供SPARQL查詢服務端時，效率不高。下面是四種常用的語義數據處理平臺或三元組存儲系統。(1)AllegroGraph是由Franz公司開發的面向語義數據處理的圖資料庫系統，其具備存儲和處理數千億級三元組的能力。同時還提供基於邏輯程序設計語言Prolog的RDFS++的推理能力。(2)GraphDB是由OntoText公司開發的面向語義數據處理的圖資料庫系統。GraphDB是在OWLIM三元組存儲系統基礎上開發的，而OWLIM的前身是著名的RDF/RDFS數據存儲與處理系統Sesame。(3)LarKC是一個海量語義數據處理平臺。LarKC是由歐盟第七研究框架語義技術重大項目LarKC團隊開發的[6-8]。由於OntoText公司是LarKC的開發團隊之一，所以LarKC的語義數據存儲層採用OntoText公司的產品OWLIM[9]。LarKC提供靈活的存儲系統嵌入形式，其三元組存儲系統可方便地替換為其他規範的語義數據存儲系統(如Virtuoso等)。(4)Virtuoso被稱為多源數據通用服務系統，由OpenLink軟體公司開發。其支持數據類型既包括傳統關係資料庫(如RDBMS、ORDBMS、virtual database等)，也包括語義數據、XML數據、自由文本數據和各類文件數據。因此，Virtuoso系統成為被廣泛使用的語義數據處理平臺之一。雖然Virtuoso有許多明顯的優越性，但是並非在各方面都比其他平臺更強。應用時，可根據不同的環境選擇不同的語義數據處理平臺。對Virtuoso系統與LarKC平臺進行比較，將二者優缺點進行歸納：(1)Virtuoso優點是被廣泛使用、商業化支持、支持多種格式、可與資料庫融合；缺點是系統響應時間慢，數據正確性要求比較高，非完全開源、非完全免費。(2)LarKC優點是系統響應時間快、數據正確性要求比較低、開源完全免費、支持自主設計工作流；缺點是參考資料少，無服務支持。Virtuoso系統對數據的規範性和正確性要求比較高，如不允許語義數據包含斷行符號的字元串；但LarKC支持字元串自由斷行，便捷性更強。從系統的響應時間看，LarKC比Virtuoso要少一半。因此，LarKC的使用羣體更多。2.2 海量語義數據處理LarKC平臺

LarKC是歐盟「第七研究框架計劃的語義技術重大研究與開發項目」，旨在通過精準的知識分析和處理技術，開發海量語義數據處理與推理平臺，使用戶能有效地從海量數據中獲取所需信息。為實現海量語義數據處理，LarKC採用組合的方法，即通過組合各種信息和知識的處理手段，靈巧地處理海量數據。從推理技術看，LarKC捨棄傳統知識庫推理機要求推理系統必須完全正確和完備的技術約束，引入非完備和非完全正確的推理技術，使之能應對語義網上海量語義數據的推理要求，主要通過下列兩個特徵來體現。

(1)可插拔(Pluggable)。LarKC平臺採用來自信息處理領域的各種可能方法，如採用認知科學的啟發式方法、有限理性的方法、經濟學的成本/效益的權衡方法以及信息檢索和資料庫技術的各種技術方法。一個可插拔的體系結構將確保不同領域的計算方法可以連貫集成。(2)分散式(Distributed)。LarKC平臺支持採用雲計算平臺，並行計算與計算機集羣平臺等，其設計目標可擴展到大規模的分散式計算資源。 LarKC平臺的體系結構如圖2所示。該體系結構主要包括用戶域(Userdomain)、平臺域(Platformdomain)和基礎結構域(Infrastructuredomain)。LarKC有三種類型的用戶，插件開發者(Plug-in developer)、工作流設計者(Workflow designer)和使用者(End user)。針對不同類型的用戶，提供不同的技術支持。如對於插件開發者，LarKC提供通過使用插件開發嚮導，對插件設計提供支持；工作流設計者，通過訪問LarKC共享插件庫來獲得插件。LarKC平臺提供工作流設計的可視化界面，幫助設計者提高工作流設計的效率。平臺域提供插件開發和工作流設計所需的各種服務。LarKC核心層包括用於建立和管理有效數據流處理的數據層以及提供性能監測和評估的各種模塊。

圖2 LarKC平臺的體系結構

LarKC平臺成功啟動後，LarKC平臺管理界面可通過在瀏覽器輸入「http://localhost:8182」進行訪問。LarKC提供採用語義數據規範(即三元組格式)表達的工作流描述。其優點在於對於工作流本身也可以通過推理等進行深入分析和有效管理。當工作流被提交後，即建立了一個SPARQL查詢服務端，用戶可通過該服務端進行規範的語義查詢。LarKC平臺已經嵌入了對於語義數據的基本推理(如RDF/RDFS和OWL的推理)的支持。LarKC數據存儲層可被替換成其他數據服務系統，如Virtuoso。所以，LarKC具備可吸納和兼容其他語義數據存儲系統的優點。目前，已有許多語義應用系統在LarKC平臺上開發，主要集中在智能交通、智慧城市技術，以及生物醫學大數據的應用方面[10]。語義數據處理平臺都會提供規範的語義數據查詢服務端(SPARQL endpoint)，使用戶可以方便地對語義數據進行存儲、處理和推理。

3 語義技術在智慧城市與醫學大數據方面的應用

語義技術在大數據方面的應用例子很多，其應用領域覆蓋智慧城市的各方面，如智能交通、智慧醫療、智慧能源與環境、智慧社區、智慧家居、財經與金融、新聞報道，及許多工程領域[10-11]。本文重點介紹語義技術在智慧城市方面的應用，特別是在智能交通與醫學大數據方面的應用。3.1 語義技術在智能交通方面的應用智能交通是智慧城市的重要所需，所以歐盟第七框架語義技術重大課題LarKC選定的三個實例研究之一是智能交通與城市計算，即採用大數據技術針對現代化城市各種需求提供知識服務。採用LarKC平臺開發智能交通與物聯網相關的應用，主要有四種系統。(1)義大利米蘭交通預測系統。從該系統功能上看，類似於一般的汽車導航系統，即給定一個起點及目的地，系統能從路網信息中找出用時最短的行車路線。但與一般汽車導航系統不同，義大利米蘭交通預測系統除能考慮季節、節假日和客流高峯時間等影響因素外，還能實時地從網路採集並分析該城市舉行的大型活動對交通的潛在影響；同時，該系統還能從交通部門獲得交通流的實時信息，並綜合這些信息和知識進行智能化導航。(2)韓國首爾路標管理系統(Road Sign Management，RSM)。該系統把首爾市的交通路標及其路網信息生成對應的語義數據集，能夠有效地分析和發現路標中不符合韓國國家路標設置的規定(如在學校周圍必須有警示牌等)；同時，還能發現路牌中自相矛盾或者混亂信息的錯誤[12]。RSM使用的數據集來源包括開放街道地圖數據OSM、韓國的POI地圖數據、首爾市路標數據和關聯地理數據。RSM系統總的語義數據規模達到了11億個三元組。(3)智能手機城市信息服務系統。該系統能提供地理環境信息和社交環境信息服務。該服務可通過用戶智能手機的位置、視角並結合地理環境信息為用戶推薦興趣點。該系統能夠成為智能化個人隨身導遊，根據所在地理位置，從對應的知識圖譜中提供景點的解說，或提供對應的信息服務(如提供範圍300米內的中餐館信息服務等)，是綜合性的地理信息服務的知識圖譜系統。(4)智慧城市知識管理與分析系統。智慧城市的核心內容就是智能交通，智能交通系統的成功設計需要對羣眾的交通出行需求有充分的瞭解。智慧城市知識管理與分析系統中的一個基礎模塊就是手機使用者出行軌跡分析。該系統能夠通過對手機軌跡的大數據分析，獲得該地區人羣出行需求。這些信息可用於智慧城市的宏觀決策和智能交通的設計。3.2 語義技術在醫學大數據方面的應用智慧健康與智能醫療也是智慧城市的重要內容之一。由於健康與醫療涉及大量醫學知識及分析與推理，生命科學與醫學已成為語義技術及知識圖譜應用最廣泛的領域。採用LarKC開發醫學大數據應用，主要有四種系統。

(1)全基因組關聯研究(Genome Wide Association Study，GWAS)。其是一種在人類全基因組範圍內找出存在序列變異的基因分析技術。通過對比某種疾病的一組患者全基因組信息與對照組全基因組信息來確定某種病種與特定基因的關係，在一定程度上避免由先驗概率的不準確性帶來的誤差。語義技術用於GWAS的基本切入點在於通過知識分析的手段來提高先驗概率值的準確性。LarKC項目的全基因組關聯研究的實驗甚至做到對總數大概為1500萬的SNP進行系統地分析，從而在很大程度上避免候選SNP的先驗概率在經驗估計上的偏差[13]。

(2)Openphacts藥物研發平臺。歐盟重大聯合攻關項目Openphacts聯合歐洲14家重要科研機構及8家藥物研發公司，共斥資1600萬歐元進行歷時3年的面向藥物研發的開放數據訪問平臺開發，其核心技術是採用語義技術為有關研究人員提供高效的數據訪問技術環境的支持。Openphacts的設計目標是消除小分子藥物發現的技術瓶頸，整合不同的數據源，建立標準與共同標識，提高藥物研發工作流中的許多環節的效率，包括數據獲取、處理、整合、互操作、可視化等。Openphacts藥物研發平臺的初期構建是建立在LarKC平臺上，後來該系統被移植到商業化語義數據處理平臺Virtuoso。(3)臨牀實驗知識管理與決策平臺。SemanticCT是一個基於語義技術的臨牀試驗知識管理與決策平臺。其集成臨牀試驗的數據、電子病歷、藥物知識庫、醫學指南等相關數據，構成對應的知識圖譜，並載入LarKC平臺，能夠對海量臨牀試驗提供有效知識管理和決策支持。如自動地從電子病歷裏推薦符合條件的、可參與臨牀試驗的患者，以減少大量人工幹預的過程，同時能夠在臨牀試驗的設計階段，輔助推算臨牀試驗准入條件的可行性[14]。(4)醫學指南更新知識服務系統。醫學指南是由權威醫學部門或組織制定的針對某種疾病或診療手段的系統化醫學知識，主要用於指導醫務工作者在具體的醫學實踐過程中採取最有效的治療或護理措施。醫學指南與醫學教科書相比，具有更好的時效性和針對性；與醫學論文相比，具有更強的系統性。所以，醫學指南是醫務人員和患者及其家屬重要的參考材料之一，是重要的醫學知識來源。循證醫學指南對醫學指南中各種描述及指導性意見，標註對應的科學證據。這些科學證據主要來源於醫學領域的科技文獻、研究成果等。由於大量新醫學文獻的湧現，為使得醫學指南知識能夠覆蓋最新的醫學研究成果，須考慮醫學指南知識的及時更新服務。醫學指南更新知識服務系統建立在LarKC平臺上，該系統採用自然語言處理工具及本體技術，抽取指南描述中UMLS和SNOMED CT對應術語，引進語義距離計算處理以及綜合評估方法，對抽取處理的關鍵詞進行排序，逐步獲得最佳相關證據集[15]。4 小結語義技術的一系列技術標準，採用獨立於具體應用系統的統一數據表達格式，使得基於語義技術的應用系統可以非常方便地融合網路大量共享數據。如語義數據關聯雲圖，既便於融合他人現有數據，也有利於未來系統功能的擴充。語義技術採用面向知識提取和知識表達的技術方式，更接近於人類的知識表達方式，使用戶可以方便地審核知識表達的正確性，同時也可以代替現有大量的人工幹預工作。由於引入知識處理，也提高了處理問題的精度和效率。由於語義技術提供知識管理與推理的能力，使開發的應用系統能夠針對海量的數據進行宏觀把握，提供有效的決策支持。大量應用系統的成功經驗證明，語義技術及其知識圖譜技術必將在大數據時代發揮不可替代的作用。參考文獻[1]BERNERS-LEET,HENDELER J.Publishing on the Semantic Web[J].Nature,2001(4):1023-1025.[2]BERNERS-LEET,HENDELER J,LASSILA O.The Semantic Web[J].Scientific AmericanMagazine,2001:29-37.

[3]FEIGENBAUML,HERMAN I,HONGSERMEIER T,et al.The Semantic Web in action[J].ScientificAmerican,2007,297(12):64-71.

[4]SHADBOLTN,HALL W,BERNERS-LEE T.The Semantic Web revisited[J].IEEE IntelligentSystems,2006(5/6):96-101.[5]MCGUINNESSD L,HARMELEN F V.OWL web ontology language[EB/OL].(2004-02-10)[2016-08-01].http://www.w3.org/TR/owl-features/.[6]FENSELD,HARMELEN E Unifying reasoning and search to web scale[J].IEEE InternetComputing,2007,11(2):94-96.[7]FENSELD,HARMELEN F,SCHOOLER L,et al.Towards LarKC:a platform for web-scale reasoning[C]//IEEEInternational Conference on Semantic Computing.New York:IEEEPress,2008:524-529.[8]ASSELM,CHEPTSOV A,GALLIZO G,et al.Large Knowledge Collider:a service-orientedplatform for large-scale semantic reasoning[C]//Proceedings of the InternationalConference on Web Intelligence,Mining and Semantics(WIMS 11).ACM InternationalConference Proceedings Series.Sogndal:2011.[9]KIRYAKOVA,OGNYANOV D,MANOV D.OWLIM-a pragmatic semantic repository forOWL[C]//Proceedings of Int.Workshop on Scalable Semantic Web Knowledge BaseSystems(SSWS 2005).LNCS,Berlin:Springer,2005:182-192.[10]李勁松，黃智生.生物醫學語義技術[M].杭州：浙江大學出版社，2012.[11]FENSELD,HARMELEN F V,ANDERSSON B,et al.Towards LarKC:a platform for Web-scalereasoning[C]//Proceedings of the 2nd IEEE International Conference on SemanticComputing.IEEEICSC,Washington:IEEE Press,2008:524-529.[12]LEE T,PARKS,HUANG Z S,et al.Toward Seoul road sign management on the LarKCplatform[C]//Proceedings of the 9th International Semantic WebConference(ISWC2010).Track of Posters and Demos,2010.[13]AngusRoberts,Mark Greenwood,Danica Damljanovic,Hamish Cunningham,MattiasJohannson,and James McKay.D7b.3.1a version 1 iteration report.Technicalreport,LarKC project deliverable,2009.[14]HUANG ZS,TEIJE A D,HARMELEN F V.SemanticCT:a semantically enabled system for clinicaltrials[EB/OL].[2016-09-01].https://www.researchgate.net/publication/237072662_SemanticCT_A_SemanticallyEnabled_System_for_Clinical_Trials.

B黃智生簡歷(741字)

黃智生文|秦隴紀，數據簡化DataSimp20181109Fri醫學知識圖譜及其應用Medical Knowledge Graphs and Applications荷蘭阿姆斯特丹自由大學人工智慧系首都醫科大學大腦保護高精尖中心武漢科技大學大數據研究院知識圖譜是面向大數據環境能夠集成各種知識資源的新型知識表達形式。知識圖譜通過描述特定領域的概念和實體及其語義關係來構成大規模的語義知識網路。醫學知識圖譜能夠集成醫學的各類知識與數據資源，從而為臨牀醫生提供臨牀決策支持。我們將介紹醫學知識圖譜的一系列基礎技術。在此基礎上，我們將進一步介紹醫學知識圖譜的具體應用，包括抑鬱症知識圖譜及其臨牀使用，以及自殺知識圖譜用於網路自殺救助的應用實例。黃智生教授個人簡歷黃智生博士，荷蘭阿姆斯特丹自由大學人工智慧系終身教授，首都醫科大學大腦保護高精尖中心抑鬱症人工智慧創新團隊首席科學家，武漢科技大學大數據研究院副院長和特聘教授，北京工業大學等六所大學或機構的兼職教授。出版了《海量語義數據處理-平臺，技術，與應用》《生物醫學語義技術》等教材，發表過論文論著超過二百篇，擔任超過一百個國際學術會議的程序委員會委員，超過二十個國際會議的聯合主席，擔任六個國際學術刊物的編委，特約主編或特約編委。主持歐盟第七框架重大項目LarKC中推理工作組的工作。主持歐盟第七框架智慧醫療重大項目EURECA中基於語義技術的臨牀試驗系統SemanticCT的開發；主持了基於語義技術的抗菌藥物合理用藥系統SeSRUA的開發。他參與開發的E-Culture項目在2006年世界語義萬維網技術挑戰賽上獲得冠軍。作為第一作者獲得2014世界健康信息技術學術年會（HealthInfo2014）最佳論文獎。-End-參考文獻(305字)1.黃智生．大數據時代的語義技術．[EB/OL]；數字圖書館論壇，http://www.cssn.cn/glx_tsqbx/201706/t20170622_3557879.shtml，2017-06-22．x.秦隴紀．數據簡化社區Python官網Web框架概述；數據簡化社區2018年全球資料庫總結及18種主流資料庫介紹；數據科學與大數據技術專業概論；人工智慧研究現狀及教育應用；信息社會的數據資源概論；純文本數據溯源與簡化之神經網路訓練；大數據簡化之技術體系．[EB/OL]；數據簡化DataSimp(微信公眾號)，http://www.datasimp.org，2017-06-06．黃智生教授：大數據時代的語義技術(11272字)(標題下「數據簡化DataSimp」文字鏈接，點擊後繼續點「關注」接收推送)秦隴紀簡介：黃智生教授：大數據時代的語義技術。(公號回復「黃智生語義技術」，文末「閱讀原文」可下載13k字3圖9頁PDF資料)藍色鏈接「數據簡化DataSimp」關注後下方菜單有文章分類頁。作者：黃智生。來源：《數字圖書館論壇》2017年06月22日、黃智生教授授權轉載，數據簡化社區秦隴紀微信羣聊公眾號，參考文獻附引文出處。主編譯者：秦隴紀，數據簡化DataSimp、科學Sciences、知識簡化新媒體創立者，數據簡化社區創始人OS架構師/C/Java/Python/Prolog程序員，IT教師。每天大量中英文閱讀/設計開發調試/文章匯譯編簡化，時間精力人力有限，歡迎轉發/讚賞/加入支持社區。版權聲明：科普文章僅供學習研究，公開資料?版權歸原作者，請勿用於商業非法目的。秦隴紀2018數據簡化DataSimp綜合匯譯編，投稿合作、轉載授權、侵權錯誤(包括原文錯誤)等請聯繫[email protected]溝通。歡迎轉發：「數據簡化DataSimp、科學Sciences、知識簡化」新媒體聚集專業領域一線研究員；研究技術時也傳播知識、專業視角解釋和普及科學現象和原理，展現自然社會生活之科學面。秦隴紀發起期待您參與各領域~~ 強烈譴責超市銀行、學校醫院、政府公司肆意收集、濫用、倒賣公民姓名、身份證號手機號、單位家庭住址、生物信息等隱私數據！

Appx(845字).數據簡化DataSimp社區簡介

信息社會之數據、信息、知識、理論持續累積，遠超個人認知學習的時間、精力和能力。應對大數據時代的數據爆炸、信息爆炸、知識爆炸，解決之道重在數據簡化(Data Simplification)：簡化減少知識、媒體、社交數據，使信息、數據、知識越來越簡單，符合人與設備的負荷。數據簡化2018年會議(DS2018)聚焦數據簡化技術(Data Simplification techniques)：對各類數據從採集、處理、存儲、閱讀、分析、邏輯、形式等方ose 做簡化，應用於信息及數據系統、知識工程、各類Python Web框架、物理空間表徵、生物醫學數據，數學統計、自然語言處理、機器學習技術、人工智慧等領域。歡迎投稿數據科學技術、簡化實例相關論文提交電子版(最好有PDF格式)。填寫申請表加入數據簡化DataSimp社區成員，應至少一篇數據智能、編程開發IT文章：①高質量原創或翻譯美歐數據科技論文；②社區網站義工或完善S圈型黑白靜態和三彩色動態社區LOGO圖標。論文投稿、加入數據簡化社區，詳情訪問http://www.datasimp.org社區網站，網站維護請投會員郵箱[email protected]。請關注公眾號「數據簡化DataSimp」留言，或加微信QinlongGEcai(備註：姓名/單位-職務/學校-專業/手機號)，免費加入投稿羣或」科學Sciences學術文獻」讀者微信羣等。長按下圖「識別圖中二維碼」關注三個公眾號(搜名稱也行，關注後底部菜單有文章分類頁鏈接)：數據技術公眾號「數據簡化DataSimp」：

http://weixin.qq.com/r/W0UeBgjEp1XYrUxl9xBJ (二維碼自動識別)

科普公眾號「科學Sciences」：

http://weixin.qq.com/r/50WiuirEG3dkrW7Z9xD1 (二維碼自動識別)

社會教育知識公眾號「知識簡化」：

http://weixin.qq.com/r/nDl0bDfEHGpjrXMP92yO (二維碼自動識別)

(轉載請寫出處：?秦隴紀2010-2018匯譯編，歡迎技術、傳媒夥伴投稿、加入數據簡化社區！「數據簡化DataSimp、科學Sciences、知識簡化」投稿反饋郵箱[email protected]。)

普及科學知識，分享到朋友圈

轉發/留言/打賞後「閱讀原文」下載PDF

黃智生教授：大數據時代的語義技術(公號回復「黃智生語義技術」下載彩標PDF論文)?

mp.weixin.qq.com

http://weixin.qq.com/r/zUWGgp3EPFVAKdnhbxBJ (二維碼自動識別)

微信掃一掃

關注該公眾號
推薦閱讀：

查看原文 >>

黃智生教授：大數據時代的語義技術(公號回復「黃智生語義技術」下載彩標PDF論文)

熱門新聞

週熱門

黃智生教授：大數據時代的語義技術(公號回復「黃智生語義技術」下載彩標PDF論文)

小領域知識圖譜應該怎麼構建？

知識圖譜有什麼值得研究的問題嗎?

如何用代碼寫出機器人三大法則？

智能搜索時代：知識圖譜有何價值？

Template-based Question Answering over RDF Data

【轉】知識圖譜與知識發現領域的頂級期刊與會議

ACL 2019 | 清華等提出ERNIE：知識圖譜結合BERT纔是「有文化」的語言模型

最全中文自然語言處理數據集、平臺和工具整理

愛奇藝基於CPU的深度學習推理服務優化實踐

NLP事件抽取/事件圖譜構建(五)

知識圖譜學習的資源匯總（持續更新）

基於BERT的KBQA探索

有哪些簡稱逐漸偏離了對應全稱的語義？

「你無法哄睡一個思想失眠的人」是何意?

那些一鍵摳圖的軟體是怎麼做到的？這些語義分割方法瞭解一下

熱門新聞

週熱門