編者按:

機器學習正在席捲整個醫療保健行業,相關研究成果層出不窮。拿最新研究成果來說,諾丁漢大學(University of Nottingham)的科學家就提供了一種能預測過早死亡的機器學習演算法。但是整體而言,機器學習在醫療領域的應用進展到什麼地步了?未來的方向又在哪裡呢?近日,谷歌首席架構師Jeff Dean等撰文為我們梳理了醫療機器學習的前世今生,並對遇到的問題與未來的發展方向進行了深入探討,快來與圖靈君一起學習吧!

一名49歲的病人發現他的肩膀上有無痛性皮疹,但沒有尋求治療。幾個月後,他的妻子讓他去看醫生,醫生診斷他患有脂溢性角化症。後來,當病人接受結腸鏡檢查時,護士注意到他肩膀上有一個黑色的斑點,建議他進行評估。一個月後,病人去看皮膚科醫生,醫生獲得了病變的活檢樣本。結果顯示非癌性色素沉著病變。儘管如此,皮膚科醫生還是要求再次閱讀活檢樣本,並診斷出侵襲性黑色素瘤。腫瘤醫生開始用全身化療進行治療。但一位醫生朋友又問病人:為什麼不接受免疫治療?

無論是由重症監護人員還是社區衛生工作者做出的醫療決定,如果這個決定遭到質疑,那麼由相關專家團隊立即介入審查會怎樣?

被重新診斷的高血壓患者將會接受已知最有效的藥物而不是處方者最熟悉的藥物,處方中的用藥錯誤將在很大程度上消除。患有神秘和罕見疾病的患者也可以直接與疑似診斷領域的知名專家聯繫。

這樣的系統似乎很理想化。因為沒有足夠的醫學專家來支持它,專家們往往需要很長時間來閱讀患者的病史,並且考慮到與隱私法相關的問題,專家們的工作可能還沒開始就已經結束。

然而,這是機器學習在醫學中的承諾:幾乎所有臨床醫生做出的決定所包含的智慧以及數十億患者的結果都應該為每位患者的護理提供信息。

也就是說,每個診斷、管理決策和治療都應該根據患者的所有已知信息,實時地結合集體經驗教訓進行個性化。

這種框架強調機器學習不僅僅是像新葯或新醫療器械這種的新工具。相反,它是有意義地處理超出人類大腦理解能力的數據所需的基本技術,這種壓倒性的信息存儲越來越多地涉及龐大的臨床資料庫,甚至是關於單個患者的數據。

近50年前,「 華爾街日報」的一篇專題文章指出,計算將「增強,在某些情況下,在很大程度上取代了醫生的智力功能。」 然而,在2019年初,機器學習在推動醫療保健方面成果依舊很少。 這裡指的不是報告已經測試的無數概念驗證模型(回顧性數據),而是描述醫療保健系統中的核心結構變化和範式轉變,這些變化是實現醫學中機器學習的全部承諾所必需的。

機器學習

傳統上,軟體工程師以明確的計算機代碼的形式提煉知識,指導計算機如何處理數據以及如何做出決策。例如,如果患者血壓升高並且沒有接受抗高血壓藥物治療,那麼正確編程的計算機會建議藥物治療。這些類型的基於規則的系統具有邏輯性和可解釋性,但正如1987年「 日刊」中的一個Sounding Board文章指出的那樣,醫學領域「如此廣泛和複雜,以至於難以在規則中捕獲相關信息。「

傳統方法和機器學習之間的關鍵區別在於,在機器學習中,模型從示例中學習而不是用規則編程。

對於給定任務,以輸入(稱為特徵)和輸出(稱為標籤)的形式提供示例。例如,由病理學家讀取的數字化載玻片被轉換為特徵(載玻片的像素)和標籤(例如,指示載玻片包含指示癌症的變化的證據的信息)。

使用演算法從觀察中學習,計算機然後確定如何執行從特徵到標籤的映射,以便創建一個模型,該模型將概括信息,從而可以使用新的、從未見過的輸入正確地執行任務(例如,尚未被人類閱讀過的病理學幻燈片。這個流程,圖1。還有其他形式的機器學習。 表1列出了基於同行評審研究或現有機器學習能力的簡單擴展的輸入到輸出映射的臨床有用性案例。

圖1.監督機器學習的概念概述。

如面板A所示,機器學習以任務定義開始,該任務定義指定應映射到相應輸出的輸入。 此示例中的任務是從一種語言(輸入)中獲取一段文本,並生成相同含義但使用不同語言(輸出)的文本。 沒有簡單的規則可以很好地執行此映射; 例如,簡單地翻譯每個單詞而不檢查上下文不會導致高質量的翻譯。 如圖B所示,培訓機器學習模型的關鍵步驟。 如圖C所示,模型使用未用於構建它們的數據(即測試集)進行評估。 該評估通常在正式測試之前,以確定模型是否在涉及試驗設計的現場臨床環境中有效,例如隨機臨床試驗。

表1.為機器學習應用提供動力的輸入和輸出數據類型示例。

在預測準確性至關重要的應用中,模型在數百萬個特徵和示例中查找統計模式的能力是實現超人性能的能力。然而,這些模式不一定對應於潛在的生物學途徑的鑒定或支持新療法發展的可修改的風險因素。

表2.在確定選擇何種模型時要問的關鍵問題。

在決定什麼類型的模型是必要時要問的關鍵問題。

機器學習模型和傳統統計模型之間沒有明確的界限,最近的一篇文章總結了兩者之間的關係。然而,複雜的新機器學習模型(例如,在「深度學習」中使用的那些模型[一類機器學習演算法使用人工神經網路,可以學習特徵和標籤之間極其複雜的關係,並且已被證明超越了人類的能力執行圖像分類等任務] )非常適合從現代臨床護理產生的複雜和異構數據中學習,例如醫生輸入的醫學筆記,醫學圖像,來自感測器的連續監測數據,以及基因組數據,以幫助進行醫學相關的預測。表2中提供了何時使用簡單或複雜的機器學習模型的指導。

人類學習和機器學習之間的關鍵區別在於人類可以學習通過少量數據進行一般和複雜的關聯。例如,幼兒不需要看到許多貓的例子來將獵豹視為貓。通常,機器需要比人類更多的例子來學習相同的任務,並且機器不具有常識。然而,另一方面,機器可以從大量數據中學習。使用存儲在電子健康記錄(EHR)中的數以千萬計的患者圖表來訓練機器學習模型是完全可行的,該圖表具有數千億個數據點,機器不會出現任何記憶力不集中的情況,而通常人類醫生在整個職業生涯中都很難看到超過幾萬名患者。

機器學習如何增強臨床醫生的工作

預測

機器學習模型可以學習大量患者的健康軌跡模式。該設施可以幫助醫生以專家級的水準預測未來事件,從超出個體醫師實踐經驗的信息中獲取信息。例如,患者能夠重返工作崗位的可能性有多大,或疾病發展的速度有多快?在人口水平上,相同類型的預測能可靠地識別即將患有高風險疾病的患者或提高醫療保健服務利用率; 此信息可用於資源調度,防患於未然。

大型綜合衛生系統已經使用簡單的機器學習模型自動識別有可能轉移到重症監護病房的住院患者,回顧性研究表明,可以使用EHR的原始數據建立更複雜和準確的預後模型和醫學成像。

構建機器學習系統需要使用數據進行訓練,以提供患者的集成縱向視圖。只有當結果包含在模型所基於的數據集中時,模型才能了解患者會發生什麼。然而,數據目前僅存在於EHR系統、醫學影像圖像存檔、通信系統、付款人、藥房福利管理人員,甚至患者手機上的應用程序中。

一個自然的解決方案是系統地將數據放在患者自己手中。我們一直倡導這種解決方案,現在通過快速採用患者控制的應用程序編程介面實現。

諸如快速醫療保健互操作性資源(FHIR)之類的統一數據格式的融合將允許有用的數據聚合。然後,患者可以控制誰能訪問他們的數據以用於構建或運行模型。

雖然有人擔心技術互操作性無法解決EHR數據中語義標準化問題,但HTML(超文本標記語言)的採用使得Web數據(甚至可能比EHR數據更加混亂)被編入索引,並且可用於搜索引擎。

診斷

每個患者都是獨一無二的,但頂級的醫生可以判斷患者的一個微妙徵兆何時是屬於正常範圍內的,何時又是屬於異常的。

使用機器學習檢測到的統計模式可以幫助醫生識別他們不經常診斷的病症嗎?

醫學研究所的結論是,幾乎每個患者在其一生中都會遭遇診斷錯誤,只有接受正確的診斷才能接受適當的護理。這個問題並不罕見,在發展中國家,即使有不錯的治療手段、充足檢查病患的時間和經過專業培訓的醫者,也通常難以發現胸痛、結核病、痢疾和分娩併發症。

通過在常規護理期間收集的數據,機器學習可用於在臨床訪問期間識別可能的診斷並且提高對可能稍後表現的病症的認識。但是,這種方法有局限性。不太熟練的臨床醫生可能無法獲得模型所需的信息,並且建立模型所依據的診斷信息可能是臨時的特例也可能是不正確的,可能是沒有表現出癥狀的情況(因此可能導致過度診斷),也可能是受賬單的影響,更或者只是沒有被記錄下來。

然而,模型可以根據實時收集的數據向醫生提出問題或進行測試;這些建議在高風險誤診常見的情況下(如分娩)或臨床醫生不確定的情況下是有用的。臨床上正確的診斷與EHR或報銷索賠中記錄的診斷之間的不一致意味著臨床醫生應該從一開始就應該參與確定如何使用常規治療中產生的數據來自動化診斷過程。

模型已經被成功訓練,可以回顧性地識別各種圖像類型的異常(表1)。然而,只有少數前瞻性試驗將機器學習模型作為臨床醫生日常工作的一部分。

治療

在一個有數萬名醫生治療數千萬患者的大型衛生保健系統中,患者何時、為何就診以及如何治療有類似情況的患者存在差異。模型是否可以對這些自然變異進行分類,以幫助醫生確定集體經驗何時會指向首選治療途徑?

一個簡單的應用是比較在護理點開出的處方與模型預測的處方,並且可以標記出差異以供審查(例如,其他臨床醫生傾向於訂購反映新指南的替代治療)。

然而,一個基於歷史數據的模型只能學習醫生的處方習慣,而不一定是理想的做法。要想知道應該開哪種藥物或療法來最大限度地提高患者的療效,要麼需要精心策劃的數據,要麼需要對因果效應進行估計,而機器學習模型不一定——有時也不能用給定的數據集來識別這些數據。

比較效果研究和實用試驗中使用的傳統方法提供了觀察數據的重要見解。然而,最近使用機器學習的嘗試表明,與專家一起生成策劃數據集,更新模型以納入新發布的證據,根據區域處方做法對其進行調整,以及為便於使用而自動從電子病歷中提取相關變數,這些都具有挑戰性。

機器學習還可用於根據臨床文獻自動選擇可能符合隨機對照試驗資格的患者,或識別可能從研究中的早期或新療法中受益的高風險患者或亞群。這種努力可以使衛生系統能夠對每一種臨床情況進行研究,從而在降低成本和管理費用的情況下進行更嚴格的研究。

臨床醫師工作流程

電子病歷的引入提高了數據的可用性。然而,這些系統也常常會使臨床醫生感到沮喪,其中包括一系列用於計費或管理文檔的複選框、難用的用戶界面,這會導致用於輸入數據的時間增加並可能產生一些新的醫療錯誤。

許多消費產品中使用的機器學習技術也可以用來提高臨床醫生的效率。驅動搜索引擎的機器學習可以幫助臨床醫生在不需要多次點擊的情況下,在患者的圖表中顯示相關信息。通過使用機器學習技術(例如預測類型,語音聽寫和自動摘要),可以改進表單和文本欄位的數據輸入。先前的授權可以被自動授權支付的模型所取代,該模型基於已經記錄在患者圖表中的信息。

採用這些能力的初衷不僅僅是為了方便醫生,讓查看和輸入臨床最有用的數據的過程無摩擦,對於獲取和記錄醫療數據至關重要,而這反過來又將使機器學習能夠幫助為每個病人提供最好的可能的護理。最重要的是,提高效率、簡化文檔和改進自動化的臨床工作流程將使臨床醫生有更多的時間與患者相處。

即使在EHR系統之外,機器學習技術也可以適用於外科手術視頻的實時分析,以幫助外科醫生避免關鍵的解剖結構或意外的變形,甚至可以處理更普通的任務,例如準確計算手術海綿的數量。檢查表可以防止手術錯誤,並且對其實施的自動監控提供額外的安全性保障。

在他們的個人生活中,臨床醫生可能會在他們的智能手機上使用所有這些技術形式的變體。 雖然有關於將這些技術應用於醫學背景的回顧性概念驗證研究,但是這些技術要想落地,主要障礙不是模型的開發,而是技術基礎設施,跨越EHR的法律、隱私和政策框架,衛生系統和技術提供商..

擴大臨床專業知識的可用性

醫生無法單獨與可能需要護理的所有患者進行互動。機器學習能否擴展臨床醫生的範圍,提供專家級的醫療評估而無需個人參與?例如,新發皮疹的患者可以通過發送他們在智能手機上拍攝的照片來獲得診斷,從而避免不必要的緊急護理。考慮到急診科就診的病人可能能夠與自動分診系統進行交談,並在適當的時候轉到另一種形式的護理。當患者確實需要專業幫助時,模型可以識別具有最相關專業知識和可用性的醫生。同樣,為了增加舒適度和降低成本,如果機器能夠遠程監控感測器數據,那些可能需要住院治療的病人就可以待在家裡。

直接獲得醫學專業知識的渠道有限,將機器學習的真知灼見直接提供給患者變得越來越重要。即使在專家臨床醫生供應充足的地區,這些臨床醫生也擔心他們是否有能力及時處理海嘯般的大量數據,這些數據可能來自患者佩戴的感測器或活動跟蹤設備。事實上,機器學習模型的一個希望就是使用來自數百萬患者遭遇的數據進行訓練,他們可以為醫療保健專業人員提供做出更好決策的能力。例如,護士可能能夠承擔傳統上由醫生執行的許多任務,初級保健醫生可能能夠履行傳統上由醫學專家執行的一些職責,而醫學專家可以將更多的時間用於患者,患者將受益於他們的特定專業知識。

已經證明,各種不涉及機器學習的移動應用程序或Web服務可以改善藥物依從性和控制慢性疾病。然而,機器學習在直接面向病人的應用中受到正式的回顧性和前瞻性評估方法的阻礙。

主要挑戰

高質量數據的可用性

構建機器學習模型的核心挑戰是構建具有代表性的多樣化數據集。理想的做法是用最接近使用過程中預期數據的精確格式和質量的數據來訓練模型。

例如,對於打算在護理點使用的模型,最好使用EHR中在特定時刻可用的相同數據,即使已知這些數據不可信賴或受不必要的變化影響。當他們有足夠大的數據集時,現代模型可以被成功地訓練來將有雜訊的輸入映射到有雜訊的輸出。使用一組較小的精心策劃的數據,例如那些從手工圖表評審中收集的臨床試驗數據,是次優的,除非臨床醫生在床邊被期望根據最初的試驗規範手工提取變數。這種做法對某些變數可能是可行的,但對EHR中可用的、做出最準確預測所必需的數十萬個變數就不可行了。

我們如何協調使用有雜訊的數據集來訓練模型與數據格言「垃圾輸入,垃圾輸出」之間的關係?儘管要學習大多數複雜的統計模式,通常最好擁有大型(甚至是有雜訊的)數據集,以便對模型進行微調或評估,但有必要擁有一組更小的帶有輔助標籤的示例集。當原始標籤有可能被錯誤標籤時,這允許對模型的預測與預期標籤進行適當的評估。對於成像模型,這通常需要生成一個「基本事實」(即例如,如果沒有獲得必要的診斷測試,那麼對於非成像任務,在事後可能無法獲得基本事實。)

機器學習模型通常在訪問大量訓練數據時表現最佳。因此,對於機器學習的許多用途來說,一個關鍵問題將是平衡隱私和監管需求,同時希望利用大量多樣的數據集來提高機器學習模型的準確性。

從過去不受歡迎的實踐中吸取經驗

所有的人類活動都被不必要的和無意識的偏見所破壞。機器學習系統的構建者和用戶需要仔細考慮偏差如何影響用於訓練模型的數據,並採用實踐來處理和監控這些數據。

機器學習的優勢,也是它的弱點之一,是模型識別人類無法發現的歷史數據模式的能力。來自醫療實踐的歷史數據表明,在系統地向弱勢群體提供比其他群體更差的護理方面,醫療保健存在差異。在美國,歷史數據反映了一種支付系統,該系統獎勵使用可能不必要的護理和服務,並可能遺漏了關於本應得到護理但沒有得到護理的患者(例如未投保的患者)的數據。

管理、監督和安全使用方面的專業知識

衛生系統已建立了複雜的機制,以確保向患者安全提供藥物製劑。機器學習的廣泛適用性需要類似複雜的監管結構、法律框架和本地實踐,以確保系統的安全開發、使用和監控。此外,技術公司將不得不提供可伸縮的計算平台來處理大量數據和模型的使用;然而,它們今天的作用尚不清楚。

至關重要的是,使用機器學習系統的臨床醫生和患者需要了解它們的局限性,包括模型沒有被設計成泛化到特定場景的情況。在做決定或分析圖像時過度依賴機器學習模型可能會導致自動化偏見,醫生可能會降低對錯誤的警惕性。如果模型本身沒有足夠的可解釋性,使臨床醫生無法識別模型給出錯誤建議的情況,那麼這尤其成問題。在模型預測中表示置信區間可能有所幫助,但置信區間本身可能被錯誤地解釋。因此,有必要對正在使用的模型進行前瞻性的、真實的臨床評估,而不僅僅是基於歷史數據集的回顧性績效評估。

對於直接針對患者的機器學習應用程序,需要特別考慮。患者可能無法驗證模型製造商的聲明是否有高質量的臨床證據證明,或建議的行動是否合理。

出版和傳播研究報告

構建模型的跨學科團隊可能在臨床醫生不熟悉的場所發布報告結果。手稿通常在預印本服務(如arXiv和bioRxiv)的網站上發布,許多模型的源代碼存在於GitHub等存儲庫中。此外,許多經過同行評審的計算機科學手稿不是由傳統期刊發表的,而是作為會議記錄發表在諸如神經信息處理系統會議(NeurIPS)和國際機器學習會議(ICML)等會議上。

結論

加速創建大量醫療保健數據將從根本上改變醫療保健的性質。我們堅信,患者與醫生的關係將成為向許多患者提供醫療服務的基石,並且通過機器學習的額外見解將豐富這種關係。

我們預計,未來幾年將出現一些早期模型和同行評議的研究成果出版物,這些模型以及對基於價值的醫療的監管框架和經濟激勵的發展,都是對醫療領域機器學習持謹慎樂觀態度的理由。

我們期待著不久的將來,數百萬臨床醫生在護理數十億患者時使用的所有醫學相關數據都將通過機器學習模型進行分析,以幫助向所有患者提供儘可能好的治療。

一名49歲的患者用智能手機應用程序給自己的肩膀拍了一張皮疹的照片,該應用程序建議立即與皮膚科醫生預約。他的保險公司會自動批準直接轉診,該應用程序會在2天內安排與附近一位經驗豐富的皮膚科醫生的預約。此預約將自動與患者的個人日程表進行交叉核對。皮膚科醫生對病變進行活檢,病理學家審查計算機輔助診斷I期黑色素瘤,然後由皮膚科醫生切除。


推薦閱讀:
相关文章