摘要:外周動脈疾病(PAD)患者死亡和截肢的風險較高,但很多 PAD 患者沒有癥狀或臨床癥狀不典型,普遍存在低知曉率和低診斷率。隨著人口老齡化和危險因素的流行,PAD 負擔會增加。人工智能(AI)是指能夠模擬人類智能并執行人類任務的機器和算法,涵蓋了機器學習、深度學習、自然語言處理、計算機視覺等方面。AI 在 PAD 中的應用尚處于起步階段,但其前景是巨大的。本文總結目前 AI 在 PAD 患者中的臨床應用和局限性。
">時間:
2024 年美國心臟病學會 / 心臟協會 / 血管外科學會等多學科聯合指南 [1] 中的外周動脈疾病(peripheral arterial disease,PAD)特指下肢動脈粥樣硬化性疾病,已成為日益嚴重的全球衛生保健問題,2010 年全球約有 2.02 億 PAD 病例 [2 - 3]。研究 [4] 顯示,因 PAD 接受血運重建的患者面臨的死亡風險幾乎是接受冠狀動脈疾病血運重建患者的 3 倍,可能和 PAD 患者年齡更大,患心血管疾病及合并癥的比例高和服用心臟保護藥物更少有關。盡管 PAD 患者死亡和截肢的風險很高,但很多 PAD 患者沒有癥狀或臨床癥狀不典型,普遍存在低知曉率和低診斷率,PAD 患者通常在疾病晚期才被診斷出來 [5 - 8]。隨著人口老齡化和 PAD 危險因素的流行,PAD 的疾病負擔會增加 [9]。人工智能(artificial intelligence,AI)是指能夠模擬人類智能并執行人類任務的機器和算法,涵蓋了機器學習(machine learning,ML)、深度學習(deep learning,DL)、自然語言處理(natural language processing,NLP)、計算機視覺等方面 [10 - 11]。AI 在 PAD 中的應用尚處于起步階段,但其前景是巨大的。本文總結目前 AI 在 PAD 患者中的臨床應用和局限性。
1 NLP
NLP 是指計算機智能地處理人類語言(包括口頭和書面語言)的能力,可用于分析大量文本形式的內容(如電子病歷,特別是非結構化的敘述性臨床筆記,或放射科醫生對圖像的解讀報告)[12]?;陔娮硬v系統的 NLP 技術可用于 PAD 患者的篩查。2010 年,考慮到全基因組關聯研究涉及的數據量龐大,手動審查醫療記錄耗時和費力,Savova 等 [13] 應用、擴展并評估了從放射報告(下肢血管造影或超聲檢查)中識別 PAD 患者的開源臨床 NLP 系統(梅奧診所的臨床文本分析和知識提取系統),該研究創建的金標準包括 223 例陽性病例(下肢動脈嚴重狹窄或閉塞)、19 例陰性病例(下肢動脈無中度重度狹窄或閉塞,或僅存在輕度狹窄)、63 例疑似病例(下肢動脈中度狹窄)和 150 例未知病例(缺乏信息)。NLP 系統與金標準的總體準確率的一致性為 0.93。基于 NLP 系統的陽性、疑似和未知病例的敏感度為 0.93 - 0.96,陰性病例的敏感度為 0.72。然而,放射學報告僅描述放射學檢查的結果,并不包含病史、體格檢查、實驗室檢查、治療經過等其他臨床醫療記錄。
2017 年,在一項包含 1569 例患者(806 例 PAD 患者和 763 例對照組患者)的電子健康記錄中,Afzal 等 [14] 開發了一套用于從臨床敘述筆記中自動識別 PAD 患者的 NLP 算法。以踝肱指數(ankle brachial index,ABI)檢測結果為金標準,與基于傳統 ICD - 9 代碼的算法相比,NLP 算法具有更好的準確率(91.8% vs.83%,P<0.001)、陽性預測值(92.9% vs 79.9%,P<0.001)和特異度(92.5% vs.75.9%,P<0.001)。ICD - 9 代碼算法用于挖掘結構化信息,而 NLP 則用于從非結構化數據中提取有意義的信息,同時 ICD - 9 代碼算法主要用于醫療交易和報銷管理。2018 年,Afzal 等 [15] 在此基礎上擴展了之前經過驗證的用于 PAD 篩查的 NLP 算法,開發并驗證了用于從臨床筆記中識別嚴重下肢缺血(critical lower limb ischemia,CLI)患者的 NLP 算法(295 例 CLI 患者和 497 例對照組患者)。
與基于 ICD - 9 代碼的算法相比,NLP 算法具有更高的陽性預測值(96% vs.67%,P<0.001)、特異度(98% vs.74%,P<0.0010.001)和 F1 分數(統計學中用來衡量二分類模型精確度的指標,是精確率和召回率的調和平均數;90% vs.76%,P<0.001)。這兩種方法的敏感度相似(CLI - NLP 算法 84%;ICD - 9 代碼的算法 88%,P<0.12)。然而,以上研究大多為單中心,需要進一步驗證。2020 年,Weissler 等 [16] 利用杜克大學醫療系統中 6861 例 PAD 患者的臨床筆記,通過 10 倍交叉驗證對 NLP 模型進行了訓練、測試和驗證。與基于結構化數據的方法相比,NLP 模型的 AUC(0.888 vs. 0.801,P<0.0001)和精確度 AUC 的中位數較高(0.909 vs. 0.816)。雖然該研究對 NLP 模型進行了內部驗證,然而仍需要外部驗證。
盡管這些初步結果很有希望,但 NLP 在 PAD 中的應用仍面臨一定的挑戰。非結構化的臨床筆記中包含大量專業術語、隱含信息和復雜的邏輯關系,未來需要加強高效 NLP 技術的開發,滿足醫療實踐中的期望和需求。通過 NLP 技術可以自動識別和分析大量文本形式的內容,從而準確識別出 PAD 患者,還為后續的臨床決策提供堅實的基礎,實現對 PAD 患者風險調整策略的智能提醒(包括抗血小板治療、降血脂治療、降壓治療以及戒煙等)。
2 ML
ML 作為 AI 的一個重要子領域,是通過大量數據或其他經驗自動改進計算機算法的研究,ML 可用于 PAD 患者的識別診斷、預后評估和治療決策。在 ML 算法的開發中,通常被劃分為訓練、驗證和測試三個部分,按照其是否標記數據分為有監督學習和無監督學習 [17 - 20]。
2.1 PAD 患者的識別和診斷
多項研究開發了識別 PAD 的 ML 算法。2016 年,在一項包含 1755 例患者的前瞻性觀察研究中,Ross 等 [21] 采用多種有監督的 ML 算法,以無假設的方式融合各種基線的臨床、人口統計學、影像學和基因組學信息,建立可識別 PAD 患者和預測未來病死率的模型。與標準逐步線性回歸模型相比,ML 模型在識別 PAD 患者(AUC:0.87 vs.0.76,P=0.03)和預測未來病死率(AUC:0.76 vs.0.65,P=0.10)方面均優于逐步邏輯回歸模型。然而,本研究只使用擁有完整數據資料的患者來構建模型。在臨床實踐中,患者數據經常丟失,這可能會降低 ML 模型預測的準確性。2018 年,McCarthy 等 [22] 在 354 例下肢動脈和 / 或冠狀動脈造影的患者中(132 例 PAD 患者)采用生物標志物(中期因子、腎損傷分子 1、白細胞介素 23、卵泡刺激素、血管生成素 1 和嗜酸性粒細胞趨化蛋白 1)與臨床風險因素(高血壓病史)相結合的 ML 模型來識別閉塞性 PAD。該模型的樣本接收器 AUC 為 0.85,交叉驗證 AUC 為 0.84;ML 模型得分越高,血管造影顯示動脈狹窄的嚴重程度越高。
然而,該研究中的人群主要是白種人,且樣本量較小。PAD 影像學表現嚴重程度與臨床癥狀嚴重程度不一定呈線性關系。2020 年,Qutrio Baloch 等 [23] 采用有監督的 ML 方法(隨機森林、神經網絡、廣義線性模型)在 703 例確診或疑似 PAD 患者中發現臨床癥狀嚴重程度評分、小腿圍、年齡(歲)和 6 min 步行距離是識別 PAD 的重要變量。通過 6 min 步行距離評估的下肢運動功能和通過生活質量問卷進行評估的臨床癥狀嚴重程度存在非線性關系。2021 年,Jones 等 [24] 利用由 28868 名健康受試者組成的虛擬患者數據庫,開發了 ML 算法來識別頸動脈狹窄、鎖骨下動脈狹窄、腹主動脈瘤和 PAD 四種血管疾病。該 ML 算法對 PAD 的敏感度和特異度均超過 90%。雖然本研究實現了高精度二元分類,然而 ML 算法僅可以檢測疾病的存在,無法識別疾病的類型。
2.2 PAD 患者的預后評估
ML 模型可以相當準確地預測 PAD 患者重大不良心血管事件、重大不良肢體事件以及全因死亡 [25]。2019 年,Ross 等 [26] 基于三家中心的 7686 例 PAD 患者的電子健康記錄數據,使用結構化(編碼)和非結構化(文本)數據開發 PAD 患者發生重大心腦血管不良事件的 ML 預測模型。采用嵌套交叉驗證的方法對模型進行了開發和測試,最佳預測 PAD 患者發生重大心腦血管不良事件的模型使用了近 1000 個變量,AUC 為 0.81(95%CI=0.8
0.83)。然而,ML 模型具有 “黑箱” 或 “不可解釋” 性,在該研究 PAD 患者群中,年齡與發生重大心腦血管不良事件的相關性不大(在一般人群中,較高的年齡與發生重大心腦血管不良事件相關)。2020 年,Berger 等 [27] 使用新型貝葉斯 ML 平臺建立 3189 例 CLI 患者的全因住院和全因醫療費用年度總額的預測模型。結果發現全因住院的主要預測因素是皮膚和皮下組織感染、蜂窩織炎、膿腫、非選擇性 β - 受體阻滯劑、其他術后護理和骨關節炎。全因醫療費用的主要預測因素包括居住地區和合并癥。然而,模型的準確性尚需進一步的外部驗證。目前尚無標準化的工具來預測 PAD 患者血運重建術后的并發癥,Li 等 [28 - 32] 開展了一系列 ML 模型預測 PAD 血運重建術后(腔內治療、腹股溝下旁路移植術、腹股溝上旁路移植術)并發癥的研究。
2024 年,Li 等 [31] 根據國家外科質量改進計劃的數據庫 21886 例患者的資料(38 個術前人口統計學 / 臨床變量)開發的 ML 學習模型可較為準確地預測 PAD 血運重建術后 30 d 內發生主要肢體不良事件(major adverse limb events,MALE)/ 死亡的發生,AUC 為 0.93(95%CI=0.92 0.94)。但本研究開發的 ML 模型只針對術后短期并發癥的預測,并無長期隨訪的數據。同年,Li 等 [32] 納入 2004 年 1 月 1 日 —2023 年 7 月 5 日期間血管質量倡議(Vascular Quality Initiative,VQI)數據庫中接受血管內介入治療 PAD 并隨訪 1 年的 235677 例患者,開發可預測 PAD 血管內干預后 1 年的 MALE / 死亡 ML 預后模型,表現良好(AUC>0.90)。模型可應用于術前、術中和術后階段,以指導臨床關于風險緩解策略的決策。ML 模型在人口統計學和臨床亞群中仍然保持穩健,并且優于現有的預測工具和邏輯回歸。然而,ML 模型的前瞻性臨床驗證是必要的,以評估其實用性和是否能夠應用于臨床工作流程。
2.3 PAD 患者的治療決策
2013 年,Yurtkuran 等 [33] 采用徑向基函數神經網絡開發 PAD 診斷和治療評估工具。數據集包含 186 份患者記錄,其中 16 個特征與二元治療決定(內科治療或外科治療)相關。結果發現這種 AI 算法有助于加強循證決策。ML 可應用于 PAD 患者的再入院預測。2020 年,Amato 等 [34] 旨在開發 ML 模型以預測 246405 例接受血管修復(包括選擇性頸動脈內膜切除術、主動脈 — 股動脈搭橋術、主動脈瘤修復術和股動脈 — 遠端動脈搭橋術)患者的出院 90 d 內再入院情況。最佳預測模型的主要變量包括住院時間、合并癥評分、動脈內膜切除術和擇期入院類型。該模型可能有助于更好地對患者進行分層,以預防或預測意外再入院。雖然這些方法需要在更大的患者群體中進一步驗證,但這些結果對于開發新工具以提高 PAD 患者的精準醫療水平是令人鼓舞的。ML 在 PAD 的診斷、分類、預后預測以及治療優化方面展現出了巨大的潛力,但 ML 存在數據安全和隱私保護,模型可解釋性不強等方面的問題 [35]。
3 DL 和計算機視覺
DL 是一種利用人工神經網絡(受人類生物學啟發)處理大量數據并提取更高層次和更復雜模式的 ML [36]。計算機視覺,作為 DL 的子領域,是機器處理圖像和視頻的能力。多普勒超聲為 PAD 的常用篩查手段,計算機斷層掃描血管造影(computed tomography angiography,CTA)對于 PAD 的診斷、患者管理和治療至關重要。
3.1 多普勒超聲和 DL
常規二維超聲檢查很難在可接受的時間范圍內觀察到 PAD 的下肢血管樹,而且動脈粥樣硬化病變的測量結果可能與觀察者之間的差異有關。2007 年,Janvier 等 [37] 旨在通過創建一種新型三維超聲成像機器人系統,該系統可在任何掃描距離下控制三維超聲采集過程并使之標準化。該三維超聲成像機器人系統定位和量化下肢動脈狹窄的準確性已在模型和志愿者身上進行了評估,有助于識別和評估 PAD 病變。目前已開發出幾種用于血管成像的三維超聲系統 [38 - 41]。PAD 的超聲檢查還需要分析和解讀壓力和波形。1993 年,Allen 等 [42] 很早就研究了使用人工神經網絡對正常人和 PAD 患者的光電容積脈搏波描記波形進行分類。1995 年,該人工神經網絡算法對 PAD 的診斷性能在 200 例患者的前瞻性研究中進行了測試,結果顯示敏感度為 92%,特異度為 63%,對 PAD 的診斷準確率為 80%[43]。與基于線性判別分類器或 K 近鄰分類器的分類技術相比,人工神經網絡對 PAD 的診斷準確率(80%)高于優化的 K 近鄰分類器(準確率為 76%)和線性判別分類器(準確率為 71%)[44]。
DL 技術可用于識別和區分信號和波形,以識別、分類和評估 PAD 患者動脈粥樣硬化病變的嚴重程度。為了實現對 PAD 患者進行經濟實惠的無創篩查,2020 年,Kim 等 [45] 也開發了基于 DL 的光電容積脈搏波描記波形分析在檢測和評估 PAD 嚴重程度的研究,并在 2000 例虛擬患者中展示了該方法的準確性。結果表明 DL 比 ABI 更準確地識別和評估 PAD 嚴重程度,有望成為實現經濟、便捷的 PAD 篩查和診斷,但該研究使用從虛擬而非真實患者收集的數據來訓練 DL 模型,可能會存在準確性和可靠性方面的問題。2021 年,Luo 等 [46] 從美國印第安納大學衛生系統 5761 例 PAD 患者超聲檢查中,利用超聲檢查中的波形、壓力、流速和斑塊開發了一個 DL 模型對主髂動脈、股腘動脈和膝下動脈三支病變進行分類。DL 算法預測正常病例的準確率為 97%,預測主髂動脈的準確率為 88.2%,預測股腘動脈的準確率為 90.1%,預測膝下動脈三支病變的準確率為 90.5%。該 DL 算法有助于識別和評估 PAD 嚴重程度,但研究中一些波形的圖像大小需要手動調整。2021 年,在一項 214 例受試者的隊列研究中,Allen 等 [47] 驗證了在實際醫療實踐中使用基于 DL 的光電容積脈搏波描記信號識別 PAD 的概念,該 DL 方法的總體測試敏感度為 86.6%,特異度為 90.2%,準確率為 88.9%。檢測輕中度 PAD 的敏感度為 83.0%(75.5% - 88.9%),檢測重度 PAD 的敏感度為 100.0%(90.5% - 100.0%),但無 PAD(292 條肢體)、輕度至中度 PAD(94 條肢體)和重度 PAD 患者(40 條肢體)的分布是不平衡的。
3.2 CTA 和 DL
CTA 的解讀和分析耗時、繁瑣,需要操作者的專業知識,而且不同研究之間可能存在差異。在 265 例接受下肢動脈 CTA 的患者中,Dai 等 [48] 開發和評估一種有監督的卷積神經網絡 DL 模型,以協助放射科醫生根據 PAD 患者下肢動脈 CTA 中斑塊造成的動脈狹窄程度對下肢動脈進行分類。以數字減影血管造影為 “金標準”,與放射科醫生的分類結果相比,DL 模型的分類結果對膝上動脈和膝下動脈的準確率(P=0.266和P=0.808)和特異度(P=0.118和P=0.971)相當,但敏感度較低(P<0.001和P=0.022)。
該模型顯示出良好的診斷性能,有望減輕放射科醫生的工作量,并有助于發現可能被遺漏或誤判的斑塊??紤]到 PAD 多發狹窄閉塞、動脈粥樣硬化鈣化斑塊、支架或金屬偽影等因素的存在,對 PAD 患者的下肢動脈樹進行手動或半自動化分割是一項眾所周知的艱巨而耗時的任務。Mistelbauer 等 [49] 提出了一種新穎的下肢動脈半自動血管跟蹤方法,在對血管、骨骼和其他組織進行自動分類后,相關血管會被追蹤并組織成樹狀結構以便進一步可視化。此方法使專家醫師能夠識別所有相關的下肢動脈,平均敏感度為 92.9%,平均特異度為 99.9%,總體準確率為 99.9%。以目前臨床上已確立的工作流程為參考標準,此方法通過限制人工交互和減少處理時間 [ (17:24±6:44) mm∶ss vs. (28:40±7:45) mm∶ss] 以便心血管放射專家或技術人員創建注釋訓練數據的工作。
4 小結與展望
總的來說,AI 在 PAD 患者管理中的應用前景廣闊,在 PAD 的診斷、分類、預后預測以及治療優化方面展現出了巨大的潛力,并為臨床醫生改進工作流程和更好地規劃手術干預提供了新的工具,有助于發展精準醫療,可通過考慮 PAD 的嚴重程度和風險,提出個性化的治療方法。然而,AI 在日常臨床實踐中的應用尚未得到充分驗證,存在數據安全和隱私保護,模型可解釋性不強等方面的問題。過度訓練的 AI 學習模型可能會導致所應用的模型過擬合,進而影響模型在真實世界數據中的普適性和性能,可使用能代表目標人群的大型可信數據集進行訓練并選擇適當的具有較好泛化能力的算法。其次,與經典傳統的統計方法不同,許多 AI 模型具有 “黑箱” 或 “不可解釋” 性,因為決策的過程對用戶或開發者而言是不透明、難以理解的 [50]。為更好地應對這些問題進一步開發可解釋性 AI 模型是重要的方向。此外,隨著 AI 技術的不斷發展,其可能帶來的倫理和法律挑戰也應受到關注,醫生并不能僅依靠 AI 判定為預后很差的結果就拒絕對治療需求很高的患者進行治療,AI 的預測基于既往的數據和算法,存在偏差或局限性。AI 需要收集和預處理大量不同的數據集,因此,還需要跨學科的合作、高質量的數據支持以及持續的技術創新,以推動 AI 在 PAD 患者醫療實踐中的驗證和實施。
任洪成;陳作觀;李擁軍,北京醫院;中國科學院大學醫學院;航天中心醫院,202412