算法的演進、算力的提升、數據的持續擴展,是當今醫學領域人工智能 (ArTIficial Intelligence,AI) 應用落地與發展,特別是在精準診療與醫療科研中開展實踐的重要基石。這三者中,數據尤為關鍵,其價值不僅僅在于體量,更重在維度和來源,因此醫療科研所需的高質量AI模型構建,通常都離不開多方和多維數據的協同參與。
然而,此前該領域一直被數據隱私保護和信息風險防控要求所制約,各方數據多以數據孤島的型態存在,多方數據協同很難實現。為了更好地挖掘多方和多維數據中的巨大價值,同時更好地兼顧到其隱私和安全的防護,中國醫療智能行業頭部企業醫渡科技旗下醫渡云開始著手研發更為安全和高效的多方安全計算解決方案,包括與英特爾開展深入合作,利用英特爾 軟件防護擴展 (Intel Software Guard Extensions,以下簡稱英特爾 SGX) 技術的優勢,為新方案導入基于硬件可信執行環境 (Trusted ExecuTIon Environment,TEE) 的聯邦學習方法,為醫療科研中參與多方計算的敏感數據和代碼提供更為可靠的安全防護。
客戶引言
“臨床醫學離不開真實世界的研究,而真實世界研究依賴高質量數據。我們正通過構建更為安全和高效的多方安全計算解決方案,讓更多高質量數據被充分利用,成為推動醫療科研事業高速發展的助力。為合法合規地打破因數據安全要求引發的‘數據孤島’問題,我們與英特爾一起,結合其SGX技術構建了聯邦學習方法所需的硬件可信執行環境,讓不同醫療機構的數據協同實現‘更安全+更高效’的雙重優勢?!?/span>
—— 閆峻博士,首席AI科學家,醫渡云
背景與挑戰:
醫療科研亟需更好的數據融合與價值挖掘
1
不過,醫療科研畢竟是一個細分化的、復雜的、系統化的領域,盡管各個醫療科研機構自身都有大量的數據資產,但在體量和維度上仍有較大的差別,這對科研效率會有實質性的影響。畢竟,數據集的體量越大、維度越豐富,能夠從中發現和學習到的特征就越多,基于此構建的AI模型的性能及應用價值也就越高。大量統計數據已表明,多中心研究機構的醫療科研效率往往會優于單中心機構,關鍵就在于多中心機構能借助多方數據的融合與協作,在數據體量及維度上實現更大優勢,進而也能對數據中的價值進行更為深入和全面的挖掘和利用。因此,醫療科研機構普遍期望能開展多方及多樣化的數據協作。如圖一所示,多中心數據融合可為醫療科研帶來以下關鍵優勢:
消除或降低數據偏差:研究區域以及方法、方式的差異,會帶來不同研究中心間的數據差異,通過數據融合,能消除或降低數據偏差,使研究成果泛化能力更強;
擴大科研樣本量:數據融合能夠讓不同研究中心間的臨床數據得以共享,擴大科研所需的數據樣本量,提升最終AI模型的性能;
補充非臨床數據:許多長期跟蹤的醫療科研數據還需要對社區醫療、家庭醫生、體檢機構以及可穿戴設備的數據實施融合。

圖一 多中心數據融合帶來的醫療科研優勢
雖然多方數據協同好處多多,但在實踐中這種融合和協同帶來的數據安全問題也越來越受關注,在國家政策層面,中國已出臺《個人信息保護法》、《數據安全法》等一系列法律法規來對數據安全和隱私信息予以保護。為此,醫療科研機構采取了一系列方法來規避風險,包括采用長鏈條的數據協同審批流程,以人工方式進行數據錄入、轉錄等。但這些方法不僅耗時長、效率低,還缺乏質控且難以溯源,帶來了嚴重的數據孤島問題。
在這種矛盾的現實狀況下,如何合法合規地解決數據孤島問題,讓醫療數據在融合的同時也能滿足隱私保護和科研應用的雙重需求,以及有望兼顧這兩個需求的多方隱私計算技術,就成為了眾多醫療科研機構關注的焦點。
不同于其它領域,醫療科研對基于多方隱私計算技術的數據融合有一些特定的需求,如圖二所示,這些需求涉及:
數據敏感度:醫療科研場景下的數據敏感度很高,“醫療數據不出院”的需求非常強烈,因而在參與各方之間建立信任也非常困難;
數據融合標準化:醫療科研對數據的高質量要求,使之非常依賴數據治理。各個進行中的研究項目可能需要反復的調整納排條件后,再進行全局性的安全聚合計算;
計算需求:醫療科研基于多方隱私計算技術的AI建模通常有著明顯的行業特點,因此AI建模時對計算性能也有很高的要求。

圖二 醫療科研領域數據融合需求的特征
為幫助眾多醫療科研機構打造兼顧高效和安全需求的多方隱私計算能力,為醫療和健康行業提供更優的數據融合與數據科研價值挖掘能力,多年來一直深耕醫療AI與大數據技術創新的醫渡云,以強大的醫學數據治理能力為后盾,通過自研 YiduManda 安全計算引擎為數據融合提供了聯邦學習、聯合統計、聯盟區塊鏈等核心技術保障。
這其中,采用TEE方案的聯邦學習方法憑其在數據“可用而不可見”方面的獨到優勢,在各醫療科研機構的實踐中收獲了良好效果。與其他多方隱私計算方案相比,采用TEE方案的聯邦學習方法具有以下優勢:
醫療數據不脫離本地,各參與方可利用自身擁有的數據訓練全局模型;
每個醫療科研參與方都可參與訓練過程,模型損失可控;
訓練過程能更好地兼顧隱私和安全需求,各參與方能在不暴露數據及加密形態的前提下進行聯合建模。
基于英特爾 SGX,
以聯邦學習方法構建高效多方安全計算解決方案
醫渡云基于聯邦學習等隱私計算方法打造的多方安全計算解決方案,其功能層面如圖三所示,自下而上分別是面向院內外業務系統的數據采集系統、進行數據加工治理的專病庫以及開展多方隱私計算的安全計算平臺。在安全計算平臺之上,醫渡云又通過多中心醫學研究全場景解決方案,部署了一系列面向多樣化醫療科研場景所需的上層應用能力,如臨床研究開展、藥械試驗與研究、診療技術開放推廣、患者隨訪與管理等。

圖三 醫渡云多方安全計算解決方案整體架構
具體來說,方案中各層的功能和作用分別為:
數據采集系統:醫療科研機構開展臨床研究所需的數據一般來自于研究機構的臨床數據中心、隨訪中心、生物樣本庫以及生物信息中心;
專病庫:采集后的數據需要執行同步、脫敏、映射等數據匯聚過程以及歸一標準化、結構化等數據深加工過程。完備的數據加工治理流程,能幫助醫療科研機構按照研究目標,把各個科研參與方(醫院或醫療機構)的多元異構數據轉換成統一格式的高質量數據,通過數據抽取后建立滿足研究所需的專病數據庫;
多方安全計算平臺:醫渡云自研的YiduManda以多方安全計算、聯邦學習為基礎,同時結合英特爾 SGX 將來自各個科研參與方(醫院)的原始數據,通過聯合統計、特性工程(Feature Engining)、邏輯回歸(LogisTIc Regression,LR)、XGBoost 等方法進行聯合統計分析和模型訓練,并最終得到醫療科研AI模型以及相關深度學習模型。
在架構設計上,醫渡云的方案采用了分布式的設計,可分為平臺端(調度節點)和醫院端(計算節點),其中:
平臺端(調度節點):部署在互聯網數據中心或機構聯盟的主中心私有云環境中,包括一套用于聯邦學習等隱私計算的調度層框架以及相應的科研應用平臺。應用層框架對各醫院端隱私計算節點進行統一的管理和協調,并對多方安全計算的任務進行統一調度;
醫院端(計算節點):部署在醫院的私有云環境中,通過隱私計算節點間的協作,能保證數據在不出醫院的前提下完成聯邦學習等多方隱私計算過程,各個節點對其所有的數據有絕對控制權,所有數據調用經過多方安全計算框架可審計。

圖四 醫渡云多方安全計算解決方案中醫院端和平臺端的協作模式
基于上述功能與架構設計,各醫療科研機構之間開展基于聯邦學習的模型協同訓練的過程如圖五所示,數據準備階段是在各個參與協同訓練的醫院或醫療機構本地完成的,準備好的數據通過程序接口加載到醫院端中,隨后平臺端會調度完成模型的協同訓練過程。參與訓練的醫院端通過加密信道與其它參與方完成通信和計算,并最后完成模型的優化訓練。

圖五 基于聯邦學習的模型訓練
在方案的具體部署中,醫渡云引入了英特爾 SGX 來構建基于TEE的聯邦學習方法所需的硬件可信環境。英特爾 SGX 能在內存的特定硬件環境中構造出一個可信的安全“飛地”(Enclave),為醫療科研過程中參與多方計算的敏感數據和代碼提供更強的安全防護。
如圖六所示,與其它技術方案相比,英特爾 SGX 一方面為敏感數據與程序構建了隔離的硬件環境,使安全保護機制獨立于軟件應用、操作系統或硬件配置之外,從而令保密性和完整性大幅提升;另一方面,獨立的“飛地”設置可讓關鍵的應用程序和數據更有效地避開來自硬件驅動程序、虛擬機乃至操作系統的攻擊,帶來更強的安全性?;谟⑻貭?SGX 提供的這些優勢,各醫療科研機構就可將數據分析、模型訓練及推理所涉及的數據運行在“飛地”中,通過訪問控制為這些應用代碼和數據提供更可信賴的安全保障。

圖六 英特爾 SGX技術實際作用示意圖
在性能表現上,英特爾 SGX 基于硬件層面的安全保護機制,可使敏感數據與應用程序獲得來自基于英特爾 架構的處理器強勁性能的加速或助推,從而更好地解決方案中性能和安全的平衡問題,在某些對計算性能和安全等級要求都很高的醫療科研場景中輸出更為全面的應用優勢。
2021年發布的面向單路和雙路服務器的第三代英特爾 至強 可擴展處理器,已集成了英特爾 SGX,并為此提供了更優的支持,其高端型號最高可在雙路系統中支持1TB容量的保留加密內存區域(Enclave Page Cache,EPC),這對于醫療科研機構進一步擴展AI模型訓練與推理的數據規模至關重要,因此該處理器在醫渡云多方安全計算解決方案中也扮演了關鍵角色。當然,除了集成SGX技術外,該處理器對內核微架構、I/O、內存性能及容量的改進和提升,及其內置的英特爾 高級矢量擴展 512 (英特爾 AVX-512)和英特爾 深度學習加速(英特爾 DL Boost)技術對AI應用的硬件加速能力,也為方案涉及的復雜計算需求提供了有力支撐。
落地及展望
得益于服務全國800多家醫療機構,覆蓋60個疾病領域所積累的深厚經驗,醫渡云可以為面向醫療科研領域的多方安全計算解決方案帶來專業的方案設計2,而第三代英特爾 至強 可擴展處理器不僅為方案帶來了數據處理所需的強勁算力,其內置的英特爾 SGX 也為方案提供了更可靠的數據安全防護,使用英特爾 SGX 構建的基于TEE的聯邦學習方法,為多方數據安全、高效的聯合建模打造了更為可信的硬件環境。在面向醫療科研領域的實踐中,醫渡云已經支持多家醫院和醫療科研機構開展了一系列基于多方安全計算解決方案的聯合研究項目。
綜合以上優勢,醫渡云目前已通過了中國信息通信研究院在隱私保護計算技術上的兩項認證,分別為《基于多方安全計算的數據流通產品技術要求與測試方法》與《基于聯邦學習的數據流通產品技術要求與測試方法》3。
隨著采用英特爾 SGX 的多方安全計算解決方案得到越來越多的客戶認可,醫渡云已計劃將該方案作為未來核心產品的一個基礎組件來提供默認的隱私計算能力,并根據用戶需求提供服務。
面向未來,醫渡云也將繼續攜手英特爾,針對多方安全計算中的多中心臨床研究解決方案開展更為深入的合作,這些合作包括:將英特爾 SGX 及相關技術和框架用作其整體隱私計算解決方案中的重要選項,借助該技術在安全特性和性能上的雙重優勢,為那些對計算性能要求較高的場景提供更優的支持,并在單中心內部的隱私保護、跨中心聯邦學習等更多場景中探索英特爾 SGX 的運用。當然,這些合作的目標都是一致的,即為醫療科研事業的發展提供源源不斷的技術助力和數據積累?! ?/span>