隱私權保護：AI實現醫療保健臨床資料匿名化-人工智慧-PHP中文網

隱私權保護：AI實現醫療保健臨床資料匿名化

面對突如其來的新冠疫情，我們已經親眼見證創紀錄等級的資料外洩事件。 IBM最近的一份報告發現，資料外洩的成本也急劇攀升。

醫療保健無疑是受資料外洩影響最大的產業之一，每起資料外洩事件平均造成920萬美元損失。在此類違規案例當中，最常暴露在風險之下的資訊類型正是敏感客戶資料。

製藥和醫療保健企業均需要在保護病患資料的前提下，按照嚴苛的指導要求組織運作。因此，任何違規行為都可能引發高昂代價。例如，在整個藥物發現階段，企業需要收集、處理和儲存個人識別資訊（PII），而在試驗結束並提交臨床申請時，必須在所公佈的結果中註意保護患者隱私。

歐洲藥品管理局（EMA）0070號法規和加拿大衛生部出台的《公開發布臨床資訊》規定，均對資料匿名化提出了具體建議，希望盡量降低利用結果還原病患身分資訊的風險。

除了倡導資料隱私之外，這些法規還要求共享試驗數據，確保社區能夠以此為基礎開展工作。但這無疑讓企業陷入了兩難。

所以，藥廠到底如何在資料隱私與透明度之間求取平衡，同時又能及時、經濟且有效率地發布研究結果？事實證明，AI技術能夠承擔起提交過程中超過97%的工作量，大大減輕企業的營運負擔。

臨床研究結果（CSR）匿名化為何如此困難？

在實施臨床提交匿名化的過程中，企業主要面臨三大核心挑戰：

非結構化資料難於處理：臨床試驗資料當中，有很大一部分屬於非結構化資料。研究結果包含大量文字資料、掃描圖片和表格，處理效率低。研究報告動輒上千頁，從其中辨識出敏感資訊就如同大海撈針。而且，沒有任何標準化技術訓練解決方案能夠自動執行這類處理工作。

手動流程既繁瑣又容易出錯：如今，製藥公司需要雇用數百名員工對臨床研究提交進行匿名處理。整個團隊需要經歷超過25個複雜步驟，典型的摘要文件可能需要長達45天的處理週期。而且在手動檢查幾千頁資料時，枯燥的過程往往極易引發錯誤。

監管指南的開放性解釋：雖然法規中提出不少詳細建議，但細節仍不夠完備。例如，加拿大衛生部的《公開發布臨床資訊》規定就要求身分資訊的還原風險應低於9%，卻並未詳細介紹具體的風險計算方法。

下面，我們將從解決問題的角度，設想能夠處理這類匿名化需求的具體方案。

利用增強分析來辨識人類語言中的敏感資訊

以下三大要素，有助於建立技術驅動型的匿名化解決方案：

用於自然語言處理（NLP）的AI語言模式

如今，AI已經能夠像藝術家一樣創作，也能像醫生一樣診斷。深度學習技術已推動AI取得許多進步，而AI語言模式正是其中一股中堅力量。作為專司處理人類語言的演算法分支，AI語言模型特別擅長偵測命名實體，例如病患姓名、社保號碼和郵遞區號。

不知不覺中，這些強大的AI模型已經滲透到公共領域的各個角落，並受到公開文件的規模化訓練。除了知名的維基百科之外，包含40,000名病患脫敏資料的MIMIC-III v1.4資料庫也成為訓練AI模型的寶貴資源。當然，為了提升模型效能，還需要由領域專家根據內部臨床試驗報告，對模型進行後續重新訓練。

透過人機迴圈設計提高準確率

加拿大衛生部提出的9%風險門檻標準，可以大致轉化為95%左右的模型準確度要求（一般用召回率或精確度來衡量）。 AI演算法能夠查看大量資料並運行多輪訓練週期來提高自身準確度。然而，單靠技術改進還不足以為臨床應用做好準備，這些模型還需要人的引導與支持。

為了解決臨床試驗數據的主觀性並改善產出結果，分析解決方案在設計上要求與人類協同工作——這就是所謂增強智能。即將人類視為人機迴圈中的一部分，他們不僅負責資料標記和模型訓練，同時在解決方案生效後定期提供回饋。透過這種方式，模型的準確度和產出性能都將有所提升。

以協同方式解決問題

我們假設某項研究共涉及1000名患者，其中980名來自美國本土，其餘20人來自南美洲。那麼，是否需要對這20位患者的資料進行編輯（塗黑）或匿名化處理？是否有必要在同一國家或洲內選擇病患樣本？攻擊者可能會以哪些方式把這些匿名化資訊同年齡、郵遞區號等資料結合起來，最終還原病患身分？

很遺憾，這些問題並沒有標準答案。為了更清楚地解釋臨床提交指南，製藥商、臨床研究組織（CRO）、技術解決方案供應商和學術界的研究人員需要聯合起來、協同處理。

AI驅動的匿名化方法

有了以上幾條基本思路，接下來就是把它們拼湊成完整的解決方案流程。而整個匿名化方案中的各項技術，應當基於我們已經在工作中使用的實際方法。

臨床研究報告中包含各種結構化資料（數字與身分實體，例如人口統計資訊和地址條目），以及我們之前討論過的各種非結構化資料元素。必須妥善處理，才能防止惡意駭客將這些內容還原為敏感的命名實體。結構化資料相對容易處理，但AI演算法還需要攻克非結構化資料這道難關。

因此，首先使用光學字元辨識（OCR）或電腦視覺等技術，將非結構化資料（通常為掃描影像或PDF等格式）轉換為可讀形式。之後，將AI演算法應用於文件以檢測個人識別資訊。為了提升演算法效能，使用者可以分享對樣本結果的回饋，幫助系統了解該如何處理這些置信度較低的分析內容。

隱私權保護：AI實現醫療保健臨床資料匿名化

AI驅動的匿名化方法

在匿名化完成之後，也須評估對應的身份還原風險。這項工作通常需要參考人群背景，再結合其他類似試驗的數據來共同完成。風險評估會透過一組元素著重識別三大風險場景—檢察官、記者和行銷人員。這三群群體會從自身需求出發，嘗試將病患資訊還原。

在風險等級達到規定建議的9%之前，匿名化流程會持續引入更多業務規則和演算法改進，嘗試以重複循環的方式增強效能。再透過與其他技術應用的整合並建立機器學習營運（ML Ops）流程，整個匿名化方案就可以被納入實際工作流程當中。

比演算法更艱難的挑戰—資料品質

對製藥公司來說，這樣的匿名化解決方案能夠將提交週期縮短達97%。更重要的是，這種半自動化工作流程既提高了效率，同時也保證有人類參與其中。但是，建構AI驅動型匿名化解決方案面臨的最大挑戰又是什麼？

其實與大多數資料科學實踐一樣，這項工作的最大阻礙並不是用於識別命名實體的AI演算法，而是如何將研究報告轉換為可供AI處理的高品質資料。對於格式不同、樣式和結構各異的文檔，對應的內容攝取管道經常會無所適從。

因此，AI匿名化解決方案需要不斷微調以適應新的文件編碼格式，或準確地偵測出圖片/表格掃描件中的起始和結束位置。很明顯，這方面工作才是AI匿名化當中最耗費時間和精力的領域。

臨床研究的匿名化新挑戰

隨著科技的快速進步，臨床研究的匿名化難度會不會持續降低、更有效率？雖然AI驅動型解決方案確實令人眼前一亮，但後續也將有新的挑戰需要關注。

首先，透過社群媒體、裝置使用情況和線上追蹤等方式收集到的消費者數據，正大幅提升身分還原的風險。攻擊者可以將這些公開資訊同臨床研究數據結合，準確地識別出患者的身份。更令人擔憂的是，惡意駭客在AI成果的運用上非常積極，甚至有可能搶在製藥公司的行動之前。

最後，法規也持續演變，著力適應特定國家的實踐態勢。也許很快就會有國家公佈臨床提交匿名化的具體法規，這必將增加企業維持合規的複雜性和成本負擔。但所謂前途是光明的、道路是曲折的，AI技術的發展成熟至少為整個產業帶來了攻克難題的希望曙光。

以上是隱私權保護：AI實現醫療保健臨床資料匿名化的詳細內容。更多資訊請關注PHP中文網其他相關文章！