ICLR2024 | Harvard FairSeg: 第一個研究分割演算法公平性的大型醫療分割資料集-人工智慧-PHP中文網

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

作者| 田宇

編輯 | 白菜葉

近年來，人工智慧模型的公平性問題受到了越來越多的關注，尤其是在醫學領域，因為醫學模式的公平性對人們的健康和生命至關重要。高品質的醫學公平性資料集對促進公平學習研究非常必要。

現有的醫學公平性資料集都是針對分類任務的，而沒有可用於醫學分割的公平性資料集，但是醫學分割與分類一樣都是非常重要的醫學AI 任務，在某些場景分割甚至優於分類，因為它能夠提供待臨床醫生評估的器官異常的詳細空間資訊。

在最新的研究中，哈佛大學（Harvard University）的Harvard-Ophthalmology-AI-Lab 團隊提出了第一個用於醫學分割的公平性資料集，名為 Harvard-FairSeg，包含 10,000 個病患樣本。此外，還提出了公平的誤差界限縮放方法，透過使用最新的 Segment Anything Model（SAM），以每個身分組的上界誤差為基礎重新加權損失函數。

為了促進公平比較，團隊利用了一種新穎的評估公平性在分割任務的標準，稱為 equity-scaled segmentation performance。透過全面的實驗，研究人員證明了他們的方法要么具有優越性，要么與最先進的公平學習模型在公平性能上相當。

在這裡，哈佛大學的研究人員和大家分享一波 ICLR 2024 中稿的工作「Harvard FairSeg: A Large-Scale Medical Image Segmentation Dataset for Fairness Learning Using Segment Anything Model with Fair Error-Bound Scaling」。

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

文章地址: https://arxiv.org/pdf/2311.02189.pdf

程式碼位址: https://github.com/Harvard-Ophtha-Harcm-Mr. 資料集網站：

https://ophai.hms.harvard.edu/datasets/harvard-fairseg10k/

資料集下載連結:

https://drive.google.com/drive/u/1/folders /1tyhEhYHR88gFkVzLkJI4gE1BoOHoHdWZ

Harvard-Ophthalmology-AI-Lab 致力於提供高品質公平性資料集，更多資料集包含三種眼科疾病的公平性分類任務。

Harvard-Ophthalmology-AI-Lab 的資料集網頁：

https://ophai.hms.harvard.edu/datasets/

背景

隨著人工智慧在醫學影像診斷中的應用日益增加，確保這些深度學習模型的公平性並深入探究在複雜的現實世界情境中可能出現的隱藏偏見變得至關重要。遺憾的是，機器學習模型可能無意中包含了與醫學影像相關的敏感屬性（如種族和性別），這可能會影響模型區分異常的能力。這項挑戰促使人們在機器學習和電腦視覺領域進行了大量的努力，以調查偏見、倡導公平性，並推出新的資料集。

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集截至目前，只有少數公共公平性數據集被提出用於研究公平性分類，主要的是，這些數據集中的大多數都只是表格數據，因此不適合開發需要影像數據的公平計算機視覺模型。對電腦視覺公平性的缺失尤其令人關注，特別是考慮到依賴此類數據的深度學習模型的影響力日益增強。在醫學影像領域，只有少數資料集被用於公平學習。

這些資料集大多沒有專門為公平性建模而設計（目前僅有的醫療影像資料集我們列在了table 1）。它們通常只包含有限範圍的敏感屬性，如年齡、性別和種族，因此限制了檢查不同人群公平性的範圍。此外，它們也缺乏全面的基準測試框架。更重要的是，儘管這些先前的資料集和方法為

醫學分類

提供了解決方案，但它們忽略了醫學分割這一更為關鍵的領域。

然而，為公平學習創建這樣一個新的大型數據集面臨多重挑戰。首先，缺乏大規模、高品質的醫學數據以及手動像素級註釋，這些都需要大量勞動力和時間來收集和標註。其次，現有提升公平性的方法主要是為醫學分類設計的，當適應分割任務時，其表現仍存疑。同樣不確定的是，分割任務中存在的不公平是否可以透過演算法有效地緩解。最後，評估醫學分割模式公平性的評判標準（evaluation metric）仍然難以捉摸。此外，將現有為分類設計的公平性指標適應到分割任務上也可能存在挑戰。

為了解決這些挑戰，我們提出了第一個大規模醫學分割領域的公平性資料集，Harvard-FairSeg。此資料集旨在用於研究公平性的cup-disc segmentation，從 SLO 眼底影像中診斷青光眼，如圖 1 所示。

青光眼是全球不可逆盲目的主要原因之一，在 40-80 歲年齡層的盛行率為 3.54%，影響了約 8,000 萬人。早期青光眼通常無症狀，這強調了及時進行專業檢查的必要性。對 cup-disc 的準確分割對於醫療專業人員早期診斷青光眼至關重要。

值得注意的是，與其他群體相比，黑人患青光眼的風險加倍，然而這一人群的分割準確率通常最低。這激勵我們整理一個資料集，以研究分割公平性問題我們提出的 Harvard-FairSeg 資料集的亮點如下：

（1）醫學分割領域第一個公平性學習資料集。該資料集提供了SLO 眼底成像資料的cup-disc 分割；（2）該資料集配備了從現實醫院臨床情境中收集的六種敏感屬性，用於研究公平性學習問題；（3）我們在我們提出的新資料集上評估了多個 SOTA 公平性學習演算法，並使用包括Dice 和IoU 在內的多種分割效能指標進行了評估。

如何獲得大量的高品質分割標註

本研究中測試的對象來自於一家大型學術眼科醫院，時間跨度為 2010 年至 2021 年。本研究將發布三種類型的數據：（1）SLO 眼底掃描圖像；（2）患者人口統計資訊包含了六種不同的屬性；（3）由OCT 機器自動標註以及由專業醫療從業者手工評級的像素級標註如何獲得大量高品質分割標註一直是醫療分割的重要分體。

我們新穎的透過把cup 和disc 區域的像素標註首先從OCT 機器獲得，其中 disc 邊界在3D OCT 中被分割為Bruch's 膜開口，由OCT 製造商軟體實現， cup 邊界被檢測為內限膜（ ILM）與導致最小表面積的平面之間的交叉點和disc 邊界在平面上的交叉點。大致上，cup 邊界可以被認為是 ILM 上最靠近視盤邊界的位置，即定義為 Bruch’s 膜開口。

由於 Bruch’s 膜開口和內限膜與背景之間的高對比度，它們很容易被分割。因此因為 OCT 製造商軟體利用了 3D 訊息，利用 oct 機器對 cup 和 disc 的分割通常是可靠的。

相比之下，眼底照片上的 2Dcup 和 disc 分割可能因包括衰減的成像訊號和血管阻塞等各種因素而具有挑戰性。然而，由於 OCT 機器相當昂貴且在初級保健中較少見，因此我們提議將這些註釋從 3D OCT 遷移到 2D SLO 眼底圖片，以在初級保健領域的早期青光眼篩檢中產生更廣泛的影響。

具體來說，我們首先使用NiftyReg 工具將SLO 眼底圖像與OCT 衍生的眼底圖像（OCT 眼底）對齊隨後，將NiftyReg 的仿射度量應用於OCT 眼底圖像的cup-disc 掩碼，使其與SLO眼底影像對齊。這個過程有效地產生了大量高品質的SLO眼底遮罩註釋，避免了勞動密集的手工像素標註過程。

值得注意的是，這種 medical registration 的操作在現實世界場景中展示了相當高的精確度，我們的經驗觀察表明，medical registration 成功率大約為 80%。在這一自動化過程之後，產生的掩碼經過嚴格審查，並由五名醫學專業人員小組手動評級，以確保cup-disc 區域的精確標註，並排除位置錯誤的cup 或disc 掩碼和registration 失敗的情況。

資料特徵：我們的 Harvard-FairSeg 資料集包含來自 10,000 名受試者的 10,000 個樣本。我們將資料分為包含 8,000 個樣本的訓練集和包含 2,000 個樣本的測試集。資料集的平均年齡為 60.3±16.5 歲。在該資料集中，包含了六個敏感屬性，用於深入的公平性學習研究，這些屬性包括年齡、性別、種族、民族、首選語言和婚姻狀況。

在種族人口統計上，資料集包括來自三個主要群體的樣本：亞洲人，有919個樣本；黑人，有 1,473 個樣本；白人，有 7,608 個樣本。在性別方面，女性佔受試者的 58.5%，其餘為男性。民族分佈以90.6% 的非西班牙裔，3.7% 的西班牙裔和 5.7% 的未說明。在首選語言方面，92.4% 的受試者首選英語，1.5% 首選西班牙語，1%首選其他語言，5.1% 未確定。從婚姻狀況的角度來看，57.7%的人已婚或有伴侶，27.1% 是單身，6.8% 經歷過離婚，0.8%法律上分居，5.2%是喪偶，2.4% 未說明。

我們的提升公平性的方法Fair Error-Bound Scaling

我們假設獲得較小整體Dice 損失的樣本組意味著模型對該特定組的樣本學習得更好，因此，這些樣本組需要較小的權重。相反，整體 Dice 損失較大的樣本組（即難處理的案例）可能導致較差的泛化能力並引起更多的演算法偏差，這需要為這些樣本組分配較大的學習權重。

因此，我們提出了一種新的公平誤差界限縮放方法，用於在訓練過程中縮放不同人群組之間的 Dice 損失。我們首先定義預測像素得分和真實目標之間的標準Dice 損失表示為：

為了確保在不同屬性組之間的公平性，我們使用一種新穎的公平誤差界限縮放機制來增強上述Dice損失。損失函數：

透過以這些屬性權重調節預測像素得分，這種損失確保不同屬性組在模型訓練過程中平衡地貢獻於損失函數，從而促進公平性。

用於評估公平分割準確性的 metric：傳統的分割度量如 Dice 和 IoU 提供了對分割性能的洞察，但可能無法有效捕捉不同群體間的公平性。考慮到這一點，我們的目標是提出一種新的 metric，既包括分割的準確性，也包括在不同群體間的公平性。這就產生了一個全面的視角，確保模型既準確又公平。

為了納入群體公平性，我們需要單獨評估群體的準確性。我們首先定義一個分割度量準確率差異 ∆，如下所示：

這裡，∆ 測量了每個群體的準確性與整體準確性的總體偏差。當所有群體達到類似的分割準確性時，它接近零。

當我們考慮不同群體間的公平性時，我們需要計算總體分割準確性與每個人口統計群體內的準確性之間的相對差異。基於這個，我們定義了Equity-Scaled Segmentation Performance（ESSP）度量，如下所定義：

這種公式確保 ESSP 始終小於或等於 I。隨著 ∆ 減少（表示群體間的分割性能平等），ESSP 趨於傳統分割 metric。相反，較高的 ∆ 表示群體間分割表現的更大差異，導致較低的 ESSP 得分。

這種方法允許我們評估分割模型不僅在準確性（透過 Dice、IoU 等 metric）上，而且在不同群體間的公平性上。這使得 ESSP 評分函數成為確保醫學影像任務中分割準確性和公平性的關鍵指標。這種 metric 可以和傳統的 dice IoU 拼在一起成為 ES-Dice 和 ES-IoU。

實驗

我們選擇了兩個分割網路作為 backbone。其中，我們選擇了最近推出的分割大模型 Segment Anything Model (SAM) 來實驗 SOTA 的分割準確性，另一個 backbone 我們選擇了 TransUNet。

我們也利用了其他分割的 metric 例如 HD95 ASD 和 NSD 進行測試，以下是在種族上的結果：

以上是ICLR2024 | Harvard FairSeg: 第一個研究分割演算法公平性的大型醫療分割資料集的詳細內容。更多資訊請關注PHP中文網其他相關文章！