ICLR2024 |. Harvard FairSeg: Der erste groß angelegte medizinische Segmentierungsdatensatz zur Untersuchung der Fairness von Segmentierungsalgorithmen-KI-php.cn

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

Autor | Tian Yu

Herausgeber | Auswirkungen auf die Gesundheit der Menschen. Gesundheit und Leben sind wichtig. Um die Forschung zu gerechtem Lernen voranzutreiben, sind qualitativ hochwertige Datensätze zur medizinischen Gerechtigkeit erforderlich.

Vorhandene medizinische Fairness-Datensätze zielen alle auf Klassifizierungsaufgaben ab, und für die medizinische Segmentierung ist kein Fairness-Datensatz verfügbar. In einigen Szenarien ist die Segmentierung der Klassifizierung sogar überlegen detaillierte räumliche Informationen zu Organanomalien, die vom Kliniker beurteilt werden sollen.

In der neuesten Forschung schlug das Harvard-Ophthalmology-AI-Lab-Team der Harvard University den ersten Fairness-Datensatz für die medizinische Segmentierung vor, genannt Harvard-FairSeg, der 10.000 Patientenproben enthält. Darüber hinaus wird eine faire fehlerbeschränkte Skalierungsmethode vorgeschlagen, bei der das neueste „Segment Anything Model“ (SAM) verwendet wird, um die Verlustfunktion basierend auf dem oberen Grenzfehler für jede Identitätsgruppe neu zu gewichten.

Um faire Vergleiche zu ermöglichen, nutzte das Team ein neuartiges Kriterium zur Bewertung der Fairness bei Segmentierungsaufgaben, die so genannte „equity-scaled segmentation performance“. Durch umfassende Experimente zeigen die Forscher, dass ihr Ansatz in der Fairness-Leistung modernsten Fairness-Lernmodellen entweder überlegen oder vergleichbar ist. Hier teilen Forscher der Harvard University mit Ihnen eine Welle der endgültigen Entwurfsarbeiten des ICLR 2024 „

Harvard FairSeg: A Large-Scale Medical Image Segmentation Dataset for Fairness Learning Using Segment Anything Model with Fair Error-Bound Scaling

“.

Artikeladresse:

https://arxiv.org/pdf/2311.02189.pdf ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

Codeadresse: https://github.com/Harvard-Ophthalmology-AI-Lab/Harvard-FairSeg

Datensatz-Website: https://ophai.hms.harvard.edu/datasets/harvard-fairseg10k/

Datensatz-Download-Link: https://drive.google.com/drive/u/1/folders /1tyhEhYHR88gFkVzLkJI4gE1BoOHoHdWZ

Harvard-Ophthalmology-AI-Lab ist bestrebt, qualitativ hochwertige Fairness-Datensätze bereitzustellen, und weitere Datensätze umfassen Fairness-Klassifizierungsaufgaben für drei Augenerkrankungen. Datensatz-Webseite des Harvard-Ophthalmology-AI-Lab:

https://ophai.hms.harvard.edu/datasets/

Hintergrund

Mit der zunehmenden Anwendung künstlicher Intelligenz in der medizinischen Bildgebungsdiagnose wird es immer mehr Dies ist von entscheidender Bedeutung, um die Fairness dieser Deep-Learning-Modelle sicherzustellen und die verborgenen Vorurteile zu untersuchen, die in komplexen realen Situationen auftreten können. Leider können maschinelle Lernmodelle versehentlich sensible Attribute im Zusammenhang mit medizinischen Bildern (wie Rasse und Geschlecht) enthalten, was sich auf die Fähigkeit des Modells zur Unterscheidung von Anomalien auswirken kann. Diese Herausforderung hat zahlreiche Bemühungen im Bereich maschinelles Lernen und Computer Vision vorangetrieben, um Voreingenommenheit zu untersuchen, sich für Fairness einzusetzen und neue Datensätze einzuführen.

Derzeit wurden nur wenige öffentliche Fairness-Datensätze für die Untersuchung der Fairness-Klassifizierung vorgeschlagen. Die Hauptsache ist, dass die meisten dieser Datensätze nur tabellarische Daten sind und daher nicht für die Entwicklung von Fairness-Computer-Vision geeignet sind, die Bildgebung erfordert Datenmodell. Dieser Mangel an Fairness in der Bildverarbeitung ist besonders besorgniserregend, insbesondere angesichts des wachsenden Einflusses von Deep-Learning-Modellen, die auf solchen Daten basieren. Im Bereich der medizinischen Bildgebung wurden nur wenige Datensätze für faires Lernen verwendet.

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集 Die meisten dieser Datensätze sind nicht speziell für die Fairness-Modellierung konzipiert (die einzigen medizinischen Bilddatensätze sind derzeit in Tabelle 1 aufgeführt). Sie enthalten in der Regel nur eine begrenzte Anzahl sensibler Merkmale wie Alter, Geschlecht und Rasse, wodurch der Spielraum für die Untersuchung der Fairness zwischen verschiedenen Bevölkerungsgruppen eingeschränkt wird. Darüber hinaus fehlt ihnen auch ein umfassender Benchmarking-Rahmen. Noch wichtiger ist, dass diese früheren Datensätze und Methoden zwar Lösungen für die

medizinische Klassifizierung

liefern, den kritischeren Bereich der

medizinischen Segmentierung

jedoch ignorieren.

Die Erstellung eines so neuen großen Datensatzes für faires Lernen steht jedoch vor mehreren Herausforderungen. Erstens mangelt es an umfangreichen, qualitativ hochwertigen medizinischen Daten und manueller Annotation auf Pixelebene, deren Erfassung und Annotation viel Arbeit und Zeit erfordert. Zweitens sind bestehende Methoden zur Verbesserung der Fairness hauptsächlich für die medizinische Klassifizierung konzipiert und ihre Leistung bleibt fraglich, wenn sie an Segmentierungsaufgaben angepasst werden. Es ist auch ungewiss, ob die in der Segmentierungsaufgabe vorhandene Ungerechtigkeit effektiv algorithmisch gemildert werden kann. Schließlich sind Bewertungsmetriken zur Beurteilung der Fairness medizinischer Segmentierungsmodelle weiterhin unklar. Darüber hinaus kann es zu Herausforderungen bei der Anpassung vorhandener Fairnessmetriken für die Klassifizierung an Segmentierungsaufgaben kommen.

Um diesen Herausforderungen zu begegnen, schlagen wir den ersten groß angelegten Fairness-Datensatz im Bereich der medizinischen Segmentierung vor, Harvard-FairSeg. Dieser Datensatz soll zur Untersuchung der fairen Tassen-Bandscheiben-Segmentierung zur Diagnose eines Glaukoms anhand von SLO-Fundusbildern verwendet werden, wie in Abbildung 1 dargestellt.

Glaukom ist eine der häufigsten Ursachen für irreversible Blindheit weltweit, mit einer Prävalenz von 3,54 % in der Altersgruppe der 40- bis 80-Jährigen, von der etwa 80 Millionen Menschen betroffen sind. Das frühe Glaukom verläuft oft asymptomatisch, was die Notwendigkeit einer sofortigen professionellen Untersuchung unterstreicht. Eine genaue Segmentierung der Becherscheiben ist für die Frühdiagnose eines Glaukoms durch medizinisches Fachpersonal von entscheidender Bedeutung.

Bemerkenswert ist, dass schwarze Menschen im Vergleich zu anderen Gruppen ein doppelt so hohes Risiko haben, an Glaukom zu erkranken, dennoch weist diese Gruppe im Allgemeinen die niedrigste Segmentierungsgenauigkeit auf. Dies motiviert uns, einen Datensatz zu erstellen, um das Problem der Segmentierungsgerechtigkeit zu untersuchen. Die Highlights unseres vorgeschlagenen Harvard-FairSeg-Datensatzes sind wie folgt:

(1) Der erste Fairness-Lerndatensatz im Bereich der medizinischen Segmentierung. Dieser Datensatz bietet eine Cup-Disc-Segmentierung von SLO-Fundus-Bildgebungsdaten. (2) Dieser Datensatz ist mit sechs sensiblen Attributen ausgestattet, die aus realen klinischen Krankenhausszenarien gesammelt wurden, um das Fairness-Lernproblem zu untersuchen werden anhand des vorgeschlagenen neuen Datensatzes ausgewertet und anhand mehrerer Segmentierungsleistungsmetriken, einschließlich Dice und IoU, bewertet.
So erhalten Sie eine große Anzahl hochwertiger Segmentierungsanmerkungen
Die in dieser Studie getesteten Probanden stammten aus einer großen akademischen Augenklinik und der Zeitraum reichte von 2010 bis 2021. In dieser Studie werden drei Arten von Daten veröffentlicht: (1) SLO-Fundus-Scan-Bilder; (2) demografische Informationen des Patienten, die sechs verschiedene Attribute enthalten, (3) automatisch von OCT-Geräten kommentiert und von professionellen Ärzten manuell bewertet Hochwertige Segmentierungsanmerkungen mit Anmerkungen auf Pixelebene waren schon immer ein sehr wichtiger Bestandteil der medizinischen Segmentierung.

Unsere neuartige Methode besteht darin, zunächst die Pixelanmerkung der Tassen- und Bandscheibenbereiche vom OCT-Gerät zu erhalten, wobei die Bandscheibengrenze im 3D-OCT, das von der Software des OCT-Herstellers implementiert wird, in Bruchsche Membranöffnungen unterteilt wird, und die Tassengrenze wird als innere Grenzmembran (der Schnittpunkt zwischen ILM) und der Ebene erkannt, die die minimale Oberfläche und den Schnittpunkt der Scheibengrenze auf der Ebene ergibt. Grob gesagt kann man sich den Becherrand als die Stelle auf dem ILM vorstellen, die der Papille-Grenze am nächsten liegt, definiert als Bruchsche Membranöffnung.

Bruchsche Membranöffnung und innere Grenzmembran lassen sich aufgrund des hohen Kontrasts zwischen ihnen und dem Hintergrund leicht segmentieren. Da die OCT-Maker-Software 3D-Informationen nutzt, ist die Segmentierung von Tassen und Scheiben mithilfe von OCT-Geräten im Allgemeinen zuverlässig.

Im Gegensatz dazu kann die 2D-Becher- und Bandscheibensegmentierung auf Fundusfotos aufgrund verschiedener Faktoren, einschließlich abgeschwächter Bildsignale und Gefäßverschlüsse, eine Herausforderung darstellen. Da OCT-Geräte jedoch recht teuer und in der Primärversorgung weniger verbreitet sind, schlagen wir vor, diese Anmerkungen von 3D-OCT auf 2D-SLO-Fundusbilder zu migrieren, um eine größere Wirkung beim frühen Glaukom-Screening in der Primärversorgung zu erzielen.

Konkret verwenden wir zunächst das NiftyReg-Tool, um das SLO-Fundusbild mit dem OCT-abgeleiteten Fundusbild (OCT-Fundus) auszurichten. Anschließend wenden wir zur Ausrichtung die affine Metrik von NiftyReg auf die Schalen-Scheiben-Maske des OCT-Fundusbilds an es mit der SLO Fundus-Bildausrichtung. Dieser Prozess erzeugt effektiv eine große Anzahl hochwertiger SLO-Fundusmaskenanmerkungen und vermeidet den arbeitsintensiven manuellen Pixelanmerkungsprozess.

Es ist erwähnenswert, dass dieser medizinische Registrierungsvorgang in realen Szenarien eine recht hohe Genauigkeit aufweist und unsere empirischen Beobachtungen zeigen, dass die Erfolgsquote bei der medizinischen Registrierung etwa 80 % beträgt. Im Anschluss an diesen automatisierten Prozess werden die generierten Masken von einem Gremium aus fünf medizinischen Fachkräften sorgfältig überprüft und manuell bewertet, um eine präzise Beschriftung der Pfannen-Bandscheiben-Regionen sicherzustellen und falsch platzierte Pfannen- oder Bandscheiben-Masken sowie Registrierungsfehler auszuschließen.

Datenfunktionen:
Unser Harvard-FairSeg-Datensatz enthält 10.000 Proben von 10.000 Probanden. Wir teilen die Daten in einen Trainingssatz mit 8.000 Proben und einen Testsatz mit 2.000 Proben auf. Das Durchschnittsalter des Datensatzes betrug 60,3 ± 16,5 Jahre. In diesem Datensatz sind sechs sensible Attribute für eine eingehende Forschung zum Fairness-Lernen enthalten, darunter Alter, Geschlecht, Rasse, ethnische Zugehörigkeit, bevorzugte Sprache und Familienstand.
In Bezug auf die Rassendemografie umfasst der Datensatz Stichproben aus drei Hauptgruppen: Asiaten mit 919 Stichproben; Schwarze mit 1.473 Stichproben und Weiße mit 7.608 Stichproben. Bezogen auf das Geschlecht waren 58,5 % der Probanden Frauen, der Rest waren Männer. Die ethnische Verteilung betrug 90,6 % Nicht-Hispanoamerikaner, 3,7 % Hispanoamerikaner und 5,7 % keine Angabe. Bezüglich der bevorzugten Sprache bevorzugten 92,4 % der Probanden Englisch, 1,5 % bevorzugten Spanisch, 1 % bevorzugten andere Sprachen und 5,1 % waren unentschlossen. Was den Familienstand betrifft, waren 57,7 % verheiratet oder lebten in einer Partnerschaft, 27,1 % waren ledig, 6,8 % hatten eine Scheidung hinter sich, 0,8 % lebten vor Gericht getrennt, 5,2 % waren verwitwet und 2,4 % machten keine Angaben.

Unser Ansatz zur Verbesserung der Fairness, Fair Error-Bound Scaling

Wir gehen davon aus, dass Stichprobengruppen, die insgesamt einen geringeren Würfelverlust erzielen, bedeuten, dass das Modell für diese bestimmte Stichprobengruppe besser lernt, daher müssen diese Stichprobengruppen sein kleiner Kleines Gewicht. Umgekehrt können Stichprobengruppen mit insgesamt größerem Dice-Verlust (d. h. hartnäckige Fälle) zu schlechteren Generalisierungsfähigkeiten führen und eine stärkere Algorithmusverzerrung hervorrufen, was die Zuweisung größerer Lerngewichte zu diesen Stichprobengruppen erfordert.

Daher schlagen wir eine neue faire fehlergebundene Skalierungsmethode zur Skalierung des Würfelverlusts zwischen verschiedenen Bevölkerungsgruppen während des Trainings vor. Wir definieren zunächst den Standard-Dice-Verlust zwischen vorhergesagten Pixelwerten und Ground-Truth-Zielen als:

Um Fairness zwischen verschiedenen Attributgruppen sicherzustellen, verwenden wir einen neuartigen Mechanismus zur fairen fehlerbegrenzten Skalierung, um den oben genannten Dice-Verlust zu erhöhen. Verlustfunktion:

Durch Anpassen der vorhergesagten Pixelwerte an diese Attributgewichte stellt dieser Verlust sicher, dass verschiedene Attributgruppen während des Modelltrainings in ausgewogener Weise zur Verlustfunktion beitragen, wodurch die Fairness gefördert wird.

Metriken zur Bewertung der Genauigkeit der fairen Segmentierung: Traditionelle Segmentierungsmetriken wie Dice und IoU bieten Einblicke in die Segmentierungsleistung, erfassen die Fairness zwischen verschiedenen Gruppen jedoch möglicherweise nicht effektiv. Vor diesem Hintergrund wollen wir eine neue Metrik vorschlagen, die sowohl die Segmentierungsgenauigkeit als auch die Fairness zwischen verschiedenen Gruppen umfasst. Dies führt zu einer umfassenden Perspektive und stellt sicher, dass das Modell sowohl genau als auch fair ist.

Um Gruppengerechtigkeit zu integrieren, müssen wir die Gruppengenauigkeit individuell bewerten. Wir definieren zunächst eine Segmentierungsmaß-Genauigkeitsdifferenz Δ wie folgt:

Hier misst Δ die Gesamtabweichung der Genauigkeit jeder Population von der Gesamtgenauigkeit. Sie geht gegen Null, wenn alle Gruppen eine ähnliche Segmentierungsgenauigkeit erreichen.

Wenn wir die Fairness zwischen verschiedenen Gruppen berücksichtigen, müssen wir den relativen Unterschied zwischen der Gesamtgenauigkeit der Segmentierung und der Genauigkeit innerhalb jeder demografischen Gruppe berechnen. Auf dieser Grundlage definieren wir die Equity-Scaled Segmentation Performance (ESSP)-Metrik wie folgt:

Diese Formel stellt sicher, dass ESSP immer kleiner oder gleich I ist. Wenn Δ abnimmt (was auf eine gleiche Segmentierungsleistung zwischen den Gruppen hinweist), tendiert ESSP zur traditionellen Segmentierungsmetrik. Im Gegensatz dazu weist ein höheres Δ auf größere Unterschiede in der Segmentierungsleistung zwischen den Gruppen hin, was zu niedrigeren ESSP-Werten führt.

Dieser Ansatz ermöglicht es uns, Segmentierungsmodelle nicht nur hinsichtlich ihrer Genauigkeit (über Dice, IoU usw.-Metriken), sondern auch hinsichtlich der Fairness zwischen verschiedenen Gruppen zu bewerten. Dies macht die ESSP-Bewertungsfunktion zu einer Schlüsselmetrik, um die Genauigkeit und Fairness der Segmentierung bei medizinischen Bildgebungsaufgaben sicherzustellen. Diese Metrik kann mit traditionellem Dice-IoU kombiniert werden, um ES-Dice und ES-IoU zu werden.

Experiment

Wir haben zwei Segmentierungsnetzwerke als Rückgrat ausgewählt. Unter diesen haben wir das kürzlich eingeführte große Segmentierungsmodell Segment Anything Model (SAM) ausgewählt, um mit der Segmentierungsgenauigkeit von SOTA zu experimentieren, und als anderen Backbone haben wir TransUNet ausgewählt.

Wir haben auch andere Segmentierungsmetriken wie HD95 ASD und NSD zum Testen verwendet. Das Folgende sind die Ergebnisse zum Rennen:

Das obige ist der detaillierte Inhalt vonICLR2024 |. Harvard FairSeg: Der erste groß angelegte medizinische Segmentierungsdatensatz zur Untersuchung der Fairness von Segmentierungsalgorithmen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!