ICLR2024 |. Harvard FairSeg: Set data segmentasi perubatan berskala besar yang pertama untuk mengkaji keadilan algoritma segmentasi-AI-php.cn

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

Penulis |. Tian Yu

Editor |. memberi kesan kepada kesihatan dan kehidupan manusia. Set data ekuiti perubatan berkualiti tinggi diperlukan untuk memajukan penyelidikan pembelajaran yang saksama.

Data data kesaksamaan perubatan sedia ada semuanya ditujukan kepada tugas klasifikasi, dan tiada set data kesaksamaan tersedia untuk pensegmenan perubatan Walau bagaimanapun, pensegmenan perubatan ialah tugas AI perubatan yang sangat penting seperti klasifikasi, pembahagian malah lebih baik daripada klasifikasi kerana ia menyediakan maklumat spatial terperinci tentang keabnormalan organ untuk dinilai oleh doktor.

Dalam penyelidikan terkini, pasukan Harvard-Ophthalmology-AI-Lab di Universiti Harvard mencadangkan set data keadilan pertama untuk segmentasi perubatan, dinamakan Harvard-FairSeg, yang mengandungi 10,000 sampel pesakit. Selain itu, kaedah penskalaan terikat ralat yang adil dicadangkan dengan menggunakan

Model Apa-apa Segmen

(SAM) terkini untuk menimbang semula fungsi kehilangan berdasarkan ralat sempadan atas bagi setiap kumpulan identiti. Untuk memudahkan perbandingan saksama, pasukan menggunakan kriteria baru untuk menilai kesaksamaan dalam tugas pembahagian yang dipanggil prestasi pembahagian berskala ekuiti. Melalui eksperimen yang komprehensif, para penyelidik menunjukkan bahawa pendekatan mereka adalah sama ada unggul atau setanding dalam prestasi keadilan dengan model pembelajaran keadilan yang terkini.

Di sini, penyelidik dari Universiti Harvard berkongsi dengan anda gelombang kerja draf akhir ICLR 2024 "

Harvard FairSeg: Set Data Segmentasi Imej Perubatan Berskala Besar untuk Pembelajaran Kesaksamaan Menggunakan Model Apa-apa Segmen dengan Penskalaan Terikat Ralat Yang Adil

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

Alamat artikel:

https://arxiv.org/pdf/2311.02189.pdf

Alamat kod:

https://github.com/Harvard-Ophthalmology-AI-Fabir

Tapak web set data: https://ophai.hms.harvard.edu/datasets/harvard-fairseg10k/

Pautan muat turun Set data: https://drive.google.com/drive/u/1/folders /1tyhEhYHR188GJFkVgz

Harvard-Ophthalmology-AI-Lab komited untuk menyediakan set data keadilan berkualiti tinggi, dan lebih banyak set data termasuk tugas klasifikasi keadilan untuk tiga penyakit oftalmik.

Halaman web set data Harvard-Ophthalmology-AI-Lab:

https://ophai.hms.harvard.edu/datasets/

Latar Belakang

Dengan peningkatan penggunaan kecerdasan buatan dalam perubatan, ia menjadi imaging penting untuk memastikan kesaksamaan model pembelajaran mendalam ini dan untuk menyelidiki bias tersembunyi yang mungkin timbul dalam situasi dunia sebenar yang kompleks. Malangnya, model pembelajaran mesin mungkin secara tidak sengaja menyertakan atribut sensitif yang berkaitan dengan imej perubatan (seperti bangsa dan jantina), yang boleh memberi kesan kepada keupayaan model untuk membezakan anomali. Cabaran ini telah mendorong banyak usaha dalam pembelajaran mesin dan penglihatan komputer untuk menyiasat berat sebelah, menyokong keadilan dan memperkenalkan set data baharu.

Setakat ini, hanya beberapa set data keadilan awam telah dicadangkan untuk mengkaji klasifikasi keadilan Perkara utama ialah kebanyakan set data ini hanyalah data jadual, jadi ia tidak sesuai untuk membangunkan visi komputer keadilan yang memerlukan pengimejan. data. Kekurangan keadilan dalam penglihatan komputer menjadi perhatian khusus, terutamanya memandangkan pengaruh model pembelajaran mendalam yang semakin meningkat yang bergantung pada data tersebut. Dalam bidang pengimejan perubatan, hanya beberapa set data telah digunakan untuk pembelajaran yang adil. ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

Kebanyakan set data ini tidak direka khusus untuk pemodelan keadilan (satu-satunya set data imej perubatan pada masa ini disenaraikan dalam jadual 1). Ia biasanya hanya mengandungi julat terhad atribut sensitif seperti umur, jantina dan bangsa, sekali gus mengehadkan skop untuk memeriksa keadilan merentas populasi yang berbeza. Tambahan pula, mereka juga tidak mempunyai rangka kerja penanda aras yang komprehensif. Lebih penting lagi, walaupun set data dan kaedah terdahulu ini menyediakan penyelesaian untuk

pengkelasan perubatan

, mereka mengabaikan kawasan yang lebih kritikal bagi

segmentasi perubatan.

Walau bagaimanapun, mencipta set data yang begitu besar untuk pembelajaran adil menghadapi pelbagai cabaran. Pertama, terdapat kekurangan data perubatan berskala besar, berkualiti tinggi dan anotasi peringkat piksel manual, yang memerlukan banyak tenaga kerja dan masa untuk mengumpul dan membuat anotasi. Kedua, kaedah sedia ada untuk meningkatkan keadilan terutamanya direka untuk klasifikasi perubatan, dan prestasinya tetap dipersoalkan apabila disesuaikan dengan tugasan pembahagian. Ia juga tidak pasti sama ada ketidakadilan yang terdapat dalam tugas pembahagian boleh dikurangkan dengan berkesan secara algoritma. Akhir sekali, metrik penilaian untuk menilai kesaksamaan model segmentasi perubatan kekal sukar difahami. Selain itu, mungkin terdapat cabaran dalam menyesuaikan metrik kesaksamaan sedia ada yang direka bentuk untuk pengelasan kepada tugas pembahagian.

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

Untuk menangani cabaran ini, kami mencadangkan set data keadilan berskala besar pertama dalam bidang segmentasi perubatan, Harvard-FairSeg. Set data ini direka bentuk untuk digunakan untuk mengkaji segmentasi cakera cawan yang adil untuk mendiagnosis glaukoma daripada imej fundus SLO, seperti yang ditunjukkan dalam Rajah 1.

Glaucoma adalah salah satu punca utama buta tidak boleh pulih di seluruh dunia, dengan prevalens 3.54% dalam kumpulan umur 40-80, yang menjejaskan kira-kira 80 juta orang. Glaukoma awal selalunya tanpa gejala, yang menekankan keperluan untuk pemeriksaan profesional segera. Pembahagian cakera cawan yang tepat adalah penting untuk diagnosis awal glaukoma oleh profesional perubatan.

Terutamanya, orang kulit hitam mempunyai dua kali ganda risiko menghidap glaukoma berbanding kumpulan lain, namun kumpulan ini secara amnya mempunyai ketepatan segmentasi yang paling rendah. Ini mendorong kami untuk menyusun set data untuk mengkaji masalah keadilan segmentasi Sorotan set data Harvard-FairSeg kami yang dicadangkan adalah seperti berikut:

(1) Dataset pembelajaran keadilan pertama dalam bidang pensegmenan perubatan. Set data ini menyediakan segmentasi cawan-cakera data pengimejan fundus SLO; (2) Set data ini dilengkapi dengan enam atribut sensitif yang dikumpulkan daripada senario klinikal hospital kehidupan sebenar untuk mengkaji masalah pembelajaran keadilan; dinilai pada set data baharu yang dicadangkan dan dinilai menggunakan pelbagai metrik prestasi segmentasi termasuk Dice dan IoU.

Cara mendapatkan sejumlah besar anotasi segmentasi berkualiti tinggi

Subjek yang diuji dalam kajian ini datang dari hospital mata akademik yang besar, dan jangka masa adalah dari 2010 hingga 2021. Kajian ini akan menerbitkan tiga jenis data: (1) imej imbasan SLO fundus (2) maklumat demografi pesakit yang mengandungi enam atribut berbeza secara automatik oleh mesin OCT dan dinilai secara manual oleh pengamal perubatan profesional. anotasi segmentasi berkualiti tinggi dengan anotasi tahap piksel sentiasa menjadi bahagian yang sangat penting dalam segmentasi perubatan.

Kaedah baru kami ialah mendapatkan dahulu anotasi piksel bagi kawasan cawan dan cakera daripada mesin OCT, di mana sempadan cakera dibahagikan kepada bukaan membran Bruch dalam OCT 3D, yang dilaksanakan oleh perisian pengeluar OCT, dan sempadan cawan dikesan sebagai membran had dalam ( Persilangan antara ILM) dan satah yang menghasilkan luas permukaan minimum dan persilangan sempadan cakera pada satah. Secara kasarnya, sempadan cawan boleh dianggap sebagai lokasi pada ILM yang paling hampir dengan sempadan cakera optik, ditakrifkan sebagai pembukaan membran Bruch.

Pembukaan membran Bruch dan membran pengehad dalaman mudah dibahagikan kerana kontras yang tinggi antara mereka dan latar belakang. Oleh itu, kerana perisian pengeluar OCT menggunakan maklumat 3D, pembahagian cawan dan cakera menggunakan mesin OCT secara amnya boleh dipercayai.

Sebaliknya, pembahagian 2Dcup dan cakera pada gambar fundus boleh mencabar disebabkan oleh pelbagai faktor termasuk isyarat pengimejan yang dilemahkan dan oklusi vaskular. Walau bagaimanapun, memandangkan mesin OCT agak mahal dan kurang biasa dalam penjagaan primer, kami mencadangkan untuk memindahkan anotasi ini daripada imej fundus OCT 3D kepada 2D SLO untuk memberi kesan yang lebih luas dalam pemeriksaan glaukoma awal dalam penjagaan primer.

Secara khusus, kami mula-mula menggunakan alat NiftyReg untuk menjajarkan imej fundus SLO dengan imej fundus OCT (OCT fundus Selepas itu, kami menggunakan metrik affine NiftyReg pada topeng cawan-cakera imej fundus OCT untuk menjajarkan). ia dengan penjajaran imej SLO Fundus. Proses ini berkesan menghasilkan sejumlah besar anotasi topeng fundus SLO berkualiti tinggi, mengelakkan proses anotasi piksel manual intensif buruh.

Perlu diingat bahawa operasi pendaftaran perubatan ini menunjukkan ketepatan yang agak tinggi dalam senario dunia sebenar, dan pemerhatian empirikal kami menunjukkan bahawa kadar kejayaan pendaftaran perubatan adalah lebih kurang 80%. Berikutan proses automatik ini, topeng yang dijana disemak dengan teliti dan dinilai secara manual oleh panel lima profesional perubatan untuk memastikan anotasi tepat bagi kawasan cawan-cakera dan mengecualikan topeng cawan atau cakera yang salah letak serta kegagalan pendaftaran.

Ciri Data:

Data data Harvard-FairSeg kami mengandungi 10,000 sampel daripada 10,000 subjek. Kami membahagikan data kepada set latihan 8,000 sampel dan set ujian 2,000 sampel. Purata umur set data ialah 60.3±16.5 tahun. Dalam set data ini, enam atribut sensitif disertakan untuk penyelidikan pembelajaran keadilan yang mendalam, termasuk umur, jantina, bangsa, etnik, bahasa pilihan dan status perkahwinan.

Dari segi demografi kaum, set data termasuk sampel daripada tiga kumpulan utama: Asia, dengan 919 sampel, dengan 1,473 sampel; Dari segi jantina, wanita merangkumi 58.5% subjek, manakala selebihnya adalah lelaki. Taburan etnik ialah 90.6% bukan Hispanik, 3.7% Hispanik, dan 5.7% tidak ditentukan. Dari segi bahasa pilihan, 92.4% daripada subjek memilih bahasa Inggeris, 1.5% memilih bahasa Sepanyol, 1% memilih bahasa lain dan 5.1% tidak membuat keputusan. Dari perspektif status perkahwinan, 57.7% telah berkahwin atau berpasangan, 27.1% adalah bujang, 6.8% pernah mengalami perceraian, 0.8% telah dipisahkan secara sah, 5.2% adalah balu, dan 2.4% tidak menyatakan.

Pendekatan kami untuk meningkatkan kesaksamaan, Penskalaan Terikat Ralat Adil

Kami menganggap bahawa kumpulan sampel yang memperoleh kehilangan Dadu keseluruhan yang lebih kecil bermakna model belajar lebih baik untuk kumpulan sampel tertentu itu, oleh itu, kumpulan sampel ini perlu lebih kecil Berat kecil. Sebaliknya, kumpulan sampel dengan kehilangan Dadu keseluruhan yang lebih besar (iaitu, kes sukar dikawal) boleh membawa kepada keupayaan generalisasi yang lebih teruk dan mendorong lebih banyak kecenderungan algoritma, yang memerlukan pemberian pemberat pembelajaran yang lebih besar kepada kumpulan sampel ini.

Oleh itu, kami mencadangkan kaedah penskalaan terikat ralat saksama baharu untuk menskala kehilangan Dadu antara kumpulan populasi yang berbeza semasa latihan. Kami mula-mula mentakrifkan kehilangan Dadu standard antara skor piksel yang diramalkan dan sasaran kebenaran tanah sebagai:

Untuk memastikan kesaksamaan antara kumpulan atribut yang berbeza, kami menggunakan mekanisme penskalaan terikat ralat adil yang baru untuk meningkatkan kehilangan Dice di atas. Fungsi kehilangan:

Dengan melaraskan skor piksel yang diramalkan dengan pemberat atribut ini, kehilangan ini memastikan kumpulan atribut yang berbeza menyumbang kepada fungsi kehilangan secara seimbang semasa latihan model, dengan itu menggalakkan keadilan.

Metrik untuk menilai ketepatan segmentasi saksama: Metrik segmentasi tradisional seperti Dice dan IoU memberikan cerapan tentang prestasi segmentasi, tetapi mungkin tidak berkesan menangkap keadilan merentas kumpulan berbeza. Dengan mengambil kira perkara ini, kami menyasarkan untuk mencadangkan metrik baharu yang merangkumi ketepatan dan kesaksamaan pembahagian merentas kumpulan berbeza. Ini menghasilkan perspektif yang komprehensif, memastikan model adalah tepat dan adil.

Untuk menggabungkan keadilan kumpulan, kita perlu menilai ketepatan kumpulan secara individu. Kami mula-mula mentakrifkan perbezaan ketepatan ukuran pembahagian Δ seperti berikut:

Di sini, Δ mengukur sisihan keseluruhan ketepatan setiap populasi daripada ketepatan keseluruhan. Ia menghampiri sifar apabila semua kumpulan mencapai ketepatan pembahagian yang sama.

Apabila kita mempertimbangkan keadilan merentas kumpulan yang berbeza, kita perlu mengira perbezaan relatif antara ketepatan dan ketepatan pembahagian keseluruhan dalam setiap kumpulan demografi. Berdasarkan ini, kami mentakrifkan metrik Prestasi Segmentasi Berskala Ekuiti (ESSP) seperti yang ditakrifkan di bawah:

Formula ini memastikan ESSP sentiasa kurang daripada atau sama dengan I. Apabila Δ menurun (menunjukkan prestasi pembahagian yang sama antara kumpulan), ESSP cenderung kepada metrik pembahagian tradisional. Sebaliknya, Δ yang lebih tinggi menunjukkan perbezaan yang lebih besar dalam prestasi pembahagian antara kumpulan, menyebabkan skor ESSP yang lebih rendah.

Pendekatan ini membolehkan kami menilai model pembahagian bukan sahaja pada ketepatan (melalui Dice, IoU, dsb. metrik) tetapi juga pada kesaksamaan merentas kumpulan berbeza. Ini menjadikan fungsi pemarkahan ESSP sebagai metrik utama untuk memastikan ketepatan pembahagian dan keadilan dalam tugas pengimejan perubatan. Metrik ini boleh digabungkan dengan IoU dadu tradisional untuk menjadi ES-Dice dan ES-IoU.

Eksperimen

Kami memilih dua rangkaian segmentasi sebagai tulang belakang. Antaranya, kami memilih model segmentasi besar yang dilancarkan baru-baru ini, Segment Anything Model (SAM) untuk bereksperimen dengan ketepatan segmentasi SOTA, dan untuk tulang belakang yang lain kami memilih TransUNet.

Kami juga menggunakan metrik segmentasi lain seperti HD95 ASD dan NSD untuk ujian Berikut adalah keputusan perlumbaan:

Atas ialah kandungan terperinci ICLR2024 |. Harvard FairSeg: Set data segmentasi perubatan berskala besar yang pertama untuk mengkaji keadilan algoritma segmentasi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!