Rumah> Peranti teknologi> AI> teks badan

NeurIPS23 |. 'Bacaan Otak' menyahkod aktiviti otak dan membina semula dunia visual

PHPz
Lepaskan: 2024-01-10 14:54:24
ke hadapan
495 orang telah melayarinya
Dalam kertas kerja NeurIPS23 ini, penyelidik dari Universiti Leuven, Universiti Nasional Singapura dan Institut Automasi Akademi Sains China mencadangkan "teknologi membaca otak" visual yang boleh menganalisis aktiviti otak manusia pada resolusi tinggi imej yang anda lihat dengan mata anda sendiri.

Dalam bidang neurosains kognitif, orang ramai menyedari bahawa persepsi manusia bukan sahaja dipengaruhi oleh rangsangan objektif, tetapi juga sangat dipengaruhi oleh pengalaman lalu. Faktor-faktor ini bekerjasama untuk mewujudkan aktiviti yang kompleks di dalam otak. Oleh itu, menyahkod maklumat visual daripada aktiviti otak menjadi tugas penting. Antaranya, pengimejan resonans magnetik berfungsi (fMRI), sebagai teknologi bukan invasif yang cekap, memainkan peranan penting dalam memulihkan dan menganalisis maklumat visual, terutamanya kategori imej Walau bagaimanapun, disebabkan oleh ciri-ciri bunyi isyarat fMRI dan penglihatan otak kerumitan perwakilan, tugas ini menghadapi cabaran yang besar. Untuk menangani masalah ini, kertas kerja ini mencadangkan rangka kerja pembelajaran perwakilan fMRI dua peringkat, yang bertujuan untuk mengenal pasti dan mengeluarkan bunyi dalam aktiviti otak, dan memfokuskan pada menghurai corak pengaktifan saraf yang penting untuk pembinaan semula visual, berjaya membina semula imej peringkat tinggi dari otak. aktiviti. resolusi dan imej tepat dari segi semantik.

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界Pautan kertas: https://arxiv.org/abs/2305.17214

Pautan projek: https://github.com/soinx0629/vis_dec_neurips/

Kaedah pembelajaran yang dicadangkan dalam kertas kontrastif , model silang Model silang maklumat negeri dan penyebaran telah mencapai hampir 40% peningkatan dalam penunjuk penilaian pada set data fMRI yang berkaitan berbanding model terbaik sebelum ini Kualiti, kebolehbacaan dan perkaitan semantik imej yang dihasilkan semuanya lebih baik daripada kaedah sedia ada. Peningkatan yang ketara. Kerja ini membantu memahami mekanisme persepsi visual otak manusia dan bermanfaat untuk mempromosikan penyelidikan mengenai teknologi antara muka otak-komputer visual. Kod yang berkaitan adalah sumber terbuka.

Walaupun pengimejan resonans magnetik berfungsi (fMRI) digunakan secara meluas untuk menganalisis tindak balas saraf, membina semula imej visual daripada datanya dengan tepat masih mencabar, terutamanya kerana data fMRI mengandungi hingar daripada pelbagai sumber, yang mungkin menutupi corak pengaktifan saraf. Di samping itu, proses tindak balas saraf yang dicetuskan oleh rangsangan visual adalah kompleks dan berbilang peringkat, menjadikan isyarat fMRI membentangkan superposisi kompleks tak linear yang sukar untuk diterbalikkan dan dinyahkod.

Kaedah penyahkodan saraf tradisional, seperti regresi rabung, walaupun digunakan untuk mengaitkan isyarat fMRI dengan rangsangan yang sepadan, selalunya gagal menangkap secara berkesan hubungan tak linear antara rangsangan dan tindak balas saraf. Baru-baru ini, teknik pembelajaran mendalam, seperti rangkaian permusuhan generatif (GAN) dan model resapan terpendam (LDM), telah diterima pakai untuk memodelkan hubungan kompleks ini dengan lebih tepat. Walau bagaimanapun, mengasingkan aktiviti otak berkaitan penglihatan daripada bunyi dan menyahkodnya dengan tepat kekal sebagai salah satu cabaran utama dalam bidang ini.

Untuk menangani cabaran ini, kerja ini mencadangkan rangka kerja pembelajaran perwakilan fMRI dua peringkat, yang boleh mengenal pasti dan menghilangkan bunyi bising dalam aktiviti otak secara berkesan dan menumpukan pada menghuraikan corak pengaktifan saraf yang penting untuk pembinaan semula visual. Kaedah ini menjana imej resolusi tinggi dan tepat dari segi semantik dengan ketepatan Top-1 sebanyak 39.34% untuk 50 kategori, melebihi teknologi terkini yang sedia ada.

Ikhtisar kaedah ialah penerangan ringkas tentang satu siri langkah atau proses. Ia digunakan untuk menerangkan cara mencapai matlamat tertentu atau menyelesaikan tugas tertentu. Tujuan gambaran keseluruhan kaedah adalah untuk memberikan pembaca atau pengguna pemahaman keseluruhan tentang keseluruhan proses supaya mereka dapat memahami dengan lebih baik dan mengikuti langkah-langkah di dalamnya. Dalam gambaran keseluruhan kaedah, anda biasanya menyertakan urutan langkah, bahan atau alatan yang diperlukan dan masalah atau cabaran yang mungkin dihadapi. Dengan menghuraikan gambaran keseluruhan kaedah dengan jelas dan padat, pembaca atau pengguna boleh lebih mudah memahami dan berjaya menyelesaikan tugasan yang diperlukan

fMRI Representation Learning (FRL)

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界Fasa 1: Pra-latihan autocoder dwi kontras DC-MAE)

Untuk membezakan corak aktiviti otak yang dikongsi dan bunyi individu dalam kalangan kumpulan orang yang berbeza, kertas kerja ini memperkenalkan teknologi DC-MAE untuk pra-melatih perwakilan fMRI menggunakan data tidak berlabel. DC-MAE terdiri daripada pengekodNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界dan penyahkodNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界, di manaNeurIPS23 |. Bacaan Otak menyahkod aktiviti otak dan membina semula dunia visualmengambil isyarat fMRI bertopeng sebagai input danNeurIPS23 |. Bacaan Otak menyahkod aktiviti otak dan membina semula dunia visualdilatih untuk meramal isyarat fMRI yang tidak bertopeng. Apa yang dipanggil "kontras berganda" bermakna model mengoptimumkan kehilangan kontras dalam pembelajaran perwakilan fMRI dan mengambil bahagian dalam dua proses kontras yang berbeza.

Dalam peringkat pertama pembelajaran kontrastif, sampelNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界dalam setiap kelompok yang mengandungi n sampel fMRI v bertopeng secara rawak dua kali, menghasilkan dua versi bertopeng yang berbezaNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界danNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界sebagai pasangan sampel positif untuk perbandingan. Selepas itu, lapisan konvolusi 1D menukar kedua-dua versi ini kepada perwakilan terbenam, yang masing-masing dimasukkan ke dalam pengekod fMRINeurIPS23 |. Bacaan Otak menyahkod aktiviti otak dan membina semula dunia visual. PenyahkodNeurIPS23 |. Bacaan Otak menyahkod aktiviti otak dan membina semula dunia visualmenerima perwakilan terpendam yang dikodkan ini dan menghasilkan ramalanNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界danNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界. Optimumkan model melalui kehilangan kontras pertama yang dikira oleh fungsi kehilangan InfoNCE, iaitu kehilangan kontras silang:

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

Dalam peringkat kedua pembelajaran kontrastif, setiap imej asal yang dibukaNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界dan imej bertopeng yang sepadanNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界membentuk sepasang sampel positif semula jadi.NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界di sini mewakili imej yang diramalkan oleh penyahkodNeurIPS23 |. Bacaan Otak menyahkod aktiviti otak dan membina semula dunia visual. Kehilangan kontras kedua, iaitu kehilangan kontras kendiri, dikira mengikut formula berikut:

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

Mengoptimumkan kehilangan kontras diriNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界boleh mencapai pembinaan semula oklusi. Sama adaNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界atauNeurIPS23 |. Bacaan Otak menyahkod aktiviti otak dan membina semula dunia visual, sampel negatifNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界datang daripada kumpulan kejadian yang sama.NeurIPS23 |. Bacaan Otak menyahkod aktiviti otak dan membina semula dunia visualdanNeurIPS23 |. Bacaan Otak menyahkod aktiviti otak dan membina semula dunia visualdioptimumkan secara bersama seperti berikut:NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界, di mana hiperparameterNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界danNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界digunakan untuk melaraskan berat setiap tempoh kerugian.

  • Peringkat kedua: Penalaan menggunakan bimbingan silang modal

Memandangkan nisbah isyarat-ke-bunyi yang rendah dan sifat rakaman fMRI yang sangat konvolusi, adalah penting bagi pelajar ciri fMRI untuk memberi tumpuan kepada yang paling relevan dengan pemprosesan visual Dan adalah penting untuk membina semula corak pengaktifan otak yang paling bermaklumat

Selepas peringkat pertama pra-latihan, pengekod auto fMRI dilaraskan dengan bantuan imej untuk mencapai pembinaan semula fMRI, dan peringkat kedua juga mengikuti proses ini. Khususnya, sampelNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界dan tindak balas neural yang direkodkan fMRI yang sepadanNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界dipilih daripada kumpulan n sampel.NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界danNeurIPS23 |. Bacaan Otak menyahkod aktiviti otak dan membina semula dunia visualdiproses dengan menyekat dan pelekat rawak, masing-masing diubah menjadiNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界danNeurIPS23 |. Bacaan Otak menyahkod aktiviti otak dan membina semula dunia visual, dan kemudian dimasukkan ke dalam pengekod imejNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界dan pengekod fMRINeurIPS23 |. Bacaan Otak menyahkod aktiviti otak dan membina semula dunia visualmasing-masing untuk menjanaNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界danNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界. Untuk membina semula fMRINeurIPS23 |. Bacaan Otak menyahkod aktiviti otak dan membina semula dunia visual, modul perhatian silang digunakan untuk menggabungkanNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界danNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界:

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

W dan b masing-masing mewakili berat dan pincang lapisan linear yang sepadan.NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界ialah faktor penskalaan danNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界ialah dimensi vektor kunci. CA ialah singkatan kepada cross-attention. SelepasNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界ditambahkan padaNeurIPS23 |. Bacaan Otak menyahkod aktiviti otak dan membina semula dunia visual, ia dimasukkan ke dalam penyahkod fMRI untuk membina semulaNeurIPS23 |. Bacaan Otak menyahkod aktiviti otak dan membina semula dunia visual, dan kita mendapatNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界:

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

Pengiraan serupa juga dilakukan dalam pengekod automatik imej, dan outputNeurIPS23 |. Bacaan Otak menyahkod aktiviti otak dan membina semula dunia visualdigabungkan dengan pengekod imej modul perhatian silangNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界OutputNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界digabungkan dan kemudian digunakan untuk menyahkod imejNeurIPS23 |. Bacaan Otak menyahkod aktiviti otak dan membina semula dunia visual, memberikanNeurIPS23 |. Bacaan Otak menyahkod aktiviti otak dan membina semula dunia visual:NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

fMRI dan pengekod auto imej dilatih bersama dengan mengoptimumkan fungsi kehilangan berikut:

apabila menjana imejNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

model penyebaran terpendam boleh digunakan ( LDM)

Selepas melengkapkan latihan FRL peringkat pertama dan kedua, gunakan pengekod pelajar ciri fMRINeurIPS23 |. Bacaan Otak menyahkod aktiviti otak dan membina semula dunia visualuntuk memacu model resapan terpendam (LDM) untuk menjana imej daripada aktiviti otak. Seperti yang ditunjukkan dalam rajah, model resapan termasuk proses resapan ke hadapan dan proses penyahnosian terbalik. Proses ke hadapan secara beransur-ansur merendahkan imej kepada hingar Gaussian biasa dengan memperkenalkan secara beransur-ansur hingar Gaussian dengan variasi yang berbeza-beza.

Kajian ini menjana imej dengan mengekstrak pengetahuan visual daripada model resapan terpendam label-ke-imej (LDM) yang telah terlatih dan menggunakan data fMRI sebagai syarat. Mekanisme silang perhatian digunakan di sini untuk memasukkan maklumat fMRI ke dalam LDM, berikutan cadangan daripada kajian resapan yang stabil. Untuk mengukuhkan peranan maklumat bersyarat, kaedah perhatian silang dan pelaziman langkah masa digunakan di sini. Dalam fasa latihan, pengekod VQGANNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界dan pengekod fMRINeurIPS23 |. Bacaan Otak menyahkod aktiviti otak dan membina semula dunia visualdilatih oleh peringkat pertama dan kedua FRL digunakan untuk memproses imej u dan fMRI v, dan pengekod fMRI diperhalusi sambil memastikan LDM tidak berubah fungsi ialah:NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

di mana,NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界ialah skema hingar model resapan. Dalam fasa inferens, proses bermula dengan hingar Gaussian standard pada langkah masa T, dan LDM secara berurutan mengikut proses songsang untuk mengeluarkan secara beransur-ansur hingar perwakilan tersembunyi, dikondisikan pada maklumat fMRI yang diberikan. Apabila langkah masa sifar dicapai, perwakilan tersembunyi ditukar kepada imej menggunakan penyahkod VQGANNeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界. . model yang dicadangkan dengan ketara mengatasi model ini dalam ketepatan, dengan peningkatan sebanyak 39.34% dan 66.7% berbanding DC-LDM dan IC-GAN masing-masing

Penilaian ke atas empat subjek lain bagi set data GOD, walaupun semasa DC-LDM adalah dibenarkan untuk diselaraskan pada set ujian, model yang dicadangkan dalam kajian ini adalah jauh lebih baik daripada DC-LDM dalam ketepatan klasifikasi Top-1 sebanyak 50 cara, membuktikan bahawa model yang dicadangkan adalah berkesan dalam subjek yang berbeza dan keunggulan dalam membina semula subjek ' aktiviti otak.

Hasil penyelidikan menunjukkan bahawa menggunakan rangka kerja pembelajaran perwakilan fMRI yang dicadangkan dan LDM pra-latihan boleh membina semula aktiviti visual otak dengan lebih baik, jauh melebihi tahap asas semasa. Kerja ini membantu meneroka lebih lanjut potensi model penyahkodan saraf

Atas ialah kandungan terperinci NeurIPS23 |. 'Bacaan Otak' menyahkod aktiviti otak dan membina semula dunia visual. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:jiqizhixin.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!