Politeknik Nanyang mencadangkan tugas menjana PSG daripada graf pemandangan penuh, mengesan objek pada tahap piksel, dan meramalkan 56 perhubungan.-AI-php.cn

Sudah pun 2022, tetapi kebanyakan tugas penglihatan komputer semasa masih hanya tertumpu pada persepsi imej. Sebagai contoh, tugas pengelasan imej hanya memerlukan model untuk mengenal pasti kategori objek dalam imej. Walaupun tugas seperti pengesanan sasaran dan pembahagian imej selanjutnya memerlukan mencari lokasi objek, tugasan tersebut masih tidak mencukupi untuk menunjukkan bahawa model itu telah memperoleh pemahaman yang menyeluruh dan mendalam tentang tempat kejadian.

Sebagai contoh dalam Rajah 1 di bawah, jika model penglihatan komputer hanya mengesan orang, gajah, pagar, pokok dan lain-lain dalam gambar, biasanya kita tidak menyangka model tersebut mempunyai memahami gambar, tetapi Model ini juga tidak dapat membuat keputusan yang lebih maju berdasarkan pemahaman, seperti mengeluarkan amaran "tidak memberi makan".

Politeknik Nanyang mencadangkan tugas menjana PSG daripada graf pemandangan penuh, mengesan objek pada tahap piksel, dan meramalkan 56 perhubungan.

Rajah 1: Contoh rajah asal

Sebenarnya, dalam kebijaksanaan Dalam banyak senario AI dunia sebenar seperti bandar, pemanduan autonomi dan pembuatan pintar, selain daripada mengesan sasaran di tempat kejadian, kami biasanya juga mengharapkan model untuk membuat alasan dan meramalkan hubungan antara pelbagai subjek dalam imej. Contohnya, dalam aplikasi pemanduan autonomi, kenderaan autonomi perlu menganalisis sama ada pejalan kaki di tepi jalan menolak kereta atau menunggang basikal. Bergantung pada keadaan, keputusan berikutnya yang sepadan mungkin berbeza.

Dalam senario kilang pintar, menilai sama ada pengendali beroperasi dengan selamat dan betul juga memerlukan model sisi pemantauan mempunyai keupayaan untuk memahami hubungan antara subjek. Kebanyakan kaedah sedia ada secara manual menetapkan beberapa peraturan berkod keras. Ini menjadikan model kekurangan generalisasi dan sukar untuk menyesuaikan diri dengan situasi khusus lain.

Tugas penjanaan graf pemandangan (penjanaan graf adegan, atau SGG) bertujuan untuk menyelesaikan masalah di atas. Sebagai tambahan kepada keperluan untuk mengelaskan dan mengesan objek sasaran, tugas SGG juga memerlukan model untuk meramalkan hubungan antara objek (lihat Rajah 2).

Politeknik Nanyang mencadangkan tugas menjana PSG daripada graf pemandangan penuh, mengesan objek pada tahap piksel, dan meramalkan 56 perhubungan.

Rajah 2: Penjanaan graf adegan

Tugas penjanaan graf adegan tradisional Set data biasanya mempunyai anotasi kotak sempadan objek dan anotasi hubungan antara kotak sempadan. Walau bagaimanapun, tetapan ini mempunyai beberapa kelemahan yang wujud:

(1) Kotak sempadan tidak dapat mengesan objek dengan tepat: Seperti yang ditunjukkan dalam Rajah 2, kotak sempadan pasti gagal apabila menganotasi orang.

(2) Latar belakang tidak boleh diberi anotasi: Seperti yang ditunjukkan dalam Rajah 2, pokok-pokok di belakang gajah diberi anotasi dengan kotak sempadan, yang hampir meliputi keseluruhan imej, jadi ia melibatkan perhubungan antara latar belakang tidak boleh ditanda dengan tepat, yang juga menjadikan graf adegan tidak dapat menutup imej sepenuhnya dan mencapai pemahaman pemandangan menyeluruh.

Oleh itu, penulis mencadangkan tugasan penjanaan graf adegan penuh (PSG) dengan set data PSG beranotasi besar-besaran. Politeknik Nanyang mencadangkan tugas menjana PSG daripada graf pemandangan penuh, mengesan objek pada tahap piksel, dan meramalkan 56 perhubungan.

Rajah 3: Penjanaan graf pemandangan penuh Seperti yang ditunjukkan dalam Rajah 3, tugas ini menggunakan pensegmenan panorama untuk mencapai komprehensif dan tepat meletakkan objek dan latar belakang, sekali gus menangani kelemahan yang wujud dalam tugas penjanaan graf pemandangan, dengan itu memajukan bidang ke arah pemahaman pemandangan yang komprehensif dan mendalam.

Maklumat kertas

Politeknik Nanyang mencadangkan tugas menjana PSG daripada graf pemandangan penuh, mengesan objek pada tahap piksel, dan meramalkan 56 perhubungan.

Pautan kertas: https://arxiv.org/abs/2207.11247Halaman Projek: https ://psgdataset.org/OpenPSG Codebase: https://github.com/Jingkang50/OpenPSGCompetition Link: https://www.cvmart.net/race/10349/baseECCV'22 SenseHuman Workshop Pautan: https://sense- human.github.io/HuggingFace Demo Pautan: https://huggingface.co/spaces/ECCV2022/PSG

Set data PSG yang dicadangkan oleh pengarang mengandungi hampir 50,000 imej coco, dan berdasarkan anotasi pensegmenan panoramik sedia ada coco, menandakan hubungan antara blok tersegmen. Penulis dengan teliti mentakrifkan 56 jenis hubungan, termasuk hubungan kedudukan (di atas, di hadapan, dll.), hubungan biasa antara objek (bergantung dari, dll.), tindakan biologi biasa (berjalan, berdiri, dll.), manusia tingkah laku (memasak, dll.), hubungan dalam adegan lalu lintas (memandu, menunggang, dll.), hubungan dalam adegan sukan (menendang, dll.), dan hubungan antara latar belakang (melampirkan, dll.). Pengarang memerlukan anotasi untuk menggunakan ungkapan kata kerja yang lebih tepat daripada ungkapan yang lebih samar-samar, dan untuk menganotasi perhubungan dalam rajah selengkap mungkin.

Politeknik Nanyang mencadangkan tugas menjana PSG daripada graf pemandangan penuh, mengesan objek pada tahap piksel, dan meramalkan 56 perhubungan.

Paparan kesan model PSG

Kelebihan tugas

Penulis sekali lagi memahami kelebihan tugasan Full Scene Graph Generation (PSG) melalui contoh di bawah:

Politeknik Nanyang mencadangkan tugas menjana PSG daripada graf pemandangan penuh, mengesan objek pada tahap piksel, dan meramalkan 56 perhubungan.

Gambar kiri datang dari data tradisional tugasan SGG Set Genom Visual (VG-150). Dapat dilihat bahawa anotasi berdasarkan kotak pengesanan biasanya tidak tepat, dan piksel yang diliputi oleh kotak pengesanan tidak dapat mengesan objek dengan tepat, terutamanya latar belakang seperti kerusi dan pokok. Pada masa yang sama, anotasi perhubungan berdasarkan bingkai pengesanan biasanya cenderung untuk melabelkan beberapa perhubungan yang membosankan, seperti "orang ada kepala" dan "orang pakai baju".

Sebaliknya, tugas PSG yang dicadangkan dalam imej yang betul menyediakan lebih komprehensif (termasuk interaksi latar depan dan latar belakang), lebih jelas (butiran objek yang sesuai) dan lebih tepat (tahap ketepatan piksel) perwakilan graf adegan untuk memajukan bidang pemahaman adegan.

Dua jenis utama model PSG

Untuk menyokong cadangan tugas PSG, penulis membina platform kod sumber terbuka OpenPSG, yang melaksanakan empat kaedah dua peringkat dan dua Kaedah satu peringkat mudah untuk dibangunkan, digunakan dan dianalisis oleh semua orang.

Politeknik Nanyang mencadangkan tugas menjana PSG daripada graf pemandangan penuh, mengesan objek pada tahap piksel, dan meramalkan 56 perhubungan.

Kaedah dua peringkat menggunakan Panoptic-FPN untuk melakukan segmentasi panorama imej pada peringkat pertama.

Seterusnya, pengarang mengekstrak ciri objek yang diperoleh melalui segmentasi panorama dan ciri perhubungan setiap pasangan gabungan objek, dan menghantarnya ke peringkat ramalan perhubungan seterusnya. Rangka kerja telah menyepadukan dan menghasilkan semula kaedah klasik penjanaan graf pemandangan tradisional IMP, VCTree, Motif dan GPSNet.

Politeknik Nanyang mencadangkan tugas menjana PSG daripada graf pemandangan penuh, mengesan objek pada tahap piksel, dan meramalkan 56 perhubungan.

PSGFormer ialah kaedah satu peringkat berdasarkan dwi dekoder DETR. Model ini mula-mula mengekstrak ciri imej melalui tulang belakang rangkaian saraf konvolusi dalam a) dan menambah maklumat pengekodan kedudukan sebagai input pengekod Pada masa yang sama, ia memulakan set pertanyaan untuk mewakili tiga kali ganda. Sama seperti DETR, dalam b) model memasukkan output pengekod sebagai kunci dan nilai bersama-sama dengan pertanyaan yang mewakili tiga kali ganda ke dalam penyahkod untuk operasi perhatian silang. Kemudian model memasukkan setiap pertanyaan yang dinyahkodkan ke dalam modul ramalan yang sepadan dengan triplet subjek-kata kerja-objek dalam c), dan akhirnya memperoleh hasil ramalan triplet yang sepadan.

Politeknik Nanyang mencadangkan tugas menjana PSG daripada graf pemandangan penuh, mengesan objek pada tahap piksel, dan meramalkan 56 perhubungan.

PSGFormer ialah kaedah satu peringkat DETR berdasarkan penyahkod berganda. Model a) mengekstrak ciri imej melalui CNN, memasukkan maklumat pengekodan kedudukan ke dalam pengekod, dan memulakan dua set pertanyaan untuk mewakili objek dan perhubungan masing-masing. Kemudian dalam langkah b), berdasarkan maklumat imej yang dikodkan oleh pengekod, model mempelajari pertanyaan objek dan pertanyaan hubungan melalui penyahkodan perhatian silang masing-masing dalam penyahkod objek dan pengekod hubungan.

Selepas kedua-dua jenis pertanyaan dipelajari, pertanyaan tiga kali ganda diperoleh melalui pemetaan dan pemadanan dalam c). Akhir sekali, dalam d), ramalan tentang pertanyaan objek dan pertanyaan perhubungan diselesaikan melalui kepala ramalan, dan keputusan ramalan tiga kali terakhir diperoleh berdasarkan keputusan padanan dalam c).

PSGTR dan PSGFormer kedua-duanya adalah model yang diperluaskan dan dipertingkatkan berdasarkan DETR Perbezaannya ialah PSGTR menggunakan set pertanyaan untuk memodelkan tiga kali ganda secara langsung, manakala PSGFormer menggunakan dua set pertanyaan untuk memodelkan objek dan Mengenai pemodelan hubungan, kedua-duanya. kaedah mempunyai kebaikan dan keburukan mereka sendiri Untuk butiran, sila rujuk keputusan eksperimen dalam kertas.

Perkongsian kesimpulan

Kebanyakan kaedah yang berkesan pada tugas SGG masih berkesan pada tugas PSG. Walau bagaimanapun, beberapa kaedah yang menggunakan keutamaan statistik yang kukuh pada set data atau keutamaan pada arah predikat dalam subjek, predikat dan objek mungkin tidak begitu berkesan. Ini mungkin disebabkan oleh fakta bahawa berat sebelah set data PSG tidak begitu serius berbanding set data VG tradisional, dan takrifan kata kerja predikat adalah lebih jelas dan boleh dipelajari. Oleh itu, penulis berharap kaedah seterusnya akan memberi tumpuan kepada pengekstrakan maklumat visual dan pemahaman imej itu sendiri. Pendahuluan statistik mungkin berkesan dalam membersihkan set data, tetapi ia tidak penting.

Berbanding dengan model dua peringkat, model satu peringkat pada masa ini boleh mencapai hasil yang lebih baik. Ini mungkin disebabkan oleh fakta bahawa isyarat penyeliaan tentang perhubungan dalam model satu peringkat boleh dipindahkan terus ke bahagian peta ciri, supaya isyarat perhubungan mengambil bahagian dalam pembelajaran model yang lebih banyak, yang bermanfaat untuk menangkap perhubungan. Walau bagaimanapun, oleh kerana artikel ini hanya mencadangkan beberapa model asas dan tidak mengoptimumkan model satu peringkat atau dwi peringkat, tidak boleh dikatakan bahawa model satu peringkat semestinya lebih kuat daripada model dua peringkat. Ini juga berharap para peserta akan terus meneroka.

Berbanding dengan tugasan SGG tradisional, tugas PSG melakukan pemadanan perhubungan berdasarkan peta pensegmenan panorama dan memerlukan pengesahan ID subjek dan objek objek dalam setiap perhubungan. Berbanding dengan ramalan langsung dua peringkat peta segmentasi panorama untuk melengkapkan pembahagian ID objek, model satu peringkat perlu melengkapkan langkah ini melalui satu siri pasca pemprosesan. Jika model satu peringkat sedia ada ditambah baik dan dinaik taraf, cara untuk melengkapkan pengesahan ID objek dengan lebih berkesan dalam model satu peringkat dan menjana imej pensegmenan panorama yang lebih baik masih menjadi topik yang patut diterokai.

Akhir sekali, semua orang dialu-alukan untuk mencuba HuggingFace:

Politeknik Nanyang mencadangkan tugas menjana PSG daripada graf pemandangan penuh, mengesan objek pada tahap piksel, dan meramalkan 56 perhubungan.

Demo: https:/ /huggingface .co/spaces/ECCV2022/PSG

Perspektif penjanaan imej

Model generatif popular baru-baru ini berdasarkan input teks (seperti DALL-E 2 ) Sungguh menakjubkan, tetapi beberapa kajian menunjukkan bahawa model generatif ini mungkin hanya melekatkan beberapa entiti dalam teks, tanpa memahami hubungan ruang yang dinyatakan dalam teks. Seperti yang ditunjukkan di bawah, walaupun input adalah "cawan pada sudu", gambar yang dihasilkan masih "sudu pada cawan".

Politeknik Nanyang mencadangkan tugas menjana PSG daripada graf pemandangan penuh, mengesan objek pada tahap piksel, dan meramalkan 56 perhubungan.

Secara kebetulan, set data PSG ditandakan dengan perhubungan graf adegan berasaskan topeng. Penulis boleh menggunakan graf pemandangan dan topeng segmentasi panoramik sebagai pasangan latihan untuk mendapatkan model text2mask dan menghasilkan gambar yang lebih terperinci berdasarkan topeng. Oleh itu, ada kemungkinan bahawa set data PSG juga menyediakan penyelesaian yang berpotensi untuk penjanaan imej tertumpu hubungan.

P.S. "Cabaran PSG", yang bertujuan untuk menggalakkan bidang untuk bersama-sama menerokai pengiktirafan pemandangan yang komprehensif, berjuta-juta hadiah sedang menanti anda! Pautan Pertandingan: https://www.cvmart.net/race/10349/base

Atas ialah kandungan terperinci Politeknik Nanyang mencadangkan tugas menjana PSG daripada graf pemandangan penuh, mengesan objek pada tahap piksel, dan meramalkan 56 perhubungan.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!