Adakah detik GPT penglihatan universal akan datang? Zhiyuan melancarkan model segmentasi universal SegGPT-AI-php.cn

Adakah detik GPT penglihatan universal akan datang? Zhiyuan melancarkan model segmentasi universal SegGPT

WBOY

Lepaskan： 2023-04-10 14:41:10

ke hadapan

1661 orang telah melayarinya

ChatGPT telah mencetuskan kegilaan untuk model bahasa yang besar Bilakah detik GPT akan datang untuk satu lagi bidang utama AI - penglihatan?

Dua hari lalu, Machine Heart memperkenalkan Hasil penyelidikan terkini Meta Segment Anything Model (SAM). Penyelidikan ini telah menyebabkan perbincangan meluas dalam komuniti AI.

Setakat yang kita tahu, pada masa yang hampir sama, pasukan visi Institut Penyelidikan Zhiyuan turut melancarkan model segmentasi umum SegGPT (Segment Everything In Context) - menggunakan visual gesaan (prompt) ) ialah model visual universal untuk menyelesaikan tugas pembahagian sewenang-wenangnya.

Adakah detik GPT penglihatan universal akan datang? Zhiyuan melancarkan model segmentasi universal SegGPT

Alamat kertas: https://arxiv.org/abs/2304.03284
Alamat kod: https://github.com/baaivision/Painter
Demo: https://huggingface.co /spaces/BAAI/SegGPT

SegGPT dikeluarkan pada masa yang sama dengan model asas pembahagian imej Meta AI Perbezaan antara keduanya ialah:

SegGPT “Satu-saiz-muat-semua”: Memandangkan satu atau beberapa contoh imej dan topeng niat, model boleh mendapatkan niat pengguna dan menyelesaikan tugas pembahagian yang serupa “dalam yang sama cara”. Pengguna menandai dan mengecam jenis objek pada skrin, dan kemudian mereka boleh mengenal pasti dan membahagikan objek yang serupa dalam kelompok, sama ada dalam skrin semasa atau skrin atau persekitaran video lain.
SAM "Satu sentuhan dan pergi": Melalui titik atau kotak sempadan, gesaan interaktif diberikan pada gambar yang akan diramalkan dan objek yang ditentukan pada skrin belah dikenal pasti.

Sama ada "satu sentuhan dan semua" atau "satu sentuhan dan semua", ini bermakna model visual telah "faham "struktur imej. Gabungan keupayaan anotasi halus SAM dan keupayaan anotasi segmentasi universal SegGPT boleh menghuraikan mana-mana imej daripada tatasusunan piksel ke dalam unit struktur visual, dan memahami mana-mana pemandangan seperti penglihatan biologi Fajar GPT visual universal sudah tiba.

SegGPT ialah model derivatif bagi model penglihatan umum Sumber Pintar Pelukis (CVPR 2023), dioptimumkan untuk matlamat membahagikan semua objek. Selepas latihan SegGPT selesai, tiada penalaan halus diperlukan Hanya berikan contoh untuk menaakul secara automatik dan menyelesaikan tugasan segmentasi yang sepadan, termasuk contoh, kategori, komponen, kontur, teks, muka, dsb. dalam imej dan video.

Model ini mempunyai keupayaan berfaedah berikut:

1 > : SegGPT mempunyai keupayaan penaakulan kontekstual Model boleh menyesuaikan ramalan berdasarkan contoh segmentasi yang disediakan (prompt) untuk mencapai pembahagian "semuanya", termasuk kejadian, kategori, komponen, kontur, teks dan muka. imej perubatan, imej penderiaan jauh, dsb.

2. Keupayaan penaakulan yang fleksibel : menyokong sebarang gesaan yang ditala untuk senario tertentu; warna yang berbeza boleh digunakan untuk mewakili sasaran yang berbeza untuk mencapai penaakulan segmentasi selari.

3 Keupayaan segmentasi dan penjejakan video automatik: Berdasarkan imej bingkai pertama dan topeng objek yang sepadan As. contoh kontekstual, SegGPT boleh membahagikan bingkai video berikutnya secara automatik dan boleh menggunakan warna topeng sebagai ID objek untuk mencapai penjejakan automatik. Pembentangan kes

1. Penulis menilai SegGPT pada pelbagai tugas, termasuk segmentasi semantik beberapa tangkapan, segmentasi objek video, segmentasi semantik dan segmentasi panorama. Rajah di bawah menunjukkan secara khusus hasil pembahagian SegGPT pada kejadian, kategori, komponen, garis besar, teks dan objek berbentuk arbitrari.

Adakah detik GPT penglihatan universal akan datang? Zhiyuan melancarkan model segmentasi universal SegGPT

2 Tandakan pelangi dalam satu skrin (di atas), dan belah pelangi dalam skrin lain dalam kelompok (di bawah) <.>

Adakah detik GPT penglihatan universal akan datang? Zhiyuan melancarkan model segmentasi universal SegGPT

3 Gunakan berus untuk melingkari gelang planet (di atas) secara kasar dan mengeluarkan gelang planet dengan tepat dalam imej sasaran dalam peta ramalan (di bawah) ) .

Adakah detik GPT penglihatan universal akan datang? Zhiyuan melancarkan model segmentasi universal SegGPT

4. SegGPT boleh menyediakan Konteks topeng topi keledar angkasawan (imej kiri) meramalkan kawasan topi keledar angkasawan yang sepadan dalam imej baharu (imej kanan).

Adakah detik GPT penglihatan universal akan datang? Zhiyuan melancarkan model segmentasi universal SegGPT

Kaedah latihan

SegGPT menyatukan tugasan segmentasi yang berbeza ke dalam rangka kerja pembelajaran konteks biasa, dengan menggabungkan pelbagai segmentasi Data ditukar menjadi imej dalam format yang sama untuk menyatukan pelbagai format data.

Secara khusus, latihan SegGPT ditakrifkan sebagai masalah pewarnaan kontekstual, dengan pemetaan warna rawak untuk setiap sampel data. Matlamatnya adalah untuk menyelesaikan pelbagai tugas berdasarkan konteks, dan bukannya bergantung pada warna tertentu. Selepas latihan, SegGPT boleh melaksanakan tugas pembahagian sewenang-wenangnya dalam imej atau video melalui penaakulan kontekstual, seperti contoh, kategori, komponen, kontur, teks, dsb.

Teknik masa ujian

Cara membuka pelbagai kebolehan melalui teknik masa ujian ialah sorotan model universal. Kertas SegGPT mencadangkan pelbagai teknologi untuk membuka kunci dan mempertingkatkan pelbagai keupayaan pembahagian, seperti kaedah ensemble konteks berbeza yang ditunjukkan dalam rajah di bawah. Kaedah Ensemble Ciri yang dicadangkan boleh menyokong sebarang bilangan contoh segera untuk mencapai kesan penaakulan mesra manusia.

Adakah detik GPT penglihatan universal akan datang? Zhiyuan melancarkan model segmentasi universal SegGPT

Selain itu, SegGPT juga menyokong gesaan khusus yang dioptimumkan untuk senario tertentu. Untuk senario penggunaan yang disasarkan, SegGPT boleh mendapatkan gesaan yang sepadan melalui penalaan segera tanpa mengemas kini parameter model agar sesuai dengan senario tertentu. Contohnya, bina gesaan yang sepadan secara automatik untuk set data tertentu atau bina gesaan khusus untuk bilik. Seperti yang ditunjukkan dalam rajah di bawah:

Adakah detik GPT penglihatan universal akan datang? Zhiyuan melancarkan model segmentasi universal SegGPT

Paparan hasil

Model hanya memerlukan beberapa contoh segera dan mencapai hasil terbaik pada set data COCO dan PASCAL prestasi cemerlang. SegGPT menunjukkan keupayaan pemindahan adegan sifar tangkapan yang kuat, seperti mencapai prestasi terkini pada set ujian segmentasi semantik beberapa tangkapan FSS-1000 tanpa latihan.

Adakah detik GPT penglihatan universal akan datang? Zhiyuan melancarkan model segmentasi universal SegGPT

Tiada data latihan video diperlukan, SegGPT boleh digunakan secara terus Lakukan pembahagian objek video dan capai prestasi yang setanding dengan model yang dioptimumkan khusus untuk pembahagian objek video.

Adakah detik GPT penglihatan universal akan datang? Zhiyuan melancarkan model segmentasi universal SegGPT

Berikut ialah demonstrasi kesan gesaan ditala pada tugasan segmentasi semantik dan pembahagian contoh:

Adakah detik GPT penglihatan universal akan datang? Zhiyuan melancarkan model segmentasi universal SegGPT

Atas ialah kandungan terperinci Adakah detik GPT penglihatan universal akan datang? Zhiyuan melancarkan model segmentasi universal SegGPT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!