ChatGPT telah mencetuskan kegilaan untuk model bahasa yang besar Bilakah detik GPT akan datang untuk satu lagi bidang utama AI - penglihatan?
Dua hari lalu, Machine Heart memperkenalkan Hasil penyelidikan terkini Meta Segment Anything Model (SAM). Penyelidikan ini telah menyebabkan perbincangan meluas dalam komuniti AI.
Setakat yang kita tahu, pada masa yang hampir sama, pasukan visi Institut Penyelidikan Zhiyuan turut melancarkan model segmentasi umum SegGPT (Segment Everything In Context) - menggunakan visual gesaan (prompt) ) ialah model visual universal untuk menyelesaikan tugas pembahagian sewenang-wenangnya.
SegGPT dikeluarkan pada masa yang sama dengan model asas pembahagian imej Meta AI Perbezaan antara keduanya ialah:
Sama ada "satu sentuhan dan semua" atau "satu sentuhan dan semua", ini bermakna model visual telah "faham "struktur imej. Gabungan keupayaan anotasi halus SAM dan keupayaan anotasi segmentasi universal SegGPT boleh menghuraikan mana-mana imej daripada tatasusunan piksel ke dalam unit struktur visual, dan memahami mana-mana pemandangan seperti penglihatan biologi Fajar GPT visual universal sudah tiba.
SegGPT ialah model derivatif bagi model penglihatan umum Sumber Pintar Pelukis (CVPR 2023), dioptimumkan untuk matlamat membahagikan semua objek. Selepas latihan SegGPT selesai, tiada penalaan halus diperlukan Hanya berikan contoh untuk menaakul secara automatik dan menyelesaikan tugasan segmentasi yang sepadan, termasuk contoh, kategori, komponen, kontur, teks, muka, dsb. dalam imej dan video.
Model ini mempunyai keupayaan berfaedah berikut:
1 > : SegGPT mempunyai keupayaan penaakulan kontekstual Model boleh menyesuaikan ramalan berdasarkan contoh segmentasi yang disediakan (prompt) untuk mencapai pembahagian "semuanya", termasuk kejadian, kategori, komponen, kontur, teks dan muka. imej perubatan, imej penderiaan jauh, dsb.
2. Keupayaan penaakulan yang fleksibel : menyokong sebarang gesaan yang ditala untuk senario tertentu; warna yang berbeza boleh digunakan untuk mewakili sasaran yang berbeza untuk mencapai penaakulan segmentasi selari.
3 Keupayaan segmentasi dan penjejakan video automatik: Berdasarkan imej bingkai pertama dan topeng objek yang sepadan As. contoh kontekstual, SegGPT boleh membahagikan bingkai video berikutnya secara automatik dan boleh menggunakan warna topeng sebagai ID objek untuk mencapai penjejakan automatik. Pembentangan kes
2 Tandakan pelangi dalam satu skrin (di atas), dan belah pelangi dalam skrin lain dalam kelompok (di bawah) <.>
3 Gunakan berus untuk melingkari gelang planet (di atas) secara kasar dan mengeluarkan gelang planet dengan tepat dalam imej sasaran dalam peta ramalan (di bawah) ) .
4. SegGPT boleh menyediakan Konteks topeng topi keledar angkasawan (imej kiri) meramalkan kawasan topi keledar angkasawan yang sepadan dalam imej baharu (imej kanan).
Kaedah latihanSegGPT menyatukan tugasan segmentasi yang berbeza ke dalam rangka kerja pembelajaran konteks biasa, dengan menggabungkan pelbagai segmentasi Data ditukar menjadi imej dalam format yang sama untuk menyatukan pelbagai format data.
Secara khusus, latihan SegGPT ditakrifkan sebagai masalah pewarnaan kontekstual, dengan pemetaan warna rawak untuk setiap sampel data. Matlamatnya adalah untuk menyelesaikan pelbagai tugas berdasarkan konteks, dan bukannya bergantung pada warna tertentu. Selepas latihan, SegGPT boleh melaksanakan tugas pembahagian sewenang-wenangnya dalam imej atau video melalui penaakulan kontekstual, seperti contoh, kategori, komponen, kontur, teks, dsb.
Teknik masa ujianCara membuka pelbagai kebolehan melalui teknik masa ujian ialah sorotan model universal. Kertas SegGPT mencadangkan pelbagai teknologi untuk membuka kunci dan mempertingkatkan pelbagai keupayaan pembahagian, seperti kaedah ensemble konteks berbeza yang ditunjukkan dalam rajah di bawah. Kaedah Ensemble Ciri yang dicadangkan boleh menyokong sebarang bilangan contoh segera untuk mencapai kesan penaakulan mesra manusia.
Selain itu, SegGPT juga menyokong gesaan khusus yang dioptimumkan untuk senario tertentu. Untuk senario penggunaan yang disasarkan, SegGPT boleh mendapatkan gesaan yang sepadan melalui penalaan segera tanpa mengemas kini parameter model agar sesuai dengan senario tertentu. Contohnya, bina gesaan yang sepadan secara automatik untuk set data tertentu atau bina gesaan khusus untuk bilik. Seperti yang ditunjukkan dalam rajah di bawah:
Paparan hasilModel hanya memerlukan beberapa contoh segera dan mencapai hasil terbaik pada set data COCO dan PASCAL prestasi cemerlang. SegGPT menunjukkan keupayaan pemindahan adegan sifar tangkapan yang kuat, seperti mencapai prestasi terkini pada set ujian segmentasi semantik beberapa tangkapan FSS-1000 tanpa latihan.
Tiada data latihan video diperlukan, SegGPT boleh digunakan secara terus Lakukan pembahagian objek video dan capai prestasi yang setanding dengan model yang dioptimumkan khusus untuk pembahagian objek video.
Berikut ialah demonstrasi kesan gesaan ditala pada tugasan segmentasi semantik dan pembahagian contoh:
Atas ialah kandungan terperinci Adakah detik GPT penglihatan universal akan datang? Zhiyuan melancarkan model segmentasi universal SegGPT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!