Apakah jenis pengalaman yang akan dibawa apabila menggunakan gesaan visual?
Hanya lukis lakaran rawak dalam gambar dan kategori yang sama akan ditanda serta-merta!
Pautan butiran meter pun sukar untuk dikendalikan oleh GPT-4V. Anda hanya perlu tarik kotak secara manual untuk mencari semua butiran beras.
Dengan paradigma pengesanan objek baharu!
Pada persidangan tahunan IDEA yang baru sahaja tamat, Shen Xiangyang, pengerusi pengasas Institut IDEA dan ahli akademik asing Akademi Kejuruteraan Kebangsaan, membentangkan hasil penyelidikan terkini -
Kandungan T-Rex berdasarkan model Visual Prompt perlu ditulis semula
Keseluruhan proses adalah interaktif, sedia untuk digunakan di luar kotak, dan boleh diselesaikan dalam beberapa langkah sahaja.
Sebelum ini, SAM sumber terbuka Meta membahagikan semua model, yang secara langsung membawa kepada detik GPT-3 dalam medan CV Walau bagaimanapun, ia masih berdasarkan paradigma gesaan teks, yang akan menjadi lebih sukar untuk menangani beberapa yang rumit dan jarang berlaku senario.
Kini anda boleh menyelesaikan masalah dengan mudah dengan menukar gambar.
Selain itu, keseluruhan persidangan juga penuh dengan maklumat berguna, seperti model besar yang dipacu pengetahuan Think-on-Graph, platform pembangun MoonBit, artifak penyelidikan saintifik AI kemas kini ReadPaper 2.0, pemproses bersama pengkomputeran sulit SPU, Video potret boleh dikawal platform generasi HiveNet dan sebagainya.
Akhirnya, Shun Xiangyang turut berkongsi projek yang paling banyak dihabiskannya dalam beberapa tahun lalu: Ekonomi Altitud Rendah.
Saya percaya apabila ekonomi altitud rendah agak matang, akan ada 100,000 dron di langit Shenzhen setiap hari, dan berjuta dron berlepas setiap hari
T -In Selain fungsi gesaan asas satu pusingan, Rex juga menyokong tiga mod lanjutan
Ini serupa dengan dialog berbilang pusingan, yang boleh menghasilkan keputusan yang lebih tepat dan mengelakkan pengesanan terlepas
sesuai untuk senario di mana isyarat visual adalah samar-samar dan menyebabkan pengesanan palsu.
Mod graf silang membolehkan anda mereka bentuk semula dan carta susun atur untuk memvisualisasikan data dan maklumat dengan mudah
Dengan menggunakan satu graf rujukan untuk mengesan imej lain
Menurut laporan, T-Rex tidak terhad oleh kategori yang telah ditetapkan dan boleh Contoh visual digunakan untuk menentukan sasaran pengesanan, dengan itu menyelesaikan masalah yang objek tertentu sukar untuk dinyatakan sepenuhnya dalam perkataan dan meningkatkan kecekapan menggesa. Terutamanya dalam kes komponen kompleks dalam beberapa senario perindustrian, kesannya amat ketara
Selain itu, dengan berinteraksi dengan pengguna, hasil pengesanan juga boleh dinilai dengan cepat pada bila-bila masa dan pembetulan ralat boleh dibuat.
T-Rex terutamanya terdiri daripada tiga komponen: pengekod imej, pengekod pembayang dan penyahkod bingkai
Karya ini datang dari Pusat Penyelidikan Penglihatan Komputer dan Robotik Institut Penyelidikan IDEA.
Model pengesan sasaran sumber terbuka DINO sebelum ini ialah model DETR pertama yang menduduki tempat pertama dalam senarai pengesanan sasaran COCO pengesan sampel sifar Grounding DINO sangat popular di Github (ia telah menerima 11K bintang setakat ini) dan SAM berasaskan yang boleh mengesan dan membahagikan segala-galanya. Untuk butiran lanjut teknikal, sila klik pada pautan di penghujung artikel.
Selain itu, beberapa hasil penyelidikan turut diketengahkan pada persidangan IDEA.
Sebagai contoh, Model besar yang dipacu pengetahuan Think-on-Graph, secara ringkasnya, ia menggabungkan model besar dengan graf pengetahuan.
Model besar pandai memahami niat dan pembelajaran autonomi, manakala graf pengetahuan lebih baik dalam penaakulan rantaian logik kerana kaedah penyimpanan pengetahuan berstrukturnya.
Think-on-Graph mendorong ejen model besar untuk "berfikir" pada graf pengetahuan, dan secara beransur-ansur mencari dan membuat kesimpulan jawapan yang optimum (cari dan menaakul langkah demi langkah pada entiti berkaitan graf pengetahuan). Dalam setiap langkah penaakulan, model besar terlibat secara peribadi dan belajar daripada kekuatan dan kelemahan masing-masing dengan graf pengetahuan.
MoonBit ialah platform pembangun yang dikuasakan oleh Wasm dan direka untuk pengkomputeran awan dan pengkomputeran tepi.
Sistem ini bukan sahaja menyediakan reka bentuk bahasa pengaturcaraan sejagat, tetapi juga menyepadukan penyusun, membina sistem, persekitaran pembangunan bersepadu (IDE), alatan penggunaan dan modul lain untuk meningkatkan pengalaman dan kecekapan pembangunan
Artifak penyelidikan saintifik yang dikeluarkan sebelum ini ReadPaper Ia juga telah dikemas kini kepada 2.0 Fungsi baru seperti membaca copilot dan polishing copilot telah ditunjukkan pada sidang media.
Pada akhir sidang akhbar, Shen Xiangyang mengeluarkan "Kertas Putih Mengenai Pembangunan Ekonomi Altitud Rendah (2.0) - Penyelesaian Digital Sepenuhnya", mencadangkan Proses Ruang Temporal dalam Sistem Ruang Udara Bawah Bersepadu Pintar (SILAS) beliau. Proses) konsep baru.
Pautan T-Rex:
https://trex-counting.github.io/
Atas ialah kandungan terperinci Gunakan penglihatan untuk menggesa! Shen Xiangyang mempamerkan model baharu Institut Penyelidikan IDEA, yang tidak memerlukan latihan atau penalaan halus dan boleh digunakan di luar kotak.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!