Artifak penjanaan video AI hadir lagi. Baru-baru ini, Alibaba dan ByteDance secara rahsia melancarkan alat masing-masing
Ali melancarkan Animate Anyone, projek yang dibangunkan oleh Alibaba Intelligent Computing Research Institute Anda hanya perlu menyediakan imej watak statik (termasuk orang sebenar, watak animasi/kartun, dll.) dan beberapa aksi dan postur (seperti menari, berjalan). . Ia boleh dianimasikan sambil mengekalkan ciri terperinci watak (seperti mimik muka, butiran pakaian, dsb.).
Selagi ada gambar Messi, "Raja Bola" boleh diminta melakukan pelbagai pose (lihat gambar di bawah ini, mudah untuk membuat Messi menari).
Universiti Nasional Singapura dan ByteDance bersama-sama melancarkan Magic Animate, yang turut menggunakan teknologi AI untuk menukar imej statik kepada video dinamik. Byte berkata bahawa pada set data tarian TikTok yang sangat mencabar, realisme video yang dijana oleh Magic Animate bertambah baik sebanyak lebih 38% berbanding dengan garis dasar terkuat.
Dalam projek Tusheng Video, Alibaba dan ByteDance berjalan seiring dan menyelesaikan beberapa siri operasi seperti pelepasan kertas, pendedahan kod dan pendedahan alamat ujian hampir serentak Masa keluaran kedua-dua kertas berkaitan hanya selang sehari
Sebuah kertas berkaitan tentang Bytes telah dikeluarkan pada 27 November:
Kertas berkaitan Ali akan dikeluarkan pada 28 November:
Fail sumber terbuka kedua-dua syarikat dikemas kini secara berterusan di Github
Kandungan yang perlu ditulis semula ialah: Pakej fail projek sumber terbuka Magic Animate
Animate pakej fail projek sumber terbuka Sesiapa sahaja
Ini sekali lagi menyerlahkan fakta: Penjanaan video ialah acara kompetitif yang popular di AIGC, dan syarikat gergasi teknologi serta bintang memberi perhatian yang teliti dan melabur secara aktif di dalamnya. Difahamkan bahawa Runway, Meta, dan Stable AI telah melancarkan aplikasi video AI Vincent, dan Adobe baru-baru ini mengumumkan pemerolehan syarikat penciptaan video AI Rephrase.ai.
Berdasarkan paparan video kedua-dua syarikat di atas, kesan penjanaan telah dipertingkatkan dengan ketara, dan kelancaran dan realisme adalah lebih baik daripada sebelumnya. Atasi kelemahan aplikasi penjanaan imej/video semasa, seperti herotan setempat, butiran kabur, kata gesaan yang tidak konsisten, perbezaan daripada imej asal, bingkai terjatuh dan kegelisahan skrin.
Kedua-dua alatan mencipta animasi potret koheren sementara melalui model resapan dan data latihannya adalah sama. Stable Diffusion, yang digunakan oleh kedua-duanya, ialah model resapan terpendam teks-ke-imej yang dicipta oleh penyelidik dan jurutera di CompVis, Stability AI dan LAION, yang dilatih menggunakan imej 512x512 daripada subset pangkalan data LAION-5B. LAION-5B ialah set data multimodal terbesar yang boleh diakses secara bebas yang wujud.
Bercakap tentang aplikasi, penyelidik Alibaba menyatakan dalam kertas itu bahawa Animate Anybody, sebagai kaedah asas, boleh diperluaskan kepada pelbagai aplikasi video Tusheng pada masa hadapan Alat ini mempunyai banyak senario aplikasi yang berpotensi, seperti runcit dalam talian, video hiburan dan seni ciptaan dan watak maya. ByteDance juga menekankan bahawa Magic Animate telah menunjukkan keupayaan generalisasi yang kukuh dan boleh digunakan pada berbilang senario.
"Holy Grail" aplikasi berbilang modal: Vincent Video Vincent Video merujuk kepada aplikasi analisis pelbagai mod dan pemprosesan kandungan video dengan menggabungkan teknologi teks dan pertuturan. Ia mengaitkan maklumat teks dan pertuturan dengan imej video untuk memberikan pemahaman video yang lebih kaya dan pengalaman interaktif. Aplikasi Video Vincent mempunyai pelbagai bidang aplikasi, termasuk pengawasan video pintar, realiti maya, penyuntingan video dan analisis kandungan, dsb. Melalui analisis teks dan pertuturan, Vincent Video boleh mengenal pasti dan memahami objek, adegan dan tindakan dalam video, dengan itu menyediakan pengguna dengan pemprosesan dan fungsi kawalan video yang lebih pintar. Dalam bidang pengawasan video pintar, Vincent Video boleh melabel dan mengklasifikasikan kandungan video pengawasan secara automatik, dengan itu meningkatkan kecekapan dan ketepatan pengawasan. Dalam bidang realiti maya, Vincent Video boleh berinteraksi dengan arahan suara pengguna dan persekitaran maya untuk mencapai pengalaman maya yang lebih mengasyikkan. Dalam bidang penyuntingan video dan analisis kandungan, Vincent Video boleh membantu pengguna mengekstrak maklumat penting secara automatik daripada video dan melakukan pengeditan dan penyuntingan pintar. Ringkasnya, Vincent Video, sebagai "holy grail" bagi aplikasi berbilang modal, menyediakan penyelesaian yang lebih komprehensif dan bijak untuk pemahaman dan interaksi kandungan video. Pembangunannya akan membawa lebih banyak inovasi dan kemudahan kepada pelbagai bidang, dan menggalakkan kemajuan teknologi dan pembangunan sosial
Video mempunyai kelebihan berbanding teks dan gambar Ia boleh meluahkan maklumat dengan lebih baik, memperkayakan gambar dan menjadi dinamik. Video boleh menggabungkan teks, imej, bunyi dan kesan visual, menyepadukan pelbagai bentuk maklumat dan mempersembahkannya dalam satu media
Alat video AI mempunyai fungsi produk yang berkuasa dan boleh membuka senario aplikasi yang lebih luas. Melalui penerangan teks ringkas atau operasi lain, alatan video AI boleh menjana kandungan video yang berkualiti tinggi dan lengkap, sekali gus mengurangkan ambang untuk penciptaan video. Ini membolehkan bukan profesional untuk memaparkan kandungan dengan tepat melalui video, yang dijangka meningkatkan kecekapan pengeluaran kandungan dan menghasilkan lebih banyak kreativiti dalam pelbagai segmen industri
Song Jiaji dari Guosheng Securities sebelum ini menegaskan bahawa video AI Wensheng ialah persinggahan seterusnya untuk aplikasi berbilang modal dan "Holy Grail" AIGC berbilang modal kerana video AI melengkapkan bahagian terakhir teka-teki penciptaan AI berbilang modal , aplikasi hiliran Detik pecutan juga akan datang. . Video Vincentian mempunyai kesukaran pengiraan yang tinggi dan keperluan Data yang tinggi akan menyokong permintaan kukuh yang berterusan untuk kuasa pengkomputeran AI huluan.
Namun, jurang antara syarikat besar dan antara syarikat besar dan syarikat baru tidaklah begitu besar malah boleh dikatakan mereka berada di garisan permulaan yang sama. Pada masa ini, Vincent Video mempunyai sangat sedikit aplikasi beta awam, hanya beberapa seperti Runway Gen-2, Zero Scope dan Pika. Malah gergasi kecerdasan buatan Silicon Valley seperti Meta dan Google membuat kemajuan yang perlahan pada Vincent Video pelancaran Make-A-Video dan Phenaki mereka masih belum dikeluarkan kepada beta awam.
Dari perspektif teknikal, model dan teknologi asas alat penjanaan video masih dioptimumkan. Pada masa ini, model video Vincent arus perdana terutamanya menggunakan model Transformer dan model resapan. Alat model penyebaran didedikasikan terutamanya untuk meningkatkan kualiti video, mengatasi masalah kesan kasar dan kekurangan perincian. Walau bagaimanapun, tempoh video ini semuanya dalam masa 4 saat
Sebaliknya, walaupun model resapan berfungsi dengan baik, proses latihannya memerlukan banyak memori dan kuasa pengkomputeran, yang menjadikan hanya syarikat besar dan syarikat permulaan yang telah menerima pelaburan besar mampu membayar kos latihan model
Sumber: Harian Lembaga Inovasi Sains dan Teknologi
Atas ialah kandungan terperinci Aplikasi panas seterusnya bagi aplikasi AI telah muncul: Alibaba dan ByteDance secara senyap-senyap melancarkan artifak serupa yang boleh membuatkan Messi menari dengan mudah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!