Model besar Alibaba Cloud adalah baharu! Artifak AI 'Mendengar Tongyi' adalah dalam versi beta awam: video panjang boleh diringkaskan dalam satu saat, dan ia juga boleh secara automatik mengambil nota dan menjadikan sarikata boleh dituai-AI-php.cn

Satu lagi alat praktikal untuk perhimpunan kumpulan dengan akses kepada keupayaan model yang besar, kini dibuka untuk beta awam percuma!

Model besar di belakangnya ialah Tongyi Qianwen Alibaba. Mengenai mengapa ia dikatakan sebagai alat ajaib untuk mesyuarat kumpulan -

Lihat, ini adalah pengajar saya di Stesen B, Encik Li Mu, yang mengetuai pelajar membaca kertas model besar secara intensif.

Malangnya pada masa ini, bos mendesak saya untuk mengalihkan batu bata dengan cepat. Saya tiada pilihan selain menanggalkan fon kepala saya secara senyap, klik pada pemalam yang dipanggil "Tongyi Listening", dan kemudian tukar halaman.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Tebak apa? Walaupun saya tidak berada di "perjumpaan kumpulan", Tingwu telah membantu saya merekodkan kandungan mesyuarat kumpulan sepenuhnya.

Dia juga membantu saya meringkaskan kata kunci, ringkasan teks penuh dan mata pembelajaran dengan satu klik.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Ringkasnya, "kefahaman mendengar makna umum" ini yang baru sahaja diakses kepada keupayaan model besar ialah model yang besar versi Focus Work dan belajar AI pembantu untuk kandungan audio dan video.

Tidak seperti alat transkripsi rakaman sebelumnya, ia bukan sahaja boleh menukar rakaman dan video kepada teks. Anda boleh meringkaskan keseluruhan teks dengan satu klik, dan anda juga boleh meringkaskan pandangan pembesar suara yang berbeza:

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Malah boleh digunakan sebagai terjemahan sari kata masa nyata:

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Nampaknya ia bukan sahaja berguna untuk mengadakan mesyuarat kumpulan, tetapi juga artifak baru untuk kerja harian untuk qubit yang sering perlu berurusan dengan banyak rakaman, berjaga malam. dan pelbagai persidangan luar negara.

Kami segera menjalankan ujian yang mendalam.

Ujian amali Kefahaman Mendengar Tongyi

Perkara paling asas dan penting dalam menyusun dan menganalisis kandungan audio ialah ketepatan transkripsi.

Pusingan 1, mari kita muat naik video Cina terlebih dahulu selama kira-kira 10 minit untuk melihat prestasi Tingwu dari segi ketepatan berbanding dengan alatan yang serupa.

Pada asasnya, AI memproses jenis audio dan video sederhana panjang ini dengan sangat cepat, dan ia boleh ditranskripsikan dalam masa kurang daripada 2 minit.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Mari kita lihat dahulu prestasi mendengar:

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Dalam perenggan ini yang mengandungi kira-kira 200 patah perkataan, mendengar Terdapat hanya dua kesilapan: kuat → dinding, kedua-duanya baik → tepat. Istilah fizikal seperti nukleus atom, cas elektrik, dan tolakan boleh difahami dengan mendengar.

Kami juga mengujinya pada Feishu Miaoji menggunakan video yang sama. Masalah asasnya tidak besar, tetapi berbanding dengan mendengar Wu, Feishu membuat dua lagi kesilapan Salah satu "atom" ditulis sebagai "taman", dan "penolakan" dibaca sebagai "kuasa".

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Apa yang menarik ialah Feishu turut mengeluarkan semula kesilapan yang dilakukan oleh Hengwu satu persatu. Nampaknya periuk ini perlu dipikul oleh seorang master up tertentu yang bercakap dan menelan perkataan dalam Qubit (kepala anjing manual).

iFlytek mendengarnya, tetapi ia dapat membezakan "betul" yang tidak dikenali oleh dua peserta pertama. Tetapi iFlytek pada dasarnya menterjemah semua "dinding" menjadi "kuat", dan gabungan ajaib "butir gula yang kuat" muncul. Di samping itu, antara tiga peserta, hanya iFlytek yang salah faham "daya elektromagnet" sebagai "daya elektronik."

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Secara umumnya, pengiktirafan bahasa Cina tidak sukar untuk alat AI ini. Jadi bagaimanakah prestasi mereka dalam menghadapi bahan Bahasa Inggeris?

Kami telah memuat naik temu bual terbaharu dengan Musk mengenai pertikaian masa lalunya dengan OpenAI.

Mari kita lihat keputusan yang diberikan oleh Tingwu dahulu. Dalam jawapan Musk, kecuali nama Larry Page, Hua Wu pada dasarnya mengenal pasti orang lain dengan betul.

Perlu dinyatakan bahawa Tingwu boleh menterjemah secara langsung hasil transliterasi bahasa Inggeris ke dalam bahasa Cina dan memaparkan perbandingan dwibahasa. Kualiti terjemahan juga agak baik.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Feishu Miaoji berjaya mengenali nama Larry Page, tetapi seperti Mendengar, kelajuan pertuturan keseluruhan Musk lebih pantas dan dia mempunyai beberapa kesalahan kecil dalam ungkapan, seperti seperti menulis "tinggal di rumahnya" dan bukannya "katakan rumah ini".

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

iFlytek mendengar ini dan mengendalikan nama serta butiran sebutan dengan baik, tetapi terdapat juga kes-kes yang dikelirukan oleh ungkapan bahasa sehari-hari Musk, seperti "lama ke" petang" sebagai "rindu ke petang".

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Nampaknya dari segi pengecaman pertuturan keupayaan asas, alatan AI telah mencapai kadar ketepatan yang sangat tinggi Dalam menghadapi kecekapan yang sangat tinggi, beberapa masalah kecil telah diselesaikan .Kecacatan tidak menutupi kekuatan.

Kemudian, kami akan menaikkan tahap kesukaran kepada Pusingan 2 untuk menguji keupayaan mereka meringkaskan video sepanjang kira-kira sejam.

Video ujian ialah perbincangan meja bulat selama 40 minit dengan tema peluang baharu untuk AIGC di China. Seramai 5 orang telah menyertai perbincangan meja bulat tersebut.

Dari segi mendengar, ia mengambil masa kurang daripada 5 minit secara keseluruhan daripada penyiapan transkripsi kepada kata kunci yang mengekstrak AI dan memberikan ringkasan teks penuh.

Hasilnya ialah Mak Cik Jiang:

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Bukan sahaja memberikan kata kunci, tetapi juga meringkaskan kandungan meja bulat perbincangan itu sangat tepat dan juga membahagikan perkara utama video.

Membandingkan topik topik yang dipetik oleh editor manusia, saya terhidu sedikit krisis...

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Perlu disebut untuk ucapan tetamu yang berbeza , Mendengar Boleh memberikan ringkasan ucapan yang sepadan.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Persoalan yang sama dilemparkan kepada Feishu Miaoji. Pada masa ini, dari segi ringkasan kandungan, Feishu Miaoji hanya boleh menyediakan kata kunci.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Minit mesyuarat perlu ditanda secara manual pada teks yang ditranskripsi.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

iFlytek mendengar bahawa mereka sedang menguji produk secara dalaman berdasarkan model besar kognitif Spark, yang boleh menganalisis kandungan fail, tetapi memerlukan mengisi permohonan dan menunggu dalam talian . (Rakan yang layak untuk ujian dalaman dialu-alukan untuk berkongsi pengalaman mereka~)

Dalam iFlytek asas, pada masa ini tiada fungsi ringkasan yang serupa.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Nampaknya pusingan ujian ini:

Walau bagaimanapun, dalam ujian sebenar ini, perkara yang paling mengejutkan tentang Tongyi Listening sebenarnya ialah reka bentuk "kecil":

Fungsi pemalam Chrome.

Sama ada anda menonton video Bahasa Inggeris, menonton siaran langsung atau menghadiri mesyuarat dalam kelas, anda boleh mencapai transkripsi masa nyata dan terjemahan audio dan video dengan mengklik pada pemalam Tingwu.

Seperti yang ditunjukkan pada permulaan, ia boleh digunakan sebagai sari kata masa nyata, dengan kependaman rendah, terjemahan pantas dan fungsi perbandingan dwibahasa Pada masa yang sama, teks rakaman dan transkripsi boleh disimpan dengan satu klik untuk kegunaan seterusnya.

Ibu tidak perlu risau lagi tentang saya tidak boleh membaca bahan video bahasa Inggeris.

Selain itu, saya mempunyai idea yang berani...

Hidupkan mendengar apabila mengadakan mesyuarat kumpulan, supaya anda tidak perlu lagi risau tentang diperiksa secara tiba-tiba oleh pengajar.

Pada masa ini, Tingwu telah disambungkan dengan Cakera Awan Alibaba dan kandungan video yang disimpan dalam cakera awan boleh ditranskripsi dengan satu klik, dan sari kata boleh dipaparkan secara automatik apabila memainkan video cakera awan dalam talian. Fail audio dan video yang diproses AI boleh dikongsi secara dalaman dengan cepat dalam versi perusahaan pada masa hadapan.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Pegawai Hengwu juga mendedahkan bahawa pada masa hadapan, Hengwu akan terus menambah keupayaan model besar baharu, seperti mengekstrak terus imej daripada video Tangkapan skrin PPT, anda boleh terus bertanya soalan AI tentang kandungan audio dan video...

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Kuncinya ialah manfaat beta awam kini tersedia kepada semua orang Anda boleh mendapatkan 2 jam masa transkripsi secara automatik dengan log masuk setiap hari, Weibo dan platform utama Alibaba Cloud komuniti juga akan mengedarkan sejumlah besar 20 jam masa transkripsi Tulis kod kata laluan, dan tempohnya boleh ditindih, dan ia sah dalam tempoh satu tahun.

Sebagai tuan bulu yang rajin, bukan impian untuk menjimatkan lebih daripada 100 jam masa lapang (manual dog head).

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Teknologi di belakangnya: model bahasa besar + SOTA suara

Malah, sebelum beta awam, Tongyi Listening sudah pun di Alibaba Bahagian dalamannya telah digilap dengan teliti.

Pada penghujung tahun lepas, beberapa pembaca Qubit memperoleh Kad Pengalaman Beta Dalaman Mendengar Versi pada masa itu sudah termasuk transkripsi suara/video luar talian dan fungsi transkripsi masa nyata.

Dalam beta terbuka ini, Tingwu terutamanya mempunyai akses kepada ringkasan dan keupayaan dialog model besar Tongyi Qianwen. Secara lebih khusus, kerja ini dibina pada model besar Tongyi Qianwen, menyepadukan hasil penyelidikan pasukan penyelidik dalam penaakulan, penjajaran dan menjawab soalan perbualan.

Pertama sekali, cara mengekstrak maklumat penting dengan tepat ialah kunci untuk meningkatkan kecekapan kerja dengan artifak jenis ini. Ini memerlukan keupayaan penaakulan model besar.

Pada tahun 2022, pasukan Alibaba AI mencadangkan Proton (Probing Turning from Large Language Models), satu rangka kerja penggunaan pengesanan pengetahuan dan penaakulan berdasarkan model bahasa besar. Kertas kerja yang berkaitan akan diterbitkan di persidangan antarabangsa terkemuka seperti KDD2022 dan SIGIR2023..

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Idea teras rangka kerja ini adalah untuk mengesan pengetahuan dalaman model besar dan menggunakan rantai pemikiran sebagai pembawa untuk aliran pengetahuan dan penggunaan.

Proton telah menduduki tempat pertama dalam tiga senarai utama Commonsense QA2.0, Physical Commonsense Reasoning PIQA dan Numerical Commonsense Reasoning Numbersense.

Dalam senarai TabFact (pengesahan fakta), Proton telah mencapai keputusan luar biasa buat kali pertama dengan penguraian pengetahuan dan teknologi rantai pemikiran yang dipercayai.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Kedua, bagi memastikan kandungan dan format ringkasan memenuhi jangkaan pengguna, dari segi penjajaran, Listening juga menggunakan ELHF, yang berasaskan pada maklum balas manusia Kaedah penjajaran yang cekap.

Kaedah ini hanya memerlukan sebilangan kecil sampel maklum balas manusia berkualiti tinggi untuk mencapai penjajaran. Dalam penilaian subjektif kesan model, ELHF boleh meningkatkan kadar kemenangan model sebanyak 20%.

Selain itu, pasukan R&D di belakang Wu juga mengeluarkan Doc2Bot, set data perbualan dokumen Cina berskala besar. Kaedah Re3G pasukan untuk meningkatkan keupayaan menjawab soalan model telah dipilih untuk ICASSP 2023: Kaedah ini boleh meningkatkan respons model kepada soalan pengguna melalui empat peringkat: Ambil semula (retrieval), Rerank (reranking), Perhalusi (finetuning) dan Jana ( penjanaan). Keupayaan pemahaman, perolehan pengetahuan dan penjanaan balasannya menduduki tempat pertama dalam dua senarai dialog dokumen utama Doc2Dial dan Multi Doc2Dial.

Selain keupayaan model yang besar, Tingwu juga merupakan pakar teknologi suara Alibaba.

Model pengecaman pertuturan Paraformer di belakangnya berasal dari Alibaba Damo Academy Ia menyelesaikan masalah mengimbangi kesan dan kecekapan pengecaman hujung ke hujung buat kali pertama di peringkat aplikasi peringkat industri:

Ia bukan sahaja meningkatkan kecekapan penaakulan Ia adalah 10 kali lebih baik daripada model tradisional dari segi prestasi, dan ia juga memecahkan rekod banyak set data berwibawa apabila ia mula-mula dilancarkan, menyegarkan kadar ketepatan SOTA pengecaman pertuturan. Dalam ujian kotak putih SpeechIO TIOBE rangkaian penuh awan awam pihak ketiga profesional, Paraformer-large masih merupakan model pengecaman pertuturan Cina dengan ketepatan tertinggi.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Paraformer ialah model bukan autoregresif pusingan tunggal, yang terdiri daripada lima bahagian: pengekod, peramal, pensampel, penyahkod dan fungsi kehilangan .

Melalui reka bentuk inovatif peramal, Paraformer mencapai ramalan tepat bilangan perkataan sasaran dan pembolehubah pendam akustik yang sepadan.

Selain itu, penyelidik juga memperkenalkan idea model bahasa semak imbas (GLM) dalam bidang terjemahan mesin, mereka bentuk pensampel berdasarkan GLM, dan mempertingkat pemodelan model semantik kontekstual.

Pada masa yang sama, Paraformer juga menggunakan berpuluh-puluh ribu jam latihan pada set data industri berskala ultra besar yang meliputi senario yang kaya, meningkatkan lagi ketepatan pengecaman.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Pengenalpastian tepat penceramah perbincangan berbilang orang mendapat manfaat daripada model asas pengecaman pembesar suara CAM++ Akademi DAMO. Model ini menggunakan rangkaian lengah D-TDNN berdasarkan sambungan padat Input setiap lapisan disambungkan daripada output semua lapisan sebelumnya Pemultipleksan ciri hierarki dan lilitan satu dimensi rangkaian kelewatan ini dengan ketara boleh meningkatkan kecekapan Pengiraan. rangkaian.

Pada set ujian Cina dan Inggeris arus perdana industri VoxCeleb dan CN-Celeb, CAM++ telah menyegarkan kadar ketepatan terbaik.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Pembukaan model besar, pengguna mendapat manfaat

Menurut laporan Institut Maklumat Saintifik dan Teknologi China, menurut tidak lengkap statistik, pada masa ini 79 model besar domestik telah dikeluarkan.

Di bawah trend pembangunan model berskala besar ini, kelajuan evolusi aplikasi AI sekali lagi memasuki peringkat pecut.

Dari perspektif pengguna, situasi yang dialu-alukan secara beransur-ansur terbentuk:

Di bawah "penyelarasan" model besar, pelbagai teknologi AI telah mula berkembang di bahagian aplikasi, menjadikan alat lebih dan lebih popular.

Daripada dokumen pintar yang boleh membantu anda menulis pelan kerja secara automatik dengan garis miring, kepada alatan rakaman dan analisis audio dan video yang membantu anda meringkaskan elemen dengan pantas, model besar generatif, percikan AGI, menjadikan dunia semakin popular Semakin ramai orang merasai keajaiban AI.

Pada masa yang sama, bagi syarikat teknologi, cabaran baharu dan peluang baharu sudah pasti muncul.

Cabarannya ialah semua produk akan dihanyutkan oleh ribut model besar, dan inovasi teknologi telah menjadi isu utama yang tidak dapat dielakkan.

Struktur pasaran sedia ada telah mencapai peluang untuk menulis semula untuk aplikasi pembunuh baharu. Siapa yang boleh memimpin akan bergantung pada siapa yang lebih bersedia secara teknikal dan teknologinya berkembang lebih cepat.

Walau apa pun, pembangunan teknologi akhirnya akan memberi manfaat kepada pengguna.

Atas ialah kandungan terperinci Model besar Alibaba Cloud adalah baharu! Artifak AI 'Mendengar Tongyi' adalah dalam versi beta awam: video panjang boleh diringkaskan dalam satu saat, dan ia juga boleh secara automatik mengambil nota dan menjadikan sarikata boleh dituai. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!