Berita pada 27 Julai, Microsoft baru-baru ini melancarkan model pertuturan yang dipanggil NaturalSpeech2 Model ini menggunakan reka bentuk "potensi resapan" dan mempunyai hasil yang cemerlang pada tahap sintesis pertuturan sampel sifar -gred" penyelesaian pertuturan/nyanyian boleh memberikan pengguna pengalaman sintesis pertuturan yang berkualiti tinggi dan pelbagai. . bahawa, tidak seperti sistem pertuturan-ke-teks (TTS) tradisional, NaturalSpeech2 Microsoft menggunakan "vektor berterusan" dan bukannya "penanda diskret" untuk mewakili pertuturan, dengan itu menghasilkan segmen pertuturan yang lebih lengkap, tanpa menghasilkan "kekurangan emosi" Fenomena " membaca tongkat (bercakap perkataan demi perkataan)"
. ▲ Sumber imej berasal daripada kertas NaturalSpeech 2 Hasil eksperimen menunjukkan bahawa pertuturan yang dihasilkan olehNaturalSpeech2 di bawah keadaan sampel sifar hampir konsisten dengan prosodi gesaan pertuturan dan pertuturan sebenar, dan adalah semula jadi pada Libri dan set ujian VCTK Ijazah (diukur dalam CMOS) tidak dapat dibezakan daripada pertuturan manusia .
Kertas projek ini telah diterbitkan di GitHub Rakan-rakan IT House yang berminat bolehklik di sini untuk melawat.
Atas ialah kandungan terperinci Model sintesis pertuturan NaturalSpeech2 terkini Microsoft: menyediakan pembinaan semula pertuturan yang lebih tepat dan mengelakkan kesan bacaan melekat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!