Heim > Technologie-Peripheriegeräte > KI > Das neueste NaturalSpeech2-Sprachsynthesemodell von Microsoft: Bietet eine genauere Sprachrekonstruktion und vermeidet Stick-Reading-Effekte

Das neueste NaturalSpeech2-Sprachsynthesemodell von Microsoft: Bietet eine genauere Sprachrekonstruktion und vermeidet Stick-Reading-Effekte

WBOY
Freigeben: 2023-08-04 09:41:05
nach vorne
1090 Leute haben es durchsucht

Das neueste NaturalSpeech2-Sprachsynthesemodell von Microsoft: Bietet eine genauere Sprachrekonstruktion und vermeidet Stick-Reading-Effekte

Nachrichten vom 27. Juli: Microsoft hat kürzlich ein Sprachmodell namens NaturalSpeech2 auf den Markt gebracht. Dieses Modell verfügt über ein „Potenzialdiffusions“-Design und liefert hervorragende Ergebnisse auf der Sprachsyntheseebene ohne Stichproben. Microsoft behauptet, dass das Modell „kommerziell“ sei -Grade-Sprach-/Gesangslösung kann Benutzern ein hochwertiges und vielfältiges Sprachsyntheseerlebnis bieten.

Microsoft führte eine Reihe von Demonstrationen durch, die die Fähigkeit von NaturalSpeech2 zeigten, Sprache mit unterschiedlichen Sprecheridentitäten, Prosodie und Stilen (z. B. Gesang) ohne Samples zu erzeugen

Das neueste NaturalSpeech2-Sprachsynthesemodell von Microsoft: Bietet eine genauere Sprachrekonstruktion und vermeidet Stick-Reading-Effekte

▲ Die Bildquelle stammt aus dem NaturalSpeech 2-Artikel

Es wird berichtet dass NaturalSpeech2 von Microsoft im Gegensatz zu herkömmlichen Speech-to-Text-Systemen (TTS) „kontinuierliche Vektoren“ anstelle von „diskreten Markierungen“ verwendet, um Sprache darzustellen, wodurch vollständigere Sprachsegmente generiert werden, ohne einen „Mangel an Emotionen“ hervorzurufen. Das Phänomen „ Stocklesen (Wort für Wort sprechen)“.

Das neueste NaturalSpeech2-Sprachsynthesemodell von Microsoft: Bietet eine genauere Sprachrekonstruktion und vermeidet Stick-Reading-Effekte

▲ Die Bildquelle stammt aus dem NaturalSpeech 2-Artikel

Experimentelle Ergebnisse zeigen, dass die von NaturalSpeech2 unter Null-Stichprobenbedingungen erzeugte Sprache nahezu mit der Prosodie von Sprachaufforderungen und echter Sprache übereinstimmt und auf dem LibriTTS natürlich ist und VCTK-Testsätze Der Grad (gemessen in CMOS) ist nicht von menschlicher Sprache zu unterscheiden .

Das Paper zu diesem Projekt wurde auf GitHub veröffentlicht. Interessierte IT-House-Freunde können hier klicken, um es zu besuchen.

Das obige ist der detaillierte Inhalt vonDas neueste NaturalSpeech2-Sprachsynthesemodell von Microsoft: Bietet eine genauere Sprachrekonstruktion und vermeidet Stick-Reading-Effekte. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage