Das neueste NaturalSpeech2-Sprachsynthesemodell von Microsoft: Bietet eine genauere Sprachrekonstruktion und vermeidet Stick-Reading-Effekte-KI-php.cn

Das neueste NaturalSpeech2-Sprachsynthesemodell von Microsoft: Bietet eine genauere Sprachrekonstruktion und vermeidet Stick-Reading-Effekte

WBOY

Freigeben： 2023-08-04 09:41:05

nach vorne

1090 Leute haben es durchsucht

Das neueste NaturalSpeech2-Sprachsynthesemodell von Microsoft: Bietet eine genauere Sprachrekonstruktion und vermeidet Stick-Reading-Effekte

Nachrichten vom 27. Juli: Microsoft hat kürzlich ein Sprachmodell namens NaturalSpeech2 auf den Markt gebracht. Dieses Modell verfügt über ein „Potenzialdiffusions“-Design und liefert hervorragende Ergebnisse auf der Sprachsyntheseebene ohne Stichproben. Microsoft behauptet, dass das Modell „kommerziell“ sei -Grade-Sprach-/Gesangslösung kann Benutzern ein hochwertiges und vielfältiges Sprachsyntheseerlebnis bieten.

Microsoft führte eine Reihe von Demonstrationen durch, die die Fähigkeit von NaturalSpeech2 zeigten, Sprache mit unterschiedlichen Sprecheridentitäten, Prosodie und Stilen (z. B. Gesang) ohne Samples zu erzeugen

Das neueste NaturalSpeech2-Sprachsynthesemodell von Microsoft: Bietet eine genauere Sprachrekonstruktion und vermeidet Stick-Reading-Effekte

▲ Die Bildquelle stammt aus dem NaturalSpeech 2-Artikel

Es wird berichtet dass NaturalSpeech2 von Microsoft im Gegensatz zu herkömmlichen Speech-to-Text-Systemen (TTS) „kontinuierliche Vektoren“ anstelle von „diskreten Markierungen“ verwendet, um Sprache darzustellen, wodurch vollständigere Sprachsegmente generiert werden, ohne einen „Mangel an Emotionen“ hervorzurufen. Das Phänomen „ Stocklesen (Wort für Wort sprechen)“.

Das neueste NaturalSpeech2-Sprachsynthesemodell von Microsoft: Bietet eine genauere Sprachrekonstruktion und vermeidet Stick-Reading-Effekte

▲ Die Bildquelle stammt aus dem NaturalSpeech 2-Artikel

Experimentelle Ergebnisse zeigen, dass die von NaturalSpeech2 unter Null-Stichprobenbedingungen erzeugte Sprache nahezu mit der Prosodie von Sprachaufforderungen und echter Sprache übereinstimmt und auf dem LibriTTS natürlich ist und VCTK-Testsätze Der Grad (gemessen in CMOS) ist nicht von menschlicher Sprache zu unterscheiden .

Das Paper zu diesem Projekt wurde auf GitHub veröffentlicht. Interessierte IT-House-Freunde können hier klicken, um es zu besuchen.

Das obige ist der detaillierte Inhalt vonDas neueste NaturalSpeech2-Sprachsynthesemodell von Microsoft: Bietet eine genauere Sprachrekonstruktion und vermeidet Stick-Reading-Effekte. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!