Sieht so die Zukunft der Kommunikation zwischen Menschen aus?
Kürzlich ist ein Text-to-Speech-Projekt namens ChatTTS populär geworden und hat bei allen große Aufmerksamkeit erregt. In nur drei Tagen hat es auf GitHub 9,2.000 Sterne erhalten.
Projektadresse: https://github.com/2noise/ChatTTS/tree/main
Der Autor selbst sagte auch auf x, dass ChatTTS die Open-Source-Obergrenze durchbrochen hat. Allerdings handelt es sich bei dem, was derzeit Open Source ist, nur um das Basismodell, das nicht von SFT überwacht und verfeinert wurde.
Dieses Projekt wandelt Text in Sprache um. Der Effekt ist wie folgt: ChatTTS kann nicht nur Chinesisch, sondern auch Englisch sprechen, wodurch Sie Lachen und Lachen hinzufügen können Sprechpausen und Modalpartikel sind sehr gut spielbar. Es kann die vergriffenen Stimmen verstorbener Menschen wiedergeben. Wenn Sie die Entwicklungskonferenz von Steve Jobs noch einmal hören möchten, können Sie dies jederzeit tun. Wenn man zuhört, wie Swifts Klangfarbe nachgeahmt wird, sei es die Intonation oder der Tonwechsel, kommt es der Person sehr nahe und es gibt fast keinen KI-Geschmack. Sie können auch gut Chinesisch und Englisch sprechen. Mit diesem halb englischen und halb chinesischen Akzent haben Sie die Sprachkenntnisse von ChatTTS auf die nächste Stufe gebracht.站 Das obige Audio stammt von Station B: https://www.bilibili.com/video/bv1zn4y1o7iv/?share_source=copy_web&vd_source=983EC32A3036999E4FDBCE3C28 Beschreibt die obige Beschreibung. Während der Anzeige können wir sehen, dass Chattts eine natürliche Sprachglätte erreichen kann Die Synthese unterstützt mehrere Sprecher gleichzeitig; sie kann auch feinkörnige prosodische Merkmale, einschließlich Lachen, Pausen und eingefügte Wörter, vorhersagen und steuern. ChatTTS übertrifft die meisten Open-Source-TTS-Modelle in Bezug auf Prosodie.
Derzeit unterstützt ChatTTS Chinesisch und Englisch. Das größte Modell wurde mit mehr als 100.000 Stunden chinesischen und englischen Daten trainiert. Die Open-Source-Version in HuggingFace ist eine Version, die 40.000 Stunden lang trainiert wurde, aber noch nicht SFT war. Es ist erwähnenswert, dass die oben angezeigten Audios alle auf der Grundlage der Sprachsynthesetechnologie produziert wurden und dazu gedacht sind, technologische Errungenschaften zu präsentieren und nicht dazu gedacht sind, die Rechte anderer zu verletzen oder zu verletzen. Sobald das Projekt veröffentlicht wurde, probierten Internetnutzer aus allen Gesellschaftsschichten es aus und stellten fest, dass es beim Klang tatsächlich schwierig ist, zwischen echt und falsch zu unterscheiden.Manche Leute verwenden GPT, um Text zu generieren und ihn von ChatTTS „lesen“ zu lassen. Der Unterschied zwischen dem Ton und der Intonation echter Menschen ist sehr gering:
Der Effekt ist so gut , natürlich möchte ich es versuchen. Wie verwende ich ChatTTS als Mundersatz? Zur Bedienung stehen Ihnen die folgenden Methoden zur Verfügung. Online-Erlebnisadresse: https://huggingface.co/spaces/Dzkaka/ChatTTS
ChatTTS hat hauptsächlich zwei Kernfunktionen: Die erste ist Text-to-Speech und die zweite ist der Sprachdialog in Echtzeit mit einem großen Sprachmodell. Zusätzlich zu diesen Funktionen können Sie in „Audio Seed“ die Klangfarbe des digital spezifizierten Lautsprechers anpassen oder würfeln, um einen zufällig zu generieren. Viele Tester sagten jedoch, dass der erzeugte Ton nicht unbedingt fest sei, wenn immer die gleichen Parameter verwendet würden.
2Noise sagte, dass es derzeit das Klonen von Sounds unterstützt, aber dafür eine größere Datenmenge erfordert.
Nach der Texteingabe in das Textfeld generiert ChatTTS automatisch Reime und Pausen für Sie und fügt auch einige Modalpartikel wie „dann“ hinzu. Wenn Sie beim Tippen [laugh] und [uv_break] zum Text hinzufügen, können Sie ChatTTS manuell steuern, um beim Sprechen etwas „Lachen“ zu erzeugen.
Allerdings kann ChatTTS noch nicht mit relativ langen Texten umgehen. Einige Internetnutzer baten darum, Hörbücher herauszufordern, und stellten fest, dass die ursprüngliche Version keine Audiodateien erzeugen kann, die länger als 30 Sekunden sind, und manuell repariert werden muss. Bei relativ langen Texten treten auch Probleme mit der Wortsegmentierung von ChatTTS auf.
Das obige ist der detaillierte Inhalt vonHot ChatTTS durchbrach die Open-Source-Sprachobergrenze und gewann in 3 Tagen 9.000 Sterne. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!