Est-ce à cela que ressemblera l'avenir de la communication entre les gens ?
Récemment, un projet de synthèse vocale appelé ChatTTS est devenu populaire, attirant une grande attention de la part de tous. En seulement trois jours, il a gagné 9,2 000 étoiles sur GitHub.
Adresse du projet : https://github.com/2noise/ChatTTS/tree/main
L'auteur lui-même a également déclaré sur x que ChatTTS avait franchi le plafond de l'open source. Cependant, ce qui est actuellement open source n’est que le modèle de base, qui n’a pas été supervisé et affiné par SFT.
Ce projet convertit le texte en parole. L'effet est le suivant : ChatTTS peut non seulement parler chinois, mais aussi anglais. Il prend également en charge un contrôle précis, ce qui vous permet d'ajouter des rires et des rires pendant. parlant, ainsi que les particules modales, sont très jouables. Il peut reproduire les voix épuisées de personnes décédées. Si vous souhaitez réentendre la conférence sur le développement de Steve Jobs, vous pouvez le faire à tout moment. En l'écoutant en imitant le timbre de Swift, que ce soit l'intonation ou le changement de ton, c'est très proche de la personne, et il n'y a presque aucune saveur d'IA. Vous pouvez également bien parler chinois et anglais. Avec cet accent mi-anglais et mi-chinois, vous êtes assez courageux pour entrer dans le cercle. Les capacités linguistiques de ChatTTS ont atteint le niveau supérieur.站 L'audio ci-dessus provient de la station B : https://www.bilibili.com/video/bv1zn4y1o7iv/?share_source=copy_web&vd_source=983EC32A3036999E4FDBCE3C28 Décrit la description ci-dessus. Pendant l'affichage, nous pouvons voir que Chattts peut atteindre une fluidité naturelle de la parole. la synthèse prend en charge plusieurs locuteurs en même temps ; elle peut également prédire et contrôler des caractéristiques prosodiques fines, notamment les rires, les pauses et les mots insérés ; ChatTTS surpasse la plupart des modèles TTS open source en termes de prosodie.
Actuellement, ChatTTS prend en charge le chinois et l'anglais. Le plus grand modèle a été formé à l’aide de plus de 100 000 heures de données en chinois et en anglais. La version open source de HuggingFace est une version qui a été formée pendant 40 000 heures mais qui n'a pas encore été SFT. Il convient de mentionner que les audios affichés ci-dessus sont tous produits sur la base de la technologie de synthèse vocale et sont destinés à mettre en valeur les réalisations technologiques et ne sont pas destinés à offenser ou à porter atteinte aux droits d'autrui. Dès la sortie du projet, des internautes de tous horizons l'ont essayé et ont découvert que le son est en effet difficile à distinguer entre le vrai et le faux.Certaines personnes utilisent GPT pour générer du texte et laissent ChatTTS le "lire". La différence entre le ton et l'intonation de vraies personnes est très petite :
L'effet est tellement bon. , naturellement je veux l'essayer. Comment utiliser ChatTTS comme substitut buccal ? Vous pouvez vous référer aux méthodes suivantes pour fonctionner. Adresse de l'expérience en ligne : https://huggingface.co/spaces/Dzkaka/ChatTTS
ChatTTS a principalement deux fonctions principales, la première est la synthèse vocale et la seconde est le dialogue vocal en temps réel avec un grand modèle de langage. En plus de ces fonctions, vous pouvez ajuster le timbre du haut-parleur spécifié numériquement dans « Audio Seed », ou lancer les dés pour en générer un de manière aléatoire. Cependant, de nombreux testeurs ont déclaré que si les mêmes paramètres sont utilisés à chaque fois, la tonalité générée n'est pas nécessairement fixe.
2Noise a déclaré qu'il prend actuellement en charge le clonage du son, mais qu'il nécessite une plus grande quantité de données.
Après avoir saisi du texte dans la zone de texte, ChatTTS générera automatiquement des rimes et des pauses pour vous, et ajoutera également des particules modales telles que "puis". Si vous ajoutez [rire] et [uv_break] au texte lors de la saisie, vous pouvez contrôler manuellement ChatTTS pour produire du « rire » lorsque vous parlez.
Cependant, ChatTTS ne peut pas encore gérer des textes relativement longs. Certains internautes lui ont demandé de contester les livres audio et ont constaté que la version initiale ne pouvait pas générer d'audio de plus de 30 secondes et devait être réparée manuellement. Lorsque vous rencontrez un texte relativement long, la segmentation des mots de ChatTTS posera également des problèmes.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!