Maison > Périphériques technologiques > IA > le corps du texte

Meta lance le modèle audio AI Audiobox, prenant en charge la saisie simultanée de voix et de texte

WBOY
Libérer: 2023-12-04 17:25:56
avant
1275 Les gens l'ont consulté

Meta a récemment lancé un modèle de génération de son IA appelé Audiobox. Ce modèle peut recevoir à la fois une saisie vocale et textuelle, et les utilisateurs peuvent générer l'audio requis via une description vocale et textuelle

Il est rapporté que ce modèle est basé sur le modèle Voicebox AI lancé par Meta en juin de cette année, Audiobox serait capable de générer divers sons environnementaux et une parole conversationnelle naturelle, et intègre des capacités de génération et d'édition audio afin que les utilisateurs puissent librement. générer l’audio dont ils ont besoin.

Meta 推出 AI 音频模型 Audiobox,支持语音及文字同时输入

Meta a déclaré que la génération d'audio de haute qualité nécessite un grand nombre de bibliothèques audio et une connaissance approfondie du domaine, mais qu'il est difficile pour le public d'obtenir ces ressources. La société a lancé ce modèle pour abaisser le seuil de génération de son et faciliter la tâche. n'importe qui pour créer des vidéos et des jeux pour d'autres scénarios d'application.

IT House a découvert que ce modèle Audiobox est basé sur le mécanisme de « son guidé » de Voicebox pour faciliter la génération de l'audio cible, et coopère avec la méthode de génération de modèle de diffusion « flow-matching » pour obtenir une fonction de « remplissage audio » )" pour générer plusieurs -audio en couches.

Le méta-test génère un son de pluie avec des sons d'orage et saisit une série de phrases rapides à des fins de démonstration, telles que "le bruit de l'eau courante est accompagné du chant des oiseaux", "une jeune femme parlant à un rythme aigu et rapide", etc. .; il teste également la saisie simultanée d'invites audio et textuelles pour générer un discours avec émotion (« triste et lent ») et un son de fond (être dans une église).

Meta 推出 AI 音频模型 Audiobox,支持语音及文字同时输入

Meta 推出 AI 音频模型 Audiobox,支持语音及文字同时输入

Meta affirme qu'Audiobox a vaincu avec succès AudioLDM2, VoiceLDM et TANGO en termes de qualité sonore et de « précision du contenu généré », surpassant les meilleurs modèles de génération audio existants.

Meta 推出 AI 音频模型 Audiobox,支持语音及文字同时输入

Audiobox est actuellement ouvert à des chercheurs spécifiques et à des universitaires pour une utilisation à titre d'essai afin de tester la qualité et la sécurité du modèle. Meta affirme qu'ils prévoient de « rendre le modèle entièrement public dans quelques semaines ».

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:sohu.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal