Meta lance le modèle audio AI Audiobox, prenant en charge la saisie simultanée de voix et de texte-IA-php.cn

Meta lance le modèle audio AI Audiobox, prenant en charge la saisie simultanée de voix et de texte

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Libérer： 2023-12-04 17:25:56

avant

1504 Les gens l'ont consulté

Meta a récemment lancé un modèle de génération de son IA appelé Audiobox. Ce modèle peut recevoir à la fois une saisie vocale et textuelle, et les utilisateurs peuvent générer l'audio requis via une description vocale et textuelle

Il est rapporté que ce modèle est basé sur le modèle Voicebox AI lancé par Meta en juin de cette année, Audiobox serait capable de générer divers sons environnementaux et une parole conversationnelle naturelle, et intègre des capacités de génération et d'édition audio afin que les utilisateurs puissent librement. générer l’audio dont ils ont besoin.

Meta 推出 AI 音频模型 Audiobox，支持语音及文字同时输入

Meta a déclaré que la génération d'audio de haute qualité nécessite un grand nombre de bibliothèques audio et une connaissance approfondie du domaine, mais qu'il est difficile pour le public d'obtenir ces ressources. La société a lancé ce modèle pour abaisser le seuil de génération de son et faciliter la tâche. n'importe qui pour créer des vidéos et des jeux pour d'autres scénarios d'application.

IT House a découvert que ce modèle Audiobox est basé sur le mécanisme de « son guidé » de Voicebox pour faciliter la génération de l'audio cible, et coopère avec la méthode de génération de modèle de diffusion « flow-matching » pour obtenir une fonction de « remplissage audio » )" pour générer plusieurs -audio en couches.

Le méta-test génère un son de pluie avec des sons d'orage et saisit une série de phrases rapides à des fins de démonstration, telles que "le bruit de l'eau courante est accompagné du chant des oiseaux", "une jeune femme parlant à un rythme aigu et rapide", etc. .; il teste également la saisie simultanée d'invites audio et textuelles pour générer un discours avec émotion (« triste et lent ») et un son de fond (être dans une église).

Meta 推出 AI 音频模型 Audiobox，支持语音及文字同时输入

Meta affirme qu'Audiobox a vaincu avec succès AudioLDM2, VoiceLDM et TANGO en termes de qualité sonore et de « précision du contenu généré », surpassant les meilleurs modèles de génération audio existants.

Meta 推出 AI 音频模型 Audiobox，支持语音及文字同时输入

Audiobox est actuellement ouvert à des chercheurs spécifiques et à des universitaires pour une utilisation à titre d'essai afin de tester la qualité et la sécurité du modèle. Meta affirme qu'ils prévoient de « rendre le modèle entièrement public dans quelques semaines ».

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!