Le premier modèle SOTA de musique domestique est là ! Optimisé spécifiquement pour le chinois, utilisation gratuite, aucune restriction sur les genres-IA-php.cn

À l'occasion du premier anniversaire de la sortie du modèle « Tiangong », Kunlun Worldwide a annoncé que le modèle de base « Tiangong 3.0 » et le modèle musical « Tiangong SkyMusic » ont officiellement lancé la version bêta publique.

Depuis que l'IA permet aux humains d'accéder à la liberté de création musicale, même les querelles sont devenues intéressantes.

Dans le passé, Aran Komatsuzaki, un blogueur bien connu en IA sur la plateforme X, a écrit une chanson spécifiquement pour exprimer son mécontentement envers un autre scientifique en IA, Gary Marcus, et l'a générée à l'aide du populaire Suno. Vous savez, dans le passé, la guerre des mots entre ces grands consistait principalement à publier un message, puis vous et moi faisions un suivi. Cette fois, on peut dire que l'approche d'Aran Komatsuzaki a joué un nouveau tour. Je ne sais pas si elle a été inspirée par "Merci, merci, je veux vous critiquer".

Le premier modèle SOTA de musique domestique est là ! Optimisé spécifiquement pour le chinois, utilisation gratuite, aucune restriction sur les genres

Comme Aran Komatsuzaki, de nombreuses personnes au pays et à l'étranger qui connaissent la musique mais ne la comprennent pas essaient d'utiliser des outils de création musicale IA tels que Suno et ont généré de nombreuses œuvres musicales très intéressantes.

Cependant, de nombreux internautes ont signalé que Suno génère parfois un chinois qui n'est pas stable, et qu'il existe des problèmes tels que des chansons chinoises ayant une connotation anglaise et des mots rares chantés de manière incorrecte. Commentaires de la station S B publiés par une chanson chinoise générée par Suno. Adresse vidéo : https://b23.tv/gVqTUOu

Le premier modèle SOTA de musique domestique est là ! Optimisé spécifiquement pour le chinois, utilisation gratuite, aucune restriction sur les genres

Alors, existe-t-il un modèle de génération de musique IA spécifiquement optimisé pour le chinois ?

Le premier modèle SOTA de musique domestique est là ! Optimisé spécifiquement pour le chinois, utilisation gratuite, aucune restriction sur les genres Le "Tiangong SkyMusic" que Kunlun Wanwei a ouvert aujourd'hui à l'ensemble de la société pour une version bêta publique est un tel modèle. Les voix chinoises qu'il génère sont claires, authentiques et n'ont aucun son anormal, et il n'y a pas de « chansons chinoises à la Broadway » et autres problèmes d'acclimatation. De plus, il est non seulement optimisé pour le mandarin, mais prend également en charge des dialectes tels que le cantonais, le Chengdu et le Pékin.

Alors, comment SkyMusic se comporte-t-il par rapport à Suno ? Les données d'évaluation horizontale montrent que SkyMusic est supérieur dans plusieurs indicateurs tels que la qualité du son vocal et BGM, le naturel de la voix et l'intelligibilité de la prononciation. Ses performances globales surpassent Suno V3, devenant ainsi le premier AIGC SOTA musical de Chine. Le modèle a également fait de la Chine un grand modèle auto-développé. la technologie des modèles domine pour la première fois le monde dans le domaine de l'AIGC.

Des performances aussi excellentes sont naturellement indissociables du puissant modèle de base, c'est-à-dire du grand modèle "Tiangong 3.0" publié et open source par Kunlun Wanwei en même temps. Ce modèle comporte 400 milliards de paramètres, dépassant Grok-1 avec 314 milliards de paramètres, et constitue le plus grand modèle MoE open source au monde.

Dans de nombreux résultats d'évaluation multimodales faisant autorité tels que MMBench, "Tiangong 3.0" a dépassé GPT-4V et a pris la tête du monde.

Le premier modèle SOTA de musique domestique est là ! Optimisé spécifiquement pour le chinois, utilisation gratuite, aucune restriction sur les genres

Avec le soutien de ce modèle de base, SkyMusic a une compréhension plus profonde des chansons. Il peut contrôler les changements émotionnels à travers les paroles et mettre en œuvre diverses techniques de chant telles que le vibrato, l'opéra, le chant, etc., rendant les œuvres musicales générées plus riches émotionnellement et adaptées à la situation.

Le premier modèle SOTA de musique domestique est là ! Optimisé spécifiquement pour le chinois, utilisation gratuite, aucune restriction sur les genres

Alors, comment utiliser ce modèle ? Quel est le parcours technique ? Qu’y a-t-il d’innovant dans le « Tiangong 3.0 » ? Regardons-les un par un.

Le premier modèle SOTA de musique domestique avec un gameplay illimité

En fait, il est très simple d'utiliser SkyMusic pour générer des chansons : il vous suffit de saisir le titre de la chanson, les paroles et de sélectionner une piste de référence, et cela générera des chansons avec un style et des voix similaires.

Le premier modèle SOTA de musique domestique est là ! Optimisé spécifiquement pour le chinois, utilisation gratuite, aucune restriction sur les genres

Si vous ne souhaitez pas écrire les paroles vous-même, vous pouvez également essayer la fonction « AI Lyric Writing » dans le coin inférieur droit de la zone de saisie. Il peut être écrit à partir de la première phrase, et une seule phrase est générée à la fois. Les phrases insatisfaisantes peuvent être supprimées à temps jusqu'à ce que la chanson entière soit terminée.

Le premier modèle SOTA de musique domestique est là ! Optimisé spécifiquement pour le chinois, utilisation gratuite, aucune restriction sur les genres

Bien sûr, vous pouvez également essayer d'utiliser "Tiangong 3.0" pour écrire des chansons. Par exemple, cette chanson "This Site" a été écrite par nos soins en utilisant "Tiangong 3.0" :

Le premier modèle SOTA de musique domestique est là ! Optimisé spécifiquement pour le chinois, utilisation gratuite, aucune restriction sur les genres

La prochaine étape est. choisir des chansons de référence, c'est aussi la particularité de SkyMusic, c'est-à-dire qu'il peut générer de la musique basée sur des échantillons de sources sonores.

Dans cette étape, SkyMusic propose de nombreuses pistes de référence, vous pouvez choisir parmi elles ou choisir de télécharger des fichiers de chansons. Ici, nous avons mis en ligne une chanson de Luo Tianyi pour voir comment se produit l'effet de génération : Cette capacité à générer de la musique basée sur des échantillons de sources sonores a grandement enrichi le gameplay de SkyMusic. Dans la zone d'affichage des œuvres de l'utilisateur, nous pouvons voir que "The New Man" (l'épisode du film "Zhou Chu Eliminates Three Evils") a cinq versions dont le rock ancien et le DJ. Au cours du processus d'essai, nous avons également découvert qu'en fait, la musique générée par SkyMusic couvre le rap, le folk, le funk, le style ancien, l'électronique et d'autres genres. Dans la prochaine étape, l'équipe prévoit également de permettre aux utilisateurs de générer des chansons basées sur des mélodies fredonnées, ce qui sera d'une grande aide pour les professionnels.

Actuellement, Tiangong SkyMusic est entièrement ouvert. Vous pouvez en faire l'expérience en téléchargeant l'application "Tiangong". Il s’agit du seul modèle de génération de musique IA à grande échelle accessible au public en Chine, et son émergence comble le vide des outils AIGC nationaux dans ce domaine.

Bien que ce modèle en soit encore à ses balbutiements, il a déjà permis à de nombreuses personnes d'expérimenter les joies de la création musicale. Tout le monde l'utilise pour transformer des comédies divines, créer des seconds tubes, réécrire des poèmes anciens pour soutenir l'éducation... et développer diverses nouvelles orientations pour la création musicale.

Architecture Sora auto-développée, la feuille de route technique a été rendue publique

Tiangong SkyMusic est un modèle de génération de musique de bout en bout, il nous semble donc très simple de l'utiliser. Cependant, le développement de l’ensemble du modèle n’est pas si simple.

Tout d'abord, d'un point de vue technique, SkyMusic a choisi la voie de génération audio musicale à grand modèle, ce qui signifie qu'il apprend et génère directement des formes d'onde audio au lieu d'utiliser des voies de génération de musique symboliques (telles que MIDI) pour générer des partitions musicales. Cette approche permet une génération intégrée de bout en bout d'éléments tels que des instruments, des voix, des mélodies, des volumes, des notes, etc., offrant ainsi une expérience de création musicale plus directe et de meilleure qualité. Cependant, cette direction est également plus difficile et nécessite une puissance de calcul et des fonds élevés, c'est pourquoi très peu de personnes le font.

De plus, dans cette direction, il y a encore moins de personnes déterminées à conquérir le domaine du « chant vocal ». La plupart des recherches se concentrent sur le domaine du BGM sans chant, car il n'y a presque pas d'informations ouvertes ou de modèles open source pour référence. dans l'ancien. .

Face à ces pressions, Kunlun Wanwei a mené d'innombrables expériences de recherche et développement, investi beaucoup de puissance de calcul, construit un ensemble de données contenant 20 millions de chansons (le plus grand ensemble de données musicales de l'histoire de l'humanité) et a finalement exploré un effet Bon, reproductible solution. De plus, ils ont également rendu public le schéma technique de cette solution.

Le premier modèle SOTA de musique domestique est là ! Optimisé spécifiquement pour le chinois, utilisation gratuite, aucune restriction sur les genres

^{Schéma technique de Tiangong SkyMusic : Le transformateur à grande échelle est responsable de la composition de la musique pour apprendre les dépendances contextuelles des patchs musicaux tout en obtenant la contrôlabilité de la musique. Le transformateur est responsable du chant et de la restauration des patchs musicaux via LDM ; en un son de haute qualité. Cette architecture de modèle fonctionne extrêmement bien lors du traitement de la vidéo, de l'audio et de la musique.}

Comme le montre l'image, le framework de SkyMusic est une voie technologique DiT similaire à celle de Sora, mais le temps de développement était avant la sortie de Sora, il est donc inévitable de tomber sur de nombreux pièges.

Pour l'industrie, ce schéma est très précieux, car il n'existe aucune société de modèles musicaux d'IA à grande échelle sur le marché qui ait divulgué son parcours technique, y compris SUNO, Kunlun Wanwei est la seule.

La base puissante derrière lui - Tiangong 3.0

Le succès de SkyMusic est indissociable du modèle de base derrière lui - Tiangong 3.0. Sa mise à niveau fondamentale se reflète dans la « pensée indépendante ». Cela se reflète dans la nouvelle recherche multi-tours du modèle et dans l'appel d'outils complet, le dessin de graphiques, le mode de recherche, le mode d'amélioration et d'autres fonctions.

Étant donné une tâche de statistiques de données, il peut non seulement vous aider à collecter toutes les données, mais également à écrire votre propre code et à appeler diverses fonctions pour dessiner des graphiques. Chaque étape intermédiaire a été démontée de manière claire et l'exécution ultérieure nécessite peu d'intervention humaine. Même des détails tels que « éviter le chevauchement des étiquettes » et « centrer l'affichage du texte » ont été pris en compte. C'est l'incarnation de la capacité de « pensée indépendante ».

Cette amélioration de la capacité de « pensée indépendante » est indissociable de l'optimisation de « Tiangong 3.0 » dans la compréhension sémantique, le raisonnement logique et d'autres aspects. Par rapport au grand modèle MoE de la génération précédente « Tiangong 2.0 », « Tiangong 3.0 » présente des améliorations de performances étonnantes dans des domaines tels que la compréhension sémantique du modèle, le raisonnement logique, la polyvalence, la généralisation, la connaissance de l'incertitude et les capacités d'apprentissage. de plus de 20 %, et les capacités mathématiques/raisonnement/codage/culturelles et créatives ont augmenté de plus de 30 %.

Prenons la tâche de recherche comme exemple. Dans le mode « Amélioration de la recherche », suite à une simple requête de recherche, « Tiangong 3.0 » donnera non seulement une réponse sommaire, mais affinera également certaines informations importantes sous forme de graphiques.

Dans le mode "Recherche", il proposera également un module "Recherche approfondie" pour discuter et rechercher des questions étendues non mentionnées dans la requête, vous donnant le sentiment de lire un article. Enfin, il organise également ces informations dans une carte mentale pour une référence rapide.

Sur la base de l'amélioration significative de la compréhension sémantique et des capacités de raisonnement logique, « Tiangong 3.0 » a également dispensé une formation spéciale sur la capacité du modèle à planifier, appeler et combiner de manière indépendante des outils et des informations externes. En planifiant, en appelant et en combinant des outils et des informations externes de manière indépendante, il peut vous aider à répondre avec précision et efficacité à divers besoins complexes tels que la recherche industrielle, les évaluations de produits et l'analyse d'informations.

Cette capacité à penser de manière indépendante est cruciale pour les grands modèles d’intelligence artificielle. Premièrement, cette capacité permet à l’IA d’effectuer un raisonnement autonome en l’absence d’instructions directes, améliorant ainsi sa capacité à gérer des problèmes complexes ; deuxièmement, les modèles d’IA pensant de manière indépendante peuvent concevoir des solutions innovantes pour répondre à des besoins personnalisés et basés sur des scénarios ; permet à l’IA d’optimiser continuellement ses performances grâce à l’auto-apprentissage et à l’adaptation lorsqu’elle rencontre des environnements nouveaux ou changeants. L’effet cumulé de ces trois aspects a grandement favorisé l’étendue et la profondeur des applications de la technologie de l’IA, la rendant plus intelligente et efficace dans une variété d’applications pratiques.

"Tiangong 3.0" inclut de nombreuses fonctionnalités de grand modèle telles que la musique IA, la recherche IA, l'écriture IA, la peinture IA, etc. Quand on parle de la relation derrière le grand modèle MoE de 400 milliards de paramètres "Tiangong 3.0" et Tiangong SkyMusic, Kunlun Fang Han, président-directeur général de Wanwei, a expliqué : « Tout le monde sait que le grand modèle de base d'IA est la base solide de l'AIGC, en particulier le grand modèle de texte. Les capacités de Vincent Picture, Vincent Music et Vincent Video (ces modèles AIGC) sont basés sur le modèle de texte. Si la capacité du modèle de texte n'est pas suffisamment puissante, les capacités de l'AIGC seront considérablement limitées. "

Cet effet se reflète également dans la peinture IA et d'autres capacités de "Tiangong 3.0". "Tiangong 3.0" a ajouté de nouvelles fonctions telles que l'expansion de la taille de l'image, l'ajustement de l'orientation de l'image, la génération d'images de tapis, l'évolution de l'image de tapis, l'expansion de l'image de tapis, etc., et les résultats des tests réels sont excellents.

Le premier modèle SOTA de musique domestique est là ! Optimisé spécifiquement pour le chinois, utilisation gratuite, aucune restriction sur les genres

"Notre grand modèle de 400 milliards est le modèle de base qui prend en charge tous nos produits C-end. Plus mon modèle de base est bon, meilleurs seront ma musique, mes jeux, mes vidéos et mes produits d'animation. Faites-le mieux . Nous avons donc une très forte motivation pour fabriquer de grands modèles de base", a déclaré Fang Han.

Réaliser une intelligence artificielle générale,

Laisser chacun mieux se façonner et s'exprimer

Dans la vision d'AGI, nous entendons souvent certains dirigeants d'entreprises d'IA mentionner qu'ils souhaitent utiliser les outils d'IA pour améliorer la productivité et l'efficacité de la société humaine. . Par conséquent, ils se concentrent principalement sur l’expansion et l’amélioration de l’intelligence des modèles. Mais selon Fang Han, une question importante a été négligée : comment utiliser l’IA pour aider les gens à mieux comprendre et exprimer leurs émotions.

Dans la section musique de SkyMusic, nous en avons vu de nombreux exemples : le chagrin des étudiants sur le point d'obtenir leur diplôme, la tristesse des jeunes incapables d'aimer et la fatigue des personnes d'âge moyen qui soutiennent leur famille s'expriment toutes à travers le chant. . C'est le véritable « chanter pour exprimer son ambition ».

Le premier modèle SOTA de musique domestique est là ! Optimisé spécifiquement pour le chinois, utilisation gratuite, aucune restriction sur les genres

Le soutien aux dialectes s'apparente davantage à une sorte d'égalité culturelle, ce que Fang Han apprécie beaucoup. À l'avenir, ils espèrent ajouter davantage de langues afin que chaque personne parlant une petite langue puisse facilement créer son propre contenu culturel.

"Dans le domaine de l'AIGC, notre objectif ambitieux est d'espérer que tout le monde dans le monde puisse créer du contenu de manière égale. Nous voulons abaisser le seuil de créativité pour chacun afin que chacun puisse mieux se façonner et s'exprimer."

Récemment, ces contenus ont également été inscrits dans la dernière mission de Kunlun Worldwide.

Le premier modèle SOTA de musique domestique est là ! Optimisé spécifiquement pour le chinois, utilisation gratuite, aucune restriction sur les genres

En fait, cette approche a également du sens sur le plan commercial. "Une fois que tout le monde pourra créer de la musique, je crois que n'importe quel lieu public, comme chaque restaurant et bar, pourra créer sa propre musique de fond pour répondre aux besoins de son entreprise", a expliqué Fang Han.

Avec une optimisation et une amélioration continues à l'avenir, SkyMusic évoluera progressivement vers une plateforme de création musicale professionnelle et facile à utiliser pour tous.

Bien sûr, les efforts de Kunlun Wanwei ne se limitent pas à la musique. Sur la base de « Tiangong 3.0 », ils ont formé six matrices commerciales majeures en matière d’IA. À l’avenir, ces matrices formeront une plateforme IA UGC.

Le premier modèle SOTA de musique domestique est là ! Optimisé spécifiquement pour le chinois, utilisation gratuite, aucune restriction sur les genres

Cette plate-forme peut non seulement aider les gens ordinaires à s'exprimer, mais également aider les créateurs qui souhaitent utiliser l'IA pour créer du contenu à boucler une boucle entièrement fermée de création de propriété intellectuelle. Cette boucle fermée prend les « bonnes histoires (IP) » comme noyau et couvre diverses formes telles que le texte, les bandes dessinées, la musique et les vidéos. La consommation de contenu des consommateurs est également complétée sur cette plate-forme. C'est la logique commerciale construite par Kunlun Wanwei.

"Notre essence est de permettre à plus de personnes de rejoindre l'équipe de créateurs. Le principe est que vous devez être capable de raconter une bonne histoire. Si vous pouvez créer une bonne IP, alors vous pouvez créer du contenu. Il est prévisible que, tout Les industries du contenu seront refaites, le nombre de créateurs augmentera des centaines de fois, et le contenu pouvant être consommé sera également multiplié par cent. C'est la logique de notre stratégie « Tout en AGI et AIGC », a déclaré Fang Han.

Quelle sera la forme de cette époque ? Nous verrons.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!