Un autre acteur puissant a été ajouté dans le domaine de la génération d'images et de vidéos IA.
Vous souvenez-vous du chercheur scientifique Robin Rombach qui a démissionné de la startup d'IA Stability AI fin mars de cette année ? En tant que l'un des deux principaux auteurs ayant développé le modèle de graphe Vincent Stable Diffusion, il a rejoint Stability AI en 2022. Maintenant, près de cinq mois après avoir quitté Stability AI, Robin Rombach a tweeté la bonne nouvelle de démarrer sa propre entreprise ! Il a créé "Black Forest Labs" pour faire progresser les modèles d'apprentissage profond génératif SOTA de haute qualité pour les images et les vidéos et les rendre accessibles au plus grand nombre. Les membres de l'équipe sont composés de chercheurs et d'ingénieurs exceptionnels en IA. Leurs travaux représentatifs antérieurs incluent VQGAN et Latent Diffusion, des modèles de diffusion stable dans le domaine de la génération d'images et de vidéos (y compris Stable Diffusion XL, Stable Video Diffusion et Rectified). Flow Transformers) et Adversarial Diffusion Distillation pour une synthèse d’images ultra-rapide en temps réel. Il est à noter qu'outre Robin Rombach, Stable Diffusion compte trois autres auteurs devenus membres fondateurs de l'équipe, dont Andreas Blattmann, Dominik Lorenz et Patrick Esser. Ils ont tous deux quitté Stability AI plus tôt cette année, certains spéculant qu'ils sont partis pour créer leur propre entreprise. Actuellement, les Labs ont finalisé une ronde de financement d'amorçage de 31 millions de dollars, dirigée par Andreessen Horowitz. Parmi les autres investisseurs figurent les investisseurs providentiels Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila, Vladlen Koltun et certains experts bien connus en recherche et en entrepreneuriat en IA. Il a également reçu des investissements de suivi de General Catalyst et de MätchVC. The Labs a également créé un conseil consultatif, dont les membres comprennent Michael Ovitz, un magnat de la technologie possédant une vaste expérience dans l'industrie de la création de contenu, et le professeur Matthias Bethge, un pionnier du transfert de style neuronal et un expert de premier plan en IA ouverte. la recherche en Europe. Bien entendu, Black Forest Labs a lancé sa première série de modèles "FLUX.1", qui comprend les trois variantes de modèles suivantes. La première variante est FLUX.1 [pro], qui est un nouveau modèle de diagramme SOTA Vincent avec des détails d'image extrêmement riches, de fortes capacités de suivi d'invite et des styles variés. Actuellement disponible via API. - Adresse API : https://docs.bfl.ml/
Le deuxième est FLUX.1 [dev], qui est la version ouverte de FLUX.1 [ pro] poids, variantes non commerciales, et sont distillés directement à partir de ces derniers. Ce modèle surpasse les autres modèles d'image tels que Midjourney et Stable Diffusion 3. Le code d'inférence et les poids sont déjà disponibles sur GitHub. L'image ci-dessous est une comparaison avec des modèles d'images concurrents. - Adresse GitHub : https://github.com/black-forest-labs/flux
Le troisième est open source FLUX.1 [schnell], c'est super Modèle efficace en 4 étapes, suivant le protocole Apache 2.0. Ce modèle est très proche de [dev] et [pro] en termes de performances et peut être utilisé sur Hugging Face. - Adresse Hugging Face : https://huggingface.co/black-forest-labs/FLUX.1-schnell
Dans le même temps, Black Forest Labs a également commencé à se promouvoir. Le prochain objectif est de lancer le modèle vidéo SOTA Wensheng accessible à tous, tout le monde peut l'attendre avec impatience ! Le succès instantané : la série de modèles de figurines Vincent "FLUX.1" arriveCette fois, les trois modèles lancés par Black Forest Labs utilisent tous... Une architecture hybride pour transformateurs multimodaux et à diffusion parallèle. Contrairement à d'autres sociétés qui divisent une série de modèles en "tasse moyenne", "tasse grande" et "tasse extra large" en fonction du nombre de paramètres, les membres de la famille FLUX.1 ont été uniformément élargis à une échelle énorme de 12 milliards de paramètres. L'équipe de recherche a adopté le framework Flow Matching pour mettre à niveau le précédent modèle de diffusion SOTA. On peut déduire des notes sur le blog officiel que l'équipe de recherche a suivi la méthode Rectified flow+Transformer proposée alors qu'elle travaillait encore chez Stability AI (en mars de cette année). Ils ont également introduit l'intégration de positions pivotées et des couches d'attention parallèles. Ces méthodes améliorent efficacement les performances du modèle en matière de génération d'images, et la vitesse de génération d'images sur les périphériques matériels est également devenue plus rapide. Cette fois, Black Forest Labs n'a pas divulgué la technologie détaillée du modèle, mais un rapport technique plus détaillé sera bientôt publié.
Ces trois modèles ont établi de nouvelles normes dans leurs domaines respectifs. Qu'il s'agisse de la beauté des images générées, de la façon dont les images s'intègrent dans les invites de texte, de la variabilité de la taille/du rapport hauteur/largeur ou de la variété des formats de sortie, FLUX.1 [pro] et FLUX.1 [dev] vont au-delà d'une gamme des modèles de génération d'images populaires, tels que Midjourney v6.0, DALL・E 3 (HD) et SD3-Ultra.
FLUX.1 [schnell] est le modèle en quelques étapes le plus avancé à ce jour, surpassant non seulement les concurrents similaires, mais aussi surpassant Midjourney v6.0 et DALL・E 3 (HD) Un non-puissant si puissant -modèle distillé.
Le modèle est spécifiquement affiné pour conserver toute la diversité des résultats de la phase de pré-formation. Les modèles de la série FLUX.1 laissent également beaucoup de place à l'amélioration par rapport à la technologie de pointe actuelle.
Tous les modèles de la série FLUX.1 prennent en charge plusieurs formats d'image et résolutions, de 0,1 à 2 mégapixels. Certains internautes prompts à agir en ont déjà fait l'expérience en premier. Il semble que le "plus fort" sur lequel Black Forest Labs a souligné à plusieurs reprises n'est pas seulement l'auto-promotion. Des mots simples peuvent créer un tel effet. Si vous regardez attentivement le motif du tapis d'alpaga, il n'y a pas de distorsion ou de déformation. Mot d'invite : Un émeu émeraude chevauchant un lama blanc. Invite mot : Un cheval joue avec deux aligators au bord de la rivière Lens.
Parmi les trois modèles, FLUX.1 [schnell], dont les performances sont légèrement plus faibles, est également rapide et puissant à utiliser. Certains internautes ont partagé leur expérience de son exécution sur un Mac et n'ont pu s'empêcher de soupirer. , c'était si simple à utiliser. Les internautes qui ne savent pas grand-chose des « griefs » entre les auteurs de Stable Diffusion et Stability AI ont déploré : Un modèle de graphe vincentien est apparu de nulle part, et il est tout simplement terriblement puissant.
Pour l'histoire de l'auteur de Stable Diffusion et de l'ancienne société Stability AI, vous pouvez lire les rapports précédents sur ce site :
Lorsque la valeur était de 100 millions de dollars américains, l'équipe derrière Stable Diffusion a commencé à se battre. Qui est le véritable officiel ? En plus des trois modèles vincentiens les plus puissants, Black Forest Labs réserve également un « grand déménagement ». Avec des capacités aussi puissantes pour les modèles de génération d'images, les Black Forest Labs ont jeté des bases solides pour les modèles de génération vidéo et, comme ils le prédisent, ces scientifiques de pointe en vision par ordinateur s'orientent vers une technologie vidéo de pointe pour tous. .
Blog de l'entreprise : https://blackforestlabs.ai/announcements/Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!