Ein weiterer leistungsstarker Player wurde dem Bereich der KI-Bild- und Videogenerierung hinzugefügt.
Erinnern Sie sich an den Forscher Robin Rombach, der Ende März dieses Jahres aus dem KI-Startup Stability AI ausschied? Als einer der beiden Hauptautoren, die das Vincent-Graphenmodell Stable Diffusion entwickelt haben, kam er 2022 zu Stability AI. Jetzt, fast fünf Monate nachdem er Stability AI verlassen hatte, twitterte Robin Rombach die gute Nachricht, sein eigenes Unternehmen zu gründen! Er gründete „Black Forest Labs“, um die hochwertigen generativen Deep-Learning-Modelle von SOTA für Bilder und Videos voranzutreiben und sie möglichst vielen Menschen zugänglich zu machen. Die Teammitglieder setzen sich aus herausragenden KI-Forschern und Ingenieuren zusammen. Zu ihren bisherigen repräsentativen Arbeiten gehören VQGAN und Latent Diffusion sowie Stable Diffusion-Modelle im Bereich der Bild- und Videoerzeugung (einschließlich Stable Diffusion XL, Stable Video Diffusion und Rectified). Flow Transformers) und Adversarial Diffusion Distillation für ultraschnelle Bildsynthese in Echtzeit. Bemerkenswert ist, dass Stable Diffusion neben Robin Rombach drei weitere Autoren hat, die zu Gründungsteammitgliedern geworden sind, darunter Andreas Blattmann, Dominik Lorenz und Patrick Esser. Beide haben Stability AI Anfang des Jahres verlassen, wobei einige spekulieren, dass sie gegangen sind, um ein eigenes Unternehmen zu gründen. Derzeit haben die Labs eine 31-Millionen-Dollar-Seed-Finanzierungsrunde unter der Leitung von Andreessen Horowitz abgeschlossen. Zu den weiteren Investoren zählen die Angel-Investoren Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila, Vladlen Koltun und einige bekannte KI-Forschungs- und Unternehmerexperten. Darüber hinaus erhielt das Unternehmen Folgeinvestitionen von General Catalyst und MätchVC. The Labs hat außerdem einen Beirat eingerichtet, zu dessen Mitgliedern Michael Ovitz, ein Technologie-Tycoon mit umfassender Erfahrung in der Content-Erstellungsbranche, und Professor Matthias Bethge, ein Pionier im Bereich neuronaler Stiltransfer und Top-Experte für offene KI, gehören Forschung in Europa. Natürlich hat Black Forest Labs seine erste Modellreihe „FLUX.1“ auf den Markt gebracht, die die folgenden drei Variantenmodelle umfasst. Die erste Variante ist FLUX.1 [pro], ein neues SOTA-Vincent-Diagrammmodell mit extrem reichhaltigen Bilddetails, starken Funktionen zur Eingabeaufforderung und verschiedenen Stilen. Derzeit über API verfügbar. - API-Adresse: https://docs.bfl.ml/
Die zweite ist FLUX.1 [dev], die offene Version von FLUX.1 [ pro] Gewichte, nichtkommerzielle Varianten und werden direkt auf deren Basis destilliert. Dieses Modell übertrifft andere Bildmodelle wie Midjourney und Stable Diffusion 3. Der Inferenzcode und die Gewichte sind bereits auf GitHub verfügbar. Das Bild unten ist ein Vergleich mit konkurrierenden Bildmodellen. - GitHub-Adresse: https://github.com/black-forest-labs/flux
Der dritte ist Open Source FLUX.1 [schnell], es ist super Effizientes 4-Stufen-Modell, basierend auf dem Apache 2.0-Protokoll. Dieses Modell kommt in der Leistung [dev] und [pro] sehr nahe und kann auf Hugging Face verwendet werden. - Hugging Face Adresse: https://huggingface.co/black-forest-labs/FLUX.1-schnell
Gleichzeitig begann Black Forest Labs auch, Werbung für sich selbst zu machen. Das nächste Ziel ist die Einführung des SOTA Wensheng-Videomodells, das für alle verfügbar ist, jeder kann sich darauf freuen! ... Eine Hybridarchitektur für multimodale und parallele Diffusionstransformatoren. Im Gegensatz zu anderen Unternehmen, die eine Modellreihe nach der Anzahl der Parameter in „Medium Cup“, „Large Cup“ und „Extra Large Cup“ einteilen, wurden die Mitglieder der FLUX.1-Familie einheitlich auf einen riesigen Maßstab von 12 erweitert Milliarden Parameter. Das Forschungsteam hat das Flow Matching-Framework übernommen, um das vorherige SOTA-Diffusionsmodell zu aktualisieren. Aus den Notizen im offiziellen Blog lässt sich ableiten, dass das Forschungsteam die vorgeschlagene Methode „Rectified flow+Transformer“ befolgte, als es noch bei Stability AI arbeitete (im März dieses Jahres). Link zum Papier: https://arxiv.org/pdf/2403.03206.pdfSie führten auch die Einbettung gedrehter Positionen und parallele Aufmerksamkeitsebenen ein. Diese Methoden verbessern effektiv die Leistung des Modells bei der Generierung von Bildern, und auch die Geschwindigkeit der Bildgenerierung auf Hardwaregeräten ist schneller geworden. Dieses Mal hat Black Forest Labs die detaillierte Technologie des Modells nicht bekannt gegeben, ein detaillierterer technischer Bericht wird jedoch bald veröffentlicht. - Diese drei Modelle haben in ihren jeweiligen Bereichen neue Maßstäbe gesetzt. Ob es um die Schönheit der generierten Bilder geht, darum, wie gut die Bilder in die Textaufforderungen passen, um die Variabilität des Größen-/Seitenverhältnisses oder um die Vielfalt der Ausgabeformate – FLUX.1 [pro] und FLUX.1 [dev] übertreffen alle Möglichkeiten von beliebten Bilderzeugungsmodellen wie Midjourney v6.0, DALL・E 3 (HD) und SD3-Ultra.
FLUX.1 [schnell] ist das bisher fortschrittlichste Wenig-Schritte-Modell und übertrifft nicht nur ähnliche Konkurrenten, sondern auch solche wie Midjourney v6.0 und DALL・E 3 (HD). So ein leistungsstarkes Non -destilliertes Modell.
Das Modell ist speziell darauf abgestimmt, die volle Leistungsvielfalt der Vortrainingsphase beizubehalten. Auch die Modelle der FLUX.1-Serie lassen im Vergleich zum aktuellen Stand der Technik noch viel Raum für Verbesserungen. Alle Modelle der FLUX.1-Serie unterstützen mehrere Seitenverhältnisse und Auflösungen von 0,1 bis 2 Megapixel. Einige schnell handelnde Internetnutzer haben es bereits als Erste erlebt. Es scheint, dass das „Stärkste“, das Black Forest Labs immer wieder betont hat, nicht nur Eigenwerbung ist.
Einfache Aufforderungswörter können einen solchen Effekt erzeugen. Wenn man sich das Muster der Alpaka-Matte genau ansieht, gibt es keine Verzerrung oder Verformung. t perkataan: Seekor kuda sedang bermain dengan dua aligator di sungai. Antara ketiga-tiga model itu, FLUX.1 [schnell], yang sedikit lemah dalam prestasi, juga pantas dan berkuasa untuk digunakan Sesetengah netizen berkongsi pengalaman mereka menjalankannya pada Mac dan tidak dapat menahan nafas , ia sangat mudah digunakan.
Netizen yang tidak tahu banyak tentang "rungutan" antara pengarang Stable Diffusion and Stability AI mengeluh: Model graf Vincentian muncul entah dari mana, dan ia sangat hebat. Untuk kisah pengarang Stable Diffusion dan bekas syarikat Stability AI, anda boleh membaca laporan sebelum ini di laman web ini: Apabila nilainya adalah 100 juta dolar AS, pasukan di belakang Stable Diffusion mula bergaduh sesama sendiri.
Selain daripada tiga model Vincentian yang paling berkuasa, Black Forest Labs juga mempunyai "langkah besar" di kedai. Dengan keupayaan hebat untuk model penjanaan imej, Black Forest Labs telah meletakkan asas yang kukuh untuk model penjanaan video, dan seperti yang mereka ramalkan, saintis terkemuka dalam visi komputer ini bergerak ke arah teknologi video terkini untuk semua orang . Blog syarikat: https://blackforestlabs.ai/announcements/
Das obige ist der detaillierte Inhalt vonAlle Mitarbeiter verließen ihren alten Verein und Stable Diffusion führte das Team dazu, ein Unternehmen zu gründen, sobald es veröffentlicht wurde. Es besiegte MJ v6 und SD3 sofort und öffnete auch die Quelle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!