従業員全員が古いクラブを去り、Stable Diffusion はリリースされるとすぐにチームを率いてビジネスを開始し、MJ v6 と SD3 をすぐに打ち破り、オープンソース化しました。-AI-php.cn

従業員全員が古いクラブを去り、Stable Diffusion はリリースされるとすぐにチームを率いてビジネスを開始し、MJ v6 と SD3 をすぐに打ち破り、オープンソース化しました。

PHPz

リリース： 2024-08-05 16:06:52

オリジナル

1094 人が閲覧しました

AI画像とビデオ生成の分野に、また一つ強力なプレーヤーが追加されました。

今年3月末にAIスタートアップStability AIを辞任した研究科学者Robin Rombachを覚えていますか？ Vincent グラフモデル Stable Diffusion を開発した 2 人の主要著者のうちの 1 人として、彼は 2022 年に Stability AI に加わりました。

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

さて、Stability AI を辞めてからほぼ 5 か月後、Robin Rombach は自分のビジネスを始めるという良いニュースをツイートしました。

彼は、画像やビデオ用の SOTA 高品質生成深層学習モデルを発展させ、できるだけ多くの人が利用できるようにするために「Black Forest Labs」を設立しました。

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

チームメンバーは、優れた AI 研究者とエンジニアで構成されており、これまでの代表的な研究には、VQGAN、潜在拡散、画像およびビデオ生成分野の安定拡散モデル (安定拡散 XL、安定ビデオ拡散、および整流を含む) が含まれます。 Flow Transformers) と Adversarial Diffusion Distillation による超高速リアルタイム画像合成。

Stable Diffusion には、Robin Rombach に加えて、Andreas Blattmann、Dominik Lorenz、Patrick Esser を含む 3 人の著者が創設チームのメンバーになっていることに注目する価値があります。両氏は今年初めにStability AIを退職しており、一部では自分のビジネスを始めるために退職したのではないかと推測されている。

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

現在、研究所はAndreessen Horowitz率いる3,100万ドルのシードラウンドを完了しました。他の投資家には、エンジェル投資家のブレンダン・イリベ氏、マイケル・オーヴィッツ氏、ギャリー・タン氏、ティモ・アイラ氏、ヴラドレン・コルトゥン氏、および著名なAI研究および起業家の専門家が含まれます。また、General Catalyst と MätchVC からも追加投資を受けました。

同研究所は諮問委員会も設立しており、そのメンバーには、コンテンツ制作業界で豊富な経験を持つテクノロジー界の大物マイケル・オーヴィッツ氏と、ニューラル・スタイル転送の先駆者でオープンAIのトップ専門家であるマティアス・ベスゲ教授が含まれています。ヨーロッパでの研究。

もちろん、Black Forest Labs は最初のモデルシリーズ「FLUX.1」を発売しました。これには以下の 3 つのバリエーションモデルが含まれます。

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

最初のバリアントは

FLUX.1 [pro]で、非常に豊富な画像詳細、強力なプロンプト追従機能、および多様なスタイルを備えた新しい SOTA Vincent ダイアグラムモデルです。現在API経由で利用可能です。

APIアドレス: https://docs.bfl.ml/

2つ目は

FLUX.1 [dev]で、これはFLUX.1のオープンバージョンです[ pro] の重み、非商用のバリアントであり、後者に基づいて直接抽出されます。このモデルは、Midjourney や Stable Diffusion 3 などの他の画像モデルよりも優れています。推論コードと重みはすでに GitHub で入手できます。下の図は競合イメージモデルとの比較です。

GitHubアドレス: https://github.com/black-forest-labs/flux

3つ目はオープンソースです

FLUX.1 [schnell]、それはスーパーですApache 2.0 プロトコルに準拠した効率的な 4 ステップモデル。このモデルは [dev] と [pro] のパフォーマンスに非常に近く、ハグフェイスでも使用できます。

ハグフェイスアドレス: https://huggingface.co/black-forest-labs/FLUX.1-schnell

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

Gleichzeitig begann Black Forest Labs auch, Werbung für sich selbst zu machen.

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

Das nächste Ziel ist die Einführung des SOTA Wensheng-Videomodells, das für alle verfügbar ist, jeder kann sich darauf freuen!

... Eine Hybridarchitektur für multimodale und parallele Diffusionstransformatoren. Im Gegensatz zu anderen Unternehmen, die eine Modellreihe nach der Anzahl der Parameter in „Medium Cup“, „Large Cup“ und „Extra Large Cup“ einteilen, wurden die Mitglieder der FLUX.1-Familie einheitlich auf einen riesigen Maßstab von 12 erweitert Milliarden Parameter.

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

Das Forschungsteam hat das Flow Matching-Framework übernommen, um das vorherige SOTA-Diffusionsmodell zu aktualisieren. Aus den Notizen im offiziellen Blog lässt sich ableiten, dass das Forschungsteam die vorgeschlagene Methode „Rectified flow+Transformer“ befolgte, als es noch bei Stability AI arbeitete (im März dieses Jahres).

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

Link zum Papier: https://arxiv.org/pdf/2403.03206.pdf

Sie führten auch die Einbettung gedrehter Positionen und parallele Aufmerksamkeitsebenen ein. Diese Methoden verbessern effektiv die Leistung des Modells bei der Generierung von Bildern, und auch die Geschwindigkeit der Bildgenerierung auf Hardwaregeräten ist schneller geworden. 全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

Dieses Mal hat Black Forest Labs die detaillierte Technologie des Modells nicht bekannt gegeben, ein detaillierterer technischer Bericht wird jedoch bald veröffentlicht. 全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

Diese drei Modelle haben in ihren jeweiligen Bereichen neue Maßstäbe gesetzt. Ob es um die Schönheit der generierten Bilder geht, darum, wie gut die Bilder in die Textaufforderungen passen, um die Variabilität des Größen-/Seitenverhältnisses oder um die Vielfalt der Ausgabeformate – FLUX.1 [pro] und FLUX.1 [dev] übertreffen alle Möglichkeiten von beliebten Bilderzeugungsmodellen wie Midjourney v6.0, DALL・E 3 (HD) und SD3-Ultra.

FLUX.1 [schnell] ist das bisher fortschrittlichste Wenig-Schritte-Modell und übertrifft nicht nur ähnliche Konkurrenten, sondern auch solche wie Midjourney v6.0 und DALL・E 3 (HD). So ein leistungsstarkes Non -destilliertes Modell.

Das Modell ist speziell darauf abgestimmt, die volle Leistungsvielfalt der Vortrainingsphase beizubehalten. Auch die Modelle der FLUX.1-Serie lassen im Vergleich zum aktuellen Stand der Technik noch viel Raum für Verbesserungen.

Alle Modelle der FLUX.1-Serie unterstützen mehrere Seitenverhältnisse und Auflösungen von 0,1 bis 2 Megapixel.

Einige schnell handelnde Internetnutzer haben es bereits als Erste erlebt. Es scheint, dass das „Stärkste“, das Black Forest Labs immer wieder betont hat, nicht nur Eigenwerbung ist.

Einfache Aufforderungswörter können einen solchen Effekt erzeugen. Wenn man sich das Muster der Alpaka-Matte genau ansieht, gibt es keine Verzerrung oder Verformung.

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

^{Prompt word: An emerald Emu riding on top of a white llama}.

Prompt word: A horse is playing with two aligators at the river. 全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

Images with text can also be handled very realistically Lens feel .

Among the three models, FLUX.1 [schnell], which is slightly weaker in performance, is also fast and powerful to use. Some netizens shared their experience of running it on Mac and couldn’t help but sigh, it is really worth it.

Netizens who don’t know much about the “grievances” between the authors of Stable Diffusion and Stability AI lamented: A Vincentian graph model appeared out of nowhere, and it is simply terrifyingly powerful.

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源