普及モデルは漢字を含む画像を生成し、ワンクリックで絵文字を出力：OPPOなどが提案するGlyphDraw-AI-php.cn

普及モデルは漢字を含む画像を生成し、ワンクリックで絵文字を出力：OPPOなどが提案するGlyphDraw

王林

リリース： 2023-04-11 20:13:14

転載

1313 人が閲覧しました

最近、テキスト生成画像の分野で多くの予期せぬ進歩が見られ、多くのモデルがテキストの指示に基づいて高品質で多様な画像を作成する機能を実現できます。生成された画像はすでに非常にリアルですが、現在のモデルは風景や物体などの物理的なオブジェクトの画像の生成には優れていることが多いですが、漢字などの複雑なグリフテキストを含む画像など、一貫性の高い詳細を備えた画像を生成するのに苦労しています。。

この問題を解決するために、OPPO やその他の機関の研究者は、モデルが一貫したテキストが埋め込まれた画像を生成できるように設計された一般的な学習フレームワーク GlyphDraw を提案しました。画像合成の分野で、漢字生成の問題を解決した最初の研究。

普及モデルは漢字を含む画像を生成し、ワンクリックで絵文字を出力：OPPOなどが提案するGlyphDraw

文書アドレス: https://arxiv.org/abs/2303.17870
プロジェクトのホームページ: https://1073521013.github.io/glyph-draw.github.io/

まずは始めましょうたとえば、展示会場の警告スローガンの生成:

普及モデルは漢字を含む画像を生成し、ワンクリックで絵文字を出力：OPPOなどが提案するGlyphDraw

看板の生成:

普及モデルは漢字を含む画像を生成し、ワンクリックで絵文字を出力：OPPOなどが提案するGlyphDraw

画像に簡単なテキスト説明を追加します。テキストのスタイルもさまざまです:

普及モデルは漢字を含む画像を生成し、ワンクリックで絵文字を出力：OPPOなどが提案するGlyphDraw

また、最も興味深く実用的な例は、絵文字を生成することです:

普及モデルは漢字を含む画像を生成し、ワンクリックで絵文字を出力：OPPOなどが提案するGlyphDraw

ただし結果にはいくつかの欠陥がありますが、全体的な生成効果はすでに非常に優れています。全体として、この研究の主な貢献は次のとおりです。

この研究は、いくつかの補助機能を利用する初の漢字画像生成フレームワーク GlyphDraw を提案します。漢字のグリフや位置などの情報は、生成プロセス全体を通じてきめ細かいガイダンスを提供し、漢字画像を高品質で画像にシームレスに埋め込むことができます。このトレーニング戦略では、事前トレーニング済みモデルのトレーニング可能なパラメーターの数を制限して、過剰適合や壊滅的な忘却を防ぎ、モデルの強力なオープンドメイン生成パフォーマンスを効果的に維持しながら、正確な漢字画像の生成を実現します。
この研究では、トレーニングデータセットの構築プロセスを紹介し、OCR モデルを使用した漢字画像生成の品質を評価するための新しいベンチマークを提案します。中でもGlyphDrawは75％の生成精度を達成し、これまでの画像合成手法と比べて大幅に向上した。

#モデルの紹介

普及モデルは漢字を含む画像を生成し、ワンクリックで絵文字を出力：OPPOなどが提案するGlyphDraw 研究では、最初に複雑な画像テキストデータセットを設計しました。次に、以下の図 2 に示すように、オープンソースの画像合成アルゴリズム Stable Diffusion に基づく一般的な学習フレームワーク GlyphDraw を提案します。

#安定拡散の全体的なトレーニング目標は、次の式で表すことができます。

普及モデルは漢字を含む画像を生成し、ワンクリックで絵文字を出力：OPPOなどが提案するGlyphDraw

# #

GlyphDraw は、安定拡散のクロスアテンションメカニズムに基づいており、元の入力潜在ベクトル z_t は、イメージ潜在ベクトル z_t、テキストマスク l_m、およびグリフイメージ l_g の連結によって置き換えられます。

普及モデルは漢字を含む画像を生成し、ワンクリックで絵文字を出力：OPPOなどが提案するGlyphDraw

さらに、条件 C には、ドメイン固有の融合モジュールを使用したハイブリッドグリフ機能とテキスト機能が装備されています。テキストマスクとグリフ情報の導入により、トレーニングプロセス全体できめ細かい拡散制御を実現できます。これはモデルのパフォーマンスを向上させるための重要な要素であり、最終的には漢字テキストを含む画像を生成します。

具体的には、テキスト情報、特に象形漢字などの複雑なテキスト形式のピクセル表現は、自然物体とは大きく異なります。たとえば、中国語の「空」という単語は、複数のストロークで二次元構造で構成されており、それに対応する自然イメージは「白い雲が点在する青い空」となります。対照的に、漢字は非常に粒度の細かい特性を持っており、小さな動きや変形によってもテキストのレンダリングが不正確になり、画像生成が不可能になる可能性があります。

自然画像の背景に文字を埋め込むには、隣接する自然画像のピクセルへの影響を回避しながら、テキストピクセルの生成を正確に制御するという重要な問題についても考慮する必要があります。自然画像上に完璧な漢字をレンダリングするために、著者らは拡散合成モデルに統合された 2 つの重要なコンポーネント、つまり位置制御とグリフ制御を慎重に設計しました。

他のモデルのグローバル条件付き入力とは異なり、文字生成では、画像の特定の局所領域にさらに注意を払う必要があります。これは、文字ピクセルの潜在特徴分布が自然画像ピクセルの分布とは異なるためです。。大きな違い。モデル学習の崩壊を防ぐために、この研究では、異なるエリア間の分布を分離するためのきめ細かい位置エリア制御を革新的に提案しています。

位置制御に加えて、もう 1 つの重要な問題は、漢字のストローク合成の微調整です。漢字の複雑さと多様性を考慮すると、明確な事前知識なしに大規模な画像テキストデータセットから単純に学習することは非常に困難です。漢字を正確に生成するために、この研究では追加の条件情報として明示的なグリフイメージをモデル拡散プロセスに組み込みます。

普及モデルは漢字を含む画像を生成し、ワンクリックで絵文字を出力：OPPOなどが提案するGlyphDraw