Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。-AI-php.cn

Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

リリース： 2024-01-05 21:23:58

転載

1206 人が閲覧しました

ドキュメント画像をMarkdown形式に変換したいですか?

以前は、このタスクにはテキスト認識、レイアウトの検出と並べ替え、数式テーブルの処理、テキストのクリーニングなどの複数の手順が必要でしたが、今回は 1 つの手順だけで済みます。文コマンド、

マルチモーダル大規模モデル

Vary はエンドツーエンドの結果を直接出力します:

Picture

Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。かどうか中国語または英語で書かれた大きな段落ですテキスト:

画像

Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。式の文書画像も含まれています

Picture

Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。またはモバイルページのスクリーンショット:

Picture

Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。変換することもできます画像のテーブルを

latex## に #Format:

Picture

Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。もちろん、マルチモードとして大規模なスケールモデル、ユニバーサル機能の維持は不可欠

Picture

Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。 Vary は大きな可能性と非常に高い上限を示しています。OCR は長いパイプラインを必要とせず、直接出力できますプロンプトは、Latex、Word、Markdown などのさまざまな形式を出力します。このアーキテクチャでは、強力な言語優先順位を使用して、「レバレッジ」や「デュポール」など、OCR でタイプミスが起こりやすい単語を回避できます。あいまいな文書の場合は、事前言語の助けを借りて、より強力な OCR 効果を達成することも期待されています。

多くのネチズンの注目を集めたこのプロジェクトは、開始されるとすぐに広範な議論を引き起こしました。これを見たネチズンの一人は「本当にすごい！」と叫びました。

写真

Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。この効果はどのようにして達成されるのでしょうか? 大規模モデルからのインスピレーション

現在、ほとんどすべての大規模なマルチモーダルモデルは、ビジョンエンコーダまたはビジュアルボキャブラリとして CLIP を使用しています。実際、4 億個の画像とテキストのペアでトレーニングされた CLIP は、強力な視覚的テキスト配置機能を備えており、ほとんどの日常業務での画像エンコーディングをカバーできます。

しかし、文書レベルの OCR やチャートの理解など、高密度できめの細かい認識タスクの場合、特に英語以外のシナリオでは、CLIP は明らかな

コーディングの非効率性と語彙不足を示します

質問。

大規模な純粋な NLP モデル (LLaMA など) が英語から中国語 (大規模モデルにとっては「外国語」) に移行する場合、中国語をエンコードする元の語彙は非効率であるため、テキスト語彙を次のように拡張する必要があります。より良いパフォーマンスを達成し、良い結果をもたらします。研究チームはこれに触発されました。まさにこの機能のためです。

CLIP 視覚語彙に基づくマルチモーダル大規模モデルも同じ問題に直面し、「外国語画像」に遭遇します。」、テキストがびっしりと詰まった紙のページなど、画像を効率的にトークン化することは困難です。

Vary は、この問題を解決するために提供されたソリューションです。元の語彙を再構築することなく、視覚的な語彙を効率的に拡張できます

##Picture

既製の CLIP ボキャブラリを直接使用する既存の方法とは異なり、Vary は 2 つの段階に分かれています。 Megvii のオープンソースマルチモーダル大規模モデルは、中国語と英語をカバーするドキュメントレベルの OCR をサポートしています。最初に、小さなものだけを使用します。デコーダネットワークは、自己回帰的な方法で強力な新しいビジュアルボキャブラリを生成します。次に、第 2 段階では、新しい語彙と CLIP 語彙が融合されて LVLM を効率的にトレーニングし、ドキュメントチャートやその他のデータでトレーニングされた新しい Vary の特性が、きめ細かい視覚認識能力を大幅に強化します。