清華大学と浙江大学がオープンソースビジュアルモデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす-AI-php.cn

清華大学と浙江大学がオープンソースビジュアルモデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす

WBOY

リリース： 2024-01-04 08:10:58

転載

1282 人が閲覧しました

現在、GPT-4 Vision は言語理解と視覚処理において驚くべき能力を示しています。

ただし、パフォーマンスを犠牲にすることなく、コスト効率の高い代替手段を探している人にとって、オープンソースは無限の可能性を秘めた選択肢となります。

Youssef Hosni は外国の開発者で、GPT-4V に代わる絶対にアクセシビリティが保証された 3 つのオープンソースの代替案を提供してくれました。

3 つのオープンソース視覚言語モデル LLaVa、CogAgent、BakLLaVA は視覚処理の分野で大きな可能性を秘めており、私たちが深く理解する価値があります。これらのモデルの研究開発により、より効率的で正確な視覚処理ソリューションが提供されます。これらのモデルを使用することで、画像認識、ターゲット検出、画像生成などのタスクの精度と効率を向上させ、視覚処理分野の研究と応用に洞察をもたらすことができます。 ##LLaVA は、ウィスコンシン大学マディソン校、Microsoft Research、コロンビア大学の研究者が共同で開発したマルチモーダル大規模モデルです。初期バージョンは4月にリリースされました。

ビジュアルエンコーダーと Vicuna (一般的な視覚と言語の理解のため) を組み合わせて、優れたチャット機能を実証します。清華大学と浙江大学がオープンソースビジュアルモデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす

写真

10月にアップグレードされたLLaVA-1.5は、マルチモーダルGPT-4に近いパフォーマンスを示し、サイエンスQAデータで良好なパフォーマンスを示しました。最先端の結果 (SOTA) が達成されました。

写真清華大学と浙江大学がオープンソースビジュアルモデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす 13B モデルのトレーニングには 8 台の A100 のみが必要で、1 日以内に完了できます。

写真清華大学と浙江大学がオープンソースビジュアルモデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらすご覧のとおり、LLaVA はあらゆる種類の質問に対応でき、生成される回答は包括的かつ論理的です。

LLaVA は、GPT-4 のレベルに近いマルチモーダル機能を実証しており、ビジュアルチャットにおける GPT-4 相対スコアは 85% です。

推論の質問と回答の観点からは、LLaVA は新しい SoTA-92.53% にも到達し、マルチモーダルな思考チェーンを打ち破りました。清華大学と浙江大学がオープンソースビジュアルモデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす

写真

視覚的推理という点では、そのパフォーマンスは非常に目を引きます。

写真清華大学と浙江大学がオープンソースビジュアルモデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす

写真

清華大学と浙江大学がオープンソースビジュアルモデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす質問: 「事実誤認がある場合は、その点を指摘してください」そうでない場合は、砂漠で何が起こっているのか教えてください。」 LLaVA はまだ完全に正しく答えることができません。

アップグレードされた LLaVA-1.5 は完璧な答えを与えてくれました:「この写真には砂漠はまったくありません。ヤシの木のビーチ、街のスカイライン、そして大きな水域があります。」清華大学と浙江大学がオープンソースビジュアルモデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす

Picture

また、LLaVA-1.5 では画像から情報を抽出し、JSON 形式で出力するなど、必要な形式に応じて回答することもできます。

写真清華大学と浙江大学がオープンソースビジュアルモデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす LLaVA-1.5 に果物や野菜がいっぱいの写真を与えると、その写真を GPT-4V のような JSON に変換できます。

清華大学と浙江大学がオープンソースビジュアルモデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす写真

下の写真は何を意味しますか?

これはノーラン監督の「インセプション」に基づいた簡略化されたスケッチです。難易度を上げるために、キャラクターの名前は仮名に変更されています. .

LLaVA-1.5 は驚くべき答えを出しました:「これは映画『インセプション』に関する絵です。夢の世界のさまざまなレベルが示されており、各レベルは線で表されています。この絵は次のように書かれています。紙はテーブルの上に置かれます。」

料理の写真が LLaVA-1.5 に直接送信され、それが渡されます。すぐにレシピを生成します。

さらに、LLaVA-1.5 は「脱獄」せずに検証コードを認識できます。

写真に写っているコインの種類を検出することもできます。

特に印象的なのは、LLaVA-1.5 が写真の犬の品種も教えてくれるということです。

一部のネチズンは、Bing を使用して、晴れた夏のビーチで冬用のコートを着た男性の写真を生成し、LLaVA 1.5 に指摘するよう依頼しました。写真にある問題は何ですか?その目は非常に鋭いです -

これは加工またはフォトショップで加工された写真で、男性がジャケットを着てビーチに立っています。男がコートを開けると、太陽が彼を照らした。この画像の問題は、実際のビーチのシーンではないことです。その男は実際にはビーチに立っていませんでしたし、太陽は彼を照らしていませんでした。この画像はビーチのシーンのように見せるためにフォトショップで加工されていますが、実際のシーンを表しているわけではありません。

OCR認識、LLaVAのパフォーマンスも非常に強力です。

清華大学と浙江大学がオープンソースビジュアルモデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす #写真

CogAgent

CogAgent は、清華大学の研究者である CogVLM に基づいて改良されたオープンソースのビジュアル言語モデルです。

CogAgent-18B には、110 億の視覚パラメータと 70 億の言語パラメータがあります。

論文アドレス: https://arxiv.org/pdf/2312.08914.pdf

CogAgent-18B は、9 つの従来のクロスモーダルベンチマーク (VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet、POPE を含む) で最先端の一般的なパフォーマンスを実現します。

AITW や Mind2Web などのグラフィカルユーザーインターフェイス操作データセットにおいて、既存のモデルよりも大幅に優れたパフォーマンスを発揮します。

CogVLM の既存のすべての機能 (視覚化されたマルチターンダイアログ、視覚的なグラウンディング) に加えて、CogAgent.NET はさらに多くの機能も提供します。

1. 高解像度の視覚入力と質問に答える対話をサポートします。 1120×1120の超高解像度画像入力に対応。

2. エージェントを視覚化し、グラフィカルユーザーインターフェイスのスクリーンショット上で特定のタスクの計画、次のアクション、および特定の操作を座標とともに返すことができます。

3. GUI 関連の質問応答機能が強化され、Web ページ、PC アプリケーション、モバイルアプリケーションなど、あらゆる GUI のスクリーンショットに関連する問題に対応できるようになりました。

4. 事前トレーニングと微調整を改善することで、OCR 関連タスクの機能が強化されます。

グラフィカルユーザーインターフェイスエージェント (GUI エージェント)

CogAgent を使用すると、CVPR23 の最適な論文を段階的に見つけることができます。

は、電話のディスプレイを明るいモードに調整するのに役立ちます。

CogAgent は、このツイートの「いいね！」の数と人気の理由を分析し、「素晴らしい」と返信することもできます。操作する。

フロリダ大学からハリウッドまでの最速ルートを選択するにはどうすればよいですか?午前 8 時に開始した場合、どのくらい時間がかかるかをどのように見積もりますか? CogAgent はすべてに答えることができます。

清華大学と浙江大学がオープンソースビジュアルモデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす画像

特定の件名を設定して、CogAgent が指定したメールボックスに電子メールを送信できるようにすることができます。

「You raise me up」という曲を聴きたい場合は、CogAgent でステップごとにリストを表示できます。

CogAgent は、「原神」のシーンを正確に記述し、テレポートポイントへの行き方をガイドすることもできます。

BakLLaVA

BakLLaVA1 は、LLaVA 1.5 アーキテクチャで強化された Mistral 7B 基本モデルです。

最初のリリースでは、Mistral 7B ベースモデルは複数のベンチマークで Llama 2 13B を上回りました。

彼らのリポジトリでは、BakLLaVA-1 を実行できます。このページは、微調整と推論を容易にするために常に更新されています。 (https://github.com/SkunkworksAI/BakLLaVA)

BakLLaVA-1 は完全にオープンソースですが、LLaVA のコーパスを含む一部のデータに基づいてトレーニングされているため、商用利用は許可されていません。

BakLLaVA 2 は、現在の LLaVa メソッドを超える、より大規模なデータセットと更新されたアーキテクチャを使用します。 BakLLaVA は BakLLaVA-1 の制限を取り除き、商用利用が可能です。

参考:

https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5

以上が清華大学と浙江大学がオープンソースビジュアルモデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらすの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

清華大学と浙江大学がオープンソース ビジュアル モデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす

グラフィカル ユーザー インターフェイス エージェント (GUI エージェント)

BakLLaVA

清華大学と浙江大学がオープンソースビジュアルモデルの爆発的な普及を主導し、GPT-4V、LLaVA、CogAgent などのプラットフォームが革命的な変化をもたらす

グラフィカルユーザーインターフェイスエージェント (GUI エージェント)