Alibaba は新しい大規模モデルをオープンソース化しました。これは非常にエキサイティングです~
Tongyi Qianwen-7B (Qwen-7B) に続き、Alibaba Cloud が 大規模モデルを開始しましたビジュアル言語モデル Qwen-VL であり、オンラインになるとすぐにオープンソース化されます。
Qwen-VL は、Tongyi Qianwen-7B をベースにした大規模なマルチモーダル モデルで、具体的には、さまざまな画像、テキスト、検出フレームをサポートしています。テキストの出力だけでなく、検出フレームの出力も可能
例えば、アニヤの写真を入力すると、Qwen-VL-Chatは質問と回答の形で写真の内容を要約し、写真の中のアニヤを正確に見つけるため
#テスト タスクでは、Qwen-VL は 4 つの主要なカテゴリで「六角形の戦士」の強さを実証しました。マルチモーダル タスク (ゼロショット キャプション/VQA/DocVQA/グラウンディング) で最も先進的な結果が達成されました オープンソースのニュースが世に出ると、すぐに広く注目を集めました。注目# 具体的な性能を見てみましょう!
中国のオープンドメインポジショニングをサポートする最初の一般的なモデル
アニヤは認識されませんでしたが、感情的な判断は確かに非常に正確です(手動の犬の頭)
視覚的な位置決め機能の点で、たとえ絵が非常に複雑で、多くのキャラクターが存在する場合でも、Qwen-VL はリクエストに応じてハルクとスパイダーマンを正確に見つけることができます#Qwen-VL は Qwen- を使用します。技術的な詳細では、ベース言語モデルとして 7B を導入し、モデルが視覚信号入力をサポートできるようにするビジュアル エンコーダー ViT と位置認識ビジュアル言語アダプターを導入します。
具体的なトレーニング プロセスは 3 つのステップに分かれています:
Qwen-VL の標準英語評価では、研究者はマルチモーダル タスクの 4 つの主要カテゴリ (ゼロショット キャプション/VQA/DocVQA/グラウンディング)をテストしました
結果によると、同じサイズのオープンソース LVLM と比較した場合、Qwen-VL が最高の結果を達成しました。
さらに、研究者らは GPT に基づいて一連のスコアリング システムを構築しました。 4 メカニズムテストセットTouchStone。
#Qwen-VL-Chat は、この比較テストで最先端のテクノロジー (SOTA) を実現しました Qwen-VL に興味がある場合は、マジック コミュニティと ハグフェイスでデモを見つけて直接試すことができます。リンクは記事の最後にありますQwen-VL は研究者や開発者の二次開発をサポートしており、商用利用も許可しています。ただし、商用利用する場合は、事前にアンケート応募が必要となりますのでご注意ください。
プロジェクトリンク:https://modelscope.cn/ models/qwen/Qwen-VL /summary
https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary
https:// hackingface.co/Qwen/Qwen -VL
https://huggingface.co/Qwen/Qwen-VL-Chat
https://github.com/ QwenLM/Qwen-VL
論文を表示するには、次のリンクをクリックしてください: https://arxiv.org/abs/2308.12966
以上がアリ巨大モデルが再びオープンソース化!完全な画像理解機能と物体認識機能を備えており、一般的な問題セット 7B に基づいてトレーニングされており、商用アプリケーションに使用可能です。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。