ビデオタイミングポジショニングにおいて清華大学が開発した LLM4VG ベンチマークのパフォーマンスを評価する-AI-php.cn

ビデオタイミングポジショニングにおいて清華大学が開発した LLM4VG ベンチマークのパフォーマンスを評価する

WBOY

リリース： 2024-01-04 22:38:14

転載

1139 人が閲覧しました

清华大学研发 LLM4VG 基准：用于评估 LLM 视频时序定位性能

12 月 29 日のニュースでは、大規模言語モデル (LLM) の範囲が、単純な自然言語処理から、テキスト、オーディオ、ビデオなどのマルチモーダル分野まで拡大しました。鍵の 1 つは、ビデオタイミングポジショニング (ビデオグラウンディング、VG) です。

清华大学研发 LLM4VG 基准：用于评估 LLM 视频时序定位性能

VG タスクの目標は、指定されたクエリに基づいてターゲットビデオセグメントの開始時刻と終了時刻を特定することです。このタスクの中心的な課題は、時間境界を正確に決定することです。

清華大学の研究チームは最近、VG タスクにおける LLM のパフォーマンスを評価するために特別に設計された「

LLM4VG」ベンチマークを開始しました。

このベンチマークを検討する際には、2 つの主要な戦略が検討されました。最初の戦略は、ビデオ言語モデル (LLM) をテキストビデオデータセット (VidLLM) 上で直接トレーニングすることです。この方法では、大規模なビデオデータセットでトレーニングすることでビデオと言語の関連性を学習し、モデルのパフォーマンスを向上させます。 2 番目の戦略は、従来の言語モデル (LLM) と事前トレーニングされたビジョンモデルを組み合わせることです。この方法は、ビデオの視覚的特性を組み合わせた事前トレーニング済みのビジュアルモデルに基づいており、1 つの戦略では、VidLLM モデルがビデオコンテンツと VG タスク命令を直接処理し、トレーニング出力を実行してテキストとビデオの関係を予測します。

2 番目の戦略はより複雑で、LLM (言語および視覚モデル) と視覚的記述モデルの使用が含まれます。これらのモデルは、VG (ビデオゲーム) タスクの指示と組み合わせたビデオコンテンツのテキスト説明を生成でき、これらの説明は慎重に設計されたプロンプトを使用して実装されます。

清华大学研发 LLM4VG 基准：用于评估 LLM 视频时序定位性能これらのプロンプトは慎重に設計されており、その目的は、VG の指示と提供される視覚的な説明を効果的に組み合わせて、LLM がタスク関連のビデオコンテンツを処理および理解できるようにすることです。

VidLLM はビデオコンテンツで直接トレーニングされているにもかかわらず、満足のいく VG パフォーマンスを達成するには依然として大きなギャップがあることが観察されています。この調査結果は、パフォーマンスを向上させるために、時間に関連するビデオタスクをトレーニングにさらに組み込む必要性を浮き彫りにしています。

2 番目の戦略は VidLLM よりも優れており、将来の研究に有望な方向性を示しています。この戦略は主に、ビジュアルモデルとキューワードの設計の制限によって制限されるため、詳細で正確なビデオ説明を生成できるようになり、より洗練されたグラフィックモデルによって LLM の VG パフォーマンスが大幅に向上します。

清华大学研发 LLM4VG 基准：用于评估 LLM 视频时序定位性能