中山大学の新しい時空間知識埋め込みフレームワークは、TIP '24 で公開されたビデオシーングラフ生成タスクの最新の進歩を推進します-AI-php.cn

ビデオシーングラフ生成 (VidSGG) は、ビジュアルシーン内のオブジェクトを識別し、オブジェクト間の視覚的な関係を推測することを目的としています。

このタスクでは、シーン全体に散在する各オブジェクトを包括的に理解するだけでなく、時間の経過に伴うそれらの動きや相互作用についての徹底的な研究も必要です。

最近、中山大学の研究者らは、人工知能のトップジャーナル IEEE T-IP に論文を発表しました。彼らは関連するタスクを調査し、次のことを発見しました。オブジェクトの組み合わせの各ペアと、それらの間の関係には、各画像内での空間的共起相関と、異なる画像間の時間的一貫性/翻訳相関があります。

中山大学の新しい時空間知識埋め込みフレームワークは、TIP 24 で公開されたビデオシーングラフ生成タスクの最新の進歩を推進します

論文リンク: https://arxiv.org/abs/2309.13237

これらに基づくまず、事前知識に基づいて、研究者らは、より代表的な視覚的関係表現を学習するために、事前の時空間知識をマルチヘッドクロスアテンションメカニズムに組み込むための、時空間知識埋め込みに基づくトランスフォーマー（STKET）を提案しました。

具体的には、空間的共起と時間的変換相関が最初に統計的に学習され、次に、時空間知識埋め込み層が視覚的表現と知識の間の相互作用を完全に探索するように設計されています。空間的および時間的な知識が埋め込まれた視覚的関係表現、最後に著者はこれらの特徴を集約して、最終的な意味ラベルとその視覚的関係を予測します。

広範な実験により、この記事で提案されているフレームワークが現在の競合アルゴリズムよりも大幅に優れていることが示されています。現在、論文は受理されました。

論文概要

シーン理解の分野の急速な発展に伴い、多くの研究者がシーンを解決するためにさまざまなフレームワークを使用しようと試み始めています。グラフ生成 (Scene Graph Generation (SGG) タスク) は大幅に進歩しました。

しかし、これらの手法は多くの場合、単一の画像の状況のみを考慮し、時系列に存在する大量のコンテキスト情報を無視するため、既存のシーングラフ生成アルゴリズムのほとんどが機能しなくなります。特定のビデオに含まれる動的な視覚的関係を正確に識別します。

したがって、多くの研究者は、この問題を解決するためにビデオシーングラフ生成 (VidSGG) アルゴリズムの開発に取り組んでいます。

現在の研究は、空間的および時間的観点からオブジェクトレベルの視覚情報を集約して、対応する視覚的関係表現を学習することに焦点を当てています。

ただし、さまざまなオブジェクトやインタラクティブなアクションの視覚的な外観には大きなばらつきがあり、ビデオ収集によって引き起こされる視覚的な関係の大幅なロングテール分布のため、視覚情報だけを使用するだけでは、モデル予測につながりやすい誤った視覚的関係。

上記の問題に対応して、研究者は次の 2 つの側面から作業を行いました。

まず、以前のデータをマイニングすることが提案されています。トレーニングサンプルに含まれる時空間に関する知識は、ビデオシーングラフ生成の分野を進歩させるために使用されます。その中で、アプリオリな時空間知識には次のものが含まれます。

1) 空間的共起相関: 特定のオブジェクトカテゴリ間の関係は、特定の相互作用を引き起こす傾向があります。

2) 時間的一貫性/遷移の相関: 特定の関係のペアは、連続するビデオクリップ全体で一貫している傾向があるか、別の特定の関係に遷移する可能性が高くなります。

第二に、時空間知識埋め込みに基づく新しいトランスフォーマー (空間時間知識埋め込みトランスフォーマー、STKET) フレームワークが提案されます。

このフレームワークは、より代表的な視覚的関係表現を学習するために、事前の時空間知識をマルチヘッド相互注意メカニズムに組み込んでいます。テストベンチマークで得られた比較結果によると、研究者によって提案された STKET フレームワークが以前の最先端の方法よりも優れていることがわかります。

中山大学の新しい時空間知識埋め込みフレームワークは、TIP 24 で公開されたビデオシーングラフ生成タスクの最新の進歩を推進します

#図 1: 視覚的な外観の変化と視覚的な関係のロングテール分布により、ビデオシーングラフの生成は課題に満ちています

時空間知識埋め込みに基づくトランスフォーマー

空間的および時間的知識表現

視覚的な関係を推論するとき、人間は視覚的な手がかりだけを使用するわけではありませんだけでなく、蓄積された事前知識、経験的知識も使用します [1、2]。これに触発されて、研究者らは、ビデオシーングラフの生成タスクを容易にするために、トレーニングセットから事前の時空間知識を直接抽出することを提案しています。

このうち、空間共起相関は、ある物体を組み合わせると、その視覚的関係の分布が大きく偏ることに具体的に現れます(例えば、「人」と「人」との視覚的関係の分布)。「カップ」は「犬」と「おもちゃ」の分布とは明らかに異なります）と時間転移相関は、直前の瞬間の視覚関係が与えられると、それぞれの視覚関係の遷移確率が大きく変化するという点で具体的に現れます（たとえば、例えば、直前の瞬間の視覚関係がわかっている場合（「食べる」の場合、次の瞬間に視覚関係が「書く」に移行する確率は大幅に低くなる）。

図 2 に示すように、特定のオブジェクトの組み合わせや以前の視覚的な関係を直感的に感じることができるようになると、予測スペースを大幅に縮小できます。

中山大学の新しい時空間知識埋め込みフレームワークは、TIP 24 で公開されたビデオシーングラフ生成タスクの最新の進歩を推進します