CVPR\'24 | LightDiff: 夜を直接照らす、低照度シーンの拡散モデル!-AI-php.cn

原題: Light the Night: A Multi-Condition Diffusion Framework for Unpaired Low-Light Enhancement in Autonomous Driving

論文リンク: https://arxiv.org/pdf/2404.04804.pdf

著者の所属: クリーブランド州立大学、テキサス大学オースティン校、A*STAR、ニューヨーク大学、カリフォルニア大学ロサンゼルス校

$CVPR\'24 | LightDiff：低光照场景下的扩散模型，直接照亮夜晚！$

#論文のアイデア:

LightDiff は、自動運転用の視覚中心の認識システムの効率と拡張性を向上させるテクノロジーです。 LiDAR システムは最近大きな注目を集めています。ただし、これらのシステムは暗い環境では問題が発生することが多く、パフォーマンスや安全性に影響を与える可能性があります。この問題を解決するために、この記事では、自動運転アプリケーションにおける低照度の画像品質を向上させるために設計された自動フレームワークである LightDiff を紹介します。具体的には、本論文では複数条件制御拡散モデルを採用しています。 LightDiff では、ペアごとのデータを手動で収集する必要がなくなり、代わりに動的なデータ劣化プロセスが利用されます。これには、深度マップ、RGB 画像、テキストキャプションなどのさまざまなモダリティからの入力重みを適応的に制御できる新しいマルチ条件アダプターが組み込まれており、低照度および低照度条件下でコンテンツの一貫性を同時に維持できます。さらに、拡張画像を検出モデルの知識と照合するために、LightDiff はパーセプトロン固有のスコアを報酬として使用し、強化学習による拡散トレーニングプロセスをガイドします。 nuScenes データセットに関する広範な実験により、LightDiff が高い視覚品質スコアを達成しながら、夜間条件における複数の最先端の 3D 検出器のパフォーマンスを大幅に向上できることが示され、自動運転の安全性を確保する可能性が強調されています。

主な貢献:

この論文は、自動運転における低照度のカメラ画像を強化し、夜間の大量の照明の必要性を減らすための照明拡散 (LightDiff) モデルを提案します。データ収集には、日中のパフォーマンス機能が必要であり、維持されます。

この論文では、深度マップや画像キャプションを含む複数の入力モードを統合し、高い視覚品質を維持しながら画像変換におけるセマンティックな整合性を確保するための複数条件アダプターを提案します。この論文では、効率的なモデルトレーニングを実現するために、昼間のデータから昼と夜の画像ペアを生成する実用的なプロセスを採用しています。

この論文では、強化学習を使用した微調整メカニズムを紹介し、知覚的にカスタマイズされたドメイン知識 (信頼できる LIDAR と統計的分布の一貫性) と組み合わせて、拡散プロセスが人間の視覚認識に役立つ強度を確保できるようにします。知覚モデルを実行するための知覚モデル。この方法は人間の視覚認識に大きな利点があり、知覚モデルの利点もあります。

nuScenes データセットに対する広範な実験により、LightDiff が夜間の 3D 車両検出のパフォーマンスを大幅に向上させ、複数の視点メトリクスで他の生成モデルよりも優れていることがわかりました。

ネットワーク設計:

$CVPR\'24 | LightDiff：低光照场景下的扩散模型，直接照亮夜晚！$

図 1.夜間の運転シナリオは日中よりも危険です。致死率は夜間にはるかに高くなります[4]。この記事は、夜間の画像を強化して、夜間運転の全体的な安全性を向上させることを目的としています。

図 1 に示すように、夜間の運転は人間にとって、特に自動運転車にとっては困難です。この課題は、2018 年 3 月 18 日にアリゾナ州でウーバーアドバンストテクノロジーズグループの自動運転車が歩行者をはねて死亡させるという大惨事によって浮き彫りになりました [37]。この事故は、車両が薄暗い状況で歩行者を正確に検出できなかったことによって引き起こされ、特にそのような厳しい環境において、自動運転車の安全性の問題が最前線に浮上した。ビジョン中心の自動運転システムはカメラセンサーへの依存度が高まるにつれ、これらの車両の全体的な安全性を確保するには、低照度条件下での安全性の懸念に対処することがますます重要になっています。

直観的な解決策は、大量の夜間走行データを収集することです。しかし、この方法は多大な労力と費用がかかるだけでなく、夜間と昼間の画像分布の違いにより昼間モデルのパフォーマンスに悪影響を与える可能性があります。これらの課題に対処するために、この文書では、手動によるデータ収集の必要性を排除し、昼間モデルのパフォーマンスを維持する新しいアプローチである照明拡散 (LightDiff) モデルを提案します。

LightDiff の目標は、低照度のカメラ画像を強化し、知覚モデルのパフォーマンスを向上させることです。 LightDiff は、動的な低照度減衰プロセスを使用して、既存の昼間データからトレーニング用の合成昼夜画像ペアを生成します。次に、この論文では、夜間のシーンを昼間の同等のシーンに効果的に変換する高品質の視覚効果を生成できるため、安定拡散 [44] テクノロジーを採用しています。ただし、意味の一貫性を維持することは自動運転において極めて重要であり、これは元の安定拡散モデルが直面する課題でした。これを克服するために、LightDiff は、推定深度マップやカメラ画像キャプションなどの複数の入力モダリティをマルチ条件アダプターと組み合わせます。このアダプターは、各入力モダリティの重みをインテリジェントに決定し、高い視覚品質を維持しながら、変換された画像のセマンティックな整合性を確保します。人間の視覚だけでなく知覚モデルにとっても明るい方向に拡散プロセスを導くために、この論文ではさらに強化学習を使用してこの論文の LightDiff を微調整し、知覚に合わせて調整されたドメイン知識をループに追加します。この論文は、自動運転データセット nuScenes [7] で広範な実験を実施し、LightDiff が 2 つの最先端モデル、BEVDepth [32] と BEVStereo の夜間 3D 車両検出の平均精度 (AP) を大幅に向上できることを実証しています。 . [31] は 4.2% と 4.6% 改善しました。

$CVPR\'24 | LightDiff：低光照场景下的扩散模型，直接照亮夜晚！$

図 2. この記事の照明拡散モデル (LightDiff) のアーキテクチャ。トレーニング段階では、トレーニングデータ生成プロセスにより、ペアデータを手動で収集することなく、三峰性データを取得できます。当社の LightDiff は、複数条件アダプターを使用して複数の条件を動的に重み付けし、LIDAR および分散報酬モデリング (LDRM) と組み合わせて、知覚指向の制御を可能にします。

$CVPR\'24 | LightDiff：低光照场景下的扩散模型，直接照亮夜晚！$

#図 3. この記事のトレーニングデータ生成プロセス。低照度劣化変換 [9] はトレーニング段階でのみ実装されます。トレーニング済みの深度推定ネットワークはフリーズされ、この記事の照明拡散モデルのトレーニングとテストの段階で使用されます。

$CVPR\'24 | LightDiff：低光照场景下的扩散模型，直接照亮夜晚！$

図 4. リカレントライティング推論の概略図。テキストヒントと深度マップの生成の精度を向上させ、暗い画像の悪影響を軽減するように設計されています。

実験結果:

$CVPR\'24 | LightDiff：低光照场景下的扩散模型，直接照亮夜晚！$

図 5. nuScenes 検証セット内の夜間画像のサンプルの視覚的比較。

$CVPR\'24 | LightDiff：低光照场景下的扩散模型，直接照亮夜晚！$

図 6. nuScenes 検証セットの夜間画像の例における 3D 検出結果の視覚化。本稿では 3 次元検出器として BEVDepth [32] を使用し，カメラの正面図と鳥瞰図を可視化する．

$CVPR\'24 | LightDiff：低光照场景下的扩散模型，直接照亮夜晚！$

図 7. MultiCondition アダプターを使用した場合と使用しない場合の、この記事の LightDiff の視覚効果を示します。 ControlNet [55] への入力は、同じテキストキューや深度マップを含め、一貫性を保ちます。マルチコンディションアダプターにより、強調時の色のコントラストが向上し、詳細がより豊かになります。

$CVPR\'24 | LightDiff：低光照场景下的扩散模型，直接照亮夜晚！$

図 8. さまざまなモーダル入力のアテンションマップの例。

$CVPR\'24 | LightDiff：低光照场景下的扩散模型，直接照亮夜晚！$

図 9. Recurrent Lighting Inference (ReLI) による強化されたマルチモーダル生成の概略図。 ReLI を 1 回呼び出すことで、テキストヒントと深度マップの予測の精度が向上します。

$CVPR\'24 | LightDiff：低光照场景下的扩散模型，直接照亮夜晚！$ $CVPR\'24 | LightDiff：低光照场景下的扩散模型，直接照亮夜晚！$ $CVPR\'24 | LightDiff：低光照场景下的扩散模型，直接照亮夜晚！$ $CVPR\'24 | LightDiff：低光照场景下的扩散模型，直接照亮夜晚！$

概要:

この記事では、自動運転アプリケーション向けに設計されたツールである LightDiff について紹介します。低照度環境での画質を向上させ、視覚中心の認識システムが直面する課題を軽減するために設計された特別なフレームワーク。 LightDiff は、動的なデータ劣化プロセス、さまざまな入力モダリティ用のマルチ条件アダプター、強化学習を使用した知覚に特化したスコアガイド型報酬モデリングを活用することにより、nuScenes データセットの夜間画像品質と 3D パフォーマンス、車両検出パフォーマンスを大幅に向上させます。このイノベーションにより、大量の夜間データの必要性がなくなるだけでなく、画像変換におけるセマンティックな整合性も確保され、自動運転シナリオにおける安全性と信頼性を向上させる可能性が実証されました。現実的な昼夜ペア画像が存在しない場合、車のライトで薄暗い運転画像を合成することは非常に困難であり、この分野での研究は制限されています。将来の研究は、高品質のトレーニングデータのより適切な収集または生成に焦点を当てる可能性があります。

引用:

@ARTICLE{2024arXiv240404804L,
author = {{Li}、Jinlong と {Li}、Baolu と {Tu}、Zhengzhong と { Liu}、Xinyu と {Guo}、Qing と {Juefei-Xu}、Felix と {Xu}、Runsheng と {Yu}、Hongkai},
title = "{夜を照らす: のための複数条件拡散フレームワーク自動運転における対になっていない低照度の強化}",
journal = {arXiv e-prints},
keywords = {コンピューターサイエンス - コンピュータービジョンとパターン認識},
year = 2024,
month = apr,
eid = {arXiv:2404.04804},
pages = {arXiv:2404.04804},
doi = {10.48550/arXiv.2404.04804},
archivePrefix = {arXiv},
eprint = {2404.04804},
primaryClass = {cs.CV},
adsurl = {https://ui.adsabs.harvard.edu/abs/2024arXiv240404804L},
adsnote = {SAO 提供/NASA 天体物理データシステム}
}

以上がCVPR\'24 | LightDiff: 夜を直接照らす、低照度シーンの拡散モデル!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。