「唯一の真の発見の旅は、見知らぬ土地を訪れることではなく、他人の目を通して宇宙を観察することです。」 - マルセル・プルースト
The sci -fi、他人の目を通して世界を見るという詩的な(そして恐ろしい)アイデアが実現しました!
「ブラックミラー」シーズン1「あなたの全歴史」
#ここで、人間が観察しているオブジェクトを 3 次元で再構成するには、目の反射を使用するだけです。
はい、これはまさにブラックミラーです。
紙のアドレス: https://arxiv.org/abs/2306.09348
プロジェクトアドレス: https://world-from-eyes.github.io/
古典的な SF のシーンが現実になりましたか?
目の反射を使用して放射線場再構成を生成しますか?このアイデアは突飛に思えるかもしれませんが、実際には十分な理論的根拠があります。著者は、人間の目は反射率が高いため、目の反射だけを使用して頭の動きを捉えた一連のフレームを再構築し、レンダリングすることが可能であると述べました。人々が観察している 3D シーン。
このコンセプトは非常に「ブラック ミラー」であり、この論文のほんの数時間後に作成されたものであるという事実を考慮すると、 「ブラック・ミラー」の新シーズンがオンラインで公開されることが発表されました。この偶然の一致は、「ブラック・ミラー」の監督もこの論文に気づいたのだろうかと人々を疑わせます。 (ドッグヘッド)
##ブラックミラー シーズン 6 は本日オンラインです
# この研究が発表されるとすぐに、ネチズンは熱狂しました。
それでは、ここまで早送りしてしまいましたか?
これは2000年代の『攻殻機動隊』のワンシーンではないでしょうか?これらのフィクションはすべて現実になりました。
#100% ブレードランナー、今すぐコピーをください。
ジュール・ヴェルヌの『キップ兄弟』が実現!
もちろん、このテクノロジーを捜査や証拠収集に使用してはいけないということで恐怖を感じる人もいます。 。
現在、当社ではすでに Varjo 視線追跡カメラに加え、Apple の VisionPro やその他のヘッドセットを導入しています。デバイスは大量のレンズ素材をキャプチャできます。この新しいテクノロジーと組み合わせることで、無数の新しい SF シーンが間もなく実現する可能性があります...
人間の目での光の小さな反射を利用することにより、研究チームは、固定カメラ位置で撮影された一連の単眼画像を使用して、人が観察したもの (ビュー) シーンを (間接的に) 再構築する方法を開発しました。
ただし、観察された反射に基づいて放射線場をトレーニングするだけでは、次のような理由から十分ではありません: 1) 角膜の位置決めにおける固有のノイズ、2) 虹彩テクスチャの複雑さ、3)各画像にキャプチャされた低解像度の反射。
これらの課題に対処するために、チームは、人間の虹彩に基づく放射状テクスチャ正則化損失の助けを借りて、トレーニング プロセス中に角膜姿勢の最適化と虹彩テクスチャ分解を導入しました。
カメラを動かす必要がある従来の神経場のトレーニング方法とは異なり、彼らが使用した方法は、カメラを固定視点に配置し、ユーザーの動きに完全に依存します。
目の姿勢を正確に推定することは困難であり、虹彩とシーンの反射の間のテクスチャが絡み合っているため、この作業は非常に困難です。
この問題を解決するために、著者は目の姿勢、シーンを表す放射フィールド、および観察者の目の虹彩テクスチャを共同で最適化しました。
具体的には、次の 3 つの主要な貢献があります:
1新しい 3D 再構成
は、目の画像から観察者の世界の 3D シーンを再構成する新しい方法を提案しており、これまでの基本的な作業と神経の最新の進歩を組み合わせることができます。レンダリング。
#2. 虹彩の放射事前分布
##虹彩テクスチャ分解の放射事前分布を導入します。復元された放射線場。
3. 角膜の姿勢の最適化
目の姿勢を軽減するために、角膜の姿勢を最適化するプロセスが開発されました。ノイズは、人間の目から特徴を抽出するという独特の課題を克服します。結果は、この新しい方法を使用すると、画像を動かすことで目の反射からシーンの複数の視点を取得し、最終的に完全なシーンの再構成を達成できることを示しています。
さらに驚くべきことは、チームはマイリー・サイラスとレディー・ガガのMVを使用して、彼らの目に映るシーンを再現しようとしたことです。
著者らは、マイリーの目に映った物体の再構築に成功し、レディー・ガガの目を通して人の上半身が見えたようだと述べた。
ただし、これらのビデオの品質は十分に高くないため、再構成結果が正確であると結論付けることはできません。 ##############################レディー・ガガ##################
マイリー・サイラス
どうやってやるの? 健康な成人の角膜の形状がほぼ同一であることはよく知られています。
したがって、画像内の人の角膜のピクセル サイズを計算するだけで、目の位置を正確に計算できます。
次に、著者らは、カメラから光線を取得し、それらを近似的な目の幾何学形状から反射することによって、目によって反射される放射線フィールドをトレーニングしました。
人間の目の虹彩が再構成に現れるのを避けるために、著者は虹彩テクスチャを学習した 2 次元テクスチャ マッピングをトレーニングしてテクスチャ分解を実行しました。
下の画像は、目の反射のみを使用して再構成されたシーンを示しています。
実生活では角膜を完全に推定することはできないため、著者らは、推定された角膜半径ノイズに対する角膜姿勢の最適化のロバスト性を評価しました。実際のデータで発生する可能性のある深度推定エラーをシミュレートするために、著者らは、各画像の異なるノイズ レベルでスケーリングすることにより、観察された角膜を破損しました。
#次の図は、さまざまなノイズ レベルでのパフォーマンスの変化を示しています。
ノイズが増加するにつれて、著者らによって提案された姿勢最適化再構成は、姿勢最適化なしの再構成と比較して、再構成されたジオメトリと色の点でより堅牢であることは注目に値します。
これは、投影された角膜から画像内の最初の楕円までの適合が完璧ではないため、実際のシナリオではポーズの最適化が重要であることを証明しています。
さらに、テクスチャ分解ありとなしの定量的比較により、著者の方法が SSIM と LPIPS の点でより優れたパフォーマンスを示していることがわかります。テクスチャ分解を使用するとパフォーマンスが向上します。
セットアップでは、反射とシーン自体の間の照明の差が非常に大きいため、作成者が PSNR を計算していないことは注目に値します。
#現実世界の評価
保証について視野のリアリティを確保するために、著者は撮影に Sony RX IV カメラを選択し、Adobe Lightroom を使用して画像を後処理して角膜反射のノイズを低減しました。同時に、作者はターゲット オブジェクトを照らすためにキャラクターの両側に光源を追加しました。
プロセス中、チームが各シーンで 5 ~ 15 フレームの画像をキャプチャできるように、撮影される人物はカメラの視野内で移動する必要があります。
シーンの照明のダイナミック レンジが広いため、観察された反射で情報が失われないように、著者らはすべての実験で 16 ビット画像を使用しました。
平均して、角膜は各画像内の領域の約 0.1% しかカバーしませんが、ターゲット オブジェクトは虹彩のテクスチャが挟まれた約 20x20 ピクセルを占めます。
データ処理
まずは著者合格 角膜の中心と半径が画像から推定され、角膜の初期位置推定値が得られます。
次に、平均深度とカメラの焦点距離の直接近似を使用して角膜の 3 次元位置が計算され、その表面法線が計算されます。
このプロセスを自動化するために、著者は Grounding Dino を使用して目の境界ボックスを特定し、ELLSeg を使用して虹彩に楕円フィッティングを実行します。
通常、角膜は閉塞されていますが、必要なのは閉塞されていない領域のみであるため、Segment Anything を使用して虹彩のセグメンテーション マスクを取得できます。
#実際の結果
写真より以下の実証結果からわかるように、角膜の位置と幾何学的な推定が不正確であるにもかかわらず、著者の方法は現実世界のポートレート画像から 3D シーンを再構成できます。# 角膜境界があいまいなため、画像内で正確な位置決めを達成することは非常に困難です。
さらに、緑や青などの特定の目の色では、虹彩のテクスチャが明るいため、3D 再構成もより困難になります。
さらに、明示的なモデリング テクスチャがない場合、再構成された画像にはより多くの「浮遊感」が表示されます。 」。
これらの問題を解決するには、放射状正則化の度合いを高めることで再構成の品質を向上させることができます。
#ただし、この方法には依然として 2 つの主な制限があります。
まず第一に、現在の現実世界の結果は、顔のズームイン、シーンを照らすための追加の光源の使用などの「実験室の設定」に基づいています。より自由な環境では、センサー解像度の低下、ダイナミック レンジの縮小、モーション ブラーなどの大きな課題に直面する必要があります。
第二に、虹彩のテクスチャに関する現在の仮定 (例: 一定のテクスチャ、放射状に一定の色) は単純化しすぎている可能性があるため、目が大きく回転するとこの方法は失敗する可能性があります。
共著者の Kevin Zhang は、現在メリーランド大学の博士課程の学生です。
Brandon Y. Feng は、メリーランド大学でコンピュータ サイエンスの博士号を取得しており、計算イメージングに重点を置いた研究を行っています。 、中位視力、およびコンピュテーショナル フォトグラフィーの分野。彼は、複合現実から自然科学に至るまで、画像および 3D データ処理のための機械学習アルゴリズムを開発してきました。
Jia-Bin Huang はメリーランド大学の准教授で、以前に UIUC で博士号を取得しました。研究の関心は、コンピュータ ビジョン、コンピュータ グラフィックス、機械学習の交差点に焦点を当てています。
以上が目玉の反射で 3D 世界のロックが解除され、ブラック ミラーが現実になります。メリーランド州の中国人の新作がSFファンを驚かせるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。