テスラは典型的な AI 企業です。過去 1 年間で 75,000 のニューラル ネットワークをトレーニングしました。これは、8 分ごとに新しいモデルが生成されることを意味します。合計 281 のモデルがテスラ車を使用しています。優れています。次に、テスラ FSD のアルゴリズムとモデルの進歩をいくつかの側面から解釈します。
今年の知覚におけるテスラの主要テクノロジーの 1 つは占有ネットワークです。ロボット工学を学ぶ学生は、必ず占有グリッドに精通しているでしょう。占有は、空間内の各 3D ボクセル (ボクセル) が占有されているかどうかを示します。0/1 または [0, 1] の間の 1 つのバイナリ表現にすることができます。確率値です。
自動運転の認識にとって占有率の推定が重要なのはなぜですか?なぜなら、運転中には、車両や歩行者などの一般的な障害物に加えて、3D 物体検出によってその位置や大きさを推定することができ、さらに運転に重要な影響を与えるロングテール障害物も増えています。例: 1. 2 セクションのトレーラーなどの変形可能な障害物は、3D 境界ボックスで表すのに適していません; 2. 横転した車両などの特殊な形状の障害物は、3D 姿勢推定が無効になります; 3. 不明分類 道路上の石やゴミなどの障害物は分類できません。したがって、私たちは、これらのロングテール障害物を説明し、3D 空間内の各位置の占有、さらにはセマンティクスや動き (フロー) を完全に推定するためのより良い表現を見つけたいと考えています。
Tesla は、次の図の特定の例を使用して、Occupancy Network の威力を実証しています。 3D ボックスとは異なり、占有の表現ではオブジェクトに関する幾何学的な仮定があまり行われないため、あらゆる形状のオブジェクトやあらゆる形式のオブジェクトの動きをモデル化できます。この図は、2 セクションのバスが出発するシーンを示しています。青は移動ボクセルを表し、赤は静止ボクセルを表します。占有ネットワークは、バスの最初のセクションが移動を開始し、バスの 2 番目のセクションが開始したことを正確に推定します。セクションはまだ停止しています。
# 出発する 2 台のバスの占有率推定。青は移動ボクセルを表し、赤は静止ボクセルを表します。
#占有ネットワークのモデル構造を次の図に示します。まず、このモデルは RegNet と BiFPN を使用して複数のカメラから特徴を取得しますが、この構造は昨年の AI Day で共有されたネットワーク構造と一致しており、バックボーンが大きく変わっていないことがわかります。次にモデルは、3D 空間位置を使用した空間クエリを通じて 2D 画像特徴に対してアテンションベースのマルチカメラ フュージョンを実行します。 3D 空間クエリと 2D フィーチャ マップの間の接続をどのように実現するか?具体的な融合方法は図には詳しく記載されていませんが、参考となる公開論文が多数あります。 1 つ目は 3D-to-2D クエリと呼ばれるもので、各カメラの内部パラメータと外部パラメータに基づいて 3D 空間クエリを 2D 特徴マップに投影し、カメラの特徴を抽出します。対応する位置。この手法はDETR3Dで提案されており、BEVFormerやPolarFormerもこの考え方を採用しています。 2 つ目は、位置埋め込みを使用して暗黙的なマッピングを実行することです。つまり、カメラの内部パラメータと外部パラメータ、ピクセル座標などの 2D 特徴マップの各位置に適切な位置埋め込みを追加し、モデルに対応関係を学習させます。 2D フィーチャと 3D フィーチャの間を単独で切り替えます。次にモデルの時系列融合を行うが、実装方法は既知の自車両の位置・姿勢変化に基づいて3次元特徴空間を繋ぎ合わせるというものである。
占有ネットワーク構造
機能融合後、デコンボリューションベースのデコーダは、各 3D 空間位置の占有、セマンティクス、およびフローをデコードします。記者会見では、このネットワークの出力は高密度であるため、出力解像度はメモリによって制限されることが強調されました。これは、画像セグメンテーションを行うすべての学生にとっても大きな悩みの種だと思います。さらに、ここで私たちが行っているのは 3D セグメンテーションですが、自動運転には非常に高い解像度 (~10cm) が必要です。したがって、ニューラル暗黙的表現に触発されて、追加の暗黙的クエリ可能な MLP デコーダがモデルの最後に設計されており、任意の座標値 (x, y, z) を入力することで、空間位置、つまり占有の情報をデコードできます。 、セマンティクス、フロー。この方法はモデルの解像度の制限を打ち破るものであり、これが設計のハイライトだと思います。プランニングは自動運転のもう 1 つの重要なモジュールです。テスラは今回、主に複雑な交差点でのインタラクションに重点を置いています。) をモデリングします。インタラクションモデリングがなぜそれほど重要なのでしょうか?他の車両や歩行者の将来の行動にはある程度の不確実性があるため、スマート プランニング モジュールは、オンラインで自車両と他の車両との間の複数の相互作用を予測し、それぞれの相互作用によってもたらされるリスクを評価し、最終的にどのような戦略を決定するかを決定する必要があります。追求する。 Tesla は、採用している計画モデルをインタラクション検索と呼んでいます。これは主に、ツリー検索、ニューラル ネットワーク軌道計画、軌道スコアリングの 3 つの主要なステップで構成されます。 1. ツリー検索は、軌道計画によく使用されるアルゴリズムです。さまざまなインタラクティブな状況を効果的に発見し、最適な解決策を見つけることができます。ただし、検索方法を使用して軌道計画の問題を解決すると、遭遇する問題が発生します。最大の問題は、検索スペースが大きすぎることです。たとえば、複雑な交差点に自分に関連する 20 台の車両があり、それらを組み合わせて 100 を超えるインタラクション方法が可能であり、各インタラクション方法には数十の時空間軌跡が候補として含まれる可能性があります。したがって、テスラは軌道探索法を使用せず、ニューラル ネットワークを使用して、一定期間後に到達する可能性のあるターゲット位置 (ゴール) をスコア化し、少数のより良いターゲットを取得しました。 2. ターゲットを決定したら、ターゲットに到達するための軌道を決定する必要があります。従来の計画手法では、この問題を解決するために最適化を使用することがよくあります。最適化問題を解決することは難しくありません。各最適化には約 1 ~ 5 ミリ秒かかります。しかし、前のステップのツリー検索によって与えられた候補ターゲットが多数ある場合、最適化問題を解決することはできません。時間的コスト、負担の観点から問題を解決する。したがって、テスラは、複数の候補ターゲットに対する高度な並列計画を実現するために、軌道計画に別のニューラル ネットワークを使用することを提案しました。このニューラル ネットワークをトレーニングするための軌跡ラベルのソースは 2 つあります。1 つ目は実際の人間の運転の軌跡ですが、人間の運転の軌跡は多くのより良いソリューションの 1 つにすぎない可能性があることがわかっているため、2 番目のソースはオフライン最適化によるものです。アルゴリズムによって生成された軌道ソリューション。 3. 一連の実現可能な軌道を取得した後、最適なソリューションを選択する必要があります。ここで採用されているソリューションは、人工的に定式化されたリスク指標、快適指標、およびニューラル ネットワーク スコアラーを組み合わせた、得られた軌跡をスコアリングするものです。 上記の 3 つのステップを分離することで、テスラは相互作用を考慮した効率的な軌道計画モジュールを実装しました。ニューラル ネットワークに基づく軌道計画について参照できる論文は多くありません。私はこの方法に比較的関連する論文 TNT [5] を出版しました。また、軌道予測問題を上記の 3 つのステップに分解して解決します。スコアリング、軌道計画、軌道スコアリング。興味のある読者は詳細を確認してください。さらに、私たちの研究グループは、行動の相互作用と計画に関連する問題を調査しており、皆さんも私たちの最新の研究である InterSim[6] に注目してください。 #インタラクション検索計画モデルの構造 まず、ベクトル マップとは何かを見てみましょう. 図に示すように、テスラのベクトル マップは、一連の青い車線の中心線といくつかのキー ポイント (接続ポイント、接続、分岐点、合流点)とその接続関係をグラフで表現します。
#ベクトル マップ、点は車線のキー ポイント、青は車線の中心線です Lanes Network は、モデル構造の観点から見ると、知覚ネットワークのバックボーンに基づいたデコーダーです。各ボクセルの占有とセマンティクスをデコードすることと比較して、出力の数が固定されておらず、出力量間に論理的関係があるため、一連のまばらで接続された車線のラインをデコードすることはより困難です。 Tesla は、自然言語モデルの Transformer デコーダーを参照し、結果を自己回帰的に順次出力します。具体的な実装に関しては、まず生成順序 (左から右、上から下など) を選択し、空間を離散化 (トークン化) する必要があります。次に、レーン ネットワークを使用して、一連の離散トークンを予測できます。図に示すように、ネットワークはまずノードの大まかな位置 (インデックス: 18) と正確な位置 (インデックス: 31) を予測し、次にノードのセマンティクス (ノードの開始点である「開始」) を予測します。車線)、最後に分岐・合流・曲率パラメータなどの接続特性を予測します。ネットワークは、この自己回帰的な方法ですべての車線ノードを生成します。 レーン ネットワークのネットワーク構造 自己回帰シーケンスの生成は次のとおりであることに注意してください。言語 Transformer モデルによって特許は取得されていません。私たちの研究グループは、過去数年間にベクトル マップの生成に関する 2 つの関連論文、HDMapGen[7] と VectorMapNet[8] も発表しました。 HDMapGen は、GAT (Graph Neural Network with tention) を使用してベクトル マップのキー ポイントを自己回帰的に生成します。これは Tesla のソリューションと似ています。 VectorMapNet は、検出トランスフォーマー (DETR) を使用してこの問題を解決し、セットの予測ソリューションを使用してベクトル マップをより迅速に生成します。 HDMapGen ベクトル マップ生成結果 VectorMapNet ベクトル マップ生成結果 Tesla の自動車線マーキングには 3 つのステップがあります: 1. 視覚的な慣性オドメトリ技術により、すべての走行で高精度の軌道推定を行います。 2. 複数の車両と複数の移動のマップの再構築は、この計画の最も重要なステップです。このステップの基本的な動機は、異なる車両が異なる空間角度と時間から同じ場所を観察する可能性があるため、この情報を集約することでより適切なマップ再構成につながる可能性があるということです。このステップの技術的なポイントには、マップ間の幾何学的マッチングと結果の結合最適化が含まれます。 3. 新しい移動の車線を自動的にマークします。高精度のオフライン地図再構成結果があれば、新しい移動が発生したときに、単純な幾何学的マッチングを実行して、新しい移動の車線境界線の疑似真の値 (疑似ラベル) を取得できます。疑似真の値を取得するこの方法は、手動による注釈よりも優れている場合があります (夜間、雨や霧の日)。
##Lanes Network は自動的に注釈を付けます 視覚イメージのシミュレーションは、近年のコンピューター ビジョンで人気のある方向性です。自動運転におけるビジュアル シミュレーションの主な目的は、まれなシーンを的を絞った方法で生成することであり、それによって実際の路上テストで運を試す必要がなくなります。たとえば、テスラは、道路の真ん中に大型トラックが横たわっているシーンにいつも頭を悩ませていました。しかし、ビジュアル シミュレーションは単純な問題ではなく、複雑な交差点 (サンフランシスコのマーケット ストリート) の場合、従来のモデリングとレンダリングを使用したソリューションでは、デザイナーが 2 週間を要します。テスラの AI ベースのソリューションの所要時間はわずか 5 分です。 ビジュアル シミュレーション再構成交差点 具体的には、ビジュアル シミュレーション 前提条件は、自動的にラベル付けされた現実世界の道路情報と豊富なグラフィックス素材ライブラリを準備します。 1. 舗装の生成: 道路の勾配、材質、その他の詳細情報を含む、縁石に従って路面を埋めます。 2. 車線生成:路面上に車線情報を描画します。 3. 植物と建物の生成: 道路と沿道の間に植物と家をランダムに生成してレンダリングします。植物や建物を生成する目的は、視覚的な美しさだけではなく、現実世界のこれらのオブジェクトによって引き起こされるオクルージョン効果もシミュレートします。 4. 信号機、道路標識、インポート車線と接続関係などの他の道路要素を生成します。 5. 車両や歩行者などの動的要素を追加します。 最後に、テスラの一連のソフトウェア テクノロジーの基盤である強力なインフラストラクチャについて簡単に説明します。 Tesla のスーパーコンピューティング センターには 14,000 個の GPU と合計 30PB のデータ キャッシュがあり、毎日 500,000 件の新しいビデオがこれらのスーパーコンピューターに流れ込みます。このデータをより効率的に処理するために、テスラは、高速化されたビデオ デコード ライブラリと、中間機能の読み取りと書き込みを高速化するファイル形式 .smol ファイル形式を特別に開発しました。さらに、テスラはスーパーコンピューティング センター用に独自のチップ Dojo も開発しましたが、ここでは説明しません。 #ビデオ モデル トレーニングのためのスーパー コンピューティング センター 過去 2 年間の Tesla AI Day コンテンツのリリースにより、私たちは自動 (支援) 運転の方向に向かう Tesla の技術的状況をゆっくりと見てきました。また、Tesla 自体が 2D 認識、BEV 認識、占有ネットワークなど、常にそれ自体を反復していることもわかります。自動運転は数千マイルに及ぶ長い旅ですが、テスラの技術の進化を支えているものは何でしょうか?ビジュアルアルゴリズムによる完全なシーン理解力、強力な計算能力によるモデルの反復速度、そして膨大なデータによる一般化の3点がポイントだと考えています。これがディープラーニング時代の三本柱ではないでしょうか?
02 プランニング インタラクティブ プランニング
03 ベクター マップ レーン ネットワーク
#個人的には、この AI Day のもう 1 つの主要な技術的ハイライトは、オンライン ベクトル マップ構築モデル Lanes Network だと思います。昨年の AI Day に注目した学生は、テスラが BEV 分野で地図の完全なオンライン セグメンテーションと認識を実施したことを覚えているかもしれません。では、なぜ私たちはレーン ネットワークを構築したいのでしょうか?セグメント化されたピクセルレベルの車線だけでは軌道計画には十分ではないため、車がある車線から別の車線に変更できることを知るために、車線のトポロジーも取得する必要があります。
自動ラベリングも Tes La です昨年の AI Day で説明された技術で、今年の自動アノテーションは Lanes Network の自動アノテーションに焦点を当てています。テスラ車は毎日 500,000 回の運転行程 (トリップ) を生成する可能性があり、この運転データを有効に活用することで、車線の境界線を予測するのに役立ちます。
05 シミュレーション
06 インフラストラクチャ
07 概要
以上がテスラの自動運転アルゴリズムとモデルの解釈の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。