궤적 예측을 위한 시각적 방법 검토-일체 포함-php.cn

최근 리뷰 논문 "Trajectory-Prediction With Vision: A Survey"는 Hyundai와 Aptiv의 회사인 Motional에서 나온 것이지만, 이는 Oxford University의 리뷰 기사인 "Vision-based Intention and Trajectory Prediction in Autonomous Vehicles: A Survey"를 참조한 것입니다.

예측 작업은 기본적으로 두 부분으로 나뉩니다. 1) 에이전트에 대한 일련의 의도 클래스를 미리 설계하는 분류 작업인 의도는 일반적으로 지도 학습 문제로 간주되며, 2) 웨이포인트라고 하는 후속 프레임에서 에이전트의 가능한 위치 집합을 예측해야 하는 궤적. 이는 에이전트 간 및 에이전트와 도로 간의 상호 작용을 구성합니다.

이전의 행동 예측 모델은 물리 기반, 기동 기반, 상호 작용 인식 모델의 세 가지 범주로 나눌 수 있습니다. 이 문장은 다음과 같이 다시 작성할 수 있습니다. 물리적 모델의 동적 방정식을 사용하여 다양한 유형의 에이전트에 대해 인위적으로 제어 가능한 움직임을 설계합니다. 이 방법은 전체 상황의 잠재적 상태를 모델링할 수 없으며 일반적으로 특정 에이전트에만 초점을 맞춥니다. 하지만 딥러닝 이전 시대에는 이러한 트렌드가 SOTA였습니다. 기동 기반 모델은 에이전트가 예상하는 움직임 유형을 기반으로 하는 모델입니다. 상호 작용 인식 모델은 일반적으로 장면의 각 에이전트에 대해 쌍별 추론을 수행하고 모든 동적 에이전트에 대한 상호 작용 인식 예측을 생성하는 기계 학습 기반 시스템입니다. 장면 내 서로 다른 인근 에이전트 대상 간에는 높은 수준의 상관관계가 있습니다. 복잡한 에이전트 궤적 주의 모듈을 모델링하면 더 나은 일반화가 가능합니다.

미래의 행동이나 사건을 예측하는 것은 암묵적으로 표현될 수도 있고 미래의 궤적이 명시적으로 나타날 수도 있습니다. 에이전트의 의도는 다음에 의해 영향을 받을 수 있습니다. a) 에이전트 자신의 신념이나 희망(종종 관찰되지 않아 모델링하기 어려움) b) 풀링, 그래프 신경망, 주의 등 다양한 방식으로 모델링할 수 있는 사회적 상호작용 c) 고화질(HD) 지도를 통해 인코딩할 수 있는 도로 레이아웃과 같은 환경적 제약 d) RGB 이미지 프레임, 라이더 포인트 클라우드, 광학 흐름, 분할 그림 등의 형태로 된 배경 정보 반면 궤적 예측은 의도를 인식하는 것과는 달리 분류 문제가 아닌 회귀(연속) 문제를 포함하기 때문에 더 어려운 문제입니다.

궤적과 의도는 상호작용 인식에서 시작되어야 합니다. 교통량이 많은 고속도로에서 공격적으로 운전하려고 할 때 지나가는 차량이 세게 브레이크를 밟을 수 있다고 가정하는 것이 합리적입니다. 모델링. 궤적 예측이 가능한 BEV 공간에서 모델링하는 것이 더 좋지만 이미지 보기(원근감이라고도 함)에서도 모델링하는 것이 좋습니다. 이 문장은 다음과 같이 다시 작성할 수 있습니다. "관심 영역(RoI)을 그리드 형태로 전용 거리 범위에 할당할 수 있기 때문입니다." 그러나 원근감의 소실선으로 인해 이미지 원근감은 이론적으로 RoI를 무한정 확장할 수 있습니다. BEV 공간은 모션을 보다 선형적으로 모델링하기 때문에 폐색 모델링에 더 적합합니다. 자세 추정(자차의 이동 및 회전)을 수행함으로써 간단하게 자신의 움직임에 대한 보상을 수행할 수 있습니다. 또한 이 공간은 에이전트의 동작과 크기를 보존합니다. 즉, 주변 차량은 자체 차량에서 얼마나 멀리 떨어져 있더라도 동일한 수의 BEV 픽셀을 차지하지만 이미지의 경우는 그렇지 않습니다. 관점. 미래를 예측하려면 과거에 대한 이해가 필요합니다. 이는 일반적으로 추적을 통해 수행되거나 과거 집계된 BEV 기능을 통해 수행될 수 있습니다.

다음 그림은 예측 모델의 일부 구성 요소와 데이터 흐름 블록 다이어그램을 보여줍니다.

궤적 예측을 위한 시각적 방법 검토

다음 표는 예측 모델을 요약한 것입니다.

궤적 예측을 위한 시각적 방법 검토

다음은 기본적으로 입력/에서 시작하는 예측 모델에 대해 설명합니다. 출력:

1) 트랙렛: 인식 모듈은 모든 동적 에이전트의 현재 상태를 예측합니다. 이 상태에는 3차원 중심, 치수, 속도, 가속도 및 기타 속성이 포함됩니다. 추적기는 이 데이터를 활용하고 임시 연결을 설정하여 각 추적기가 모든 에이전트의 상태 기록을 보존할 수 있습니다. 이제 각 트랙렛은 에이전트의 과거 움직임을 나타냅니다. 이러한 형태의 예측 모델은 입력이 희박한 궤적으로만 구성되므로 가장 간단합니다. 좋은 추적기는 에이전트가 현재 프레임에 가려져 있어도 추적할 수 있습니다. 기존 추적기는 머신러닝이 아닌 네트워크를 기반으로 하기 때문에 엔드투엔드 모델을 구현하기가 매우 어렵습니다.

2) 원시 센서 데이터: 모델이 원시 센서 데이터 정보를 획득하고 장면 내 각 에이전트의 궤적 예측을 직접 예측하는 엔드투엔드 방식입니다. 이 방법에는 복잡한 훈련을 감독하기 위한 보조 출력 및 손실이 있을 수도 있고 없을 수도 있습니다. 이러한 유형의 접근 방식의 단점은 입력이 정보 집약적이고 계산 비용이 많이 든다는 것입니다. 이는 인식, 추적, 예측의 세 가지 문제가 합쳐져 모델 개발이 어렵고 융합을 달성하기가 더욱 어려워지기 때문입니다.

3) Camera-vs-BEV: BEV 방식은 탑뷰 지도와 같은 뷰에서 데이터를 처리하며, 카메라 예측 알고리즘은 자율주행차의 관점에서 세상을 인식합니다. 일반적으로 후자가 전자보다 더 어렵습니다. 여러 가지 이유 때문에 첫째, BEV에서 감지하면 더 넓은 시야와 더 풍부한 예측 정보를 얻을 수 있습니다. 이에 비해 카메라의 시야는 더 짧아서 자동차가 시야 밖에서 계획을 세울 수 없기 때문에 예측 범위가 제한됩니다. 또한 카메라가 차단될 가능성이 높기 때문에 다른 방법에 비해 BEV 방법은 LiDAR 데이터를 사용할 수 없는 경우 단안 시야 문제가 더 적습니다. 알고리즘이 문제의 에이전트의 행동을 예측하는 중요한 단서인 깊이를 추론하기 어렵게 만듭니다. 마지막으로 카메라가 움직이기 때문에 에이전트와 차량의 움직임을 처리해야 하는데, 이는 다릅니다. 정적 BEV 언급에서: BEV 표현 방법은 카메라 뷰 처리에 문제가 있지만 여전히 오류가 누적되는 문제가 있습니다. 본질적인 문제가 있지만 여전히 BEV보다 실용적이며 자동차는 거의 없습니다. BEV의 위치를 보여주는 카메라와 도로에 있는 요원을 감시할 수 있습니다. 결론은 예측 시스템이 LiDAR 및/또는 스테레오 카메라를 포함하여 자율주행차의 관점에서 세상을 볼 수 있어야 한다는 것입니다. 이 데이터는 세상을 3D로 인식하는 데 유리할 수 있습니다. 주의를 기울여야 하는 시간 에이전트의 위치를 예측할 때 순수 중심점보다는 경계 상자 위치를 사용하는 것이 더 좋습니다. 왜냐하면 전자의 좌표는 차량과 보행자 사이의 상대적인 거리의 변화도 암시하기 때문입니다. 카메라의 자체 모션, 즉 에이전트로서 신체가 자체 차량에 접근하면 경계 상자가 커져 추가(예비적이지만) 깊이 추정이 제공됩니다.

4) 자가 모션 예측: 자가 차량 모션을 모델링하여 보다 정확한 궤적을 생성합니다. 다른 접근 방식은 심층 네트워크 또는 동적 모델을 사용하여 관심 에이전트의 동작을 모델링하고 자세, 광학 흐름, 의미 지도, 열 지도와 같은 데이터세트 입력에서 계산된 추가 수량을 활용합니다.

5) 시간 영역 인코딩: 운전 환경이 역동적이고 활성 에이전트가 많기 때문에 과거에 일어난 일과 앞으로 일어날 일을 연결하는 더 나은 예측 시스템을 구축하려면 에이전트 시간 차원에서 인코딩해야 합니다. 미래를 통해 현재까지 에이전트가 어디에서 왔는지 알면 에이전트가 다음에 어디로 갈지 추측하는 데 도움이 될 수 있습니다. 대부분의 카메라 기반 모델은 더 짧은 시간 규모를 처리하는 반면 예측 모델은 더 복잡한 구조를 필요로 합니다.

6) 소셜 인코딩: "다중 에이전트" 문제에 대처하기 위해 대부분의 최고 성능 알고리즘은 다양한 유형의 그래프 신경망(GNN)을 사용하여 에이전트 간의 사회적 상호 작용을 인코딩합니다. 대부분의 방법은 시간과 사회적 차원을 별도로 인코딩합니다. - 시간적 차원에서 시작한 다음 사회적 차원을 고려하거나, 역순으로 두 차원을 동시에 인코딩할 수 있는 Transformer 기반 모델이 있습니다.

7) 예상 골을 기반으로 한 예측: 장면 상황과 마찬가지로 행동 의도 예측은 일반적으로 다양한 예상 골의 영향을 받으며 예상 골을 조건으로 한 미래 예측에 대해 설명을 통해 추론해야 합니다. 이 목표는 원하는 움직임 유형을 모델링합니다. 미래 상태(목적지 좌표로 정의됨) 또는 신경 과학 및 컴퓨터 비전 분야의 에이전트 연구에 따르면 인간은 일반적으로 목표 지향 에이전트이며 결정을 내리는 동안 연속적인 추론 수준을 따르고 궁극적으로 짧게 공식화됩니다. -이를 바탕으로 이 질문은 두 가지 범주로 나눌 수 있습니다. 첫 번째는 에이전트가 어디로 가는지에 대한 질문에 대답하는 인지적 질문이고, 두 번째는 이 에이전트가 어떻게 목표를 달성하는지에 대한 질문에 대답하는 것입니다. 의도된 목표.

8) 다중 모드 예측: 도로 환경은 확률적이므로 이전 궤적은 다양한 미래 궤적을 펼칠 수 있습니다. 따라서 "확률성" 문제를 해결하는 실용적인 예측 시스템은 문제 모델링의 불확실성을 처리합니다. 이산 변수의 잠재 공간 모델링을 위한 방법이며, 다중 양식은 궤적에만 적용되어 의도 예측의 잠재력을 완전히 보여주며 가중치를 계산하는 데 사용할 수 있습니다.

위 내용은 궤적 예측을 위한 시각적 방법 검토의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!