비디오 이해의 핵심 목표는 시공간 표현을 정확하게 이해하는 것이지만 두 가지 주요 과제에 직면해 있습니다. 짧은 비디오 클립에는 많은 시공간 중복성과 복잡한 시공간 종속성이 있습니다. 3차원 컨벌루션 신경망(CNN)과 비디오 변환기는 이러한 문제 중 하나를 해결하는 데 탁월한 성능을 발휘했지만 두 가지 문제를 동시에 해결하는 데에는 몇 가지 단점이 있습니다. UniFormer는 두 접근 방식의 장점을 결합하려고 시도하지만 긴 동영상을 모델링하는 데 어려움을 겪습니다.
자연어 처리 분야에서 S4, RWKV, RetNet과 같은 저가형 솔루션의 등장으로 시각적 모델의 새로운 길이 열렸습니다. Mamba는 장기적인 동적 모델링을 촉진하는 동시에 선형 복잡성을 유지하는 균형을 달성하는 SSM(선택적 상태 공간 모델)으로 두각을 나타냅니다. 이 혁신은 다방향 SSM을 활용하여 2D 이미지 처리를 향상시키는 Vision Mamba 및 VMamba에서 입증된 것처럼 비전 작업에 적용을 촉진합니다. 이러한 모델은 주의 기반 아키텍처와 성능 면에서 비슷하면서도 메모리 사용량을 크게 줄입니다.
비디오에서 생성된 시퀀스 자체가 길다는 점을 고려하면 자연스러운 질문은 다음과 같습니다. Mamba가 비디오 이해에 잘 작동합니까?
Mamba에서 영감을 받아 이 글에서는 영상 이해를 위해 특별히 맞춤화된 SSM(Selective State Space Model)인 VideoMamba를 소개합니다. VideoMamba는 Vanilla ViT의 디자인 철학을 바탕으로 컨볼루션과 어텐션 메커니즘을 결합합니다. 이는 동적 시공간 배경 모델링을 위한 선형 복잡도 방법을 제공하며 특히 고해상도 장편 비디오 처리에 적합합니다. 평가는 주로 VideoMamba의 네 가지 주요 기능에 중점을 둡니다:
시각적 영역의 확장성: 이 기사에서는 VideoMamba의 확장성을 조사하고 순수 Mamba 모델이 계속 확장되면서 통과하기 쉬운 경향이 있음을 발견했습니다. 피팅을 통해 이 문서에서는 VideoMamba가 대규모 데이터 세트 사전 교육 없이도 모델 및 입력 크기가 증가함에 따라 상당한 성능 향상을 달성할 수 있게 해주는 간단하면서도 효과적인 자체 증류 전략을 소개합니다.
단기 동작 인식에 대한 민감도: 이 백서의 분석은 단기 동작, 특히 열기 및 닫기와 같은 미묘한 동작 차이가 있는 동작을 정확하게 구별하는 VideoMamba의 능력을 평가하는 데까지 확장됩니다. 연구 결과에 따르면 VideoMamba는 기존 주의 기반 모델에 비해 탁월한 성능을 보이는 것으로 나타났습니다. 더 중요한 것은 마스크 모델링에도 적합하여 시간 감도를 더욱 향상시킨다는 것입니다.
긴 비디오 이해의 우수성: 이 문서에서는 긴 비디오를 해석하는 VideoMamba의 능력을 평가합니다. 엔드투엔드 교육을 통해 기존 기능 기반 방법에 비해 상당한 이점을 보여줍니다. 특히 VideoMamba는 64프레임 비디오에서 TimeSformer보다 6배 더 빠르게 실행되며 40배 더 적은 GPU 메모리를 필요로 합니다(그림 1 참조).
다른 형식과의 호환성: 마지막으로 이 기사에서는 VideoMamba와 다른 형식의 적응성을 평가합니다. 비디오 텍스트 검색 결과는 특히 복잡한 시나리오가 포함된 긴 비디오에서 ViT에 비해 향상된 성능을 보여줍니다. 이는 견고성과 다중 모드 통합 기능을 강조합니다.
이 연구의 심층 실험은 단기(K400 및 SthSthV2) 및 장기(Breakfast, COIN 및 LVU) 비디오 콘텐츠 이해를 위한 VideoMamba의 엄청난 잠재력을 보여줍니다. VideoMamba는 높은 효율성과 정확성을 보여주며, 이는 장편 영상 이해 분야의 핵심 구성 요소가 될 것임을 나타냅니다. 향후 연구를 용이하게 하기 위해 모든 코드와 모델이 오픈 소스로 만들어졌습니다.
아래 그림 2a는 Mamba 모듈의 세부 사항을 보여줍니다.
그림 3은 VideoMamba의 전체 프레임워크를 보여줍니다. 이 논문에서는 먼저 3D 컨볼루션(즉, 1×16×16)을 사용하여 입력 비디오 Xv ∈ R 3×T ×H×W를 L개의 중첩되지 않는 시공간 패치 Xp ∈ R L×C에 투영합니다. 여기서 L=t×h ×w(t=T, h= H 16, w= W 16). 다음 VideoMamba 인코더에 입력되는 토큰 시퀀스는
입니다. 시공간 스캔: B-Mamba 레이어를 시공간 입력에 적용하기 위해 원본 2D 스캔은 그림 4의 다른 양방향 3D 스캔으로 확장됩니다. 이 기사:
(a) 공간을 먼저 배치하고 공간 토큰을 위치별로 구성한 다음 프레임별로 쌓습니다.
(b) 시간을 먼저 지정하고 프레임에 따라 시간 토큰을 정렬한 다음 공간 차원을 따라 쌓습니다.
( c) 공간 우선순위와 시간 우선순위를 모두 갖춘 시공간 하이브리드. 여기서 v1은 절반을 실행하고 v2는 모두 실행합니다(계산량의 2배).
그림 7a의 실험은 공간 우선 양방향 스캐닝이 가장 효율적이면서도 간단한 것을 보여줍니다. Mamba의 선형적 복잡성으로 인해 이 문서의 VideoMamba는 고해상도의 긴 비디오를 효율적으로 처리할 수 있습니다.
B-Mamba 계층의 SSM에 대해 이 문서에서는 Mamba와 동일한 기본 하이퍼 매개변수 설정을 사용하여 상태 차원과 확장 비율을 각각 16과 2로 설정합니다. ViT의 접근 방식에 따라 이 문서에서는 깊이와 임베딩 크기를 조정하여 VideoMamba-Ti, VideoMamba-S 및 VideoMamba-M을 포함하여 표 1의 모델과 비슷한 크기의 모델을 만듭니다. 그러나 더 큰 VideoMamba는 종종 실험에서 과적합되는 경향이 있어 그림 6a에 표시된 것처럼 차선의 성능을 초래하는 것으로 실험에서 관찰되었습니다. 이러한 과적합 문제는 본 논문에서 제안한 모델뿐만 아니라 전체 훈련 기간의 4분의 3에서 VMamba-B의 최고 성능이 달성되는 VMamba에서도 존재합니다. 더 큰 Mamba 모델의 과적합 문제를 해결하기 위해 이 문서에서는 더 작고 잘 훈련된 모델을 "교사"로 사용하여 더 큰 "학생" 모델의 훈련을 안내하는 효과적인 자가 증류 전략을 소개합니다. 그림 6a에 표시된 결과는 이 전략이 예상되는 더 나은 수렴으로 이어진다는 것을 보여줍니다.
본 논문에서는 그림 5와 같이 B-Mamba 블록의 연속 토큰 선호도를 대상으로 다양한 행 마스킹 기술을 제안합니다.
표 2는 ImageNet-1K 데이터 세트의 결과를 보여줍니다. 특히 VideoMamba-M은 ConvNeXt-B에 비해 +0.8%, DeiT-B에 비해 +2.0% 향상되는 등 다른 등방성 아키텍처보다 훨씬 더 적은 매개변수를 사용하여 성능이 훨씬 뛰어납니다. VideoMamba-M은 또한 향상된 성능을 위해 계층화된 기능을 사용하는 비등방성 백본 구조에서도 잘 작동합니다. 긴 시퀀스를 처리하는 Mamba의 효율성을 고려하여 이 논문에서는 해상도를 높여 성능을 더욱 향상시켜 74M 매개변수만 사용하여 84.0% top-1 정확도를 달성했습니다.
표 3과 표 4는 단기 비디오 데이터 세트에 대한 결과를 나열합니다. (a) 지도 학습: 순수 주의 방법과 비교하여 SSM 기반 VideoMamba-M은 장면 관련 K400 및 시간 관련 Sth-SthV2 데이터 세트에서 각각 +2.0% 및 +3.0%의 ViViT-L을 능가하는 확실한 이점을 얻었습니다. . 이러한 개선으로 인해 계산 요구 사항이 크게 줄어들고 사전 훈련 데이터도 줄어듭니다. VideoMamba-M의 결과는 비등방성 아키텍처에 컨볼루션과 주의를 교묘하게 통합한 SOTA UniFormer와 동등합니다. (b) 자기 지도 학습: 마스크 사전 훈련을 통해 VideoMamba는 미세한 운동 기술로 유명한 VideoMAE보다 성능이 뛰어납니다. 이 성과는 단기 비디오를 효율적이고 효과적으로 이해할 수 있는 순수 SSM 기반 모델의 잠재력을 강조하며 지도 학습 패러다임과 자기 지도 학습 패러다임 모두에 대한 적합성을 강조합니다.
그림 1에서 볼 수 있듯이 VideoMamba의 선형 복잡성은 긴 비디오를 포함하는 엔드투엔드 교육에 매우 적합합니다. 표 6과 7의 비교는 이러한 작업에서 전통적인 기능 기반 방법에 비해 VideoMamba의 단순성과 효율성을 강조합니다. 성능이 크게 향상되어 더 작은 모델 크기에서도 SOTA 결과를 얻을 수 있습니다. VideoMamba-Ti는 Swin-B 기능을 사용하는 ViS4mer에 비해 6.1%의 상당한 향상을 보여주며, Turbo의 다중 모드 정렬 방법에 비해 3.0%의 향상된 성능을 보여줍니다. 특히, 결과는 장기 작업에 대한 모델 및 프레임 속도 확장의 긍정적인 영향을 강조합니다. LVU가 제안한 9가지 다양하고 도전적인 작업에서 이 문서는 VideoMamba-Ti를 미세 조정하기 위한 엔드투엔드 접근 방식을 채택하고 현재 SOTA 방법과 비슷하거나 더 우수한 결과를 달성합니다. 이러한 결과는 VideoMamba의 효율성을 강조할 뿐만 아니라 향후 장편 비디오 이해에 대한 큰 잠재력을 보여줍니다.
표 8에서 볼 수 있듯이 동일한 사전 훈련 코퍼스와 유사한 훈련 전략 하에서 VideoMamba는 제로샷 비디오 검색 성능에서 ViT 기반 UMT보다 뛰어납니다. 이는 다중 모드 비디오 작업 처리에 있어서 ViT에 비해 Mamba가 비교할 수 있는 효율성과 확장성을 강조합니다. 특히, VideoMamba는 더 긴 비디오 길이(예: ANet 및 DiDeMo)와 더 복잡한 장면(예: LSMDC)이 포함된 데이터 세트에서 상당한 개선을 보여줍니다. 이는 교차 모드 정렬이 필요한 까다로운 다중 모드 환경에서도 Mamba의 능력을 보여줍니다.
자세한 연구 내용은 원문을 참고해주세요.
위 내용은 CNN, Transformer, Universaler에 더해, 마침내 더욱 효율적인 영상 이해 기술을 갖게 되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!