목차
방법 소개
Experiments
기술 주변기기 일체 포함 CNN, Transformer, Universaler에 더해, 마침내 더욱 효율적인 영상 이해 기술을 갖게 되었습니다.

CNN, Transformer, Universaler에 더해, 마침내 더욱 효율적인 영상 이해 기술을 갖게 되었습니다.

Mar 25, 2024 am 09:16 AM
동영상 ai 준비

비디오 이해의 핵심 목표는 시공간 표현을 정확하게 이해하는 것이지만 두 가지 주요 과제에 직면해 있습니다. 짧은 비디오 클립에는 많은 시공간 중복성과 복잡한 시공간 종속성이 있습니다. 3차원 컨벌루션 신경망(CNN)과 비디오 변환기는 이러한 문제 중 하나를 해결하는 데 탁월한 성능을 발휘했지만 두 가지 문제를 동시에 해결하는 데에는 몇 가지 단점이 있습니다. UniFormer는 두 접근 방식의 장점을 결합하려고 시도하지만 긴 동영상을 모델링하는 데 어려움을 겪습니다.

자연어 처리 분야에서 S4, RWKV, RetNet과 같은 저가형 솔루션의 등장으로 시각적 모델의 새로운 길이 열렸습니다. Mamba는 장기적인 동적 모델링을 촉진하는 동시에 선형 복잡성을 유지하는 균형을 달성하는 SSM(선택적 상태 공간 모델)으로 두각을 나타냅니다. 이 혁신은 다방향 SSM을 활용하여 2D 이미지 처리를 향상시키는 Vision Mamba 및 VMamba에서 입증된 것처럼 비전 작업에 적용을 촉진합니다. 이러한 모델은 주의 기반 아키텍처와 성능 면에서 비슷하면서도 메모리 사용량을 크게 줄입니다.

비디오에서 생성된 시퀀스 자체가 길다는 점을 고려하면 자연스러운 질문은 다음과 같습니다. Mamba가 비디오 이해에 잘 작동합니까?

Mamba에서 영감을 받아 이 글에서는 영상 이해를 위해 특별히 맞춤화된 SSM(Selective State Space Model)인 VideoMamba를 소개합니다. VideoMamba는 Vanilla ViT의 디자인 철학을 바탕으로 컨볼루션과 어텐션 메커니즘을 결합합니다. 이는 동적 시공간 배경 모델링을 위한 선형 복잡도 방법을 제공하며 특히 고해상도 장편 비디오 처리에 적합합니다. 평가는 주로 VideoMamba의 네 가지 주요 기능에 중점을 둡니다:

시각적 영역의 확장성: 이 기사에서는 VideoMamba의 확장성을 조사하고 순수 Mamba 모델이 계속 확장되면서 통과하기 쉬운 경향이 있음을 발견했습니다. 피팅을 통해 이 문서에서는 VideoMamba가 대규모 데이터 세트 사전 교육 없이도 모델 및 입력 크기가 증가함에 따라 상당한 성능 향상을 달성할 수 있게 해주는 간단하면서도 효과적인 자체 증류 전략을 소개합니다.

단기 동작 인식에 대한 민감도: 이 백서의 분석은 단기 동작, 특히 열기 및 닫기와 같은 미묘한 동작 차이가 있는 동작을 정확하게 구별하는 VideoMamba의 능력을 평가하는 데까지 확장됩니다. 연구 결과에 따르면 VideoMamba는 기존 주의 기반 모델에 비해 탁월한 성능을 보이는 것으로 나타났습니다. 더 중요한 것은 마스크 모델링에도 적합하여 시간 감도를 더욱 향상시킨다는 것입니다.

긴 비디오 이해의 우수성: 이 문서에서는 긴 비디오를 해석하는 VideoMamba의 능력을 평가합니다. 엔드투엔드 교육을 통해 기존 기능 기반 방법에 비해 상당한 이점을 보여줍니다. 특히 VideoMamba는 64프레임 비디오에서 TimeSformer보다 6배 더 빠르게 실행되며 40배 더 적은 GPU 메모리를 필요로 합니다(그림 1 참조).

CNN, Transformer, Universaler에 더해, 마침내 더욱 효율적인 영상 이해 기술을 갖게 되었습니다.

다른 형식과의 호환성: 마지막으로 이 기사에서는 VideoMamba와 다른 형식의 적응성을 평가합니다. 비디오 텍스트 검색 결과는 특히 복잡한 시나리오가 포함된 긴 비디오에서 ViT에 비해 향상된 성능을 보여줍니다. 이는 견고성과 다중 모드 통합 기능을 강조합니다.

이 연구의 심층 실험은 단기(K400 및 SthSthV2) 및 장기(Breakfast, COIN 및 LVU) 비디오 콘텐츠 이해를 위한 VideoMamba의 엄청난 잠재력을 보여줍니다. VideoMamba는 높은 효율성과 정확성을 보여주며, 이는 장편 영상 이해 분야의 핵심 구성 요소가 될 것임을 나타냅니다. 향후 연구를 용이하게 하기 위해 모든 코드와 모델이 오픈 소스로 만들어졌습니다.

CNN, Transformer, Universaler에 더해, 마침내 더욱 효율적인 영상 이해 기술을 갖게 되었습니다.


  • 논문 주소: https://arxiv.org/pdf/2403.06977.pdf
  • 프로젝트 주소: https://github.com/OpenGVLab/VideoMamba
  • 종이 제목: VideoMamba: 효율적인 비디오 이해를 위한 상태 공간 모델

방법 소개

아래 그림 2a는 Mamba 모듈의 세부 사항을 보여줍니다.

CNN, Transformer, Universaler에 더해, 마침내 더욱 효율적인 영상 이해 기술을 갖게 되었습니다.


그림 3은 VideoMamba의 전체 프레임워크를 보여줍니다. 이 논문에서는 먼저 3D 컨볼루션(즉, 1×16×16)을 사용하여 입력 비디오 Xv ∈ R 3×T ×H×W를 L개의 중첩되지 않는 시공간 패치 Xp ∈ R L×C에 투영합니다. 여기서 L=t×h ×w(t=T, h= H 16, w= W 16). 다음 VideoMamba 인코더에 입력되는 토큰 시퀀스는 CNN, Transformer, Universaler에 더해, 마침내 더욱 효율적인 영상 이해 기술을 갖게 되었습니다.

CNN, Transformer, Universaler에 더해, 마침내 더욱 효율적인 영상 이해 기술을 갖게 되었습니다.

입니다. 시공간 스캔: B-Mamba 레이어를 시공간 입력에 적용하기 위해 원본 2D 스캔은 그림 4의 다른 양방향 3D 스캔으로 확장됩니다. 이 기사:

(a) 공간을 먼저 배치하고 공간 토큰을 위치별로 구성한 다음 프레임별로 쌓습니다.

(b) 시간을 먼저 지정하고 프레임에 따라 시간 토큰을 정렬한 다음 공간 차원을 따라 쌓습니다.

( c) 공간 우선순위와 시간 우선순위를 모두 갖춘 시공간 하이브리드. 여기서 v1은 절반을 실행하고 v2는 모두 실행합니다(계산량의 2배).

그림 7a의 실험은 공간 우선 양방향 스캐닝이 가장 효율적이면서도 간단한 것을 보여줍니다. Mamba의 선형적 복잡성으로 인해 이 문서의 VideoMamba는 고해상도의 긴 비디오를 효율적으로 처리할 수 있습니다.

CNN, Transformer, Universaler에 더해, 마침내 더욱 효율적인 영상 이해 기술을 갖게 되었습니다.

B-Mamba 계층의 SSM에 대해 이 문서에서는 Mamba와 동일한 기본 하이퍼 매개변수 설정을 사용하여 상태 차원과 확장 비율을 각각 16과 2로 설정합니다. ViT의 접근 방식에 따라 이 문서에서는 깊이와 임베딩 크기를 조정하여 VideoMamba-Ti, VideoMamba-S 및 VideoMamba-M을 포함하여 표 1의 모델과 비슷한 크기의 모델을 만듭니다. 그러나 더 큰 VideoMamba는 종종 실험에서 과적합되는 경향이 있어 그림 6a에 표시된 것처럼 차선의 성능을 초래하는 것으로 실험에서 관찰되었습니다. 이러한 과적합 문제는 본 논문에서 제안한 모델뿐만 아니라 전체 훈련 기간의 4분의 3에서 VMamba-B의 최고 성능이 달성되는 VMamba에서도 존재합니다. 더 큰 Mamba 모델의 과적합 문제를 해결하기 위해 이 문서에서는 더 작고 잘 훈련된 모델을 "교사"로 사용하여 더 큰 "학생" 모델의 훈련을 안내하는 효과적인 자가 증류 전략을 소개합니다. 그림 6a에 표시된 결과는 이 전략이 예상되는 더 나은 수렴으로 이어진다는 것을 보여줍니다.

CNN, Transformer, Universaler에 더해, 마침내 더욱 효율적인 영상 이해 기술을 갖게 되었습니다.

CNN, Transformer, Universaler에 더해, 마침내 더욱 효율적인 영상 이해 기술을 갖게 되었습니다.

본 논문에서는 그림 5와 같이 B-Mamba 블록의 연속 토큰 선호도를 대상으로 다양한 행 마스킹 기술을 제안합니다.

CNN, Transformer, Universaler에 더해, 마침내 더욱 효율적인 영상 이해 기술을 갖게 되었습니다.

Experiments

표 2는 ImageNet-1K 데이터 세트의 결과를 보여줍니다. 특히 VideoMamba-M은 ConvNeXt-B에 비해 +0.8%, DeiT-B에 비해 +2.0% 향상되는 등 다른 등방성 아키텍처보다 훨씬 더 적은 매개변수를 사용하여 성능이 훨씬 뛰어납니다. VideoMamba-M은 또한 향상된 성능을 위해 계층화된 기능을 사용하는 비등방성 백본 구조에서도 잘 작동합니다. 긴 시퀀스를 처리하는 Mamba의 효율성을 고려하여 이 논문에서는 해상도를 높여 성능을 더욱 향상시켜 74M 매개변수만 사용하여 84.0% top-1 정확도를 달성했습니다.

CNN, Transformer, Universaler에 더해, 마침내 더욱 효율적인 영상 이해 기술을 갖게 되었습니다.

표 3과 표 4는 단기 비디오 데이터 세트에 대한 결과를 나열합니다. (a) 지도 학습: 순수 주의 방법과 비교하여 SSM 기반 VideoMamba-M은 장면 관련 K400 및 시간 관련 Sth-SthV2 데이터 세트에서 각각 +2.0% 및 +3.0%의 ViViT-L을 능가하는 확실한 이점을 얻었습니다. . 이러한 개선으로 인해 계산 요구 사항이 크게 줄어들고 사전 훈련 데이터도 줄어듭니다. VideoMamba-M의 결과는 비등방성 아키텍처에 컨볼루션과 주의를 교묘하게 통합한 SOTA UniFormer와 동등합니다. (b) 자기 지도 학습: 마스크 사전 훈련을 통해 VideoMamba는 미세한 운동 기술로 유명한 VideoMAE보다 성능이 뛰어납니다. 이 성과는 단기 비디오를 효율적이고 효과적으로 이해할 수 있는 순수 SSM 기반 모델의 잠재력을 강조하며 지도 학습 패러다임과 자기 지도 학습 패러다임 모두에 대한 적합성을 강조합니다.

CNN, Transformer, Universaler에 더해, 마침내 더욱 효율적인 영상 이해 기술을 갖게 되었습니다.

CNN, Transformer, Universaler에 더해, 마침내 더욱 효율적인 영상 이해 기술을 갖게 되었습니다.

그림 1에서 볼 수 있듯이 VideoMamba의 선형 복잡성은 긴 비디오를 포함하는 엔드투엔드 교육에 매우 적합합니다. 표 6과 7의 비교는 이러한 작업에서 전통적인 기능 기반 방법에 비해 VideoMamba의 단순성과 효율성을 강조합니다. 성능이 크게 향상되어 더 작은 모델 크기에서도 SOTA 결과를 얻을 수 있습니다. VideoMamba-Ti는 Swin-B 기능을 사용하는 ViS4mer에 비해 6.1%의 상당한 향상을 보여주며, Turbo의 다중 모드 정렬 방법에 비해 3.0%의 향상된 성능을 보여줍니다. 특히, 결과는 장기 작업에 대한 모델 및 프레임 속도 확장의 긍정적인 영향을 강조합니다. LVU가 제안한 9가지 다양하고 도전적인 작업에서 이 문서는 VideoMamba-Ti를 미세 조정하기 위한 엔드투엔드 접근 방식을 채택하고 현재 SOTA 방법과 비슷하거나 더 우수한 결과를 달성합니다. 이러한 결과는 VideoMamba의 효율성을 강조할 뿐만 아니라 향후 장편 비디오 이해에 대한 큰 잠재력을 보여줍니다.

CNN, Transformer, Universaler에 더해, 마침내 더욱 효율적인 영상 이해 기술을 갖게 되었습니다.

CNN, Transformer, Universaler에 더해, 마침내 더욱 효율적인 영상 이해 기술을 갖게 되었습니다.

표 8에서 볼 수 있듯이 동일한 사전 훈련 코퍼스와 유사한 훈련 전략 하에서 VideoMamba는 제로샷 비디오 검색 성능에서 ViT 기반 UMT보다 뛰어납니다. 이는 다중 모드 비디오 작업 처리에 있어서 ViT에 비해 Mamba가 비교할 수 있는 효율성과 확장성을 강조합니다. 특히, VideoMamba는 더 긴 비디오 길이(예: ANet 및 DiDeMo)와 더 복잡한 장면(예: LSMDC)이 포함된 데이터 세트에서 상당한 개선을 보여줍니다. 이는 교차 모드 정렬이 필요한 까다로운 다중 모드 환경에서도 Mamba의 능력을 보여줍니다.

CNN, Transformer, Universaler에 더해, 마침내 더욱 효율적인 영상 이해 기술을 갖게 되었습니다.

자세한 연구 내용은 원문을 참고해주세요.

위 내용은 CNN, Transformer, Universaler에 더해, 마침내 더욱 효율적인 영상 이해 기술을 갖게 되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

C 언어로 Char Array를 사용하는 방법 C 언어로 Char Array를 사용하는 방법 Apr 03, 2025 pm 03:24 PM

char 어레이는 문자 시퀀스를 C 언어로 저장하고 char array_name [size]로 선언됩니다. 액세스 요소는 첨자 연산자를 통해 전달되며 요소는 문자열의 끝점을 나타내는 널 터미네이터 '\ 0'으로 끝납니다. C 언어는 strlen (), strcpy (), strcat () 및 strcmp ()와 같은 다양한 문자열 조작 함수를 제공합니다.

C 스위치 문에서 기본적으로 발생하는 오류를 피하십시오 C 스위치 문에서 기본적으로 발생하는 오류를 피하십시오 Apr 03, 2025 pm 03:45 PM

C 스위치 문에서 기본적으로 발생하는 오류를 피하기위한 전략 : 상수 대신 열거를 사용하여 사례 문의 값을 열거의 유효한 멤버로 제한합니다. 마지막 사례 명령문에서 러프를 사용하여 프로그램이 다음 코드를 계속 실행할 수 있도록하십시오. 스위치가없는 스위치 문의 경우 항상 오류 처리에 대한 기본 문을 추가하거나 기본 동작을 제공하십시오.

스위치 케이스 명령문 (C 언어)에서 기본값의 중요성 스위치 케이스 명령문 (C 언어)에서 기본값의 중요성 Apr 03, 2025 pm 03:57 PM

기본 문은 변수 값이 CASE 문과 일치하지 않을 때 코드 블록이 실행되도록하는 기본 처리 경로를 제공하기 때문에 Switch Case 문에 중요합니다. 이것은 예기치 않은 동작이나 오류를 방지하고 코드의 견고성을 향상시킵니다.

C 언어 기능의 반환 값 유형은 무엇입니까? C 언어 기능의 반환 값 유형 요약? C 언어 기능의 반환 값 유형은 무엇입니까? C 언어 기능의 반환 값 유형 요약? Apr 03, 2025 pm 11:18 PM

C 언어 기능의 반환 값 유형에는 int, float, double, char, void 및 포인터 유형이 포함됩니다. INT는 정수를 반환하는 데 사용되며 플로트 및 더블은 플로트를 반환하는 데 사용되며 Char는 문자를 반환합니다. 무효는 함수가 값을 반환하지 않음을 의미합니다. 포인터 유형은 메모리 주소를 반환하고 메모리 누출을 피하기 위해주의하십시오. 구조 또는 컨소시엄은 여러 관련 데이터를 반환 할 수 있습니다.

이해하는 방법! x는? 이해하는 방법! x는? Apr 03, 2025 pm 02:33 PM

! x 이해! x는 C 언어로 된 논리적 비 운영자입니다. 그것은 x의 값, 즉 실제 변경, 거짓, 잘못된 변경 사항을 부수합니다. 그러나 C의 진실과 거짓은 부울 유형보다는 숫자 값으로 표시되며, 0이 아닌 것은 참으로 간주되며 0만이 거짓으로 간주됩니다. 따라서! x는 음수를 양수와 동일하게 처리하며 사실로 간주됩니다.

C 언어로 된 숯의 값 범위는 얼마입니까? C 언어로 된 숯의 값 범위는 얼마입니까? Apr 03, 2025 pm 03:39 PM

C 언어의 char의 값 범위는 구현 방법에 따라 다릅니다. 서명 된 char : -128 ~ 127 부호없는 char : 0 ~ 255 특정 범위는 컴퓨터 아키텍처 및 컴파일러 옵션의 영향을받습니다. 기본적으로 Char는 서명 된 유형으로 설정됩니다.

C 언어 기능의 개념 C 언어 기능의 개념 Apr 03, 2025 pm 10:09 PM

C 언어 기능은 재사용 가능한 코드 블록입니다. 입력, 작업을 수행하며 결과를 반환하여 모듈 식 재사성을 향상시키고 복잡성을 줄입니다. 기능의 내부 메커니즘에는 매개 변수 전달, 함수 실행 및 리턴 값이 포함됩니다. 전체 프로세스에는 기능이 인라인과 같은 최적화가 포함됩니다. 좋은 기능은 단일 책임, 소수의 매개 변수, 이름 지정 사양 및 오류 처리 원칙에 따라 작성됩니다. 함수와 결합 된 포인터는 외부 변수 값 수정과 같은보다 강력한 기능을 달성 할 수 있습니다. 함수 포인터는 함수를 매개 변수 또는 저장 주소로 전달하며 함수에 대한 동적 호출을 구현하는 데 사용됩니다. 기능 기능과 기술을 이해하는 것은 효율적이고 유지 가능하며 이해하기 쉬운 C 프로그램을 작성하는 데 핵심입니다.

C 언어에서! x의 일반적인 응용 시나리오는 무엇입니까? C 언어에서! x의 일반적인 응용 시나리오는 무엇입니까? Apr 03, 2025 pm 02:42 PM

C 언어의! X의 목적은 역으로 제한되지 않습니다. 논리적 판단 : 0이든 x == 0보다 간결합니다. 제어 프로그램 흐름 또는 상태를 나타냅니다. 0과 0을 사용하여 true 또는 false를 나타냅니다. 비트 작동 : 모든 비트를 빠르게 뒤집습니다 (주의해서 사용).

See all articles