역사상 최초의 실시간 AI 영상 생성 기술: DiT 범용, 10.6배 빨라짐-일체 포함-php.cn

역사상 최초의 실시간 AI 영상 생성 기술: DiT 범용, 10.6배 빨라짐

WBOY

풀어 주다： 2024-06-28 19:14:46

원래의

1274명이 탐색했습니다.

DiT를 사용하면 품질 손실이나 교육 없이 동영상을 생성할 수 있습니다.

실시간 AI 영상 생성이 왔습니다!

수요일, 싱가포르 국립대학교 You Yang 팀은 업계 최초로 실시간 출력이 가능한 DiT 기반 영상 생성 방식을 제안했습니다.

역사상 최초의 실시간 AI 영상 생성 기술: DiT 범용, 10.6배 빨라짐

이 기술을 PAB(Pyramid Attention Broadcast)라고 합니다. 중복 주의 계산을 줄임으로써 PAB는 Open-Sora, Open-Sora-Plan 및 Latte 품질을 포함한 인기 있는 DiT 기반 비디오 생성 모델의 이점을 희생하지 않고 최대 21.6FPS의 프레임 속도와 10.6배의 속도 향상을 달성합니다. 훈련이 필요하지 않은 방법인 PAB는 미래의 DiT 기반 비디오 생성 모델에 대한 가속을 제공하여 실시간 비디오를 생성할 수 있다는 점에 주목할 가치가 있습니다.

올해부터 OpenAI의 Sora 및 기타 DiT 기반 비디오 생성 모델은 AI 분야에 또 다른 물결을 일으켰습니다. 그러나 이미지 생성과 비교할 때 비디오 생성에 대한 사람들의 초점은 기본적으로 품질에 있으며 DiT 모델 추론을 가속화하는 방법을 탐구하는 데 초점을 맞춘 연구는 거의 없습니다. 비디오 생성 모델의 추론을 가속화하는 것은 이미 생성 AI 애플리케이션의 우선순위입니다.

PAB 방식의 출현으로 우리에게 길이 열렸습니다. 기존 방식과 PAB 영상 생성 속도 비교. 저자는 Open-Sora에서 5개의 4s(192 프레임) 480p 해상도 비디오를 테스트했습니다.

GitHub 링크: https://github.com/NUS-HPC-AI-Lab/OpenDiT?tab=readme-ov-file#pyramid-attention-broadcast-pab-blogdoc

^{피라미드 주목 방송}

최근에는 Sora를 비롯한 DiT 기반의 영상 생성 모델이 큰 주목을 받고 있습니다. 그러나 이미지 생성에 비해 DiT 기반 비디오 생성 모델의 추론을 가속화하는 데 초점을 맞춘 연구는 거의 없습니다. 또한 단일 비디오를 생성하는 데 드는 추론 비용이 높을 수 있습니다.散 그림 1: 현재 확산 단계와 이전 확산 단계 간의 차이 및 미분 오차(MSE)가 정량화됩니다.

구현

이 연구는 비디오 확산 변환기의 주의 메커니즘에 대한 두 가지 주요 관찰을 보여줍니다.

역사상 최초의 실시간 AI 영상 생성 기술: DiT 범용, 10.6배 빨라짐 첫째, 서로 다른 시간 단계에서의 주의 차이는 초기 및 마지막 15에서 U자형 패턴을 나타냅니다. 단계의 %는 크게 변경되지만 중간 70%의 단계는 작은 차이로 매우 안정적입니다.

두 번째로 안정적인 중간 세그먼트 내에서는 주의 유형 간에 차이가 있습니다. 공간 주의는 가장자리 및 질감과 같은 고주파 요소와 관련하여 가장 많이 변경됩니다. 시간 주의는 비디오의 동작 및 역학과 관련된 중간 주파수 변화를 보여줍니다. 교차 모드 주의는 텍스트 의미론을 반영하는 저주파 신호와 유사하게 텍스트와 비디오 콘텐츠를 연결하는 가장 안정적입니다. ^{이를 바탕으로 연구팀은 불필요한 주의 계산을 줄이기 위해 피라미드 주의 방송을 제안했습니다. 중간 부분에서는 Attention이 작은 차이를 보이며, 본 연구에서는 한 확산 단계의 Attention 출력을 여러 후속 단계로 전파하여 계산 비용을 크게 줄입니다.}또한, 보다 효율적인 계산과 최소한의 품질 손실을 위해 저자는 다양한 관심의 안정성과 차이에 따라 방송 범위를 다르게 설정합니다. 사후 훈련 없이도 이 간단하면서도 효과적인 전략은 생성된 콘텐츠의 품질 손실을 무시하면서 최대 35%의 속도 향상을 달성합니다.

그림 2: 이 연구는 주의 차이에 따라 세 가지 주의에 대해 서로 다른 방송 범위가 설정되는 피라미드 주의 방송을 제안합니다. 주의 변화가 작을수록 방송 범위가 넓어집니다. 런타임 시 이 메서드는 중복된 Attention 계산을 피하기 위해 Attention 결과를 다음 몇 단계로 브로드캐스트합니다. x_t는 시간 단계 t의 특징을 나타냅니다.

Parallel

아래 그림 3은 이 기사의 방법과 원래 DSP(Dynamic Sequence Paralle)의 비교를 보여줍니다. 일시적인 관심이 분산되면 모든 의사소통을 피할 수 있습니다.

역사상 최초의 실시간 AI 영상 생성 기술: DiT 범용, 10.6배 빨라짐

비디오 생성 속도를 더욱 향상시키기 위해 이 기사에서는 DSP를 사용하여 시퀀스 병렬성을 향상시킵니다. Sequence Parallel은 비디오를 여러 GPU에 걸쳐 여러 부분으로 분할하여 각 GPU의 작업 부하를 줄이고 빌드 지연 시간을 낮춥니다. 그러나 DSP는 통신 오버헤드가 많이 발생하므로 두 개의 All-to-All 통신을 준비하는 데 시간과 주의가 필요합니다.

PAB에서 시간적 관심을 전파함으로써 이 기사에서는 더 이상 시간적 관심을 계산할 필요가 없으므로 의사소통이 줄어듭니다. 이에 따라 통신 오버헤드가 50% 이상 크게 줄어들어 실시간 비디오 생성을 위한 보다 효율적인 분산 추론이 가능해졌습니다.

평가 결과

Acceleration

다음 그림은 8개의 NVIDIA H100 GPU에서 단일 비디오를 생성할 때 다양한 모델에서 측정한 총 PAB 지연 시간을 보여줍니다. 단일 GPU를 사용할 때 작성자는 1.26~1.32배의 속도 향상을 달성했으며 다양한 스케줄러에서도 안정성을 유지했습니다.

여러 GPU로 확장했을 때 이 방법은 10.6배의 가속을 달성했으며 효율적인 순차 병렬 처리 개선의 이점을 활용하여 GPU 수에 따라 거의 선형 확장을 달성했습니다.

역사상 최초의 실시간 AI 영상 생성 기술: DiT 범용, 10.6배 빨라짐