Microsoft 버전의 Sora가 탄생했습니다!
Sora는 인기가 있지만 비공개 소스이므로 학계에 상당한 어려움을 가져왔습니다. 학자들은 Sora를 재생산하거나 확장하기 위해 리버스 엔지니어링만을 시도할 수 있습니다.
Diffusion Transformer와 공간 패칭 전략이 제안되었지만, 컴퓨팅 파워와 데이터 세트의 부족은 말할 것도 없고 여전히 Sora의 성능을 구현하기는 어렵습니다.
그러나 소라를 재현하기 위해 연구원들이 발사한 새로운 전하의 물결이 다가오고 있습니다!
방금 Lehigh University는 Microsoft 팀과 협력하여 새로운 다중 AI 에이전트 프레임워크인 Mora를 개발했습니다.
논문 주소: https://arxiv.org/abs/2403.13248
네, 리하이대학교와 마이크로소프트의 아이디어는 AI 에이전트에 의존합니다.
모라는 소라의 제너럴리스트 비디오 세대에 가깝습니다. 여러 SOTA 시각적 AI 에이전트를 통합함으로써 Sora가 입증한 범용 비디오 생성 기능을 재현할 수 있습니다.
특히 Mora는 여러 시각적 에이전트를 활용하여 다음을 포함한 다양한 작업에서 Sora의 비디오 생성 기능을 성공적으로 시뮬레이션할 수 있습니다.
- 텍스트-비디오 생성
기반 텍스트 - 조건화된 이미지를 비디오 생성으로
- 생성된 비디오 확장
- 비디오를 비디오로 편집
- 비디오 연결
- 아날로그 디지털 세계
결과 쇼, 모라 이러한 작업에서 Sora에 가까운 성능을 달성했습니다.
텍스트-비디오 생성 작업 성능이 기존 오픈 소스 모델을 능가하고 전체 모델 중 Sora에 이어 2위라는 점은 언급할 가치가 있습니다.
그러나 전반적인 성능면에서는 여전히 소라와 뚜렷한 격차가 있습니다.
Mora는 텍스트 프롬프트를 기반으로 해상도 1024 × 576, 지속 시간 12초, 총 75프레임의 고해상도, 시간 일관성이 있는 비디오를 생성할 수 있습니다.
모라는 기본적으로 소라의 모든 능력을 복원했습니다. 어떻게 구현할까요?
텍스트를 비디오 생성으로
팁: 맑고 푸른 바다 아래 생명으로 가득 찬 생기 넘치는 산호초, 산호 사이에서 헤엄치는 형형색색의 물고기, 물을 통해 스며드는 햇빛, 그리고 바다 식물을 움직이는 잔잔한 물살.
팁: 눈으로 뒤덮인 장엄한 산맥, 봉우리가 구름에 닿아 있고 그 기슭에는 수정처럼 맑은 호수가 있어 산과 하늘을 반사하여 아름다운 풍경을 만들어냅니다. 숨이 멎을 만큼 아름다운 자연의 거울입니다.
팁: 광활한 사막 한가운데 지평선에 황금빛 사막 도시가 나타납니다. 그 건축물은 고대 이집트와 미래 지향적 요소가 혼합되어 있습니다. 도시는 빛나는 에너지로 둘러싸여 있습니다. 장벽, 공중에 있는 동안 세븐
텍스트 기반 조건부 이미지를 비디오로 생성
이 고전적인 "SORA라는 단어가 포함된 현실적인 클라우드 이미지"를 입력하세요.
팁: "SORA"라고 적힌 사실적인 구름 이미지.
Sora 모델이 생성하는 효과는 다음과 같습니다.
모라가 제작한 영상은 전혀 나쁘지 않습니다.
꼬마 괴물 사진도 입력해주세요.
팁: 다양한 괴물 계열의 평면 디자인 스타일의 괴물 일러스트레이션 그룹에는 털복숭이 갈색 괴물, 안테나가 있는 매끈한 검은색 괴물, 점박이 녹색 괴물, 작은 물방울 무늬 괴물이 포함되어 있습니다. 모두가 재미있는 환경에서 상호 작용합니다.
Sora는 이를 비디오 효과로 변환하여 이 작은 괴물들을 생생하게 만듭니다.
모라도 작은 괴물들을 움직이게 만드는데 확실히 조금 불안정하고 사진 속 만화 캐릭터도 일관성이 없어보이네요.
생성된 영상을 확대
영상 먼저 주세요
소라는 일관된 스타일로 안정적인 AI 영상을 생성할 수 있습니다.
그런데 모라가 제작한 영상에서는 앞선 사이클리스트가 자전거를 놓치고 사람이 변형되어 효과가 별로 좋지 않았습니다.
Video to Video Editor
는 "장면을 1920년대 빈티지 자동차로 바꿔보세요"라는 메시지를 표시하고 비디오를 입력합니다.
소라가 스타일을 바꾸고 나니 굉장히 부드러워 보이네요.
모라가 만든 구식 자동차는 노후화되어 다소 비현실적입니다.
비디오 연결
두 개의 비디오를 입력한 다음 연결을 완료하세요.
모라의 스플라이싱 영상
디지털 세계를 아날로그로
After 수많은 시위, 모두들 모라의 영상에 만족하고 생성하는 능력을 이해하셔야 합니다.
OpenAI Sora와 비교하면 Mora의 6가지 작업 성능은 매우 비슷하지만 큰 단점도 있습니다.
텍스트-비디오 생성
특히 Mora의 비디오 품질 점수인 0.792는 1위인 Sora의 0.797에 이어 2위이며 현재 최고의 오픈 소스 모델(예: VideoCrafter1)을 능가합니다.
객체 일관성 측면에서는 모라가 소라와 동일한 0.95점을 기록하며 영상 내내 뛰어난 일관성을 보여주었습니다.
아래 이미지에서 Mora 텍스트-비디오 생성의 시각적 충실도는 고해상도 이미지와 세부 사항에 대한 예리한 관심, 현장의 생생한 묘사를 반영하여 매우 인상적입니다.
텍스트 조건을 기반으로 한 이미지 생성 작업에서 Sora는 그림과 텍스트 지침을 일관된 비디오로 변환하는 능력에서 확실히 가장 완벽한 모델입니다.
그러나 모라의 결과는 소라와 많이 다릅니다.
확장 생성 영상
확장 생성 영상 테스트를 보면 지속성이나 퀄리티 면에서도 모라가 소라에 비교적 가까운 결과를 보여줍니다.
소라가 선두에 있지만 특히 시간 스타일을 따르고 기존 영상을 품질 저하 없이 확장하는 모라의 능력은 영상 확장 분야에서 그 효과를 입증합니다.
비디오 대 비디오 편집 + 비디오 스티칭
비디오 대 비디오 편집에 있어서 Mora는 시각적, 문체적 일관성을 유지하는 능력 면에서 Sora에 가깝습니다. 비디오 접합 작업에서 Mora는 서로 다른 비디오를 원활하게 접합할 수도 있습니다.
이 예에서는 소라와 모라 모두 자동차의 빨간색을 유지하면서 설정을 1920년대 스타일로 수정하라는 지시를 받았습니다.
디지털 세계 시뮬레이션
디지털 세계를 시뮬레이션하는 마지막 작업도 있으며, 모라도 소라와 같은 가상 환경 세계를 만드는 능력을 가질 수 있습니다. 하지만 품질면에서는 소라보다 떨어진다.
멀티 에이전트 프레임워크인 Mora는 현재 비디오 생성 모델의 한계를 어떻게 해결합니까?
동영상 생성 프로세스를 여러 하위 작업으로 분해하고 각 작업에 전담 에이전트를 할당하여 일련의 비디오 생성 작업을 유연하게 완료하여 사용자의 다양한 요구 사항을 충족하는 것이 핵심입니다.
추론 프로세스 중에 Mora는 중간 이미지 또는 비디오를 생성하여 텍스트-이미지 모델에서 볼 수 있는 시각적 다양성, 스타일 및 품질을 유지하고 편집 기능을 향상시킵니다.
텍스트에서 이미지로, 이미지에서 이미지로, 이미지에서 비디오로, 비디오에서 비디오로의 변환 작업을 처리하는 에이전트를 효율적으로 조정함으로써 Mora는 다양하고 복잡한 비디오 생성 작업을 처리할 수 있으며 뛰어난 편집 유연성을 제공합니다. 그리고 시각적 사실주의.
요약하자면 팀의 주요 기여는 다음과 같습니다.
- 혁신적인 다중 에이전트 프레임워크와 직관적인 인터페이스로 사용자가 다양한 구성 요소를 구성하고 작업 프로세스를 정렬할 수 있습니다.
- 저자는 여러 에이전트의 공동 작업(텍스트를 이미지로 변환, 이미지를 비디오로 변환 등)을 통해 비디오 생성 품질을 크게 향상시킬 수 있음을 발견했습니다. 이 과정은 텍스트에서 시작하여 이미지로 변환된 다음, 이미지와 텍스트가 함께 비디오로 변환되고, 마지막으로 비디오가 최적화되고 편집됩니다.
- Mora는 6가지 비디오 관련 작업에서 기존 오픈 소스 모델을 능가하는 뛰어난 성능을 보여줍니다. 이는 Mora의 효율성을 입증할 뿐만 아니라 다목적 프레임워크로서의 잠재력도 보여줍니다.
동영상 생성의 다양한 작업에서는 일반적으로 서로 다른 전문 지식을 가진 여러 에이전트가 함께 작업해야 하며 각 에이전트는 해당 전문 분야에서 출력을 제공합니다.
이를 위해 저자는 프롬프트 선택 및 생성, 텍스트-이미지 생성, 이미지-이미지 생성, 이미지-비디오 생성, 비디오-비디오 생성이라는 5가지 기본 유형의 에이전트를 정의합니다. .
- 프롬프트 선택 및 생성 에이전트:
초기 이미지 생성을 시작하기 전에 텍스트 프롬프트는 일련의 엄격한 처리 및 최적화 단계를 거칩니다. 이 에이전트는 대규모 언어 모델(예: GPT-4)을 활용하여 텍스트를 정확하게 분석하고 주요 정보와 작업을 추출하며 생성된 이미지의 관련성과 품질을 크게 향상시킬 수 있습니다.
- 텍스트-이미지 생성 에이전트:
이 에이전트는 서식 있는 텍스트 설명을 고품질 이미지로 변환하는 역할을 합니다. 핵심 기능은 복잡한 텍스트 입력을 깊이 이해하고 시각화하여 제공된 텍스트 설명을 기반으로 상세하고 정확한 시각적 이미지를 생성하는 것입니다.
- 이미지 대 이미지 생성 에이전트:
특정 텍스트 지침에 따라 기존 소스 이미지를 수정합니다. 텍스트 단서를 정확하게 해석하고 미묘한 수정부터 완전한 변형까지 그에 따라 소스 이미지를 조정합니다. 사전 훈련된 모델을 사용하면 텍스트 설명과 시각적 표현을 효과적으로 결합하여 새로운 요소를 통합하고 시각적 스타일을 조정하거나 이미지 구성을 변경할 수 있습니다.
- 이미지-비디오 생성 에이전트:
초기 이미지 생성 후 이 에이전트는 정적 이미지를 동적 비디오로 변환하는 역할을 담당합니다. 초기 이미지의 내용과 스타일을 분석하여 후속 프레임을 생성하여 비디오의 일관성과 시각적 일관성을 보장하고, 초기 이미지를 이해하고 복제하며 장면의 논리적 전개를 예측하고 구현하는 모델의 능력을 보여줍니다.
- 비디오 접합 에이전트:
이 에이전트는 키프레임을 선택적으로 사용하여 두 비디오 사이의 부드럽고 시각적으로 일관된 전환을 보장합니다. 두 비디오의 공통 요소와 스타일을 정확하게 식별하여 일관되고 시각적으로 매력적인 비디오를 제작합니다.
텍스트-이미지 생성
연구원들은 사전 훈련된 대규모 텍스트-이미지 모델을 사용하여 고품질의 대표적인 첫 번째 이미지를 생성합니다.
첫 번째 구현에서는 Stable Diffusion XL을 사용합니다.
텍스트-이미지 합성을 위한 잠재 확산 모델의 아키텍처와 방법에 상당한 발전을 도입하여 해당 분야의 새로운 벤치마크를 설정합니다.
아키텍처의 핵심은 이전 버전의 Stable Diffusion 2에서 사용된 백본보다 3배 더 큰 확장된 UNet 백본 네트워크입니다.
이 확장은 주로 어텐션 블록 수와 더 넓은 범위의 교차 어텐션 컨텍스트를 늘려 달성되며 이중 텍스트 인코더 시스템을 통합하여 촉진됩니다.
첫 번째 인코더는 OpenCLIP ViT-bigG를 기반으로 하고, 두 번째 인코더는 CLIP ViT-L을 활용하므로 이러한 인코더의 출력을 결합하여 텍스트 입력을 더욱 풍부하고 미묘한 해석이 가능합니다.
이 아키텍처 혁신은 외부 감독이 필요하지 않은 여러 가지 새로운 조절 방식을 도입하여 보완되어 모델의 유연성과 여러 종횡비에 걸쳐 이미지를 생성하는 능력을 향상시킵니다.
또한 SDXL은 생성된 이미지의 시각적 품질을 향상시키기 위해 사후 이미지 간 변환을 사용하는 개선 모델을 제공합니다.
이 개선 프로세스는 노이즈 제거 기술을 활용하여 생성 프로세스의 효율성이나 속도에 영향을 주지 않고 출력 이미지를 더욱 개선합니다.
이미지-이미지 생성
이 과정에서 연구원은 초기 프레임워크를 사용하여 InstructPix2Pix를 이미지-이미지 생성 에이전트로 구현했습니다.
InstructPix2Pix는 자연어 지침을 기반으로 효과적인 이미지 편집을 위해 세심하게 설계되었습니다.
시스템의 핵심은 사전 훈련된 두 가지 모델, 즉 텍스트 설명을 기반으로 편집 지침과 편집된 제목을 생성하는 GPT-3, 이러한 텍스트 기반 입력을 시각적 출력으로 변환하는 Stable Diffusion의 광범위한 지식을 통합합니다.
이 독창적인 접근 방식은 먼저 선별된 이미지 캡션 데이터세트와 해당 편집 지침에 대해 GPT-3를 미세 조정하여 합리적인 편집을 창의적으로 제안하고 수정된 캡션을 생성할 수 있는 모델을 만듭니다.
이후 Prompt-to-Prompt 기술로 강화된 Stable Diffusion 모델은 GPT-3에서 생성된 자막을 기반으로 이미지 쌍(편집 전후)을 생성합니다.
그런 다음 생성된 데이터 세트에서 InstructPix2Pix 코어의 조건부 확산 모델을 훈련합니다.
InstructPix2Pix는 텍스트 지침과 입력 이미지를 직접 활용하여 단일 정방향 패스로 편집을 수행합니다.
이러한 효율성은 이미지 및 지침 조건에 대한 분류 없는 지침을 사용하여 모델이 원시 이미지 충실도와 편집 지침 준수의 균형을 유지할 수 있도록 함으로써 더욱 향상됩니다.
이미지-비디오 생성
텍스트-비디오 생성 에이전트에서 비디오 생성 에이전트는 비디오 품질과 일관성을 보장하는 데 중요한 역할을 합니다.
연구원의 첫 번째 구현은 현재 SOTA 비디오 생성 모델 Stable Video Diffusion을 사용하여 비디오를 생성하는 것입니다.
SVD 아키텍처는 원래 이미지 합성용으로 개발된 LDM인 Stable Diffusion v2.1의 장점을 활용하여 비디오 콘텐츠에 내재된 시간 복잡성을 처리하는 기능을 확장하여 고해상도를 생성하는 방법을 도입합니다. 비디오 고급 방법.
SVD 모델의 핵심은 텍스트부터 이미지 상관 관계까지의 3단계 교육 시스템을 따르며 모델은 다양한 이미지 세트에서 강력한 시각적 표현을 학습합니다. 이 기반을 통해 모델은 복잡한 시각적 패턴과 질감을 이해하고 생성할 수 있습니다.
두 번째 단계인 비디오 사전 훈련에서는 모델이 대량의 비디오 데이터에 노출되어 시간 컨볼루션 및 어텐션 레이어를 공간적 대응 요소와 결합하여 시간 역학 및 모션 패턴을 학습할 수 있습니다.
훈련은 시스템 관리 데이터 세트에서 수행되므로 모델이 고품질의 관련 비디오 콘텐츠에서 학습할 수 있습니다.
마지막 단계는 고품질 비디오 미세 조정으로, 작지만 고품질의 데이터 세트를 사용하여 더 높은 해상도와 충실도를 갖춘 비디오를 생성하는 모델의 능력을 향상시키는 데 중점을 둡니다.
새로운 데이터 관리 프로세스로 보완된 이 계층형 교육 전략을 통해 SVD는 뛰어난 세부 묘사, 사실성 및 성능을 통해 최첨단 텍스트-비디오 및 이미지-비디오 합성을 훌륭하게 생성할 수 있습니다. 시간과 일관성.
비디오 접합
이 작업을 위해 연구원들은 SEINE을 사용하여 비디오를 연결했습니다.
SEINE은 사전 훈련된 T2V 모델 LaVie 에이전트를 기반으로 구축되었습니다.
SEINE은 텍스트 설명을 기반으로 전환을 생성하는 확률론적 마스크 비디오 확산 모델을 중심으로 합니다.
SEINE은 다양한 장면의 이미지를 텍스트 기반 컨트롤과 통합하여 일관성과 시각적 품질을 유지하는 전환 비디오를 생성할 수 있습니다.
또한 모델은 이미지-비디오 애니메이션 및 백색 회귀 비디오 예측과 같은 작업으로 확장될 수 있습니다.
- 혁신적인 프레임워크 및 유연성:
Mora는 이 분야의 가능성을 크게 확장하여 다양한 작업을 수행할 수 있게 해주는 혁신적인 다중 에이전트 비디오 생성 프레임워크를 도입합니다. .
텍스트를 비디오로 변환하는 과정을 단순화할 뿐만 아니라 디지털 세계를 시뮬레이션하여 전례 없는 유연성과 효율성을 보여줍니다.
- 오픈 소스 기여:
Mora의 오픈 소스 특성은 AI 커뮤니티에 중요한 기여를 하며, 추가 개발과 개선을 장려하는 탄탄한 기반을 제공함으로써 미래 연구의 기반을 마련합니다.
이것은 첨단 비디오 생성 기술을 더욱 대중화할 뿐만 아니라 이 분야의 협력과 혁신을 촉진할 것입니다.
- 비디오 데이터가 중요합니다.
사람 움직임의 미묘한 차이를 포착하려면 고해상도의 부드러운 비디오 시퀀스가 필요합니다. 이를 통해 균형, 자세 및 환경과의 상호 작용을 포함하여 역학의 모든 측면을 자세히 표시할 수 있습니다.
그러나 고품질 비디오 데이터 세트는 대부분 영화, TV 프로그램, 독점 게임 영상과 같은 전문 소스에서 나옵니다. 여기에는 합법적으로 쉽게 수집하거나 사용할 수 없는 저작권 보호 자료가 포함되어 있는 경우가 많습니다.
이러한 데이터 세트가 부족하면 Mora와 같은 비디오 생성 모델이 걷기나 자전거 타기와 같은 실제 환경에서 인간의 행동을 시뮬레이션하기가 어렵습니다.
- 질량과 길이의 차이:
Mora는 Sora와 유사한 작업을 완료할 수 있지만, 움직이는 물체가 많이 포함된 장면에서는 생성된 비디오의 품질이 당연히 높지 않으며, 비디오 길이가 길어질수록, 특히 12초를 초과하면 품질이 저하됩니다.
- 지시 따르기 능력:
Mora는 프롬프트에 의해 지정된 모든 개체를 비디오에 포함할 수 있지만 이동 속도와 같이 프롬프트에 설명된 모션 역학을 정확하게 해석하고 표시하는 것은 어렵습니다.
또한, 모라는 물체를 왼쪽이나 오른쪽으로 움직이는 등 물체의 이동 방향을 제어할 수 없습니다.
이러한 제한은 주로 Mora의 비디오 생성이 텍스트 프롬프트에서 직접 지침을 얻는 것이 아닌 이미지 대 비디오 방식을 기반으로 하기 때문입니다.
-사람의 선호도 정렬:
비디오 분야에서는 사람의 주석 정보가 부족하기 때문에 실험 결과가 사람의 시각적 선호도와 항상 일치하지 않을 수 있습니다.
예를 들어 위의 비디오 스플라이싱 작업 중 하나에서는 남자가 점차 여자로 변해가는 전환 비디오를 생성해야 하는데 이는 매우 비논리적으로 보입니다.
위 내용은 Sora는 오픈 소스가 아닙니다. Microsoft가 여러분을 위해 오픈 소스를 제공할 것입니다! 12초 만에 실감나고 폭발적인 효과를 구현하는 세계에서 가장 가까운 소라 영상모델 탄생의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!