기사 주제 학습 다운로드 Q&A 프로그래밍 사전 게임 최근 업데이트

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

집> 기술 주변기기> 일체 포함> 본문

대규모 언어 모델이 확산 모델을 능가합니다! 비디오 이미지 생성 듀얼 SOTA, Google CMU의 최신 연구, 북경 대학교 동문

PHPz

풀어 주다： 2023-10-16 14:29:01

앞으로

720명이 탐색했습니다.

언어 모델은 확산 모델을 물리치고 비디오 및 이미지 생성에서 두 배의 SOTA를 달성합니다!

Google CMU의 최신 연구 결과입니다.

보고서에 따르면 언어 모델이 상징적인 ImageNet 벤치마크에서 확산 모델을 이긴 것은 이번이 처음입니다.

그 뒤에 있는 핵심 구성 요소는 픽셀 공간 입력을 LLM 학습에 적합한 토큰으로 매핑할 수 있는

visual tokenizer(비디오 토크나이저)입니다.

Google CMU 연구팀은 다른 두 가지 작업에서 이전 최고의 시각적 단어 분할기를 능가하는 MAGVIT-v2를 제안했습니다.

대형 언어 모델이 확산 모델을 이깁니다

대형 언어 모델이 다양한 생성 분야에서 탁월한 성능을 발휘한다는 데 동의했습니다. 텍스트, 오디오, 코드 생성 등

그러나 언어 모델은 시각적 생성 측면에서 항상 확산 모델보다 뒤쳐져 왔습니다.

팀은 시각적 세계를 효과적으로 모델링할 수 있는 자체 개발 언어 시스템과 유사하게 좋은 시각적 표현이 부족하기 때문에 주된 이유가 있다고 믿습니다. 자연어와 달리 인간은 시각적 세계에 적합한 최적의 어휘를 진화시키지 못했습니다. 이는 또한 대규모 언어 모델의 시각적 생성 기능을 제한합니다.

이 판단을 바탕으로 본 연구는 주로 세 가지 작업을 완료했습니다.

큰 어휘를 학습하여 언어 모델의 시각적 생성 품질을 향상시키는 새로운 조회 없는 수량화 방법
처음으로 증거에 따르면 동일한 훈련 데이터, 동일한 모델 크기 및 유사한 훈련 예산에서 언어 모델은 ImageNet의 확산 모델을 능가합니다.

저자에 따르면, 시각적 토크나이저가 표준 코덱에 필적하는 결과를 성공적으로 달성한 것은 이번이 처음이기도 합니다.

원래 SOTA 시각적 토크나이저

MAGVIT(Masked Generative Video Transformer)를 기반으로 이 방법은 주로 LFQ(Lookup-Free Quantization) 및 이미지-비디오 조인트 토크나이저의 두 가지 설계를 완성합니다.

대규모 언어 모델이 확산 모델을 능가합니다! 비디오 이미지 생성 듀얼 SOTA, Google CMU의 최신 연구, 북경 대학교 동문

마지막으로 비디오/이미지 생성에서는 ImageNet 512×512와 Kinetics-600이 모두 확산 모델보다 우수합니다.

대규모 언어 모델이 확산 모델을 능가합니다! 비디오 이미지 생성 듀얼 SOTA, Google CMU의 최신 연구, 북경 대학교 동문

영상 압축이나 동작 인식 측면에서도 이전 결과보다 좋아졌습니다.

대규모 언어 모델이 확산 모델을 능가합니다! 비디오 이미지 생성 듀얼 SOTA, Google CMU의 최신 연구, 북경 대학교 동문

한 분은 북경대학교 졸업생입니다

Yu Lijun은 현재 CMU 컴퓨터 과학부 언어 기술 연구소에서 박사 과정을 밟고 있으며 Alexander G. Hauptmann 교수 밑에서 공부하고 있으며 Google 학생 연구원이기도 합니다. . 연구 관심 분야는 다중 모드 기본 모델, 특히 다중 작업 비디오 생성에 있습니다.

CMU에 오기 전에 그는 북경대학교에서 컴퓨터 과학 및 경제학 학사 학위를 이중 취득했습니다.

대규모 언어 모델이 확산 모델을 능가합니다! 비디오 이미지 생성 듀얼 SOTA, Google CMU의 최신 연구, 북경 대학교 동문

저도 연구팀에서 다른 중국인 얼굴도 많이 봤어요.

교신저자 Jiang Lu는 현재 Google Research의 과학자이자 CMU의 겸임 교수입니다.

그의 연구는 주로 다중 모드 빅데이터 분야, 특히 강력한 딥 러닝, 생성 인공 지능 및 다중 모드 기본 모델에 중점을 두고 있습니다.

논문 링크:
https://arxiv.org/abs/2310.05737
https://magvit.cs.cmu.edu/v2/

위 내용은 대규모 언어 모델이 확산 모델을 능가합니다! 비디오 이미지 생성 듀얼 SOTA, Google CMU의 최신 연구, 북경 대학교 동문의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨：

人工智能数据

원천：51cto.com

이전 기사：디지털 휴먼이란 무엇이며 미래는 어떻게 될까요? 다음 기사：Vivo가 열립니다! 자체 개발한 AI 대형 모델과 OriginOS 4가 11월 1일 출시된다

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

저자별 최신 기사

Caroline Ellison은 FTX 붕괴 후 감옥에 가면 안된다고 변호사들이 말했습니다.

2024-09-11 15:15:13
암호화폐는 확실히 이번 선거에서 정치적 이슈가 되었습니다

2024-09-11 15:10:13
Complete redux toolkit (Part - 4)

2024-09-11 14:32:39
턴제 멀티플레이어 맥주 게임

2024-09-11 14:31:48
Go 복호화: 빈 구조체

2024-09-11 12:30:34
Go 복호화: 빈 구조체

2024-09-11 12:30:32
OKX Crypto Exchange는 논란의 여지가 있는 브랜드 변경 계획으로 인해 FRONT(현재 SLF)에 대한 코인 스왑을 지원하지 않기로 결정했습니다.

2024-09-11 12:15:15
Akash 네트워크: 분산형 클라우드 컴퓨팅 플랫폼

2024-09-11 12:07:15
부패 방지 계층이란 무엇입니까?

2024-09-11 10:30:32
Javascript의 POST 요청 이해

2024-09-11 10:30:09

최신 이슈

JavaScript: RegExp.escape 함수가 존재합니까? 가능한 문자열을 사용하여 정규식을 만들고 싶습니다. varusersString="Hello?!*`~World()[]";varexpression=...

에서 2023-11-16 17:41:27

0

2

232

Vue 개발 도구의 구성 요소 옆에 있는 성능 수치는 무엇입니까? Vue 개발 도구의 특정 기능에 대한 통찰력이나 리소스를 갖고 있는 사람이 있나요? 구성 요소 창에는 구성 요소가 표시되고 작은 빨간색과 노란색 사각형이 표시되며...

에서 2023-11-09 14:46:48

0

1

305

PHP가 설치되어 있고 MAMP를 사용하고 있지만 "zsh: 명령을 찾을 수 없음: php" 오류가 발생했습니다. Google 클라이언트 라이브러리를 설치하기 위해 Composer를 사용해 보았지만 Composer를 설치할 수 없거나 명령줄에서 PHP를 사용할 수 없습니다. ...

에서 2023-11-09 09:34:56

0

1

281

Google이 덜 안전한 애플리케이션을 중단했으므로 PHPMailer를 사용하여 GMail 계정에서 이메일을 보내는 방법은 무엇입니까? Google은 타사 앱에서 이메일을 보낼 수 있도록 '보안 수준이 낮은 앱' 기능을 제공합니다. Google이 이 설정을 비활성화했기 때문에 PHPMailer는 ...

에서 2023-11-08 10:40:35

0

1

258

VueJs를 사용하여 생성된 QR(vue-qrcode) 코드를 복사하거나 다운로드하는 대안 저는 사용자가 공개 프로필 링크에 대한 QR 코드를 생성하여 명함에서 공유할 수 있도록 "vue-qrcode" 플러그인을 사용하여 QR 코드를 ...

에서 2023-11-06 00:01:12

0

1

301

관련 주제

더>

인기 추천

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿

회사 소개 부인 성명 Sitemap: PHP 중국어 웹사이트：공공복지 온라인 PHP 교육，PHP 학습자의 빠른 성장을 도와주세요！