Stable Diffusion 3 논문이 드디어 공개되고, 아키텍처의 세부 사항이 공개되어 Sora를 재현하는 데 도움이 될까요?
Stable Diffusion 3 논문이 드디어 나왔습니다!
이 모델은 2주 전에 출시되었으며 Sora와 동일한 DiT(확산 변압기) 아키텍처를 사용하여 출시되자마자 상당한 화제를 불러일으켰습니다.
이전 버전과 비교하여 Stable Diffusion 3에서 생성된 이미지 품질이 크게 향상되었습니다. 이제 다중 테마 프롬프트를 지원하고 텍스트 쓰기 효과도 개선되어 더 이상 문자가 깨지지 않습니다.
Stability AI는 Stable Diffusion 3이 매개변수 크기가 800M에서 8B까지인 일련의 모델이라고 지적했습니다. 이 매개변수 범위는 모델이 많은 휴대용 장치에서 직접 실행될 수 있음을 의미하며 대규모 AI 모델을 사용하기 위한 임계값을 크게 낮춥니다.
새로 발표된 논문에서 Stability AI는 인간의 선호도 기반 평가에서 Stable Diffusion 3가 DALL・E 3, Midjourney v6, 및 표의 문자 v1. 곧 연구의 실험 데이터, 코드 및 모델 가중치를 공개적으로 제공할 예정입니다.
Stability AI는 논문에서 Stable Diffusion 3에 대해 더 자세히 공개했습니다.
- 논문 제목: 고해상도 이미지 합성을 위한 정류 변압기 스케일링
- 논문 링크: https://stabilityai-public-packages.s3.us-west-2.amazonaws .com/Stable+Diffusion+3+Paper.pdf
아키텍처 세부정보
텍스트-이미지 생성의 경우 Stable Diffusion 3 모델은 텍스트 모드와 이미지 모드를 모두 고려해야 합니다. 따라서 이 논문의 저자는 이 새로운 아키텍처를 MMDiT라고 부르며, 이는 여러 양식을 처리할 수 있는 능력을 나타냅니다. Stable Diffusion의 이전 버전과 마찬가지로 저자는 사전 훈련된 모델을 사용하여 적합한 텍스트 및 이미지 표현을 도출합니다. 특히 그들은 세 가지 다른 텍스트 임베딩 모델(두 개의 CLIP 모델과 T5)을 사용하여 텍스트 표현을 인코딩하고 향상된 자동 인코딩 모델을 사용하여 이미지 토큰을 인코딩했습니다.
Stable Diffusion 3 모델 아키텍처.
향상된 다중 모드 확산 변압기: MMDiT 블록.
SD3 아키텍처는 Sora 핵심 R&D 멤버인 William Peebles와 뉴욕 대학교 컴퓨터 과학 조교수인 Xie Saining이 제안한 DiT를 기반으로 합니다. 텍스트 임베딩과 이미지 임베딩은 개념적으로 매우 다르기 때문에 SD3 작성자는 두 가지 양식에 대해 서로 다른 두 가지 가중치 세트를 사용합니다. 위 그림에서 보듯이 이는 각 양식별로 2개의 독립적인 변환기를 설정하는 것과 동일하지만 주의 연산을 위해 두 양식의 시퀀스를 결합하여 두 표현이 각자의 공간에서 작동할 수 있도록 하고, 또 다른 표현도 고려한다. .
저자가 제안한 MMDiT 아키텍처는 훈련 중 시각적 충실도와 텍스트 정렬을 측정할 때 UViT 및 DiT와 같은 기존의 텍스트-이미지 백본보다 성능이 뛰어납니다.
이 접근 방식을 사용하면 이미지와 텍스트 토큰 간에 정보가 흐를 수 있으므로 모델에 대한 전반적인 이해가 향상되고 생성된 출력의 텍스트 형식이 향상됩니다. 백서에서 설명한 것처럼 이 아키텍처는 비디오와 같은 다양한 형식으로 쉽게 확장할 수도 있습니다.
Stable Diffusion 3의 향상된 프롬프트 추적 기능 덕분에 새 모델은 다양한 주제와 품질에 초점을 맞춘 이미지를 생성하는 동시에 이미지 자체의 스타일도 매우 유연하게 만들 수 있습니다.
재가중화를 통해 개선된 Rectified Flow
Stable Diffusion 3은 훈련 과정에서 Rectified Flow(RF) 공식을 채택하여 데이터와 노이즈가 선형 궤적으로 연결됩니다. 이렇게 하면 추론 경로가 더 직선화되어 샘플링 단계가 줄어듭니다. 또한 저자는 훈련 과정에서 새로운 궤적 샘플링 방식을 도입했습니다. 그들은 궤적의 중간 부분이 더 어려운 예측 작업을 제기할 것이라고 가정했기 때문에 이 계획은 궤적의 중간 부분에 더 많은 가중치를 부여했습니다. 그들은 여러 데이터 세트, 메트릭 및 샘플러 설정을 사용하여 비교하고 LDM, EDM 및 ADM과 같은 60개의 다른 확산 궤적에 대해 제안된 방법을 테스트했습니다. 결과는 이전 RF 공식의 성능이 몇 가지 샘플링 단계로 향상되는 반면 단계 수가 증가함에 따라 상대적 성능이 감소한다는 것을 보여줍니다. 대조적으로, 저자가 제안한 재가중 RF 변형은 지속적으로 성능을 향상시킵니다.
Rectified Flow Transformer 모델 확장
저자는 재가중화된 Rectified Flow 공식과 MMDiT 백본을 사용하여 텍스트-이미지 합성에 대한 확장 연구를 수행했습니다. 그들은 450M 매개변수가 있는 15개 블록부터 8B 매개변수가 있는 38개 블록에 이르는 모델을 훈련했으며 모델 크기와 훈련 단계가 증가함에 따라 검증 손실이 원활하게 감소하는 것을 관찰했습니다(확인 위 그림의 첫 번째 부분). 이것이 모델 출력의 의미 있는 개선으로 해석되었는지 여부를 조사하기 위해 저자는 자동 이미지 정렬 측정항목(GenEval)과 인간 선호도 점수(ELO)(위 두 번째 행)도 평가했습니다. 결과는 이러한 측정항목과 검증 손실 사이에 강한 상관관계가 있음을 보여 주며, 이는 후자가 모델의 전체 성능을 잘 예측할 수 있음을 시사합니다. 더욱이, 확장 추세는 포화의 징후를 보이지 않으므로 저자는 앞으로도 모델 성능을 지속적으로 개선할 것이라고 낙관합니다.
유연한 텍스트 인코더
추론에 사용되는 메모리 집약적인 4.7B 매개변수 T5 텍스트 인코더를 제거함으로써 성능 손실을 최소화하면서 SD3의 메모리 요구 사항을 크게 줄일 수 있습니다. 표시된 대로 이 텍스트 인코더를 제거하면 시각적 미학(T5 없이 50% 승률)에 영향을 미치지 않으며 텍스트 일관성(46% 승률)만 약간 감소합니다. 그러나 저자는 T5를 추가하지 않으면 아래 그림과 같이 조판 생성 성능이 훨씬 더 떨어지는 것을 관찰했기 때문에(승률 38%) SD3의 성능을 최대한 활용하기 위해 서면 텍스트를 생성할 때 T5를 추가할 것을 권장합니다.
많은 세부 사항이나 많은 양의 서면 텍스트가 포함된 매우 복잡한 프롬프트를 제시하는 경우에만 추론용 T5를 제거하면 성능이 크게 저하됩니다. 위 이미지는 각 예의 무작위 샘플 3개를 보여줍니다.
모델 성능
저자는 Stable Diffusion 3의 출력 이미지를 다양한 다른 오픈 소스 모델(SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 및 Pixart-α 포함) 및 비공개 소스와 비교합니다. DALL -E 3, Midjourney v6 및 Ideogram v1)과 같은 모델을 비교하여 인간 피드백을 기반으로 성능을 평가했습니다. 이러한 테스트에서 인간 평가자에게는 각 모델의 출력 예가 제공되고 모델 출력이 주어진 프롬프트의 컨텍스트(프롬프트 따르기)를 얼마나 잘 따르는지, 텍스트가 프롬프트에 따라 얼마나 잘 렌더링되는지(타이포그래피), image 최상의 결과를 얻으려면 시각적 미학이 뛰어난 이미지가 선택됩니다.
SD3에 대해 벤치마킹된 이 차트는 시각적 미학, 신속한 팔로우 및 텍스트 레이아웃에 대한 인간의 평가를 기반으로 한 승률을 간략하게 설명합니다.
테스트 결과에서 저자는 Stable Diffusion 3가 위의 모든 측면에서 현재의 최첨단 텍스트-이미지 생성 시스템과 동일하거나 그보다 더 낫다는 것을 발견했습니다.
소비자 하드웨어에 대한 초기 최적화되지 않은 추론 테스트에서 가장 큰 8B 매개변수 SD3 모델은 RTX 4090의 24GB VRAM에 적합하며 50개의 샘플링 단계를 사용하여 1024x1024 해상도의 이미지를 생성하는 데 34초가 걸립니다.
또한 초기 출시 시 Stable Diffusion 3은 하드웨어 장벽을 더욱 제거하기 위해 800m에서 8B 파라메트릭 모델에 이르는 다양한 변형으로 제공될 예정입니다.
자세한 내용은 원문을 참고해주세요.
참고링크: https://stability.ai/news/stable-diffusion-3-research-paper
위 내용은 Stable Diffusion 3 논문이 드디어 공개되고, 아키텍처의 세부 사항이 공개되어 Sora를 재현하는 데 도움이 될까요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undress AI Tool
무료로 이미지를 벗다

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

목차 : August Binance (Binance) 교환 할인 : August Bybit Exchange 할인 : 8 월 MEXC Matcha Exchange 할인 : August Bitfinex (Green Leaf) 교환 할인 : Cryptocurrency Exchange 순위이 기사는 2025 년 8 월에 주요 암호 화폐 거래소의 최신 제안을 편집 할 수 있으며 한 기사는 최상의 혜택을 누릴 수 있습니다. 통화 서클의 많은 초보자가 알지 못하는 것은 대부분의 거래소에 숨겨진 애플리케이션이 제공되었다는 것입니다.

디렉토리의 Memefi 통화는 무엇입니까? Memefi 게임 플레이 소개 Memefi (Memefi) 가격 예측 Memefi (Memefi) 가격 예측 : EMA 클러스터 및 Bollinger 밴드 압제 획기적인 Memefi (Memefi) 가격 예측 : RSI 및 Direction Trend Memefi (Memefi) 2025 년까지 2026 년 Memefi (Memefi)의 가격 예측 (Memefi). (Memefi) 2028 Memefi (Memefi)의 가격 예측 2

목차 Meme의 인기가 남아 있습니다 : 포도 나무와 당나귀는 계속 상승합니다. 기술적 이야기 가열 : AI 및 개인 정보 보호 컴퓨팅은 체인, RWA 및 지역 내러티브에서 인기가 있습니다. Omni의 신흥 스타 Huobi HTX Wealth Effect는 계속 발표되고 있습니다. 7 월 28 일부터 8 월 4 일까지 Huobi HTX와 관련하여 Global Crypto Market은 휘발성 패턴을 유지했으며 핫스팟 회전 속도가 가속화되었습니다. 이번 주 Huobi HTX가 시작한 자산 중 Meme, AI, 개인 정보 보호 컴퓨팅, 크로스 체인 및 RWA가 함께 발전했으며 시장 부 효과가 계속 나타납니다. 이것은 또한 Huobi HTX가 새로운 자산의 집단적 증가를 달성하여 최첨단 프로젝트 광업 및 생태 학적 레이아웃에서 미래 지향적 인 특성을 더욱 확인하고 사용자가 새로운 시장주기를 파악할 수 있도록 강력한 지원을 제공하는 7 월 이후 5 주 연속 주입니다. Huobi (HTX

디지털 통화 분야에서 모든 변수와 기회 범위가 5,000 ~ 50 만 명으로 증가하면 자산 감상의 백 배가 달성되어야한다는 것을 의미합니다. 이것은 단순한 수학 게임이 아니라인지, 전략, 사고 방식 및 실행과 관련된 포괄적 인 테스트입니다. 참가자는 운이 전적으로 의존하지 않고 예리한 시장 통찰력과 특별한 위험 관리 기능을 갖추어야합니다.

비트 코인 (BTC)은 암호화 원칙을 기반으로 생성 된 디지털 자산입니다. 은행이나 정부와 같은 특정 중앙 기관에 의존하지 않습니다. 이 개념은 2008 년 "Bitcoin : A P2P 전자 현금 시스템"이라는 제목의 논문에서 "Satoshi Nakamoto"라는 개인 또는 그룹에 의해 처음 제안되었습니다.

목차 시장은 비트 코인 가격이 사상 최고치에서 떨어졌지만 2025 비트 코인 전망의 나머지 부분에 대해 "상대 평형 상태"에있다. Glassnode는 현재 시장이 "상대 평형 위치"에 들어갔다고 지적했다. 온쇄 데이터 플랫폼 GlassNode의 분석에 따르면, 비트 코인 가격은 현지 최저 $ 112,000 이후 점차적으로 반등함에 따라 수익성있는 주에서 단기 소지자 (STH)의 판매 압력이 약화되고 있습니다. Glassnode는 수요일에 발표 된 시장 보고서에서 단기 소지자 (155 일 미만의 통화를 보유한 투자자를 언급 함)는 상당히 "냉각"했다고 밝혔다. 데이터는 최근 매수 및 수익성있는 투자자의 판매 비율을 측정하는 "지출 생산 이익 마진"(SPR)이 감소했음을 보여줍니다.

예, Sol은 2025 년에 다시 폭발 할 수 있습니다. 1) FiredAncer 런칭과 같은 기술 업그레이드는 TPS를 백만 수준으로 증가시킬 것으로 예상됩니다. 2) 새로운 Depin과 AI 이야기는 생태 개발을 촉진합니다. 3) 온쇄 데이터는 계속 회복되며 TVL은 20 억 달러를 초과합니다. 4) 기관 기금 수익률은 ETF 기대와 결합 된 수익; 5) 기초와 시장 감정이 협력하는 경우 가격이 250 달러에 달할 것으로 예상되지만 다운 타임, 강화 된 경쟁 및 토큰 판매 압력의 위험에주의를 기울여야합니다. 투자자는 배치로 위치를 구축하고 체인 데이터 동적 조정 전략을 결합해야합니다. 최종 발병은 기술 구현, 생태 활동 및 자본 공명의 상승 효과에 달려 있습니다.

3 천에서 3 만 명까지는 보상의 백 배를 찾는 것을 의미합니다. 이것은 Crypto World의 환상은 아니지만 집행자는 매우 높은 수준의 인식, 힘든 사고 방식 및 정확한 운영을해야합니다. 이것은 편안한 도로가 아니라 고위험 및 고가의 게임입니다. 이 목표의 경로에는 신중한 설계와 엄격한 구현이 필요합니다.
