Baidu 비즈니스 다중 모드 이해 및 AIGC 혁신 실천-일체 포함-php.cn

百度商业多模态理解及 AIGC 创新实践

1. 리치 미디어 멀티모달 이해

먼저 멀티모달 콘텐츠에 대한 우리의 인식을 소개하겠습니다.

1. 다중 모드 이해

콘텐츠 이해 기능을 향상하여 광고 시스템이 세분화된 시나리오에서 콘텐츠를 더 잘 이해할 수 있도록 합니다.

百度商业多模态理解及 AIGC 创新实践

콘텐츠 이해 능력을 향상시키면 많은 실질적인 문제에 직면하게 됩니다.

상업적인 비즈니스 시나리오와 산업이 많고 독립적인 모델링이 중복되어 과적합 및 시나리오 간 배포가 발생합니다. 통합 모델링에서 공통성과 특수성의 균형을 맞추는 방법.
상업용 시각 자료 주변의 잘못된 텍스트는 쉽게 나쁜 케이스 일러스트레이션으로 이어질 수 있습니다.
시스템은 무의미한 ID 기능으로 가득 차 있으며 일반화가 부족합니다.
리치 미디어 시대에 어떻게 시각적 의미론을 효과적으로 활용하고 이러한 콘텐츠 기능, 비디오 기능, 기타 기능을 어떻게 통합할 것인지가 시스템 내 리치 미디어 콘텐츠에 대한 인식 향상을 위해 해결해야 할 문제입니다.

좋은 다중 모드 기본 표현이란 무엇입니까?

百度商业多模态理解及 AIGC 创新实践

좋은 다중 모드 표현이란 무엇입니까?

폭 측면에서는 데이터 활용 범위가 확장되어야 하고, 깊이 측면에서는 시각적 효과가 향상되어야 하며, 동시에 장면의 데이터 미세 조정이 보장되어야 합니다.

이전의 기존 아이디어는 모델을 훈련시켜 그림의 모달성, 자동 회귀 작업을 학습한 다음 텍스트 작업을 수행하고 몇 가지 트윈 타워 패턴을 적용하여 둘 사이의 모달 관계를 닫는 것이었습니다. 그 당시에는 텍스트 모델링이 상대적으로 단순했고, 모두가 비전을 모델링하는 방법을 더 많이 연구하고 있었습니다. CNN으로 시작하여 나중에 시각적 표현을 향상시키기 위해 bbox 방법과 같은 타겟 감지 기반의 몇 가지 방법이 포함되었습니다. 그러나 이 방법은 감지 기능이 제한적이고 너무 무거워서 대규모 데이터 학습에 도움이 되지 않습니다.

2020년과 2021년쯤에는 VIT 방식이 주류가 되었습니다. 여기서 꼭 언급해야 할 가장 유명한 모델 중 하나는 OpenAI가 2020년에 출시한 모델인 CLIP입니다. 텍스트와 시각적 표현을 위한 트윈 타워 아키텍처를 기반으로 합니다. 그런 다음 코사인을 사용하여 둘 사이의 거리를 좁힙니다. 이 모델은 검색 능력은 매우 뛰어나지만 VQA 작업과 같이 논리적 추론이 필요한 일부 작업에서는 성능이 약간 떨어집니다.

표상 학습: 시각에 대한 자연어의 기본 인식 능력을 향상시킵니다.

百度商业多模态理解及 AIGC 创新实践

우리의 목표는 자연어에 대한 기본적인 시각적 인식을 향상시키는 것입니다. 데이터 측면에서 볼 때, 우리 비즈니스 도메인에는 수십억 개의 데이터가 있지만 아직 충분하지 않습니다. 비즈니스 도메인에서 과거 데이터를 추가로 도입하고 정리하고 정리해야 합니다. 수백억개 수준의 훈련 세트가 구축되었습니다.

우리는 생성 작업을 사용하여 비전이 텍스트를 복원할 수 있도록 VICAN-12B 다중 모드 표현 + 생성 모델을 구축했으며, 텍스트에 대한 시각적 표현의 융합 효과를 더욱 보장하고 비전에 대한 자연어의 기본 인식을 향상시켰습니다. . 위 사진을 보시면 모델의 전체적인 구조를 보시면 트윈타워+싱글타워의 복합구조임을 알 수 있습니다. 가장 먼저 해결해야 할 것이 대규모 이미지 검색 작업이기 때문입니다. 왼쪽 상자에 있는 부분은 우리가 시각적 퍼셉트론이라고 부르는 부분으로, 20억 개의 매개변수 규모를 가진 ViT 구조입니다. 오른쪽은 두 개의 레이어로 볼 수 있습니다. 아래쪽 부분은 검색용 텍스트 변환기 스택이고 위쪽 부분은 생성용입니다. 모델은 세 가지 작업으로 나누어져 있는데, 하나는 생성 작업, 하나는 분류 작업, 다른 하나는 그림 비교 작업입니다. 모델은 이 세 가지 다른 목표를 기반으로 훈련되었으므로 비교적 좋은 결과를 얻었습니다. 더욱 최적화하겠습니다.

효율적이고 통합되었으며 전송 가능한 다중 시나리오 글로벌 표현 체계 세트입니다.

百度商业多模态理解及 AIGC 创新实践

비즈니스 시나리오 데이터와 결합하여 모델 이해 능력을 향상시키기 위해 LLM 모델을 도입했습니다. CV 모델은 퍼셉트론이고 LLM 모델은 이해자입니다. 우리의 접근 방식은 그에 따라 시각적 특징을 전달하는 것입니다. 왜냐하면 지금 언급한 것처럼 표현은 다중 모드이고 대형 모델은 텍스트를 기반으로 하기 때문입니다. Wenxin LLM의 대형 모델에만 적용하면 되므로 Combo attention을 사용하여 해당 기능 융합을 수행해야 합니다. 대형 모델의 논리적 추론 기능을 유지해야 하므로 대형 모델을 그대로 두지 않고 비즈니스 시나리오 피드백 데이터만 추가하여 시각적 기능을 대형 모델에 통합하도록 노력합니다. 작업을 지원하기 위해 몇 장의 샷을 사용할 수 있습니다. 주요 작업은 다음과 같습니다.

사진 설명은 사실 단순한 설명이 아니라 신속한 역설계를 통해 고품질의 그래픽 및 텍스트 데이터를 더 나은 데이터 소스로 사용할 수 있습니다. 나중에 빈센트 다이어그램.
이미지와 텍스트 상관관계 제어, 비즈니스에서는 이미지 정보의 구성과 이해가 필요하기 때문에 광고 이미지의 검색어와 이미지 의미를 실제로 제어해야 합니다. 물론 이는 매우 일반적인 방법이므로 다음과 같이 할 수 있습니다. 사진과 프롬프트에 대한 관련 판단.
이미지 위험 및 경험 제어, 이미지의 내용을 비교적 잘 설명할 수 있었고 위험 제어의 작은 샘플 데이터 마이그레이션만 사용하면 위험 문제가 포함되어 있는지 명확하게 알 수 있습니다. .

이제 장면 기반 미세 조정에 집중해 보겠습니다.

2. 시나리오 기반 미세 조정

시각 검색 장면, 기본 표현 기반의 트윈 타워 미세 조정.

百度商业多模态理解及 AIGC 创新实践

기본 표현을 기반으로 대형 텍스트 모델과 결합하여 다양한 비즈니스 장면의 그림 클릭 피드백 신호를 라벨러로 사용하여 다양한 장면에서 그림과 텍스트 간의 부분 순서 관계를 구체화합니다. 우리는 7개의 주요 데이터 세트에 대한 평가를 수행했으며 모두 SOTA 결과를 달성할 수 있습니다.

텍스트 분할에서 영감을 받은 정렬 시나리오는 다중 모드 기능의 의미를 정량화합니다.

百度商业多模态理解及 AIGC 创新实践

표현 외에 또 다른 문제는 분류 장면에서 시각적 효과를 어떻게 향상시킬 것인가입니다. 먼저 현장 배경을 살펴보겠습니다. 대규모 이산 DNN은 업계 순위 모델의 주류 개발 방향이며 이산 기능도 순위 모델 최적화의 핵심입니다. 텍스트는 모델에 입력되고 단어 분할을 기반으로 토큰화되며 다른 개별 기능과 결합되어 좋은 결과를 얻습니다. 비전에 관해서도 토큰화를 희망하고 있습니다.

ID 유형 기능은 실제로 매우 개인화된 기능이지만, 일반화된 기능이 다양해질수록 특성화 정확도가 떨어질 수 있습니다. 우리는 데이터와 작업을 통해 이 균형점을 동적으로 조정해야 합니다. 즉, 우리는 데이터와 가장 관련성이 높은 척도를 찾고, 그에 따라 기능을 ID로 "분할"하고, 텍스트와 같은 다중 모드 기능을 분할하기를 희망합니다. 따라서 우리는 이러한 문제를 해결하기 위해 다중 규모, 다단계 콘텐츠 수량화 학습 방법을 제안했다.

장면 정렬, 다중 모드 기능 및 모델 MmDict의 융합.

百度商业多模态理解及 AIGC 创新实践

크게 2단계로 나누어져 있는데, 1단계는 이산성을 익히고, 2단계는 융합을 익히게 됩니다.

1단계: 이산 학습

① 희소 활성화를 사용하여 여러 이산 신호로 연속 신호를 표현합니다. 즉, 희소 활성화를 사용하여 조밀한 특징을 분할한 다음 해당 다중 모달 코드북에서 ID를 활성화합니다. 실제로는 argmax 연산만 수행하므로 미분 불가능한 문제가 발생합니다. 동시에 특징 공간의 붕괴를 방지하기 위해 활성화된 뉴런과 비활성 뉴런 간의 정보 상호 작용이 추가됩니다.

② 네트워크 비미분성 문제를 해결하고 원래 기능을 다시 구축하며 부분 순서 관계가 변경되지 않도록 보장하기 위한 STE 전략을 도입합니다.

인코더-디코더 방법을 사용하여 밀집된 특징을 순차적으로 양자화한 다음 양자화된 특징을 올바른 방식으로 복원합니다. 복원 전후에 부분 순서 관계가 변하지 않도록 보장해야 하며, 특정 작업에 대한 기능의 양적 손실을 1% 미만으로 거의 제어할 수 있습니다. 이러한 ID는 현재 데이터 배포를 개인화할 수 있을 뿐만 아니라 일반화 속성을 가지고 있습니다.

Step2: Sparse 레이어에서 정렬 모델의 융합

①과 대규모 이산 융합을 학습합니다.

그런 다음 방금 언급한 숨겨진 레이어 재사용이 바로 위에 배치되지만 효과는 실제로 평균 수준입니다. 이를 식별하고 양자화한 후 희소 피처 레이어 및 기타 유형의 피처와 융합하면 더 나은 효과를 얻을 수 있습니다.

② 중앙 -> 잔여 2레벨 및 S-M-L 3스케일을 통해 손실을 줄입니다.

물론 일부 잔차 및 다중 규모 방법도 사용합니다. 2020년부터 우리는 정량화 손실을 점진적으로 낮추어 지난해 수준 이하로 내려갔습니다. 이를 통해 대형 모델이 특징을 추출한 후 이 학습 가능한 정량화 방법을 사용하여 의미 연관 ID를 사용하여 시각적 콘텐츠를 특성화할 수 있습니다. 특성은 실제로 매우 추천 시스템의 ID에 대한 탐색적 조사 방법을 포함하여 현재 비즈니스 시스템에 적합합니다.

2. Qingduo

1. 상업용 AIGC는 마케팅과 긴밀하게 통합되어 콘텐츠 생산성을 향상시키며 효율성과 효과 연계를 최적화합니다.

百度商业多模态理解及 AIGC 创新实践

Baidu 마케팅 AIGC 크리에이티브 플랫폼은 영감에서 창작, 전달까지 완벽한 폐쇄 루프를 형성합니다. . 해체, 생성, 피드백까지 AIGC를 홍보하고 최적화하고 있습니다.

영감: AI 이해(콘텐츠 및 사용자 이해). AI가 어떤 종류의 메시지가 좋은지 찾는 데 도움을 줄 수 있나요? 소재에 대한 통찰력부터 크리에이티브 디렉팅까지.
창작 : 텍스트 생성, 이미지 생성, 디지털 피플, 비디오 생성 등 AIGC
배달: AI 최적화. 경험적 시행착오부터 자동 최적화까지.

2. 마케팅 카피 생성 = 비즈니스 프롬프트 시스템 + Wenxin 대형 모델

百度商业多模态理解及 AIGC 创新实践

좋은 비즈니스 프롬프트에는 다음과 같은 요소가 있습니다.

자동차 판매 등 지식 그래프 어떤 상업 요소 포함되어야 하는가? 광고주는 또한 완전한 지식 시스템을 갖기를 원합니다.
스타일은 실제로 일부 태그로 추상화되어야 합니다. 어떤 종류의 마케팅 제목이나 마케팅 설명인지 결정합니다.
셀링포인트, 셀링포인트는 사실 제품 속성의 특성이고, 이것이 소비를 하는 가장 강력한 이유입니다.
사용자 초상화는 대상의 행동관 차이에 따라 여러 유형으로 나누어 빠르게 정리한 후 새로 파생된 유형을 정제하여 사용자 초상화 유형을 형성합니다.

3. 복합 모달 마케팅 디지털 휴먼 영상 세대, 3분 만에 디지털 휴먼 만들기

百度商业多模态理解及 AIGC 创新实践

이제 영상 세대는 비교적 성숙해졌습니다. 그러나 실제로는 여전히 몇 가지 문제가 있습니다.

스크립트 작성: 인간의 지식과 경험에 국한되어 고품질의 글쓰기를 유지하기 어렵고 동질성이 심각합니다.
재료 준비: "조립 및 합성"에 중점을 두고 전문 팀, 배우, 재료 보유량 및 기타 고비용 도구가 강화됩니다.
포스트 프로덕션: 포스트 프로덕션은 수동 시행착오에 의존하며 작업이 번거롭습니다.

초기에는 어떤 영상을 만들고 싶은지, 어떤 사람을 선택하고 싶은지, 그 사람이 하고 싶은 말을 모두 프롬프트를 통해 입력하면 정확하게 입력이 됩니다. 요구 사항에 따라 비디오를 제어하여 해당 스크립트를 생성합니다.

다음으로 우리 디지털 휴먼 라이브러리를 통해 해당 디지털 피플을 불러올 수 있지만, AI 기술을 활용하면 얼굴 교체, 배경 교체, 악센트 및 음성 교체 등 디지털 피플의 다양성을 더욱 강화하여 우리의 환경에 적응할 수 있습니다. 프롬프트, 마지막으로 스크립트, 디지털 입술 모양 교체, 배경 교체, 얼굴 교체 및 비디오 억제를 통해 음성 비디오를 얻을 수 있습니다. 고객은 디지털 휴먼을 활용하여 제품에 해당하는 일부 마케팅 판매 포인트를 소개할 수 있습니다. 이런 식으로 3분 만에 디지털 사람이 될 수 있으며, 이는 광고주의 디지털 사람이 되는 능력을 크게 향상시킵니다.

4. 마케팅 포스터 이미지 생성, 다중 모달 표현과 결합된 마케팅 이미지 생성

百度商业多模态理解及 AIGC 创新实践

대형 모델은 기업이 마케팅 포스터를 생성하고 제품 배경을 교체하는 데도 도움이 될 수 있습니다. 우리는 이미 수백억 개의 다중 모드 표현을 가지고 있습니다. 중간 계층은 우리가 배운 좋은 동적 표현을 기반으로 한 확산입니다. 빅데이터로 교육한 후 고객은 특히 개인화된 것을 원하므로 몇 가지 미세 조정 방법도 추가해야 합니다.

우리는 고객이 미세 조정하는 데 도움이 되는 솔루션, 즉 업계에서 일반적인 솔루션이기도 한 대형 모델의 작은 매개변수를 동적으로 로드하는 솔루션을 제공합니다.

먼저 고객에게 사진 생성 기능을 제공합니다. 고객은 편집이나 프롬프트를 통해 사진 뒤의 배경을 변경할 수 있습니다.

위 내용은 Baidu 비즈니스 다중 모드 이해 및 AIGC 혁신 실천의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!