너무 완벽해요! 멀티모달 딥러닝에 대한 리뷰입니다!-일체 포함-php.cn

1. 소개

세상에 대한 우리의 경험은 다양합니다. 우리는 사물을 보고, 소리를 듣고, 질감을 느끼고, 냄새와 맛을 느낍니다. 양상이란 특정 조건이 발생하거나 경험되는 방식을 말하며, 연구 질문에 여러 양상이 포함되어 있는 경우 다중 양상으로 특징지어집니다. AI가 우리 주변 세계를 이해하는 데 진전을 이루려면 이러한 다중 모드 신호를 동시에 해석할 수 있어야 합니다.

예를 들어 이미지는 태그 및 텍스트 설명과 연관되는 경우가 많고, 텍스트에는 기사의 중심 아이디어를 보다 명확하게 표현하기 위한 이미지가 포함되어 있습니다. 다양한 양식은 매우 다른 통계적 특성을 가지고 있습니다. 이러한 데이터를 다중 모드 빅데이터라고 하며 풍부한 다중 모드 및 교차 모드 정보를 포함하고 있어 기존 데이터 융합 방법에 큰 도전 과제를 제기합니다.

이번 리뷰에서는 이러한 다중 모드 빅데이터를 융합할 수 있는 몇 가지 획기적인 딥러닝 모델을 소개하겠습니다. 다중 모드 빅 데이터가 점점 더 탐구됨에 따라 여전히 해결해야 할 몇 가지 과제가 있습니다. 따라서 이 기사는 독자들에게 다중 모드 딥 러닝 융합 방법의 기본 원리를 제공하고 딥 러닝 융합 기술을 위한 새로운 유형의 다중 모드 데이터에 영감을 주는 것을 목표로 다중 모드 데이터 융합을 위한 딥 러닝에 대한 리뷰를 제공합니다.

너무 완벽해요! 멀티모달 딥러닝에 대한 리뷰입니다!

다중 모드 딥 러닝을 통해 성능을 향상하기 위해 다양한 양식이나 정보 유형을 결합하는 것은 직관적으로 매력적인 작업이지만 실제로는 서로 다른 노이즈 수준을 결합하는 방법 양식 간의 충돌이 어렵습니다. 또한 모델은 예측 결과에 대해 서로 다른 정량적 영향을 미칩니다. 실제로 가장 일반적인 접근 방식은 다양한 입력의 상위 수준 임베딩을 연결한 다음 소프트맥스를 적용하는 것입니다.

너무 완벽해요! 멀티모달 딥러닝에 대한 리뷰입니다!

이접근 방식의 문제점은 모든 하위 네트워크/패턴에 동일한 중요성을 부여한다는 것인데, 이는 실제 상황에서는 거의 불가능합니다. 여기서는 각 입력 양식이 출력 예측에 대한 학습 기여도(Theta)를 가질 수 있도록 하위 네트워크의 가중치 조합을 사용해야 합니다.

너무 완벽해요! 멀티모달 딥러닝에 대한 리뷰입니다!

2. 대표적인 딥러닝 아키텍처

이번 섹션에서는 멀티모달 데이터 융합 딥러닝 모델의 대표적인 딥러닝 아키텍처를 소개하겠습니다. 구체적으로 심층 아키텍처의 정의, 피드포워드 계산, 역전파 계산 및 일반적인 변형이 제공됩니다. 대표 모델을 정리했습니다.

표 1: 대표적인 딥러닝 모델 요약.

너무 완벽해요! 멀티모달 딥러닝에 대한 리뷰입니다!

2.1 Deep Belief Network (DBN)

Restricted Boltzmann Machine (RBM)은 Deep Belief Network의 기본 블록입니다(Zhang, Ding, Zhang, & Xue, 2018; Bengio, 2009). RBM은 가시 레이어와 숨겨진 레이어로 구성된 볼츠만 머신(그림 1 참조)의 특수 변형입니다. 가시 레이어와 숨겨진 레이어 사이에는 완전한 연결이 있지만 동일한 장치 사이에는 연결이 없습니다. 층. RBM은 에너지 함수를 사용하여 가시 단위와 숨겨진 단위 사이의 확률 분포를 포착하는 생성 모델이기도 합니다. 에너지 함수의 미분을 사용하여 가시 단위와 숨겨진 단위 사이의 단위 확률 분포를 계산할 수 있습니다. RBM은 개별 요소와 숨겨진 단위 간의 확률 분포를 캡처할 수 있습니다. RBM에서는 동일한 레이어 내의 셀 간 연결이 없고 모든 셀이 전체 연결을 통해 연결되는 것을 제외하고는 셀 간의 연결이 없습니다. RBM은 또한 에너지 함수를 사용하여 가시 단위와 숨겨진 단위 사이의 확률 분포를 계산합니다. RBM의 확률함수를 이용하면 단위 간 확률분포를 파악할 수 있다.

최근 성능 향상을 위해 일부 고급 RBM이 제안되었습니다. 예를 들어, 네트워크 과적합을 피하기 위해 Chen, Zhang, Yeung, Chen(2017)은 계층적 잠재 트리를 기반으로 네트워크 구조를 학습하는 희소 볼츠만 머신을 설계했습니다. Ning, Pittman 및 Shen(2018)은 빠른 대비 발산 알고리즘을 RBM에 도입했습니다. 여기서 경계 기반 필터링과 델타 곱을 사용하여 계산에서 중복 내적 계산을 줄였습니다. 다차원 데이터의 내부 구조를 보호하기 위해 Ju et al.(2019)은 다차원 데이터에 숨겨진 상위 수준 분포를 학습하기 위해 텐서 RBM을 제안했습니다. 여기서 텐서 분해는 차원의 저주를 피하기 위해 사용됩니다.

DBM은 여러 RBM으로 쌓인 전형적인 심층 아키텍처입니다(Hinton & Salakhutdinov, 2006). 이는 에너지를 활용하여 보이는 객체와 해당 라벨 사이의 연결 분포를 캡처할 수 있는 사전 훈련 및 미세 조정 훈련 전략을 기반으로 하는 생성 모델입니다. 사전 훈련에서 각 숨겨진 레이어는 비지도 정책에서 훈련된 RBM으로 탐욕스럽게 모델링됩니다. 이후 각 은닉층은 지도 전략에 포함된 훈련 레이블의 식별 정보를 통해 추가로 훈련됩니다. DBN은 데이터 차원 축소, 표현 학습, 의미 해싱 등 다양한 분야의 문제를 해결하는 데 사용되어 왔습니다. 대표적인 DBM이 그림 1에 나와 있습니다.

그림 1:

너무 완벽해요! 멀티모달 딥러닝에 대한 리뷰입니다!

2.2 Stacked Autoencoder(SAE)

Stacked Autoencoder(SAE)는 인코더-디코더 아키텍처의 일반적인 딥 러닝 모델입니다(Michael, Olivier 및 Mario, 2018; Weng , Lu, Tan, Zhou, 2016). 비지도-지도 방식으로 원래 입력을 중간 표현으로 변환하여 입력의 간결한 특징을 포착할 수 있습니다. SAE는 차원 축소(Wang, Yao, & Zhao, 2016), 이미지 인식(Jia, Shao, Li, Zhao, & Fu, 2018), 텍스트 분류(Chen & Zaki, 2017) 등 다양한 분야에서 널리 사용되었습니다. 그림 2는 대표적인 SAE를 보여줍니다.

그림 2:

너무 완벽해요! 멀티모달 딥러닝에 대한 리뷰입니다!

2.3 CNN(Convolutional Neural Network)

DBN과 SAE는 완전히 연결된 신경 네트워크입니다. 두 네트워크 모두 히든 레이어의 모든 뉴런은 이전 레이어의 모든 뉴런에 연결되며 이 토폴로지는 수많은 연결을 생성합니다. 이러한 연결의 가중치를 훈련하기 위해 완전 연결된 신경망은 계산 집약적인 과적합 및 과소적합을 방지하기 위해 많은 수의 훈련 개체가 필요합니다. 또한 완전 연결 토폴로지는 뉴런 사이에 포함된 특징의 위치 정보를 고려하지 않습니다. 따라서 완전히 연결된 심층 신경망(DBN, SAE 및 그 변형)은 고차원 데이터, 특히 대용량 이미지와 대용량 오디오 데이터를 처리할 수 없습니다.

컨벌루션 신경망은 데이터의 로컬 토폴로지를 고려하는 특별한 심층 네트워크입니다(Li, Xia, Du, Lin, & Samat, 2017; Sze, Chen, Yang, & Emer, 2017). 컨벌루션 신경망에는 완전히 연결된 네트워크와 컨벌루션 계층과 풀링 계층을 포함하는 제한된 네트워크가 포함됩니다. 제한된 네트워크는 컨볼루션 및 풀링 작업을 사용하여 로컬 수용 필드 및 매개변수 감소를 달성합니다. DBN 및 SAE와 마찬가지로 컨벌루션 신경망은 확률적 경사하강법 알고리즘을 통해 훈련됩니다. 의료 영상 인식(Maggiori, Tarabalka, Charpiat, & Alliez, 2017)과 의미 분석(Hu, Lu, Li, & Chen, 2014)에서 큰 진전을 이루었습니다. 대표적인 CNN이 그림 3에 나와 있습니다.

그림 3:

너무 완벽해요! 멀티모달 딥러닝에 대한 리뷰입니다!

2.4 순환 신경망(RNN)

순환 신경망은 직렬 데이터를 처리하는 신경 컴퓨팅 아키텍처입니다(Martens & Sutskever, 2011; Sutskever, Martens and Hinton, 2011). Deep Forward 아키텍처(예: DBN, SAE 및 CNN)와 달리 입력 패턴을 출력 결과에 매핑할 뿐만 아니라 숨겨진 유닛 간의 연결을 활용하여 숨겨진 상태를 출력으로 전송합니다(Graves & Schmidhuber, 2008). 이러한 숨겨진 연결을 사용하여 RNN은 시간적 종속성을 모델링하여 시간적 차원의 객체 간에 매개변수를 공유합니다. 음성 분석(Mulder, Bethard, & Moens, 2015), 이미지 캡션(Xu et al., 2015), 언어 번역(Graves & Jaitly, 2014) 등 다양한 분야에 적용되어 우수한 성능을 보이고 있습니다. Deep Forward 아키텍처와 유사하게 계산에는 순방향 통과 및 역전파 단계도 포함됩니다. 순방향 통과 계산에서 RNN은 입력 상태와 숨겨진 상태를 동시에 얻습니다. 역전파 계산에서는 시간적 역전파 알고리즘을 사용하여 시간 단계에 대한 손실을 역전파합니다. 그림 4는 대표적인 RNN을 보여줍니다.

그림 4:

너무 완벽해요! 멀티모달 딥러닝에 대한 리뷰입니다!

3. 다중 모드 데이터 융합을 위한 딥 러닝

이 섹션에서는 모델 작업, 모델 프레임워크 및 평가 데이터 세트의 관점에서 최신 연구를 검토합니다. 다중 모드 데이터 융합 딥 러닝 모델. 사용된 딥 러닝 아키텍처에 따라 네 가지 범주로 나뉩니다. 표 2에는 대표적인 다중 모드 딥 러닝 모델이 요약되어 있습니다.

표 2:

대표적인 다중 모드 딥 러닝 모델 요약

너무 완벽해요! 멀티모달 딥러닝에 대한 리뷰입니다!

3.1 네트워크 기반 심층 신념 다중 모드 데이터 융합

3.1.1 예시 1

Srivastava 및 Salakhutdinov(2012)는 심층 볼츠만 학습 모델을 기반으로 다중 모드 데이터 융합을 제안했습니다. 생성 모델은 다양한 양식(예: 이미지, 텍스트, 오디오)에 걸쳐 다중 모드 데이터의 공동 분포를 조정하여 다중 모드 표현을 학습합니다.

너무 완벽해요! 멀티모달 딥러닝에 대한 리뷰입니다!

제안된 다중 모달 DBN의 각 모듈은 비지도 계층 방식으로 초기화되며 모델 학습에는 MCMC 기반 근사 방법이 사용됩니다.

학습된 다중 모드 표현을 평가하기 위해 누락된 모달 작업 생성, 공동 표현 작업 추론, 판별 작업 등 많은 작업이 수행됩니다. 실험을 통해 학습된 다중 모드 표현이 필수 속성을 충족하는지 확인합니다.

3.1.2 예시 2

알츠하이머병을 조기에 효과적으로 진단하기 위해 Suk, Lee, Shen과 Alzheimer's Disease Neuroimaging Initiative(2014)는 보완적 지식을 융합할 수 있는 다중 모드 유리 Erzmann 모델을 제안했습니다. 다중 모드 데이터에서. 구체적으로, 얕은 특징 학습 방법으로 인한 한계를 해결하기 위해 DBN은 도메인별 표현을 계층적 추상 표현으로 전송하여 각 양식의 심층 표현을 학습하는 데 사용됩니다. 그런 다음 단일 레이어 RBM은 각 양식의 계층적 추상 표현의 선형 조합인 연결된 벡터에 구성됩니다. 다양한 다중 모드 특성의 공동 분포를 구성하여 다중 모드 표현을 학습하는 데 사용됩니다. 마지막으로 제안된 모델은 세 가지 일반적인 진단을 기반으로 하는 ADNI 데이터 세트에서 광범위하게 평가되어 최첨단 진단 정확도를 달성합니다.

3.1.3 예제 3

Ouyang, Chu, and Wang(2014)은 인간의 자세를 정확하게 추정하기 위해 고차 공간에서 신체 패턴의 공동 분포를 추출하여 다중 소스 딥러닝 모델을 설계했으며, 혼합물 유형, 모양 점수 및 변형 양식을 통해 다중 모드 표현을 알아보세요. 인간 포즈 다중 소스 심층 모델에서는 조건부 랜덤 필드 이론을 기반으로 신체 부위를 결합한 이미지 구조 모델에서 널리 사용되는 세 가지 양식을 추출합니다. 다중 모드 데이터를 얻기 위해 선형 지원 벡터 머신을 통해 그래픽 구조 모델을 학습합니다. 그런 다음 세 가지 기능 각각은 2계층으로 제한된 볼츠만 모델에 입력되어 기능별 표현에서 고차 포즈 공간의 추상적 표현을 캡처합니다. 감독되지 않은 초기화를 통해 각 양식별 제한된 볼츠만 모델은 전역 공간의 본질적인 표현을 캡처합니다. 그런 다음 RBM은 상위 수준 블렌딩 유형, 모양 점수 및 변형 표현의 연결된 벡터를 기반으로 인간 포즈 표현을 추가로 학습하는 데 사용됩니다. 제안된 다중 소스 딥러닝 모델을 훈련하기 위해 신체 위치와 인간 감지를 모두 고려한 작업별 목적 함수를 설계했습니다. 제안된 모델은 LSP, PARSE, UIUC에서 검증되었으며 최대 8.6%의 개선을 보였다.

최근 몇 가지 새로운 DBN 기반 다중 모드 특성 학습 모델이 제안되었습니다. 예를 들어, Amer, Shields, Siddiquie 및 Tamrakar(2018)는 순차 이벤트 감지를 위한 하이브리드 접근 방식을 제안했습니다. 여기서 조건부 RBM을 사용하여 추가적인 식별 레이블 정보를 사용하여 모달 및 교차 모달 특징을 추출했습니다. Al-Waisy, Qahwaji, Ipson 및 Al-Fahdawi(2018)는 얼굴 인식에 대한 다중 모드 접근 방식을 도입했습니다. 이 접근 방식에서는 DBN 기반 모델을 사용하여 Curvelet 변환으로 캡처한 로컬 수작업 피처의 다중 모드 분포를 모델링합니다. 이는 로컬 피처와 심층 피처의 장점을 병합할 수 있습니다(Al-Waisy et al., 2018).

3.1.4 요약

이러한 DBN 기반 멀티모달 모델은 확률 그래프 네트워크를 사용하여 모달리티별 표현을 공유 공간의 의미적 특징으로 변환합니다. 그리고 공유공간의 특성을 바탕으로 양식에 따른 공동분포를 모델링한다. 이러한 DBN 기반 다중 모드 모델은 비지도, 준지도 및 지도 학습 전략에서 더 유연하고 강력합니다. 입력 데이터의 유익한 특징을 포착하는 데 이상적입니다. 그러나 다중 모드 데이터의 공간적 및 시간적 토폴로지를 무시합니다.

3.2 스택 오토인코더 기반 다중 모드 데이터 융합

3.2.1 예제 4

Ngiam et al.(2011)은 스택 오토인코더(SAE) 기반 다중 모드 딥러닝을 제안했습니다. 다중 모드 데이터 융합을 위한 모델. 이 딥 러닝 모델은 교차 모드 및 공유 모드 표현 학습이라는 두 가지 데이터 융합 문제를 해결하는 것을 목표로 합니다. 전자는 다른 양식의 지식을 활용하여 더 나은 단일 양식 표현을 캡처하는 반면 후자는 중간 수준에서 양식 간의 복잡한 상관 관계를 학습하는 것을 목표로 합니다. 이러한 목표를 달성하기 위해 표 3과 그림 6에 표시된 대로 다중 모드, 교차 모드 및 공유 모드 학습의 세 가지 학습 시나리오가 설계되었습니다.

그림 6:

너무 완벽해요! 멀티모달 딥러닝에 대한 리뷰입니다! 다중 모드, 교차 모드 및 공유 모드 학습을 위한 아키텍처.

표 3: 다중 모드 학습을 위한 설정.

너무 완벽해요! 멀티모달 딥러닝에 대한 리뷰입니다!

다중 모드 학습 시나리오에서는 오디오 스펙트로그램과 비디오 프레임이 선형 방식으로 벡터에 연결됩니다. 연결된 벡터는 SRBM(Sparse Restricted Boltzmann Machine)에 입력되어 오디오와 비디오 간의 상관 관계를 학습합니다. 이 모델은 상관 관계가 원래 레벨의 고차원 표현에 내재되어 있고 단일 레이어 SRBM이 이를 모델링할 수 없기 때문에 여러 양식의 섀도우 조인트 표현만 학습할 수 있습니다. 이에 영감을 받아 중간 수준 표현의 연결된 벡터가 SRBM에 입력되어 여러 양식의 상관 관계를 모델링함으로써 더 나은 성능을 보여줍니다.

교차 모드 학습 시나리오에서는 양식 간의 상관 관계를 명시적으로 학습하기 위해 딥 스택 다중 모드 자동 인코더가 제안됩니다. 구체적으로, 기능 학습에서는 오디오와 비디오가 모두 입력으로 제공되며 지도 학습 및 테스트에서는 그 중 하나만 모델에 입력됩니다. 모델은 다중 모드 학습 방식으로 초기화되며 교차 모드 관계를 잘 시뮬레이션할 수 있습니다.

잡음 제거 자동 인코더를 기반으로 한 공유 모달 표현에서는 특히 모달이 누락된 경우 모달 간의 공동 표현을 탐색하기 위해 모달별 딥 스택 다중 모달 자동 인코더가 도입되었습니다. 양식 중 하나를 0으로 대체하여 확대된 훈련 데이터 세트는 특성 학습을 위한 모델에 입력됩니다.

마지막으로 작업별 특성 학습에서 다중 모드 딥 러닝의 성능을 평가하기 위해 CUAVE 및 AVLetters 데이터 세트에 대한 자세한 실험을 수행합니다.

3.2.2 예 5

일련의 이미지(특히 비디오)에서 시각적, 의미적으로 효과적인 인간 골격을 생성하기 위해 Hong, Yu, Wan, Tao, and Wang(2015)은 다중 모드 심층 자동 인코더를 제안했습니다. 이미지와 포즈의 융합 관계를 포착합니다. 특히, 제안된 다중 모드 딥 오토인코더는 2D 이미지와 3D 포즈 간의 비선형 매핑을 구성하기 위해 3단계 전략을 통해 학습됩니다. 기능 융합 단계에서는 다중 뷰 하이퍼그래프 낮은 순위 표현을 활용하여 다양한 학습을 기반으로 일련의 이미지 기능(예: 방향성 그라데이션 히스토그램 및 모양 컨텍스트)에서 내부 2D 표현을 구축합니다. 두 번째 단계에서는 단일 레이어 오토인코더가 2D 이미지 간 특징을 재구성하여 3D 포즈를 복구하는 데 사용되는 추상 표현을 학습하도록 훈련됩니다. 한편, 단일 레이어 오토인코더는 3D 포즈의 추상적 표현을 학습하기 위해 유사한 방식으로 훈련됩니다. 각 단일 양식의 추상 표현을 얻은 후 신경망을 사용하여 두 모달 상호 표현 사이의 제곱 유클리드 거리를 최소화하여 2D 이미지와 3D 포즈 간의 다중 모드 상관 관계를 학습합니다. 제안된 다중 모드 딥 오토인코더의 학습은 초기화 단계와 미세 조정 단계로 구성됩니다. 초기화에서는 다중 모드 심층 오토인코더의 각 하위 부분에 대한 매개변수가 해당 오토인코더 및 신경망에서 복사됩니다. 그런 다음 확률적 경사 하강 알고리즘을 통해 전체 모델의 매개 변수를 더욱 미세 조정하여 해당 2차원 이미지에서 3차원 포즈를 구성합니다.

3.2.3 요약

SAE 기반 다중 모드 모델은 인코더-디코더 아키텍처를 채택하여 감독되지 않은 방식으로 재구성 방법을 통해 고유 모달 특징과 교차 모달 특징을 추출합니다. 완전 연결 모델인 SAE를 기반으로 하기 때문에 많은 매개 변수를 학습해야 합니다. 또한 다중 모드 데이터의 공간적 및 시간적 토폴로지를 무시합니다.

3.3 합성곱 신경망 기반 다중 모드 데이터 융합

3.3.1 예시 6

이미지와 문장 간의 의미 매핑 분포를 시뮬레이션하기 위해 Ma, Lu, Shang, and Li (2015) 다중 모드 컨벌루션 신경망을 제안했습니다. 의미적 관련성을 완전히 포착하기 위해 단어 수준, 단계 수준, 문장 수준의 3단계 융합 전략이 엔드투엔드 아키텍처에서 설계되었습니다. 아키텍처는 이미징 서브넷, 일치하는 서브넷 및 다중 모드 서브넷으로 구성됩니다. 이미지 서브넷은 이미지 입력을 효율적으로 간결한 표현으로 인코딩하는 Alexnet, Inception과 같은 대표적인 심층 합성곱 신경망입니다. 일치하는 하위 네트워크는 이미지 콘텐츠를 의미 공간에 있는 문장의 단어 조각과 연결하는 결합 표현을 모델링합니다.

3.3.2 예제 7

시각 인식 시스템을 무제한의 이산 범주로 확장하기 위해 Frome et al.(2013)은 텍스트 데이터의 의미 정보를 활용하여 다중 모드 컨볼루션 신경망을 제안했습니다. . 네트워크는 언어 하위 모델과 시각적 하위 모델로 구성됩니다. 언어 하위 모델은 텍스트 정보를 의미 공간의 조밀한 표현으로 전송할 수 있는 스킵 그램 모델을 기반으로 합니다. 시각적 하위 모델은 Alexnet과 같은 대표적인 컨볼루셔널 신경망으로, 시각적 특징을 포착하기 위해 1000 클래스 ImageNet 데이터 세트를 사전 학습했습니다. 이미지와 텍스트 사이의 의미론적 관계를 모델링하기 위해 언어와 시각적 하위 모델이 선형 투영 레이어를 통해 결합됩니다. 각 하위 모델은 각 양식에 대한 매개변수로 초기화됩니다. 이후, 이 시각적 의미 다중 모드 모델을 훈련하기 위해 내적 유사성과 힌지 순위 손실을 결합하여 올바른 이미지와 레이블 쌍에 대해 높은 유사성 점수를 제공할 수 있는 새로운 손실 함수가 제안되었습니다. 이 모델은 의미상 불합리한 결과를 방지하면서 ImageNet 데이터 세트에서 최첨단 성능을 생성합니다.

3.3.3 요약

CNN을 기반으로 한 다중 모드 모델은 로컬 필드와 풀링 작업을 통해 모드 간의 로컬 다중 모드 특성을 학습할 수 있습니다. 이는 다중 모드 데이터의 공간 토폴로지를 명시적으로 모델링합니다. 그리고 그것들은 훨씬 적은 수의 매개변수를 가진 완전히 연결된 모델이 아닙니다.

3.4 순환 신경망 기반 다중 모드 데이터 융합

3.4.1 예제 8

이미지에 대한 캡션을 생성하기 위해 Mao et al.(2014)은 다중 모드 순환 신경 아키텍처를 제안했습니다. 이 다중 모드 순환 신경망은 이미지와 문장 간의 확률적 상관 관계를 연결할 수 있습니다. 학습된 이미지-텍스트 매핑을 기반으로 문장 데이터베이스에서 해당 캡션을 검색하기 때문에 새로운 이미지 캡션을 생성할 수 없는 이전 작업의 한계를 해결합니다. 이전 작업과 달리 MRNN(Multimodal Recurrent Neural Model)은 단어와 이미지가 주어진 의미 공간에 대한 결합 분포를 학습합니다. 이미지가 제시되면 캡처된 관절 분포를 기반으로 문장을 축어적으로 생성합니다. 구체적으로 다중 모드 순환 신경망은 그림 7과 같이 언어 서브넷, 시각적 서브넷, 다중 모드 서브넷으로 구성됩니다. 언어 하위 네트워크는 효율적인 작업별 표현을 캡처하는 2계층 단어 임베딩 부분과 문장의 시간적 의존성을 모델링하는 단일 계층 순환 신경 부분으로 구성됩니다. 비전 서브넷은 기본적으로 고차원 이미지를 컴팩트한 표현으로 인코딩하는 Alexnet, Resnet 또는 Inception과 같은 심층 컨벌루션 신경망입니다. 마지막으로, 다중 모드 하위 네트워크는 학습된 언어와 시각적 표현의 공동 의미 분포를 모델링하는 숨겨진 네트워크입니다.

그림 7:

너무 완벽해요! 멀티모달 딥러닝에 대한 리뷰입니다!

3.4.2 예제 9

현재 시각 인식 시스템이 한눈에 이미지에 대한 풍부한 설명을 생성할 수 없다는 한계를 해결하기 위해 시각적 및 텍스트 데이터 상태 간의 관계, 다중 모드 정렬 모델이 제안되었습니다(Karpathy & Li, 2017). 이를 달성하기 위해 이중 계획이 제안되었습니다. 첫째, 시각적 의미 임베딩 모델은 다중 모드 훈련 데이터 세트를 생성하도록 설계되었습니다. 그런 다음 이 데이터세트에 대해 다중 모드 RNN을 훈련하여 이미지에 대한 풍부한 설명을 생성합니다.

시각적 의미 임베딩 모델에서는 지역 컨볼루션 신경망을 사용하여 문장에 해당하는 콘텐츠에 대한 충분한 정보가 포함된 풍부한 이미지 표현을 얻습니다. 그런 다음 양방향 RNN을 사용하여 각 문장을 이미지 표현과 동일한 차원의 밀집된 벡터로 인코딩합니다. 또한, 이미지와 문장 간의 의미적 유사성을 측정하기 위해 다중 모드 채점 기능이 제시됩니다. 마지막으로 Markov 무작위 필드 방법을 사용하여 다중 모드 데이터 세트를 생성합니다.

다중 모드 RNN에서는 텍스트 콘텐츠와 이미지 입력을 기반으로 하는 보다 효과적인 확장 모델이 제안됩니다. 다중 모드 모델은 이미지 입력을 인코딩하는 컨볼루션 신경망과 이미지 특징 및 문장을 인코딩하는 RNN으로 구성됩니다. 모델은 확률적 경사 하강 알고리즘을 통해 훈련되기도 합니다. 두 가지 다중 모드 모델 모두 Flickr 및 Mscoco 데이터 세트에서 광범위하게 평가되었으며 최첨단 성능을 달성했습니다.

3.4.3 요약

RNN 기반 다중 모드 모델은 숨겨진 단위 계산의 명시적 상태 전달을 통해 다중 모드 데이터에 숨겨진 시간 종속성을 분석할 수 있습니다. 그들은 시간적 역전파 알고리즘을 사용하여 매개변수를 훈련합니다. 계산은 숨겨진 상태 전송에서 수행되므로 고성능 장치에서는 병렬화가 어렵습니다.

4. 요약 및 전망

모델을 DBN, SAE, CNN 및 RNN을 기반으로 하는 다중 모드 데이터 딥 러닝 모델의 네 가지 그룹으로 요약합니다. 이러한 선구적인 모델을 통해 어느 정도 진전이 이루어졌습니다. 그러나 이러한 모델은 아직 초기 단계에 있으므로 과제가 남아 있습니다.

먼저 멀티모달 데이터 융합 딥러닝 모델에는 자유 가중치가 많고, 특히 대상 작업에 거의 영향을 미치지 않는 중복 매개변수가 있습니다. 데이터의 특징적인 구조를 포착하는 이러한 매개변수를 훈련하기 위해 역전파 알고리즘을 기반으로 하는 다중 모드 데이터 융합 딥러닝 모델에 많은 양의 데이터가 입력되는데, 이는 계산 집약적이고 시간이 많이 소요됩니다. 따라서 기존 압축 전략을 기반으로 새로운 다중 모드 딥러닝 압축 방법을 설계하는 방법도 잠재적인 연구 방향입니다.

둘째, 다중 모드 데이터에는 교차 모드 정보뿐만 아니라 풍부한 교차 모드 정보도 포함되어 있습니다. 따라서 딥러닝과 의미론적 융합 전략의 결합은 다중 모드 데이터 탐색으로 인해 발생하는 문제를 해결하는 방법이 될 수 있습니다.

셋째, 다중 모드 데이터는 동적 환경에서 수집되어 데이터가 불확실함을 보여줍니다. 따라서 동적 다중 모드 데이터가 폭발적으로 증가함에 따라 데이터 융합을 위한 온라인 및 증분 다중 모드 딥 러닝 모델의 설계 문제가 해결되어야 합니다.

위 내용은 너무 완벽해요! 멀티모달 딥러닝에 대한 리뷰입니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!