새로운 SOTA를 달성하기 위해 언어 모델, 그래프 신경망 및 텍스트 그래프 교육 프레임워크 GLEM을 효과적으로 통합합니다.-일체 포함-php.cn

새로운 SOTA를 달성하기 위해 언어 모델, 그래프 신경망 및 텍스트 그래프 교육 프레임워크 GLEM을 효과적으로 통합합니다.

WBOY

풀어 주다： 2023-04-11 13:28:02

앞으로

1757명이 탐색했습니다.

새로운 SOTA를 달성하기 위해 언어 모델, 그래프 신경망 및 텍스트 그래프 교육 프레임워크 GLEM을 효과적으로 통합합니다.

주요 단위: 몬트리올 알고리즘 학습 인공 지능 연구소(Mila), Microsoft Research Asia 등
논문 주소: https://arxiv.org/abs/2210.14709
코드 주소: https://github.com/andyjzhao/glem

소개

새로운 SOTA를 달성하기 위해 언어 모델, 그래프 신경망 및 텍스트 그래프 교육 프레임워크 GLEM을 효과적으로 통합합니다.

그림 1: (a) 텍스트 그래프 (b) 그래프 신경망 (c) 언어 모델

그래프는 노드 간의 구조적 관계를 모델링하는 보편적인 데이터 구조입니다. 실제 생활에서는 많은 노드에 서식 있는 텍스트 기능이 포함되어 있으며 이 그래프를 텍스트 속성 그래프라고 합니다[2]. 예를 들어, 논문 인용 네트워크에는 논문의 텍스트와 논문 간의 인용 관계가 포함되어 있으며, 소셜 네트워크에는 사용자의 텍스트 설명과 사용자의 직접적인 상호 작용 관계가 포함되어 있습니다. 텍스트 그래프의 표현 학습 모델은 노드 분류, 링크 예측 등의 작업에 적용할 수 있으며 활용 가치가 넓습니다.

텍스트 그래프에는 노드의 텍스트 정보와 노드 간의 그래프 구조 정보라는 두 가지 정보 측면이 포함됩니다. 전통적인 텍스트 그래프의 모델링은 텍스트 모델링과 그래프 모델링이라는 두 가지 관점으로 나눌 수 있습니다. 그 중 텍스트 모델링 방법(그림 1.b 참조)은 일반적으로 Transformer 기반 언어 모델(LM)을 사용하여 단일 노드의 텍스트 표현을 얻고 대상 작업을 예측하는 그래프 모델링 방법입니다. 그림 1.c)에서 그래프 신경망(GNN)은 일반적으로 노드 기능 간의 상호 작용을 모델링하고 메시지 전파 메커니즘을 통해 대상 작업을 예측하는 데 사용됩니다.

그러나 두 모델은 각각 텍스트 그래프의 텍스트 및 그래프 구조만 모델링할 수 있습니다. 기존 언어 모델은 구조 정보를 직접 고려할 수 없으며 그래프 신경망은 원본 텍스트 정보를 직접 모델링할 수 없습니다. 텍스트와 그래프 구조를 동시에 모델링하기 위해 연구자들은 언어 모델과 그래프 신경망을 통합하고 두 모델의 매개변수를 동시에 업데이트하려고 합니다. 그러나 기존 연구[2, 3]는 동시에 많은 수의 이웃 텍스트를 모델링할 수 없고 확장성이 좋지 않으며 큰 텍스트 그래프에 적용할 수 없습니다.

GLEM 프레임워크

그래프 신경망과 언어 모델을 보다 효과적으로 통합하기 위해 이 기사에서는 Expectation Maximization(GLEM) 프레임워크를 통해 Graph 및 Language 학습을 제안합니다. . GLEM 프레임워크는 Variational Expect maximum 알고리즘(Variational EM)을 기반으로 그래프 신경망과 언어 모델을 교대로 학습하므로 좋은 확장성을 달성합니다.

새로운 SOTA를 달성하기 위해 언어 모델, 그래프 신경망 및 텍스트 그래프 교육 프레임워크 GLEM을 효과적으로 통합합니다.

그림 2: GLEM 프레임워크

구체적으로 노드 분류 작업을 예로 들면 E 단계에서 GLEM은 실제 레이블과 의사 레이블을 기반으로 학습됩니다. 그래프 신경망 언어 모델 ; M 단계 에서 GLEM은 언어 모델에서 예측한 실제 레이블과 의사 레이블 을 기반으로 그래프 신경망 을 훈련합니다. 이러한 방식으로 GLEM 프레임워크는 로컬 텍스트 정보와 전역 구조 상호 작용 정보를 효과적으로 마이닝합니다. GLEM 프레임워크를 통해 훈련된 그래프 신경망(GLEM-GNN)과 언어 모델(GLEM-LM)을 모두 사용하여 노드 레이블을 예측할 수 있습니다.

실험

논문의 실험 부분에서는 주로 다음 측면에서 GLEM 프레임워크를 논의합니다.

효과: GLEM 모델은 그래프 신경망과 언어 모델을 효과적으로 통합하여 두 모델을 크게 향상시킬 수 있습니다. GLEM 프레임워크는 OGB의 세 가지 텍스트 그래프 노드 분류 작업에서 1위를 차지했습니다.
확장성: GLEM 프레임워크는 그래프 신경망과 언어 모델을 교대로 훈련함으로써 대규모 언어 모델과 심층 GNN을 동시에 훈련할 수 있습니다.
구조 없는 귀납적 추론 능력: 기존 GNN 모델은 그래프 구조가 없는 새로운 노드에 직면할 때 제대로 작동하지 않습니다. 반면 GLEM-LM은 그래프 구조 없이 텍스트 특징만 사용하여 효율적인 추론을 가능하게 합니다.
모델 수렴: GLEM은 EM 반복 알고리즘을 사용하며 일부 데이터 세트에서 한 번의 EM 반복으로 수렴할 수 있습니다.

새로운 SOTA를 달성하기 위해 언어 모델, 그래프 신경망 및 텍스트 그래프 교육 프레임워크 GLEM을 효과적으로 통합합니다.