Mengintegrasikan model bahasa, rangkaian saraf graf dan rangka kerja latihan graf teks GLEM dengan berkesan untuk mencapai SOTA baharu-AI-php.cn

Mengintegrasikan model bahasa, rangkaian saraf graf dan rangka kerja latihan graf teks GLEM dengan berkesan untuk mencapai SOTA baharu

WBOY

Lepaskan： 2023-04-11 13:28:02

ke hadapan

1757 orang telah melayarinya

Mengintegrasikan model bahasa, rangkaian saraf graf dan rangka kerja latihan graf teks GLEM dengan berkesan untuk mencapai SOTA baharu

Unit utama: Montreal Algorithm Learning Artificial Intelligence Laboratory (Mila), Microsoft Research Asia, dsb.
Alamat kertas: https://arxiv.org/abs/2210.14709
Alamat kod: https://github.com /andyjzhao/glem

Pengenalan

Mengintegrasikan model bahasa, rangkaian saraf graf dan rangka kerja latihan graf teks GLEM dengan berkesan untuk mencapai SOTA baharu

Rajah 1: (a) Graf teks (b) Rangkaian saraf graf (c) Model bahasa

Graf ialah struktur data universal yang memodelkan hubungan struktur antara nod. Dalam kehidupan sebenar, banyak nod mengandungi ciri teks yang kaya, dan graf ini dipanggil graf beratribut teks [2]. Sebagai contoh, rangkaian petikan kertas mengandungi teks kertas dan hubungan petikan antara kertas kerja itu mengandungi penerangan teks pengguna dan hubungan interaktif langsung pengguna. Model pembelajaran perwakilan pada graf teks boleh digunakan untuk tugas seperti pengelasan nod dan ramalan pautan, dan mempunyai nilai aplikasi yang luas.

Graf teks mengandungi dua aspek maklumat: maklumat teks nod dan maklumat struktur graf antara nod. Pemodelan graf teks tradisional boleh dibahagikan kepada dua perspektif: pemodelan teks dan pemodelan graf. Antaranya, kaedah pemodelan teks (ditunjukkan dalam Rajah 1.b) biasanya menggunakan model bahasa berasaskan Transformer (LM) untuk mendapatkan perwakilan teks bagi satu nod dan meramalkan tugasan sasaran kaedah pemodelan pemodelan graf (Seperti yang ditunjukkan dalam Rajah 1.c), rangkaian neural graf (GNN) biasanya digunakan untuk memodelkan interaksi antara ciri nod dan meramalkan tugas sasaran melalui mekanisme penyebaran mesej.

Walau bagaimanapun, kedua-dua model hanya boleh memodelkan struktur teks dan graf dalam graf teks masing-masing: model bahasa tradisional tidak boleh mempertimbangkan secara langsung maklumat struktur, dan rangkaian saraf graf tidak boleh mempertimbangkan secara langsung maklumat teks asal. Untuk memodelkan struktur teks dan graf pada masa yang sama, penyelidik cuba mengintegrasikan model bahasa dan rangkaian saraf graf serta mengemas kini parameter kedua-dua model secara serentak. Walau bagaimanapun, kerja sedia ada [2, 3] tidak boleh memodelkan sejumlah besar teks jiran pada masa yang sama, mempunyai kebolehskalaan yang lemah, dan tidak boleh digunakan pada graf teks yang besar.

Rangka kerja GLEM

Untuk menyepadukan rangkaian saraf graf dan model bahasa dengan lebih berkesan, artikel ini mencadangkan Graph dan LPembelajaran bahasa oleh rangka kerja Expectation Maximization (GLEM). Rangka kerja GLEM adalah berdasarkan algoritma maksimum jangkaan variasi (Variational EM) dan secara bergilir-gilir mempelajari rangkaian saraf graf dan model bahasa, sekali gus mencapai kebolehskalaan yang baik.

Mengintegrasikan model bahasa, rangkaian saraf graf dan rangka kerja latihan graf teks GLEM dengan berkesan untuk mencapai SOTA baharu

Rajah 2: Rangka kerja GLEM

Secara khususnya, mengambil tugas pengelasan nod sebagai contoh, dalam E langkah , GLEM melatih model bahasa berdasarkan label sebenar dan label pseudo yang diramalkan oleh rangkaian saraf graf; >M langkah , GLEM melatih rangkaian saraf graf berdasarkan label sebenar dan label pseudo yang diramalkan oleh model bahasa. Dengan cara ini, rangka kerja GLEM secara berkesan melombong maklumat tekstual tempatan dan maklumat interaksi struktur global. Kedua-dua rangkaian saraf graf (GLEM-GNN) dan model bahasa (GLEM-LM) yang dilatih melalui rangka kerja GLEM boleh digunakan untuk meramalkan label nod.

Eksperimen

Bahagian eksperimen kertas terutamanya membincangkan rangka kerja GLEM dari aspek berikut:

Keberkesanan: Model GLEM boleh menyepadukan rangkaian saraf graf dan model bahasa dengan berkesan, meningkatkan kedua-dua model dengan ketara. Rangka kerja GLEM mencapai tempat pertama pada tiga tugas pengelasan nod graf teks di OGB.
Skalabiliti: Dengan melatih rangkaian saraf dan model bahasa graf secara bergilir-gilir, rangka kerja GLEM boleh melatih model bahasa besar dan GNN mendalam secara serentak.
Keupayaan penaakulan induktif bebas struktur: Model GNN tradisional berprestasi lemah apabila menghadapi nod baharu tanpa struktur graf. Sebaliknya, GLEM-LM membolehkan inferens yang cekap hanya menggunakan ciri teks (tanpa struktur graf).
Penumpuan model: GLEM menggunakan algoritma lelaran EM dan boleh menumpu dalam satu lelaran EM pada beberapa set data.

Mengintegrasikan model bahasa, rangkaian saraf graf dan rangka kerja latihan graf teks GLEM dengan berkesan untuk mencapai SOTA baharu

Rajah 3: Rangka kerja GLEM memenangi tempat pertama pada set data OGBN-arxiv, products, papers100M

Atas ialah kandungan terperinci Mengintegrasikan model bahasa, rangkaian saraf graf dan rangka kerja latihan graf teks GLEM dengan berkesan untuk mencapai SOTA baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!