Jia Qianghuai: Pembinaan dan penggunaan graf pengetahuan berskala besar semut-AI-php.cn

Jia Qianghuai: Pembinaan dan penggunaan graf pengetahuan berskala besar semut

1. Gambaran keseluruhan graf

Mula-mula perkenalkan beberapa konsep asas graf pengetahuan.

1. Apakah itu graf pengetahuan? mempunyai Ia digunakan secara meluas dalam enjin carian, menjawab soalan pintar, pemahaman semantik bahasa, analisis keputusan data besar dan banyak bidang lain.

Jia Qianghuai: Pembinaan dan penggunaan graf pengetahuan berskala besar semut

Model graf pengetahuan kedua-dua hubungan semantik dan hubungan struktur antara data Digabungkan dengan teknologi pembelajaran mendalam, kedua-dua hubungan boleh disepadukan dan diwakili dengan lebih baik.

2. Mengapa kita perlu membina graf pengetahuan

Kami ingin membina graf pengetahuan terutamanya daripada dua perkara berikut: di satu pihak, ciri-ciri latar belakang sumber data semut itu sendiri sebaliknya, apa yang graf pengetahuan boleh membawa manfaat.

Jia Qianghuai: Pembinaan dan penggunaan graf pengetahuan berskala besar semut

[1] Sumber data itu sendiri adalah pelbagai dan heterogen, tidak mempunyai sistem pemahaman pengetahuan yang bersatu.

[2] Graf pengetahuan boleh membawa pelbagai faedah, termasuk:

Penyawaian semantik: Gunakan teknologi pembinaan graf untuk meningkatkan tahap penyeragaman dan penormalan entiti, perhubungan, konsep, dsb.

Pengumpulan pengetahuan domain: Realisasikan perwakilan pengetahuan dan kesalinghubungan berdasarkan semantik dan struktur graf, dengan itu mengumpul pengetahuan domain yang kaya.
Penggunaan semula pengetahuan: Bina graf pengetahuan Semut berkualiti tinggi dan sediakan pelbagai perkhidmatan hiliran melalui penyepaduan, pautan dan perkhidmatan lain untuk mengurangkan kos perniagaan dan meningkatkan kecekapan.
Penemuan penaakulan pengetahuan: Temui lebih banyak pengetahuan ekor panjang berdasarkan teknologi penaakulan graf, menyediakan senario seperti kawalan risiko, kredit, tuntutan, operasi pedagang, pengesyoran pemasaran, dsb. . berikut lima Bahagian:
Mulakan daripada data perniagaan sebagai sumber data penting untuk permulaan sejuk graf.

Penyepaduan asas pengetahuan berstruktur dalam domain perniagaan dan graf pengetahuan sedia ada juga dicapai melalui teknologi penjajaran entiti. Jia Qianghuai: Pembinaan dan penggunaan graf pengetahuan berskala besar semut

Data tidak berstruktur dan separa berstruktur, seperti teks, akan digunakan untuk mengekstrak maklumat dan mengemas kini peta sedia ada melalui teknologi pemautan entiti.

Pengintegrasian sistem konsep domain dan peraturan pakar menghubungkan konsep dan peraturan yang berkaitan dengan graf pengetahuan sedia ada.
Selepas kita mempunyai paradigma pembinaan yang sama, kita perlu melaksanakan pembinaan yang sistematik. Lihatlah pembinaan sistematik Graf Pengetahuan Semut dari dua perspektif. Pertama, dari perspektif algoritma, terdapat pelbagai keupayaan algoritma, seperti penaakulan pengetahuan, pemadanan pengetahuan, dll. Dari perspektif pelaksanaan, dari bawah ke atas, kebergantungan asas yang paling rendah termasuk enjin pengkomputeran graf dan pengkomputeran asas kognitif di atasnya ialah asas graf, termasuk platform NLP & pelbagai mod dan platform graf di atasnya adalah pelbagai teknologi pembinaan graf; Berdasarkan ini, kita boleh membina graf pengetahuan semut berdasarkan graf pengetahuan, kita boleh melakukan beberapa penaakulan graf lebih jauh, kami menyediakan beberapa keupayaan algoritma umum;
Seterusnya, kami akan berkongsi beberapa keupayaan teras Kumpulan Ant dalam membina graf pengetahuan, termasuk pembinaan graf, gabungan graf dan kognisi graf.
1. Pembinaan peta

Proses pembinaan peta terutamanya merangkumi enam langkah:
- Sumber data untuk mendapatkan data berbilang variasi.
- Pemodelan pengetahuan menukar data besar kepada data berstruktur, pemodelan daripada tiga domain: konsep, entiti dan peristiwa.
- Pemerolehan pengetahuan dan membina platform R&D pemprosesan pengetahuan.
- Penyimpanan pengetahuan, termasuk penyimpanan Ha3 dan penyimpanan graf, dsb.
- Pengendalian pengetahuan, termasuk penyuntingan pengetahuan, pertanyaan dalam talian, pengekstrakan, dsb.
- Pembelajaran berterusan, membolehkan model belajar secara automatik dan berulang.
Tiga pengalaman dan kemahiran dalam proses pembinaan

Klasifikasi entiti mengintegrasikan pengetahuan pakar

Dalam membina graf pengetahuan, adalah perlu untuk mengklasifikasikan entiti input, yang merupakan masalah skala besar senario Tugas pengelasan label. Untuk menyepadukan pengetahuan pakar untuk klasifikasi entiti, tiga perkara pengoptimuman utama berikut dibuat:
- Peningkatan maklumat semantik: Penyertaan pembelajaran perwakilan graf semantik label diperkenalkan.
- Pembelajaran kontras: Tambahkan penyeliaan label hierarki untuk perbandingan.
- Kekangan peraturan logik: Menggabungkan pengetahuan sedia pakar.
Pengiktirafan entiti disuntik ke dalam perbendaharaan kata domain

Atas dasar pengecaman entiti, bermula daripada struktur graf tepi perkataan, model mempelajari pemberat yang munasabah bagi bahagian tepi dan mengecilkan perkataan yang bising . Dua modul, pembelajaran kontrastif sempadan dan pembelajaran kontrastif semantik, dicadangkan:
- pembelajaran kontrastif sempadan untuk menyelesaikan masalah konflik sempadan. Selepas perbendaharaan kata disuntik, graf bersambung sepenuhnya dibina, dan GAT digunakan untuk mempelajari perwakilan setiap token Bahagian klasifikasi sempadan yang betul membina graf contoh positif, dan bahagian yang salah membina graf contoh negatif , model mempelajari setiap maklumat sempadan token.
- Pembelajaran kontrastif semantik digunakan untuk menyelesaikan masalah konflik semantik. Berdasarkan idea pembelajaran prototaip, perwakilan semantik label ditambah untuk mengukuhkan perkaitan antara setiap semantik token dan label.
Pengekstrakan perhubungan sampel kecil dikekang oleh peraturan logik

Dalam masalah domain, kami mempunyai sangat sedikit sampel berlabel dan akan menghadapi senario pengekstrakan beberapa pukulan atau sifar dalam kes ini Idea teras adalah untuk memperkenalkan asas pengetahuan luaran Untuk menyelesaikan masalah penurunan prestasi yang disebabkan oleh ruang semantik yang berbeza, modul penaakulan berdasarkan peraturan logik direka untuk menyelesaikan masalah pembelajaran hafalan yang disebabkan oleh pemadanan jenis entiti, a modul persepsi perbezaan halus direka bentuk.

2. Cantuman graf

Cantuman graf merujuk kepada cantuman maklumat antara graf dalam bidang perniagaan yang berbeza.

Faedah pelakuran graf:
- Penggunaan semula pengetahuan merentas perniagaan: Berdasarkan model ontologi graf, sambungan pengetahuan merentas perniagaan dicapai.
- Kurangkan salinan data yang tidak sah: sambung dan gunakan, pautan perkhidmatan pengetahuan piawai.
- Pelaksanaan nilai perniagaan yang pantas: Mengurangkan kos mencari data untuk perniagaan, membawa nilai perniagaan yang lebih besar melalui penggunaan semula pengetahuan, mengurangkan kos dan meningkatkan kecekapan.
Penjajaran entiti dalam gabungan graf

Titik teknikal teras dalam proses gabungan graf pengetahuan ialah penjajaran entiti Di sini kami menggunakan algoritma SOTA BERT-INT, yang terutamanya merangkumi dua modul, satu modul pembentangan dan satu lagi modul interaksi.

Proses pelaksanaan algoritma terutamanya termasuk mengingat dan menyusun:

Imbas kembali: Dalam modul perwakilan, penarikan semula persamaan vektor BERT bagi teks tajuk digunakan.

Model penarafan berdasarkan tajuk + atribut + jiran: ü Gunakan modul perwakilan untuk melengkapkan perwakilan vektor tajuk, atribut dan jiran:
- Kira persamaan kos tajuk.
- Kira matriks persamaan antara atribut dan set jiran dua entiti masing-masing, dan ekstrak ciri persamaan satu dimensi.
- Sambungkan tiga ciri ke dalam vektor ciri untuk mengira Kerugian.
3. Kognisi graf

Bahagian ini terutamanya memperkenalkan rangka kerja pembelajaran perwakilan pengetahuan dalaman Ant.

Ant mencadangkan pembelajaran perwakilan pengetahuan berdasarkan rangka kerja Pengekod-Penyahkod. Antaranya, Pengekod ialah beberapa kaedah pembelajaran saraf graf, dan Penyahkod ialah beberapa pembelajaran perwakilan pengetahuan, seperti ramalan pautan. Rangka kerja pembelajaran perwakilan ini boleh menyelia sendiri pengeluaran entiti/perhubungan Embeddings sejagat, yang mempunyai beberapa faedah: 1) Saiz Benam jauh lebih kecil daripada ruang ciri asal, mengurangkan kos penyimpanan 2) Vektor berdimensi rendah lebih padat, mengurangkan dengan berkesan masalah kelangkaan data ; 3) Pembelajaran dalam ruang vektor yang sama menjadikan gabungan data heterogen daripada pelbagai sumber lebih semula jadi 4) Penyematan mempunyai kesejagatan tertentu dan mudah untuk kegunaan perniagaan hiliran.

3. Aplikasi Graf

Seterusnya, saya akan berkongsi beberapa kes aplikasi biasa graf pengetahuan dalam Kumpulan Semut. . Seperti yang ditunjukkan di bawah.

2. Beberapa kes tipikal
Kes 1: Pengingatan padanan berstruktur berdasarkan graf pengetahuan

Senario perniagaan yang akan dipecahkan dalam program A dan perniagaan mini yang akan diselesaikan. Titik kesakitan adalah:

Entiti produk dan kekurangan hubungan antara peringkat atas dan bawah produk.
- Keupayaan yang lemah untuk memahami tahap produk program kecil.
- Penyelesaian ialah membina graf pengetahuan pedagang. Digabungkan dengan perhubungan produk peta pedagang, pemahaman berstruktur tentang tahap produk pertanyaan pengguna dicapai.
Kes ini adalah mengenai ramalan masa nyata niat pengguna untuk pengesyoran halaman utama, dan AlipayKG telah dibina dalam rajah di atas. Kerja berkaitan juga diterbitkan pada persidangan teratas www 2023. Anda boleh merujuk kepada kertas untuk pemahaman lanjut.

Kes 3: Pengesyoran kupon pemasaran yang menyepadukan perwakilan pengetahuan
Senario ini ialah senario pengesyoran kupon pengguna
- Kesan kepala yang serius.
- Pengesahan pengguna dan tingkah laku pengumpulan adalah jarang.
- Terdapat banyak pengguna dan kupon permulaan yang dingin, tetapi data jejak yang sepadan kurang.
Untuk menyelesaikan masalah di atas, kami mereka bentuk algoritma penarikan semula vektor dalam yang menggabungkan perwakilan graf dinamik. Oleh kerana kami mendapati bahawa gelagat kupon penggunaan pengguna adalah kitaran, satu kelebihan statik tidak boleh memodelkan gelagat kitaran ini. Untuk tujuan ini, kami mula-mula membina graf dinamik, dan kemudian menggunakan algoritma graf dinamik yang dibangunkan sendiri oleh pasukan untuk mempelajari perwakilan Benam Selepas mendapatkan perwakilan, kami memasukkannya ke dalam model menara berkembar untuk penarikan semula vektor.

Kes 4: Taakulan peraturan pakar tuntutan pintar berdasarkan peristiwa diagnosis dan rawatan

Kes terakhir ialah tentang penaakulan peraturan graf. Mengambil peta kesihatan insurans perubatan sebagai contoh, ia termasuk pengetahuan perubatan, peraturan tuntutan dan maklumat kesihatan "orang", yang dikaitkan dengan entiti dan ditambah dengan peraturan logik sebagai asas untuk membuat keputusan. Melalui peta, kecekapan penyelesaian tuntutan pakar telah dipertingkatkan.

4. Graf dan model besar

Akhir sekali, mari kita bincangkan secara ringkas peluang graf pengetahuan dalam konteks perkembangan pesat model besar semasa.

1. Hubungan antara graf pengetahuan dan model besar

Graf pengetahuan dan model besar masing-masing mempunyai kelebihan dan kekurangannya sendiri Kelebihan utama model besar ialah pemodelan pengetahuan am dan kelemahan model adalah betul Ini boleh diimbangi oleh kelebihan graf pengetahuan. Kelebihan peta termasuk ketepatan yang tinggi dan kebolehtafsiran yang kuat. Model besar dan graf pengetahuan boleh mempengaruhi satu sama lain.

Biasanya terdapat tiga laluan untuk penyepaduan graf dan model besar Satu ialah menggunakan graf pengetahuan untuk meningkatkan model besar; dan graf pengetahuan, kelebihan pelengkap, model besar boleh dianggap sebagai pangkalan pengetahuan berparameter, dan graf pengetahuan boleh dianggap sebagai pangkalan pengetahuan yang dipaparkan.

2. Kes penggunaan model besar dan graf pengetahuan

Model besar digunakan dalam pembinaan graf pengetahuan

Dalam proses pembinaan graf pengetahuan, model besar boleh digunakan untuk pengekstrakan maklumat, pemodelan pengetahuan dan Penaakulan hubungan.

Cara menggunakan model besar untuk digunakan pada pengekstrakan maklumat daripada graf pengetahuan

Kerja Akademi DAMO ini menguraikan masalah pengekstrakan maklumat kepada dua peringkat:
- Di peringkat pertama cari entiti, perhubungan atau jenis peristiwa yang wujud dalam teks untuk mengurangkan ruang carian dan kerumitan pengiraan.
- Di peringkat kedua, kami selanjutnya mengekstrak maklumat yang relevan berdasarkan jenis yang diekstrak sebelum ini dan senarai sepadan yang diberikan.
Menggunakan graf pengetahuan pada model besar

Menggunakan graf pengetahuan kepada model besar terutamanya merangkumi tiga aspek:
Mengintegrasikan graf input model yang besar. Graf pengetahuan boleh digunakan untuk pembersihan data, atau graf pengetahuan boleh digunakan untuk melaksanakan penyambungan formal secara langsung.
Sepadukan graf pengetahuan ke dalam latihan model besar. Sebagai contoh, dua tugasan dilatih pada masa yang sama Graf pengetahuan boleh digunakan untuk tugas perwakilan pengetahuan, dan model besar boleh digunakan untuk pra-latihan MLM, dan kedua-duanya dimodelkan secara bersama.
Suntikan graf pengetahuan ke dalam penaakulan model besar. Pertama, dua masalah dengan model besar boleh diselesaikan Satu ialah menggunakan graf pengetahuan sebagai kekangan priori untuk mengelakkan "karut" model besar; Sebaliknya, berdasarkan graf pengetahuan, penyelesaian yang boleh ditafsir boleh disediakan untuk penjanaan model yang besar. 🎜🎜
Sistem Soal Jawab yang dipertingkatkan pengetahuan

terutamanya merangkumi dua kategori Satu ialah sistem Soal Jawab yang dipertingkatkan graf pengetahuan, yang menggunakan model besar untuk mengoptimumkan model KBQA, yang lain ialah peningkatan perolehan maklumat, serupa dengan LangCiteChain , dan Bing Baharu Gunakan model besar untuk merumus soalan dan jawapan asas pengetahuan.

Sistem soal jawab carian generatif yang dipertingkatkan pengetahuan mempunyai kelebihan berikut:
- Selesaikan masalah ketepatan masa dengan mengakses sistem carian.
- Dengan menyediakan pautan Rujukan, pengesahan manual boleh dilakukan untuk menyelesaikan ralat fakta.
- Memperkenalkan hasil carian, memperkaya konteks dan meningkatkan kesan penjanaan model yang besar.
3 Ringkasan dan Tinjauan

Cara graf pengetahuan dan model besar boleh berinteraksi dan berfungsi bersama dengan lebih baik, termasuk tiga arah berikut:
- model dalam graf
🎜🎜

Atas ialah kandungan terperinci Jia Qianghuai: Pembinaan dan penggunaan graf pengetahuan berskala besar semut. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Jia Qianghuai: Pembinaan dan penggunaan graf pengetahuan berskala besar semut

1. Gambaran keseluruhan graf

1. Apakah itu graf pengetahuan? mempunyai Ia digunakan secara meluas dalam enjin carian, menjawab soalan pintar, pemahaman semantik bahasa, analisis keputusan data besar dan banyak bidang lain.

Kami ingin membina graf pengetahuan terutamanya daripada dua perkara berikut: di satu pihak, ciri-ciri latar belakang sumber data semut itu sendiri sebaliknya, apa yang graf pengetahuan boleh membawa manfaat.

1. Pembinaan peta

Tiga pengalaman dan kemahiran dalam proses pembinaan

Klasifikasi entiti mengintegrasikan pengetahuan pakar

Pengiktirafan entiti disuntik ke dalam perbendaharaan kata domain

Pengekstrakan perhubungan sampel kecil dikekang oleh peraturan logik

2. Cantuman graf

Penjajaran entiti dalam gabungan graf

3. Kognisi graf

3. Aplikasi Graf

Senario perniagaan yang akan dipecahkan dalam program A dan perniagaan mini yang akan diselesaikan. Titik kesakitan adalah:

Kes ini adalah mengenai ramalan masa nyata niat pengguna untuk pengesyoran halaman utama, dan AlipayKG telah dibina dalam rajah di atas. Kerja berkaitan juga diterbitkan pada persidangan teratas www 2023. Anda boleh merujuk kepada kertas untuk pemahaman lanjut.

Senario ini ialah senario pengesyoran kupon pengguna Kesan kepala yang serius. Pengesahan pengguna dan tingkah laku pengumpulan adalah jarang. Terdapat banyak pengguna dan kupon permulaan yang dingin, tetapi data jejak yang sepadan kurang.

Kes 4: Taakulan peraturan pakar tuntutan pintar berdasarkan peristiwa diagnosis dan rawatan

4. Graf dan model besar

1. Hubungan antara graf pengetahuan dan model besar

2. Kes penggunaan model besar dan graf pengetahuan

Model besar digunakan dalam pembinaan graf pengetahuan

Cara menggunakan model besar untuk digunakan pada pengekstrakan maklumat daripada graf pengetahuan

Sistem Soal Jawab yang dipertingkatkan pengetahuan

3 Ringkasan dan Tinjauan

Senario ini ialah senario pengesyoran kupon pengguna

Kesan kepala yang serius.

Pengesahan pengguna dan tingkah laku pengumpulan adalah jarang.

Terdapat banyak pengguna dan kupon permulaan yang dingin, tetapi data jejak yang sepadan kurang.