Pasukan Universiti Fudan mengeluarkan DISC-LawLLM, sistem perundangan pintar China, untuk membina penanda aras penilaian kehakiman dan sumber terbuka 300,000 data diperhalusi-AI-php.cn

Dengan kebangkitan keadilan pintar, sistem undang-undang pintar yang didorong oleh kaedah pintar dijangka memberi manfaat kepada kumpulan yang berbeza. Contohnya, memudahkan kertas kerja untuk profesional undang-undang, menyediakan khidmat nasihat undang-undang kepada orang awam, dan menyediakan bimbingan belajar dan peperiksaan untuk pelajar undang-undang.

Disebabkan keunikan pengetahuan undang-undang dan kepelbagaian tugas kehakiman, penyelidikan kehakiman pintar sebelum ini tertumpu terutamanya pada mereka bentuk algoritma automatik untuk tugas tertentu, yang sukar untuk memenuhi permintaan untuk perkhidmatan sokongan dalam bidang kehakiman dan masih jauh dari pelaksanaan aplikasi Bukan jarak yang kecil. Model bahasa besar (LLM) telah menunjukkan keupayaan berkuasa dalam tugas tradisional yang berbeza, membawa harapan untuk pembangunan selanjutnya sistem perundangan pintar.

Baru-baru ini, Makmal Perisikan Data dan Pengkomputeran Sosial Universiti Fudan (FudanDISC) mengeluarkan sistem undang-undang pintar Cina yang dipacu oleh model bahasa besar - DISC-LawLLM. Sistem ini boleh menyediakan pelbagai perkhidmatan undang-undang kepada kumpulan pengguna yang berbeza. Di samping itu, makmal juga membina penanda aras penilaian DISC-Law-Eval untuk menilai model bahasa undang-undang besar dari aspek objektif dan subjektif Prestasi model dalam penilaian mempunyai kelebihan yang jelas berbanding dengan model undang-undang besar sedia ada.

Pasukan penyelidik juga mengeluarkan set data penyeliaan halus (SFT) berkualiti tinggi yang mengandungi 300,000 - DISC-Law-SFT Parameter model dan laporan teknikal juga adalah sumber terbuka.

Pasukan Universiti Fudan mengeluarkan DISC-LawLLM, sistem perundangan pintar China, untuk membina penanda aras penilaian kehakiman dan sumber terbuka 300,000 data diperhalusi

Alamat laman utama: https://law.fudan-disc.com
Alamat Github: https://github.com/FudanDISC/DISC-LawLLM

01 Contoh paparan

Apabila pengguna mempunyai soalan undang-undang, mereka boleh merujuk undang-undang dan model serta menerangkan soalan yang berkaitan dan penjelasan, penyelesaian yang disyorkan, dsb.询 Rajah 1 Contoh Perundingan Undang-undang Pasukan Universiti Fudan mengeluarkan DISC-LawLLM, sistem perundangan pintar China, untuk membina penanda aras penilaian kehakiman dan sumber terbuka 300,000 data diperhalusi

Organ profesional dan kehakiman boleh menggunakan model untuk melengkapkan abstrak teks undang-undang, ujian insiden kehakiman, pengekstrakan entiti dan perhubungan, dsb., mengurangkan dokumen, menambah baik kerja, meningkatkan kecekapan kerja.书 Rajah 2 Analisis dokumen kehakiman

Pasukan Universiti Fudan mengeluarkan DISC-LawLLM, sistem perundangan pintar China, untuk membina penanda aras penilaian kehakiman dan sumber terbuka 300,000 data diperhalusi

Pelajar dari jurusan undang-undang boleh bertanya soalan kepada model dalam proses penyediaan peperiksaan kehakiman, membantu menyatukan pengetahuan undang-undang, dan menjawab soalan peperiksaan undang-undang.手 Rajah 3 Contoh Pembantu Peperiksaan

Apabila kaedah luaran diperlukan untuk sokongan, model akan mendapatkan semula kandungan yang berkaitan dalam pangkalan pengetahuan mengikut masalah dan memberikan jawapan.场 Rajah 4 Dialog perolehan semula dalam adegan yang dipertingkatkan

Pasukan Universiti Fudan mengeluarkan DISC-LawLLM, sistem perundangan pintar China, untuk membina penanda aras penilaian kehakiman dan sumber terbuka 300,000 data diperhalusi

02 DISC-Lawllm Pengenalan

Cakera-Lawllm yang kami perolehi adalah berdasarkan data yang besar memperhalusi arahan parameter penuh pada model besar Cina domain umum Baichuan-13B. Perlu diingat bahawa data latihan dan kaedah latihan kami boleh disesuaikan dengan mana-mana model besar asas.

DISC-LawLLM mempunyai tiga keupayaan teras: Pasukan Universiti Fudan mengeluarkan DISC-LawLLM, sistem perundangan pintar China, untuk membina penanda aras penilaian kehakiman dan sumber terbuka 300,000 data diperhalusi

^{1 Keupayaan pemprosesan teks undang-undang asas. Memandangkan keupayaan asas yang berbeza dalam pemahaman dan penjanaan teks undang-undang, termasuk pengekstrakan maklumat, ringkasan teks, dsb., kami membina data yang diperhalusi berdasarkan data awam tugas kehakiman NLP sedia ada dan teks berkaitan undang-undang dunia sebenar.}
2. Keupayaan berfikir penaakulan undang-undang. Sebagai tindak balas kepada keperluan tugas dalam bidang kehakiman pintar, kami menggunakan silogisme undang-undang, proses penaakulan undang-undang asas hakim, untuk membina semula data arahan, dengan berkesan meningkatkan keupayaan penaakulan undang-undang model.

3 Keupayaan untuk mendapatkan dan mengikuti pengetahuan dalam bidang kehakiman adalah sangat penting. Apabila menyelesaikan masalah dalam bidang keadilan pintar, biasanya perlu mencari berdasarkan undang-undang latar belakang yang berkaitan atau kes masalah. Untuk meningkatkan keupayaan mendapatkan semula dan pematuhan sistem pemprosesan undang-undang pintar, kami telah melengkapkannya dengan modul peningkatan mendapatkan semula Rangka kerja keseluruhan model ditunjukkan dalam Rajah 5: Untuk pengguna yang berbeza

03. Kaedah: Pembinaan set data DISC-Law-SFT

Rajah 6 Struktur DISC-Law-SFT
Rajah 6 Struktur DISC-Law-SFT

kepada dua sub-dataset iaitu DISC-Law-SFT-Pair dan DISC-Law-SFT-Triplet memperkenalkan keupayaan penaakulan undang-undang kepada LLM, manakala yang kedua membantu meningkatkan keupayaan model untuk menggunakan pengetahuan luaran.
C Jadual 1: Kandungan dataset DISC-LAW-SFT Pengenalan

Sumber data

DISC-LAW-SFT data asalnya adalah satu daripada tiga bahagian data awam, adalah satu daripada set data awam A. set tugas kehakiman NLP yang berkaitan dengan undang-undang China, termasuk pengekstrakan maklumat undang-undang, pengekstrakan entiti dan perhubungan, ringkasan teks kehakiman, soalan dan jawapan peperiksaan kehakiman, pemahaman bacaan kehakiman, ramalan pertuduhan/ayat, dsb. kedua, ia mengumpul data berkaitan undang-undang dari dunia sebenar Teks asal, seperti undang-undang dan peraturan, kes kehakiman, dokumen penghakiman, peperiksaan berkaitan kehakiman, dsb. yang ketiga ialah set data sumber terbuka umum Kami menggunakan alpaca_gpt4_data_zh dan Firefly, yang boleh memperkayakan kepelbagaian set latihan dan mengurangkan kejadian model semasa fasa latihan SFT Risiko menurunkan keupayaan asas.

Pembinaan pasangan arahan

Selepas menukar data daripada sumber pertama dan kedua di atas kepada pasangan arahan "input-output", kami menggunakan tiga kaedah arahan berikut untuk menambah baik Kualiti data.

Membentuk tingkah laku

Dalam silogisme undang-undang, premis utama ialah peraturan undang-undang yang terpakai, premis kecil ialah fakta kes itu, dan kesimpulannya adalah penghakiman undang-undang. Ini merupakan proses penaakulan undang-undang asas untuk hakim. Setiap kes boleh dibuat kesimpulan yang jelas melalui silogisme, seperti berikut:
Premis utama: peraturan undang-undang
Premis kecil: fakta kes
Kesimpulan: penghakiman undang-undang
kita

Gunakan GPT-3.5-turbo untuk melengkapkan pembinaan semula pembentukan tingkah laku, memperhalusi output, dan memastikan bahawa setiap kesimpulan dibuat daripada klausa undang-undang dan fakta kes.

Peluasan Pengetahuan

Untuk soalan aneka pilihan di mana pembentukan tingkah laku tidak terpakai, kami melanjutkan output secara langsung dengan pengetahuan undang-undang untuk memberikan lebih banyak butiran penaakulan. Banyak peperiksaan berkaitan undang-undang dan pertandingan ilmu hanya menyediakan pilihan jawapan, kami menggunakan LLM untuk mengembangkan pengetahuan undang-undang yang terlibat, memberikan jawapan yang betul dan membina semula pasangan arahan.

Latihan berfikir

Chain of Thinking (CoT) telah terbukti berkesan meningkatkan keupayaan penaakulan model. Untuk memperkasakan lagi model dengan keupayaan penaakulan undang-undang, kami mereka bentuk rantai pemikiran dengan makna undang-undang khusus, yang dipanggil LCoT, yang memerlukan model menggunakan silogisme undang-undang untuk mendapatkan jawapan. LCoT menukar input
Kes: -Law-SFT-Triplet sub-dataset, data adalah triplet dalam bentuk
Kami menggunakan tiga strategi yang disenaraikan dalam pembinaan pasangan arahan untuk memproses data asal, mendapatkan input dan output, dan reka bentuk peraturan heuristik untuk diperoleh daripada maklumat rujukan Ekstrak asal daripada data. Proses latihan DISC-LawLLM dibahagikan kepada dua peringkat: SFT dan peningkatan pengambilan semula. . Untuk menyelesaikan masalah ini, kami mereka bentuk modul dapatkan semula untuk meningkatkan DISC-LawLLM.
Memandangkan input pengguna, retriever mengembalikan dokumen Top-K yang paling berkaitan daripada pangkalan pengetahuan dengan mengira persamaannya dengan input. Dokumen calon ini, bersama dengan input pengguna, dibina menggunakan templat yang direka oleh kami dan kemudian dimasukkan ke dalam DISC-LawLLM. Dengan menyoal pangkalan pengetahuan, model boleh lebih memahami premis utama, menghasilkan jawapan yang lebih tepat dan boleh dipercayai.

^🎜## 🎜🎜#Kaedah penilaian

#🎜 🎜#Tanda aras penilaian DISC-Law-Eval
#🎜 🎜#

#🎜🎜🎜🎜##🎜 🎜#
#🎜🎜🎜🎜🎜🎜 #🎜 -Eval, penanda aras penilaian sistem perundangan pintar yang adil, untuk menilai dari kedua-dua perspektif objektif dan subjektif, mengisi Pada masa ini tiada penanda aras untuk menilai secara menyeluruh jurang ini dalam sistem perundangan pintar.

... 🎜🎜#
Semakan objektif

#🎜 secara kuantitatif menilai secara objektif dan # Secara kuantitatif pengetahuan undang-undang dan keupayaan penaakulan sistem undang-undang pintar, kami mereka bentuk set data penilaian objektif, yang terdiri daripada satu siri soalan item tunggal dan aneka pilihan daripada peperiksaan piawai undang-undang Cina dan pertandingan pengetahuan, dan Mengikut kerumitan kandungan dan kesukaran tafsiran, soalan dibahagikan kepada tiga peringkat: sukar, biasa dan mudah. Ia boleh menyediakan cara yang lebih mencabar dan boleh dipercayai untuk mengukur sama ada model boleh menggunakan pengetahuannya untuk menaakul tentang jawapan yang betul. Kami menunjukkan prestasi dengan mengira ketepatan.

Ulasan subjektif
#🎜🎜🎜🎜🎜🎜🎜🎜

Dalam bahagian penilaian subjektif, kami menggunakan paradigma soal jawab untuk penilaian, mensimulasikan proses soalan peperiksaan subjektif. Kami membina sendiri set ujian berkualiti tinggi daripada perundingan undang-undang, forum dalam talian, penerbitan berkaitan keadilan dan dokumen undang-undang. Kami menggunakan GPT-3.5-turbo sebagai model pengadil untuk menilai output model dan memberikan skor dari 1 hingga 5 menggunakan tiga kriteria: ketepatan, kesempurnaan dan kejelasan.

Semakan keputusan

#🎜#
#🎜##🎜🎜🎜

Bandingkan model

akan menjadi model asas kami (Tanpa Undang-Undang LLM ) ) Bandingkan dengan 4 LLM am dan 4 LLM undang-undang Cina, termasuk GPT-3.5-turbo, ChatGLM-6B, Baichuan-13B-Chat, Chinese-Alpaca2-13B, LawGPT, Lawyer LLaMA, ChatLaw.
Hasil penilaian objektif
#🎜#
#🎜#
#🎜##🎜 #
DISC-LawLLM mengatasi semua model besar yang dibandingkan dengan saiz parameter yang setara dalam semua ujian pada tahap kesukaran yang berbeza. Walaupun dibandingkan dengan GPT-3.5-turbo dengan parameter 175B, DISC-LawLLM menunjukkan prestasi unggul pada beberapa ujian. Jadual 2 menunjukkan keputusan penilaian objektif, di mana huruf tebal menunjukkan keputusan terbaik dan garis bawah menunjukkan keputusan kedua terbaik.

… keputusan penilaian
# 🎜🎜#
Dalam penilaian objektif, DISC-LawLLM menerima skor keseluruhan tertinggi dan ketepatan tertinggi dalam ketepatan dan kejelasan mendapat markah tertinggi dalam kedua-dua kriteria. Jadual 3 menunjukkan keputusan penilaian subjektif, di mana huruf tebal menunjukkan keputusan terbaik.

🎜#
#🎜🎜🎜🎜#
🎜#
#🎜🎜🎜 ^{05 Ringkasan}

Kami mengeluarkan DISC-LawLLM, sebuah sistem perundangan yang bijak pelbagai senario aplikasi. Berdasarkan set data tugas NLP awam dalam bidang undang-undang, teks undang-undang asal dan set data arahan umum sumber terbuka, arahan undang-undang dibina semula mengikut silogisme undang-undang untuk penyeliaan dan penalaan halus. Untuk meningkatkan kebolehpercayaan output, kami menambah modul perolehan luaran. Dengan mempertingkatkan penaakulan undang-undang dan keupayaan mendapatkan pengetahuan, DISC-LawLLM mengatasi LLM undang-undang sedia ada pada set penanda aras undang-undang yang kami bina. Penyelidikan dalam bidang ini akan membawa lebih banyak prospek dan kemungkinan untuk mencapai keseimbangan sumber undang-undang, dsb. Kami telah mengeluarkan set data yang dibina dan pemberat model untuk mempromosikan penyelidikan lanjut.

Atas ialah kandungan terperinci Pasukan Universiti Fudan mengeluarkan DISC-LawLLM, sistem perundangan pintar China, untuk membina penanda aras penilaian kehakiman dan sumber terbuka 300,000 data diperhalusi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!