復旦大学のチームは、司法評価ベンチマークとオープンソースの30万件の微調整されたデータを構築するために、中国のスマートリーガルシステムであるDISC-LawLLMをリリースした-AI-php.cn

スマートな司法の台頭により、スマートな方法によって推進されるスマートな法制度は、さまざまなグループに利益をもたらすことが期待されています。たとえば、法律専門家向けの事務手続きの簡素化、一般向けの法律相談サービスの提供、法学生向けの学習および試験指導の提供などが挙げられます。

法律知識の独自性と司法業務の多様性により、これまでのスマート司法研究は主に特定の業務向けの自動アルゴリズムの設計に焦点を当てていましたが、これを法的知識に提供するのは困難でした。司法分野における支援サービスの需要は、実現にはほど遠い。大規模言語モデル (LLM) は、従来のさまざまなタスクにおいて強力な機能を実証しており、インテリジェントな法制度のさらなる発展に期待をもたらしています。

最近、復旦大学のデータインテリジェンスおよびソーシャルコンピューティング研究所 (FudanDISC) は、大規模な言語モデル DISC-LawLLM によって駆動される中国のスマート法律システムをリリースしました。このシステムは、さまざまなユーザーグループにさまざまな法的サービスを提供できます。さらに、研究室は、法言語モデルを客観的および主観的な側面から評価するための評価ベンチマーク DISC-Law-Eval を構築し、評価におけるモデルのパフォーマンスは、既存の大規模な法モデルと比較して明らかな利点を示しました。

研究チームは、300,000 個の DISC-Law-SFT を含む高品質の教師あり微調整 (SFT) データセットもリリースしました。モデルパラメーターと技術レポートも公開されています。オープンソース。

復旦大学のチームは、司法評価ベンチマークとオープンソースの30万件の微調整されたデータを構築するために、中国のスマートリーガルシステムであるDISC-LawLLMをリリースした

ホームページアドレス: https://law.fudan-disc.com
Github アドレス: https://github.com/FudanDISC/DISC-LawLLM
技術レポート: https://arxiv.org/abs/2309.11325

01 サンプル表示

#ユーザーが法的な質問がある場合、モデルを参照して説明することができます。質問すると、モデルは関連する法規制と説明、推奨される解決策などを提供します。

^{司法機関はモデルを使用して法的文章の要約、裁判事件の検出、エンティティと関係の抽出などを完了し、事務処理を削減し、作業を改善できます。効率。}

図 2 司法文書の分析

復旦大学のチームは、司法評価ベンチマークとオープンソースの30万件の微調整されたデータを構築するために、中国のスマートリーガルシステムであるDISC-LawLLMをリリースした

##Q は司法審査プロセスの準備をしていますでは、モデルに質問して、法的知識を強化し、法的試験の問題に答えることができます。

法的規定によりサポートされている場合、モデルは質問に基づいてナレッジベース内の関連コンテンツを検索し、回答します。

# 02 disc-lawllmの紹介

disc-lawllm一般分野で構築した高品質データセット DISC-Law-SFT をベースにしています中国大型モデル Baichuan -13B のフルパラメータコマンドを微調整することで得られる大型法定モデル。私たちのトレーニングデータとトレーニング方法は、あらゆる基本的な大規模モデルに適応できることは注目に値します。

復旦大学のチームは、司法評価ベンチマークとオープンソースの30万件の微調整されたデータを構築するために、中国のスマートリーガルシステムであるDISC-LawLLMをリリースした #DISC-LawLLM には 3 つのコア機能があります:

#1. 基本的な法的テキスト処理機能。情報抽出、文章の要約など、法文の理解と生成のさまざまな基本機能を考慮して、既存の NLP 司法タスクの公開データと現実世界の法律関連のテキストに基づいて、微調整されたデータを構築しました。＃＃＃＃２法的推論的思考力。スマート司法分野のタスクのニーズに応えて、裁判官の基本的な法的推論プロセスである法的三段論法を使用して指示データを再構築し、モデルの法的推論能力を効果的に向上させました。

3. 司法分野の知識を検索して追跡する能力は非常に重要です。スマートジャスティスの分野で問題を解決する場合、通常、問題の背景にある法律や事例に基づいて検索する必要があります。インテリジェント法務処理システムの検索機能とコンプライアンス機能を強化するために、検索機能強化モジュールを搭載しました。

モデルの全体的なフレームワークを図 5 に示します。

復旦大学のチームは、司法評価ベンチマークとオープンソースの30万件の微調整されたデータを構築するために、中国のスマートリーガルシステムであるDISC-LawLLMをリリースした # disc-law-sft

＃図6の構造の構造の構造を設定しますDISC-Law-SFT

DISC-Law-SFT は、DISC-Law-SFT-Pair と DISC- という 2 つのサブデータセットに分割されています。 Law-SFT-Triplet: 前者は LLM 機能に法的推論を導入し、後者は外部知識を利用するモデルの能力を向上させるのに役立ちます。復旦大学のチームは、司法評価ベンチマークとオープンソースの30万件の微調整されたデータを構築するために、中国のスマートリーガルシステムであるDISC-LawLLMをリリースした

^{表 1: DISC-Law-SFT データセットの内容の概要}

##データソース

DISC-Law-SFT データセットのデータは 3 つの部分から構成されており、最初は NLP 司法タスク公開データセットです。法律情報の抽出、実体と関係の抽出、司法文章の要約、司法試験の質問と回答、司法読解、犯罪/量刑の予測などを含む中国法に関連するものであり、第二に、現実世界から法律関連の原文を収集します。、法令、裁判例、判決文書など、司法関連試験など、3 番目は一般的なオープンソースデータセットです。alpaca_gpt4_data_zh と Firefly を使用しました。 SFT トレーニング段階でモデルの基本的な機能が低下するリスク。

上記のものを構築するための指示

ソースデータが「入出力」命令ペアに変換された後、データ品質を向上させるために、次の 3 つの方法を使用して命令データを再構築します。

行動形成

法律三段論法では、大規模な大前提は適用される法的規則であり、小前提は事件の事実であり、結論は法的判決です。これは裁判官にとっての基本的な法的推論プロセスを構成します。すべての事件は、次のような三段論法を通じて明確な結論に導くことができます。
大前提: 法的規則
小前提: 事件の事実
結論: 法的判断

GPT-3.5-turboを使用して、行動形成出力の再構築と洗練を完了します。、それぞれの結論が法的規定と事件の事実から導き出されるようにします。

#知識の拡張

行動形成には適用されません多肢選択式の質問では、法律知識を直接使用して出力を拡張し、推論の詳細を提供します。多くの法律関連の試験や知識コンテストでは解答の選択肢のみが提供されますが、当社では LLM を使用して、関連する法律知識を拡張し、正解を提供し、指導ペアを再構築します。

思考の育成

思考の連鎖 (CoT)モデルの推論能力を効果的に向上させることが証明されています。モデルに法的推論機能をさらに強化するために、LCoT と呼ばれる特定の法的意味を持つ思考チェーンを設計しました。これには、モデルが法的三段論法を使用して答えを導き出すことが必要です。 LCoTは入力ジャッジを変換します。
ケース: ##命令トリプレットの構築
検索拡張モデルをトレーニングするために、DISC-Law-SFT-Triplet を構築しました。サブデータセット、データは # # 形式のトリプルです。命令ペアの構築にリストされている 3 つの戦略を使用して、元のデータを処理し、入力と出力を取得し、元のデータから参照情報を抽出するためのヒューリスティックルールを設計します。
#04 実験

##トレーニング

DISC-LawLLM のトレーニングプロセスは、SFT と検索強化の 2 つの段階に分かれています。

#検索の強化

高品質の命令データは LLM を微調整しますが、幻覚や古い知識により不正確な応答が生成される可能性があります。この問題を解決するために、DISC-LawLLM を強化する検索モジュールを設計しました。
ユーザー入力が与えられると、取得者は入力との類似性を計算することにより、ナレッジベースから最も関連性の高い Top-K ドキュメントを返します。これらの候補文書は、ユーザー入力とともに、当社が設計したテンプレートを使用して構築され、DISC-LawLLM に入力されます。ナレッジベースにクエリを実行することで、モデルは主な前提条件をより深く理解できるようになり、より正確で信頼性の高い回答が得られます。

^{図 7: 取得強化された DISC-LawLLM}

評価方法

評価ベンチマーク DISC-Law-Eval

当社は DISC-を構築しました。 Law-Evalは、公平なスマートリーガルシステム評価ベンチマークであり、スマートリーガルシステムを総合的に評価するベンチマークが存在しない現状を補い、客観的・主観的両面から評価を行います。

^{図 8: DISC-Law-Eval 評価ベンチマーク}

客観的評価

インテリジェント法システムの法的知識と推論能力を客観的かつ定量的に評価するために、客観的な評価データセットは、中国の法律標準試験および知識コンテストからの一連の単一項目および多肢選択問題で構成されており、問題は内容の複雑さと演繹的難易度に基づいて、難しい、普通、簡単の 3 つのレベルに分類されます。これは、モデルがその知識を使用して正しい答えを推論できるかどうかを測定する、より挑戦的で信頼性の高い方法を提供します。精度を計算して性能を実証します。

#主観評価

主観評価の部分については、評価は質疑応答のパラダイムで実施され、主観的な試験問題のプロセスをシミュレートします。私たちは、法律相談、オンラインフォーラム、司法関連の出版物、法的文書から高品質のテストセットを手作業で構築しました。 GPT-3.5-turbo を審判モデルとして使用してモデルの出力を評価し、精度、完全性、明瞭さの 3 つの基準を使用して 1 から 5 のスコアを提供します。

#評価結果

##比較モデル

#モデル DISC-LawLLM (外部知識ベースなし) を、GPT-3.5-turbo、ChatGLM-6B、Baichuan を含む 4 つの一般 LLM および 4 つの中国の法律 LLM と比較します。 -13B-チャット、中国人-Alpaca2-13B; LexiLaw、LawGPT、弁護士 LLaMA、ChatLaw。

#客観的な評価結果

DISC-LawLLM 全体パラメータ数が等しい大規模モデルは、さまざまな難易度のテストですべての比較を上回りました。 175B パラメータの GPT-3.5-turbo と比較しても、DISC-LawLLM はいくつかのテストで優れたパフォーマンスを示します。客観的な評価結果を表 2 に示します。太字は最良の結果、下線は次に良い結果を示します。

#＃表2：客観的評価結果
##主観的評価結果#＃

客観的なレビューでは、DISC-LawLLM が最高の総合スコアと、正確さと明確さの 2 つの基準で最高のスコアを獲得しました。主観評価結果を表３に示す。太字は最良の結果を示す。

#＃表3：主観的評価結果

^{05 概要}

当社は、複数のアプリケーションシナリオで法務サービスを提供するインテリジェント法務システム DISC-LawLLM をリリースしました。法務分野の公開 NLP タスクデータセット、元の法文書、およびオープンソースの一般指示データセットに基づいて、法的指示は、監督と微調整のために法的三段論法に従って再構築されます。出力の信頼性を向上させるために、外部検索モジュールを追加しました。 DISC-LawLLM は、法的推論と知識の検索機能を向上させることにより、当社が構築した法的ベンチマークセットにおいて既存の法的 LLM よりも優れたパフォーマンスを発揮します。この分野の研究は、法的資源のバランスなどを達成するためのより多くの見通しと可能性をもたらします。私たちは、さらなる研究を促進するために、構築されたデータセットとモデル重みを公開しました。