復旦大學團隊發表中文智慧法律系統DISC-LawLLM，建構司法評測基準，開源30萬微調數據-人工智慧-PHP中文網

隨著智慧司法的興起，以智慧化方法驅動的智慧法律系統可望惠及不同群體。例如，為法律專業人員減輕文書工作，為一般民眾提供法律諮詢服務，為法學學生提供學習和考試輔導。

由於法律知識的獨特性和司法任務的多樣性，先前的智慧司法研究方面主要著眼於為特定任務設計自動化演算法，難以滿足對司法領域提供支撐性服務的需求，離應用落地有不小的距離。而大型語言模型（LLMs）在不同的傳統任務上展現出強大的能力，為智慧法律系統的進一步發展帶來希望。

近日，復旦大學資料智慧與社會運算實驗室（FudanDISC）發表大語言模式驅動的中文智慧法律系統 ——DISC-LawLLM。該系統可以面向不同使用者群體，提供多元的法律服務。此外，實驗室也建構了評測基準 DISC-Law-Eval，從客觀和主觀兩個面向來評測法律大語言模型，模型在評測中的表現相較現有的法律大模型有明顯優勢。

主題組同時公開包含 30 萬高品質的監督微調（SFT）資料集 ——DISC-Law-SFT，模型參數和技術報告也一併開源。

復旦大學團隊發表中文智慧法律系統DISC-LawLLM，建構司法評測基準，開源30萬微調數據

主頁網址：https://law.fudan-disc.com
Github 網址： https://github.com/FudanDISC/DISC-LawLLM
#技術報告：https://arxiv.org/abs/2309.11325

#01 範例展示

#用戶有法律上的疑問時，可以向模型諮詢，描述疑問，模型會給予相關的法律規定和解釋、建議的解決方案等。

復旦大學團隊發表中文智慧法律系統DISC-LawLLM，建構司法評測基準，開源30萬微調數據

^{圖1 法律諮詢示例}

專業法律者和司法機關，可以利用模型完成法律文本摘要、司法事件偵測、實體和關係抽取等，減輕文書工作，提高工作效率。復旦大學團隊發表中文智慧法律系統DISC-LawLLM，建構司法評測基準，開源30萬微調數據

^{中，可以向模型提出問題，幫助鞏固法律知識，並解答法律考試題。}

之後排上法條做支撐時，模型會根據問題在知識庫中檢索相關內容，給予回應。

復旦大學團隊發表中文智慧法律系統DISC-LawLLM，建構司法評測基準，開源30萬微調數據

^{圖4 檢索增強場景下的對話}

02 DISC-LawLLM 簡介

復旦大學團隊發表中文智慧法律系統DISC-LawLLM，建構司法評測基準，開源30萬微調數據

^{DISC-LawLLM 是基於我們建構的高品質資料集DISC-Law-SFT 在通用領域中中文大模式Baichuan -13B 上進行全參指令微調所得的法律大模型。值得注意的是，我們的訓練資料和訓練方法可以被適配到任何基座大模型之上。}

DISC-LawLLM 有三個核心能力：

1. 基礎的法律文本處理能力。針對法律文本理解與生成的不同基礎能力，包括資訊抽取、文本摘要等，我們基於現有的 NLP 司法任務公開數據和真實世界的法律相關文本進行了微調數據的建構。

2. 法律推理思考能力。針對智慧司法領域任務的需求，我們使用法律三段論這一法官的基本法律推理過程重構了指令數據，有效地提高了模型的法律推理能力。

3. 司法領域知識檢索遵循能力非常重要。在解決智慧司法領域的問題時，通常需要根據問題的相關背景法條或案例進行檢索。為了增強智慧法律處理系統的檢索和遵循能力，我們為其配備了檢索增強的模組

模型的整體框架如圖5 所示：

復旦大學團隊發表中文智慧法律系統DISC-LawLLM，建構司法評測基準，開源30萬微調數據

^{圖5 模型在不同的法律場景下服務於不同的用戶}

03 方法：數據集合DISC-Law-SFT 的構念

復旦大學團隊發表中文智慧法律系統DISC-LawLLM，建構司法評測基準，開源30萬微調數據

## 系統

DISC-Law-SFT 分成兩個子資料集，分別是DISC-Law-SFT-Pair 和DISC-Law-SFT-Triplet，前者在LLM 中引入了法律推理能力，而後者則有助於提升模型利用外部知識的能力。

^{表上中：DISC-Law-SFT 資料集內容說明}

DISC-Law-SFT 資料集的資料來自三部分，一是與中國法律相關的NLP 司法任務公開資料集，包括法律資訊抽取、實體與關係抽取、司法文本摘要、司法考試問答、司法閱讀理解、罪名/ 刑期預測等；二是收集了來自真實世界的法律相關的原始文本，如法律法規、司法案件、裁判文書、司法相關的考試等；三是通用的開源資料集，我們使用了alpaca_gpt4_data_zh 和Firefly，這樣可以豐富訓練集的多樣性，減輕模型在SFT 訓練階段出現基礎能力降級的風險。

指令對建構

#對上述一、二來源的資料轉換為「輸入- 輸出」指令對後，我們採用以下三種方式對指令資料重構，以提高資料品質。

行為塑造

#大前提：法律規則

小前提：案件事實

結論：法律判斷

#我們利用GPT-3.5-turbo 來完成行為塑造的重構，精進輸出，確保每個結論都從一個法律條款和一個案例事實中得出。

知識擴充

思維培養

在法律三段論中，大前提是適用的法律規則，小前提是案件事實，結論是對案件的法律判斷。

案例：X

讓我們用法律三段論來思考與輸出判斷：

##指令三元組建構

為了訓練檢索增強後的模型，我們建構了DISC-Law-SFT-Triplet 子資料集，資料為
形式的三元組，我們使用指令對建構中列出的三種策略對原始資料進行處理，獲得輸入和輸出，並設計啟發式規則來從原始資料中提取參考資訊。

04 實驗

訓練

DISC-LawLLM 的訓練過程分為SFT 和檢索增強兩個階段。

檢索增強

#雖然我們使用了高品質的指令數據對LLM 進行微調，但它可能會由於幻覺或過時的知識而產生不準確的反應。為了解決這個問題，我們設計了一個檢索模組來增強 DISC-LawLLM。

^{圖7中：擷取中增強的DISC-1}

評測基準DISC-Law-Eval

##我們建構了一個公平的智慧法律系統評估基準DISC-Law-Eval，從客觀和主觀的角度來評估，填補了目前還沒有基準來對智慧法律體系全面評估這一空白。

勾選

##客觀評測

復旦大學團隊發表中文智慧法律系統DISC-LawLLM，建構司法評測基準，開源30萬微調數據

為了客觀、定量地評估智慧法律系統的法律知識和推理能力，我們設計了一個客觀的評估資料集，由一系列中國法律標準化考試和知識競賽的單一項目和多項選擇題組成，並根據內容複雜性和演繹難度，將問題分為困難、正常和容易三個層次。它可以提供一個更具挑戰性和可靠的方法來衡量模型是否可以利用其知識來推理正確的答案。我們透過計算精度來表明性能。

主觀評測

#主觀評測部分，我們採用問答的範式進行評估，模擬主觀考試問題的過程。我們從法律諮詢、線上論壇、與司法相關的出版物和法律文件中手工建立了一個高品質的測試集。我們以 GPT- 3.5-turbo 作為裁判模型來評估模型的輸出，並以準確性、完整性和清晰度這三個標準提供 1 到 5 的評分。

評測結果

比較模型

將我們的模型DISC-LawLLM (不外接知識庫) 與4 個通用LLM 和4 個中文法律LLM 進行比較，包括GPT-3.5-turbo 、ChatGLM-6B 、Baichuan-13B-Chat 、Chinese-Alpaca2-13B ；LexiLaw 、LawGPT、Lawyer LLaMA、ChatLaw 。

客觀評測結果

DISC-LawLLM 在所有不同難度等級的測試中超過所有比較的同等參數量的大模型。即使與具有 175B 參數的 GPT- 3.5-turbo 相比，DISC-LawLLM 在部分測試上也表現出了更優越的性能。表 2 是客觀評測結果，其中加粗表示最佳結果，底線表示次佳結果。

與「

# #05 總結

復旦大學團隊發表中文智慧法律系統DISC-LawLLM，建構司法評測基準，開源30萬微調數據我們發布了DISC-LawLLM，一個提供多重應用情境下法律服務的智慧法律系統。基於公開的法律領域 NLP 任務資料集、法律原始文本和開源通用指令資料集，按照法律三段論重構了法律指令進行監督微調。為了提高輸出的可靠性，我們加入了一個外部檢索模組。透過提高法律推理和知識檢索能力，DISC-LawLLM 在我們建構的法律基準評測集上優於現有的法律 LLM。該領域的研究將為實現法律資源平衡等帶來更多前景和可能性，我們發布了所建構的資料集和模型權重，以促進進一步的研究。

以上是復旦大學團隊發表中文智慧法律系統DISC-LawLLM，建構司法評測基準，開源30萬微調數據的詳細內容。更多資訊請關注PHP中文網其他相關文章！