在駱駝基準中使用自定義指標的增強模型評估-人工智慧-PHP中文網

在本指南中，我將介紹添加自定義評估指標Tollama-Factory的過程。 Llama-Factory是一種多功能工具，可讓用戶輕鬆調整大型語言模型（LLMS），這要歸功於其用戶友好的WebUI和全面的腳本集，用於培訓，部署和評估模型。 Llama-Factory Isllama董事會的關鍵功能，這是一個集成的儀表板，還顯示了評估指標，為模型性能提供了寶貴的見解。儘管默認情況下可用標準指標，但添加自定義指標的功能使我們能夠以與我們的特定用例直接相關的方式評估模型。

我們還將介紹在Llama板上創建，集成和可視化定制度量的步驟。通過遵循本指南，您將能夠監視根據需求量量身定制的其他指標，無論您對特定領域的精度，細微差別的錯誤類型還是以用戶為中心的評估感興趣。這種自定義使您更有效地評估模型性能，以確保其與應用程序的獨特目標保持一致。讓我們潛入！

學習成果

了解如何在美洲駝（Llama-Factory）中定義和集成自定義評估指標。
獲得修改度量的實用技能，以包括定制指標。
學會在美洲駝板上可視化自定義指標以獲得增強的模型見解。
獲取有關定制模型評估的知識，以與特定的項目需求保持一致。
探索使用個性化指標來監視特定域模型性能的方法。

本文作為數據科學博客馬拉鬆的一部分發表。

什麼是駱駝基品？

由Hiyouga開發的Llama-Factory是一個開源項目，使用戶可以通過用戶友好的WebUI接口微調語言模型。它提供了一套完整的工具和腳本，用於微調，構建聊天機器人，服務和基準測試LLM。

Llama-Factory考慮了初學者和非技術用戶的設計，簡化了在自定義數據集中微調開源LLMS的過程，從而消除了需要掌握複雜AI概念的需求。用戶可以簡單地選擇一個模型，上傳其數據集並調整一些設置以開始培訓。

完成後，Web應用程序還允許測試模型，從而提供了一種快速有效的方法來微調本地機器上的LLM。

儘管標準指標為微調模型的一般性能提供了寶貴的見解，但自定義指標提供了一種直接評估模型在特定用例中的有效性的方法。通過量身定制指標，您可以更好地衡量該模型符合通用指標可能忽略的獨特要求的程度。自定義指標是無價的，因為它們具有靈活性來創建和跟踪與實際需求相符的專門協調的措施，從而基於相關的可測量標準可以持續改進。這種方法允許針對特定於域的精度，加權重要性和用戶體驗對齊方式進行有針對性的關注。

開始使用美洲駝基因

在此示例中，我們將使用Python環境。確保您的Python 3.8或更高，並且根據存儲庫要求安裝了必要的依賴項。

安裝

我們將首先安裝所有要求。

 git克隆-Depth 1 https://github.com/hiyouga/llama-factory.git
CD Llama-Factory
PIP安裝-E。[火炬，指標]”

登入後複製

與Llama董事會GUI進行微調（由Gradio提供動力）

 LlamaFactory-Cli Webui

登入後複製

注意：您可以在GitHub上的更多詳細信息找到官方設置指南。

了解駱駝基準中的評估指標

了解Llama-Factory提供的默認評估指標，例如Bleu和Rouge分數，以及為什麼它們對於評估模型性能至關重要。本節還介紹了自定義指標的價值。

BLEU得分

BLEU（雙語評估研究）得分是一種度量標準，用於評估機器翻譯模型與參考文獻（或人類翻譯）文本產生的文本質量。 BLEU評分主要評估生成的翻譯與一個或多個參考翻譯的相似程度。

胭脂得分

Rouge（以召回式評估為導向的研究）得分是一組指標，用於通過比較它們與參考摘要來評估文本摘要的質量。它被廣泛用於摘要任務，並測量生成文本和參考文本之間的單詞和短語的重疊。

這些指標默認情況下可用，但是您還可以添加針對特定用例量身定制的定制指標。

添加自定義指標的先決條件

本指南假定您的機器上已經設置了Fertactory。如果沒有，請參閱Llama-Factory文檔進行安裝和設置。

在此示例中，該函數返回0到1之間的隨機值以模擬精度得分。但是，您可以根據您的特定要求來替換自己的評估邏輯，以計算和返回準確值（或任何其他指標）。這種靈活性使您可以定義更好地反映用例的自定義評估標準。

定義您的自定義指標

首先，讓我們創建一個稱為custom_metric.py的python文件，並在其中定義我們的自定義度量函數。

在此示例中，我們的自定義指標稱為x _score 。該度量標準將將PERDS （預測值）和標籤（地面真實值）作為輸入，並根據您的自定義邏輯返回分數。

導入隨機

def cal_x_score（preds，標籤）：
    ”“”
    計算自定義度量評分。

    參數：
    Preds-預測值列表
    標籤 - 地面真相列表

    返回：
    得分 - 根據您的要求，隨機值或自定義計算
    ”“”
    ＃自定義度量計算邏輯轉到這裡
    
    ＃示例：返回0和1之間的隨機分數
    返回隨機均勻（0，1）

登入後複製

您可以用特定的計算邏輯替換隨機分數。

modifyingsft/metric.pyto整合自定義度量標準

為了確保Llama董事會認可我們的新指標，我們需要將其集成到SRC/LlamaFactory/Train/sft/Metric.py的指標計算管道中

將您的指標添加到分數字典中：

在sft/metric.py中找到eComputesimerityFunction
更新self.score_dict以包含您的新指標，如下所示：

 self.score_dict = {
    “ Rouge-1”：[]，
    “ Rouge-2”：[]，
    “ bleu-4”：[]，，
    “ x_score”：[]＃在此處添加您的自定義指標
}

登入後複製

在駱駝基準中使用自定義指標的增強模型評估

計算和附加__call__ -method中的自定義指標：

在__call__方法中，計算您的自定義度量標準並將其添加到Score_dict中。這是如何做到這一點的示例：

來自.custom_metric導入cal_x_score
def __call __（self，preds，標籤）：
    ＃計算自定義度量分數
    custom_score = cal_x_score（preds，標籤）
    ＃分數詞典中的分數將分數附加到“ extra_metric”
    self.score_dict [“ x_score”]。附錄（custom_score * 100）

登入後複製

此集成步驟對於自定義指標出現在美洲駝板上至關重要。

在駱駝基準中使用自定義指標的增強模型評估