首頁 > 科技週邊 > 人工智慧 > 在駱駝基準中使用自定義指標的增強模型評估

在駱駝基準中使用自定義指標的增強模型評估

Lisa Kudrow
發布: 2025-03-19 10:40:15
原創
518 人瀏覽過

在本指南中,我將介紹添加自定義評估指標Tollama-Factory的過程。 Llama-Factory是一種多功能工具,可讓用戶輕鬆調整大型語言模型(LLMS),這要歸功於其用戶友好的WebUI和全面的腳本集,用於培訓,部署和評估模型。 Llama-Factory Isllama董事會的關鍵功能,這是一個集成的儀表板,還顯示了評估指標,為模型性能提供了寶貴的見解。儘管默認情況下可用標準指標,但添加自定義指標的功能使我們能夠以與我們的特定用例直接相關的方式評估模型。

我們還將介紹在Llama板上創建,集成和可視化定制度量的步驟。通過遵循本指南,您將能夠監視根據需求量量身定制的其他指標,無論您對特定領域的精度,細微差別的錯誤類型還是以用戶為中心的評估感興趣。這種自定義使您更有效地評估模型性能,以確保其與應用程序的獨特目標保持一致。讓我們潛入!

學習成果

  • 了解如何在美洲駝(Llama-Factory)中定義和集成自定義評估指標。
  • 獲得修改度量的實用技能,以包括定制指標。
  • 學會在美洲駝板上可視化自定義指標以獲得增強的模型見解。
  • 獲取有關定制模型評估的知識,以與特定的項目需求保持一致。
  • 探索使用個性化指標來監視特定域模型性能的方法。

本文作為數據科學博客馬拉鬆的一部分發表

目錄

  • 學習成果
  • 什麼是駱駝基品?
  • 開始使用美洲駝基因
  • 了解駱駝基準中的評估指標
  • 添加自定義指標的先決條件
  • 定義您的自定義指標
  • 修改sft/metric.py以整合自定義度量標準
  • 結論
  • 常見問題

什麼是駱駝基品?

由Hiyouga開發的Llama-Factory是一個開源項目,使用戶可以通過用戶友好的WebUI接口微調語言模型。它提供了一套完整的工具和腳本,用於微調,構建聊天機器人,服務和基準測試LLM。

Llama-Factory考慮了初學者和非技術用戶的設計,簡化了在自定義數據集中微調開源LLMS的過程,從而消除了需要掌握複雜AI概念的需求。用戶可以簡單地選擇一個模型,上傳其數據集並調整一些設置以開始培訓。

完成後,Web應用程序還允許測試模型,從而提供了一種快速有效的方法來微調本地機器上的LLM。

儘管標準指標為微調模型的一般性能提供了寶貴的見解,但自定義指標提供了一種直接評估模型在特定用例中的有效性的方法。通過量身定制指標,您可以更好地衡量該模型符合通用指標可能忽略的獨特要求的程度。自定義指標是無價的,因為它們具有靈活性來創建和跟踪與實際需求相符的專門協調的措施,從而基於相關的可測量標準可以持續改進。這種方法允許針對特定於域的精度,加權重要性和用戶體驗對齊方式進行有針對性的關注。

開始使用美洲駝基因

在此示例中,我們將使用Python環境。確保您的Python 3.8或更高,並且根據存儲庫要求安裝了必要的依賴項。

安裝

我們將首先安裝所有要求。

 git克隆-Depth 1 https://github.com/hiyouga/llama-factory.git
CD Llama-Factory
PIP安裝-E。[火炬,指標]”
登入後複製

與Llama董事會GUI進行微調(由Gradio提供動力)

 LlamaFactory-Cli Webui
登入後複製

注意:您可以在GitHub上的更多詳細信息找到官方設置指南。

了解駱駝基準中的評估指標

了解Llama-Factory提供的默認評估指標,例如Bleu和Rouge分數,以及為什麼它們對於評估模型性能至關重要。本節還介紹了自定義指標的價值。

BLEU得分

BLEU(雙語評估研究)得分是一種度量標準,用於評估機器翻譯模型與參考文獻(或人類翻譯)文本產生的文本質量。 BLEU評分主要評估生成的翻譯與一個或多個參考翻譯的相似程度。

胭脂得分

Rouge(以召回式評估為導向的研究)得分是一組指標,用於通過比較它們與參考摘要來評估文本摘要的質量。它被廣泛用於摘要任務,並測量生成文本和參考文本之間的單詞和短語的重疊。

這些指標默認情況下可用,但是您還可以添加針對特定用例量身定制的定制指標。

添加自定義指標的先決條件

本指南假定您的機器上已經設置了Fertactory。如果沒有,請參閱Llama-Factory文檔進行安裝和設置。

在此示例中,該函數返回0到1之間的隨機值以模擬精度得分。但是,您可以根據您的特定要求來替換自己的評估邏輯,以計算和返回準確值(或任何其他指標)。這種靈活性使您可以定義更好地反映用例的自定義評估標準。

定義您的自定義指標

首先,讓我們創建一個稱為custom_metric.py的python文件,並在其中定義我們的自定義度量函數。

在此示例中,我們的自定義指標稱為x _score 。該度量標準將將PERDS (預測值)和標籤(地面真實值)作為輸入,並根據您的自定義邏輯返回分數。

導入隨機

def cal_x_score(preds,標籤):
    ”“”
    計算自定義度量評分。

    參數:
    Preds-預測值列表
    標籤 - 地面真相列表

    返回:
    得分 - 根據您的要求,隨機值或自定義計算
    ”“”
    #自定義度量計算邏輯轉到這裡
    
    #示例:返回0和1之間的隨機分數
    返回隨機均勻(0,1)
登入後複製

您可以用特定的計算邏輯替換隨機分數。

modifyingsft/metric.pyto整合自定義度量標準

為了確保Llama董事會認可我們的新指標,我們需要將其集成到SRC/LlamaFactory/Train/sft/Metric.py的指標計算管道中

將您的指標添加到分數字典中:

  • sft/metric.py中找到eComputesimerityFunction
  • 更新self.score_dict以包含您的新指標,如下所示:
 self.score_dict = {
    “ Rouge-1”:[],
    “ Rouge-2”:[],
    “ bleu-4”:[],,
    “ x_score”:[]#在此處添加您的自定義指標
}
登入後複製

在駱駝基準中使用自定義指標的增強模型評估

計算和附加__call__ -method中的自定義指標:

  • __call__方法中,計算您的自定義度量標準並將其添加到Score_dict中。這是如何做到這一點的示例:
來自.custom_metric導入cal_x_score
def __call __(self,preds,標籤):
    #計算自定義度量分數
    custom_score = cal_x_score(preds,標籤)
    #分數詞典中的分數將分數附加到“ extra_metric”
    self.score_dict [“ x_score”]。附錄(custom_score * 100)
登入後複製

此集成步驟對於自定義指標出現在美洲駝板上至關重要。

在駱駝基準中使用自定義指標的增強模型評估

在駱駝基準中使用自定義指標的增強模型評估

現在,預測_x_score度量已成功出現,顯示該模型和驗證數據集的精度為93.75%。這種集成為您提供了一種直接評估評估管道中的每個微調模型的簡單方法。

結論

設置自定義度量標准後,運行評估管道後,您應該在Llama板上看到它。 Extra MetricsCores將為每個評估更新。

通過這些步驟,您已成功將自定義評估指標集成到Llama-Factory中!此過程使您可以靈活地超越默認指標,並量身定制模型評估以滿足您項目的獨特需求。通過定義和實施特定於用例的指標,您可以獲得對模型性能的更有意義的見解,突出了優勢和領域,以改善對目標最重要的方式。

添加自定義指標還可以連續改進循環。當您對新數據進行微調和訓練模型或修改參數時,這些個性化的指標提供了一種一致的評估進度方法。無論您的重點是特定於域的準確性,用戶體驗對齊方式還是細微的評分方法,Llama董事會都提供了一種視覺和定量的方法來比較和跟踪這些結果隨著時間的流逝。

通過使用自定義指標增強模型評估,Llama-Factory可以使您可以做出數據驅動的決策,精確地提高模型,並更好地將結果與現實世界應用更好地對齊。這種自定義能力使您能夠創建有效性能,優化相關目標的模型,並在實際部署中提供附加價值。

關鍵要點

  • Llama-Factory中的自定義指標通過使模型評估與獨特的項目需求保持一致來增強模型評估。
  • Llama板可以輕鬆地可視化自定義指標,從而更深入地了解模型性能。
  • 修改度量。Py可以實現自定義評估標準的無縫集成。
  • 個性化指標支持持續改進,將評估調整為不斷發展的模型目標。
  • 調整度量指標能夠賦予數據驅動的決策,從而優化現實世界應用的模型。

常見問題

Q1。什麼是駱駝基品?

A. Llama-Factory是通過用戶友好的WebUI微調大型語言模型的開源工具,具有用於培訓,部署和評估模型的功能。

Q2。為什麼要添加自定義評估指標?

答:自定義指標允許您根據特定用例的標準評估模型性能,提供標準指標可能無法捕獲的見解。

Q3。如何創建自定義指標?

答:在Python文件中定義您的指標,並指定如何根據數據計算性能的邏輯。

Q4。我在哪裡可以將自定義指標集成到駱駝基準中?

答:將您的指標添加到SFT/Metric.py文件中,並更新分數字典和計算管道以包括它。

Q5。我的定制指標會出現在駱駝板上嗎?

答:是的,一旦整合了自定義指標,Llama板就會顯示它,從而使您可以與其他指標一起將其結果可視化。

本文所示的媒體不由Analytics Vidhya擁有,並由作者酌情使用。

以上是在駱駝基準中使用自定義指標的增強模型評估的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板