在本指南中,我将介绍添加自定义评估指标Tollama-Factory的过程。 Llama-Factory是一种多功能工具,可让用户轻松调整大型语言模型(LLMS),这要归功于其用户友好的WebUI和全面的脚本集,用于培训,部署和评估模型。 Llama-Factory Isllama董事会的关键功能,这是一个集成的仪表板,还显示了评估指标,为模型性能提供了宝贵的见解。尽管默认情况下可用标准指标,但添加自定义指标的功能使我们能够以与我们的特定用例直接相关的方式评估模型。
我们还将介绍在Llama板上创建,集成和可视化定制度量的步骤。通过遵循本指南,您将能够监视根据需求量量身定制的其他指标,无论您对特定领域的精度,细微差别的错误类型还是以用户为中心的评估感兴趣。这种自定义使您更有效地评估模型性能,以确保其与应用程序的独特目标保持一致。让我们潜入!
本文作为数据科学博客马拉松的一部分发表。
由Hiyouga开发的Llama-Factory是一个开源项目,使用户可以通过用户友好的WebUI接口微调语言模型。它提供了一套完整的工具和脚本,用于微调,构建聊天机器人,服务和基准测试LLM。
Llama-Factory考虑了初学者和非技术用户的设计,简化了在自定义数据集中微调开源LLMS的过程,从而消除了需要掌握复杂AI概念的需求。用户可以简单地选择一个模型,上传其数据集并调整一些设置以开始培训。
完成后,Web应用程序还允许测试模型,从而提供了一种快速有效的方法来微调本地机器上的LLM。
尽管标准指标为微调模型的一般性能提供了宝贵的见解,但自定义指标提供了一种直接评估模型在特定用例中的有效性的方法。通过量身定制指标,您可以更好地衡量该模型符合通用指标可能忽略的独特要求的程度。自定义指标是无价的,因为它们具有灵活性来创建和跟踪与实际需求相符的专门协调的措施,从而基于相关的可测量标准可以持续改进。这种方法允许针对特定于域的精度,加权重要性和用户体验对齐方式进行有针对性的关注。
在此示例中,我们将使用Python环境。确保您的Python 3.8或更高,并且根据存储库要求安装了必要的依赖项。
我们将首先安装所有要求。
git克隆-Depth 1 https://github.com/hiyouga/llama-factory.git CD Llama-Factory PIP安装-E。[火炬,指标]”
LlamaFactory-Cli Webui
注意:您可以在GitHub上的更多详细信息找到官方设置指南。
了解Llama-Factory提供的默认评估指标,例如Bleu和Rouge分数,以及为什么它们对于评估模型性能至关重要。本节还介绍了自定义指标的价值。
BLEU(双语评估研究)得分是一种度量标准,用于评估机器翻译模型与参考文献(或人类翻译)文本产生的文本质量。 BLEU评分主要评估生成的翻译与一个或多个参考翻译的相似程度。
Rouge(以召回式评估为导向的研究)得分是一组指标,用于通过比较它们与参考摘要来评估文本摘要的质量。它被广泛用于摘要任务,并测量生成文本和参考文本之间的单词和短语的重叠。
这些指标默认情况下可用,但是您还可以添加针对特定用例量身定制的定制指标。
本指南假定您的机器上已经设置了Fertactory。如果没有,请参阅Llama-Factory文档进行安装和设置。
在此示例中,该函数返回0到1之间的随机值以模拟精度得分。但是,您可以根据您的特定要求来替换自己的评估逻辑,以计算和返回准确值(或任何其他指标)。这种灵活性使您可以定义更好地反映用例的自定义评估标准。
首先,让我们创建一个称为custom_metric.py的python文件,并在其中定义我们的自定义度量函数。
在此示例中,我们的自定义指标称为x _score 。该度量标准将将PERDS (预测值)和标签(地面真实值)作为输入,并根据您的自定义逻辑返回分数。
导入随机 def cal_x_score(preds,标签): ”“” 计算自定义度量评分。 参数: Preds-预测值列表 标签 - 地面真相列表 返回: 得分 - 根据您的要求,随机值或自定义计算 ”“” #自定义度量计算逻辑转到这里 #示例:返回0和1之间的随机分数 返回随机均匀(0,1)
您可以用特定的计算逻辑替换随机分数。
为了确保Llama董事会认可我们的新指标,我们需要将其集成到SRC/LlamaFactory/Train/sft/Metric.py的指标计算管道中
将您的指标添加到分数字典中:
self.score_dict = { “ Rouge-1”:[], “ Rouge-2”:[], “ bleu-4”:[],, “ x_score”:[]#在此处添加您的自定义指标 }
计算和附加__call__ -method中的自定义指标:
来自.custom_metric导入cal_x_score def __call __(self,preds,标签): #计算自定义度量分数 custom_score = cal_x_score(preds,标签) #分数词典中的分数将分数附加到“ extra_metric” self.score_dict [“ x_score”]。附录(custom_score * 100)
此集成步骤对于自定义指标出现在美洲驼板上至关重要。
现在,预测_x_score度量已成功出现,显示该模型和验证数据集的精度为93.75%。这种集成为您提供了一种直接评估评估管道中的每个微调模型的简单方法。
设置自定义度量标准后,运行评估管道后,您应该在Llama板上看到它。 Extra MetricsCores将为每个评估更新。
通过这些步骤,您已成功将自定义评估指标集成到Llama-Factory中!此过程使您可以灵活地超越默认指标,并量身定制模型评估以满足您项目的独特需求。通过定义和实施特定于用例的指标,您可以获得对模型性能的更有意义的见解,突出了优势和领域,以改善对目标最重要的方式。
添加自定义指标还可以连续改进循环。当您对新数据进行微调和训练模型或修改参数时,这些个性化的指标提供了一种一致的评估进度方法。无论您的重点是特定于域的准确性,用户体验对齐方式还是细微的评分方法,Llama董事会都提供了一种视觉和定量的方法来比较和跟踪这些结果随着时间的流逝。
通过使用自定义指标增强模型评估,Llama-Factory可以使您可以做出数据驱动的决策,精确地提高模型,并更好地将结果与现实世界应用更好地对齐。这种自定义能力使您能够创建有效性能,优化相关目标的模型,并在实际部署中提供附加价值。
A. Llama-Factory是通过用户友好的WebUI微调大型语言模型的开源工具,具有用于培训,部署和评估模型的功能。
Q2。为什么要添加自定义评估指标?答:自定义指标允许您根据特定用例的标准评估模型性能,提供标准指标可能无法捕获的见解。
Q3。如何创建自定义指标?答:在Python文件中定义您的指标,并指定如何根据数据计算性能的逻辑。
Q4。我在哪里可以将自定义指标集成到骆驼基准中?答:将您的指标添加到SFT/Metric.py文件中,并更新分数字典和计算管道以包括它。
Q5。我的定制指标会出现在骆驼板上吗?答:是的,一旦整合了自定义指标,Llama板就会显示它,从而使您可以与其他指标一起将其结果可视化。
本文所示的媒体不由Analytics Vidhya拥有,并由作者酌情使用。
以上是在骆驼基准中使用自定义指标的增强模型评估的详细内容。更多信息请关注PHP中文网其他相关文章!