Llama-Factoryのカスタムメトリックを使用したモデル評価をブーストします-AI-php.cn

このガイドでは、カスタム評価メトリックのTollama-Factoryを追加するプロセスを説明します。 Llama-Factoryは、ユーザーフレンドリーなWebUIとモデルのトレーニング、展開、評価のための包括的なスクリプトセットのおかげで、ユーザーが大規模な言語モデル（LLM）を簡単に微調整できるようにする多用途ツールです。 Llama-Factory Isllama Boardの重要な機能は、評価メトリックも表示され、モデルのパフォーマンスに関する貴重な洞察を提供する統合ダッシュボードです。標準メトリックはデフォルトで利用できますが、カスタムメトリックを追加する機能により、特定のユースケースに直接関連する方法でモデルを評価できます。

また、Llamaボードにカスタムメトリックを作成、統合、視覚化する手順についても説明します。このガイドに従うことにより、ドメイン固有の精度、微妙なエラータイプ、ユーザー中心の評価に関心があるかどうかにかかわらず、ニーズに合わせた追加のメトリックを監視できます。このカスタマイズにより、モデルのパフォーマンスをより効果的に評価することができ、アプリケーションのユニークな目標と一致するようにします。飛び込みましょう！

学習成果

Llama-Factoryでカスタム評価メトリックを定義および統合する方法を理解してください。
Metric.pyを変更する際の実践的なスキルを獲得して、カスタムメトリックを含めます。
強化されたモデルの洞察については、Llamaボードのカスタムメトリックを視覚化することを学びます。
特定のプロジェクトのニーズに合わせて、モデル評価の調整に関する知識を習得します。
パーソナライズされたメトリックを使用して、ドメイン固有のモデルパフォーマンスを監視する方法を探ります。

この記事は、データサイエンスブログソンの一部として公開されました。

学習成果
llama-factoryとは何ですか？
Llama-Factoryを始めましょう
Llama-Factoryの評価メトリックを理解します
カスタムメトリックを追加するための前提条件
カスタムメトリックを定義します
SFT/Metric.pyを変更して、カスタムメトリックを統合します
結論
よくある質問

llama-factoryとは何ですか？

Hiyougaが開発したLlama-Factoryは、ユーザーがユーザーフレンドリーなWebUIインターフェイスを介して言語モデルを微調整できるようにするオープンソースプロジェクトです。微調整、チャットボットの構築、サービング、ベンチマークLLMのための完全なツールとスクリプトを提供します。

初心者と非技術的なユーザーを念頭に置いて設計されたLlama-Factoryは、カスタムデータセットでオープンソースLLMを微調整するプロセスを簡素化し、複雑なAIの概念を把握する必要性を排除します。ユーザーは、単にモデルを選択し、データセットをアップロードし、いくつかの設定を調整してトレーニングを開始できます。

完了すると、Webアプリケーションはモデルをテストすることもでき、ローカルマシンでLLMSを微調整するための迅速かつ効率的な方法を提供します。

標準メトリックは、微調整されたモデルの一般的なパフォーマンスに関する貴重な洞察を提供しますが、カスタマイズされたメトリックは、特定のユースケースでモデルの有効性を直接評価する方法を提供します。メトリックを調整することにより、一般的なメトリックが見落とす可能性のあるユニークな要件をモデルがどれだけうまく満たしているかをよりよく評価できます。カスタムメトリックは、実用的なニーズと特別に整合した対策を作成および追跡する柔軟性を提供し、関連する測定可能な基準に基づいて継続的な改善を可能にするため、非常に貴重です。このアプローチにより、ドメイン固有の精度、加重の重要性、およびユーザーエクスペリエンスアライメントにターゲットを絞った焦点が可能になります。

Llama-Factoryを始めましょう

この例では、Python環境を使用します。 Python 3.8以降があり、リポジトリの要件に従って必要な依存関係がインストールされていることを確認してください。

インストール

最初にすべての要件をインストールします。

 git clone  - デプス1 https://github.com/hiyouga/llama-factory.git
CD llama-factory
ピップインストール-e "。[トーチ、メトリック]"

ログイン後にコピー

Llama Board GUIでの微調整（Gradioを搭載）

 llamafactory-cli webui

ログイン後にコピー

注：公式セットアップガイドは、GitHubで詳細を確認できます。

Llama-Factoryの評価メトリックを理解します

BLEUやルージュスコアなど、Llama-Factoryが提供するデフォルトの評価メトリック、およびモデルのパフォーマンスを評価するために不可欠な理由について学びます。このセクションでは、メトリックをカスタマイズする価値も紹介します。

ブルースコア

BLEU（バイリンガル評価アンダースタディ）スコアは、マシン翻訳モデルによって生成されたテキストの品質を参照（またはヒト翻訳）テキストと比較することにより、テキストの品質を評価するために使用されるメトリックです。 BLEUスコアは、主に、生成された翻訳が1つ以上の参照翻訳とどれほど類似しているかを評価します。

ルージュスコア

ルージュ（要点評価のためのリコール指向の研究）スコアは、参照要約と比較することにより、テキストの要約の品質を評価するために使用される一連のメトリックです。要約タスクに広く使用されており、生成されたテキストと参照テキストの間の単語とフレーズの重複を測定します。

これらのメトリックはデフォルトで使用できますが、特定のユースケースに合わせたカスタマイズされたメトリックを追加することもできます。

カスタムメトリックを追加するための前提条件

このガイドは、ラマ大会がすでにマシンにセットアップされていると仮定しています。そうでない場合は、インストールとセットアップについては、Llama-Factoryドキュメントを参照してください。

この例では、関数は0〜1のランダムな値を返し、精度スコアをシミュレートします。ただし、これを独自の評価ロジックに置き換えて、特定の要件に基づいて精度値（またはその他のメトリック）を計算して返すことができます。この柔軟性により、ユースケースをよりよく反映するカスタム評価基準を定義できます。

カスタムメトリックを定義します

まず、 Custom_metric.pyというPythonファイルを作成し、その中のカスタムメトリック関数を定義しましょう。

この例では、カスタムメトリックはx _scoreと呼ばれます。このメトリックは、 PREDS （予測値）とラベル（グラウンドトゥルース値）を入力として取得し、カスタムロジックに基づいてスコアを返します。

ランダムをインポートします

def cal_x_score（preds、labels）：
    "" "
    カスタムメトリックスコアを計算します。

    パラメーター：
    PREDS-予測値のリスト
    ラベル - グラウンドトゥルース値のリスト

    返品：
    スコア - 要件に従ってランダムな値またはカスタム計算
    "" "
    ＃カスタムメトリック計算ロジックはここにあります
    
    ＃例：0から1の間のランダムスコアを返します
    risom.uniform（0、1）を返す

ログイン後にコピー

ランダムスコアを特定の計算ロジックに置き換えることができます。

CODIFIENSFT/METRIC.PYTOカスタムメトリックを統合します

Llamaボードが新しいメトリックを認識することを確認するには、 SRC/LlamaFactory/Train/SFT/Metric.py内のメトリック計算パイプラインに統合する必要があります。

メトリックをスコア辞書に追加します：

sft/metric.py内のcomputeSimilalityFunctionを見つけます
self.score_dictを更新して、次のように新しいメトリックを含める：

 self.score_dict = {
    「ルージュ-1」：[]、
    「ルージュ-2」：[]、
    「bleu-4」：[]、
    "x_score"：[]＃ここにカスタムメトリックを追加します
}

ログイン後にコピー

Llama-Factoryのカスタムメトリックを使用したモデル評価をブーストします

__call__methodでカスタムメトリックを計算して追加します。

__Call__メソッド内で、カスタムメトリックを計算し、 SCORE_DICTに追加します。これがそれを行う方法の例です：

 .custom_metricインポートCal_x_scoreから
def __call __（self、preds、labels）：
    ＃カスタムメトリックスコアを計算します
    custom_score = cal_x_score（preds、labels）
    ＃スコア辞書の「extra_metric」にスコアを追加する
    self.score_dict ["x_score"]。

ログイン後にコピー

この統合ステップは、カスタムメトリックがLlamaボードに表示されるために不可欠です。

Llama-Factoryのカスタムメトリックを使用したモデル評価をブーストします

Predict_X_Scoreメトリックが正常に表示されるようになり、このモデルと検証データセットで93.75％の精度を示します。この統合は、評価パイプライン内で各微調整されたモデルを直接評価するための簡単な方法を提供します。

結論

カスタムメトリックをセットアップした後、評価パイプラインを実行した後、Llamaボードで表示されます。 Extra MetricsCoresは、評価ごとに更新されます。

これらの手順を使用すると、カスタム評価メトリックをLlama-Factoryに統合しました！このプロセスにより、デフォルトのメトリックを超えて、モデル評価を調整してプロジェクトの独自のニーズを満たす柔軟性が得られます。ユースケースに固有のメトリックを定義および実装することにより、モデルのパフォーマンスに関するより意味のある洞察を得て、目標に最も重要な方法で改善の強みと領域を強調します。

カスタムメトリックを追加すると、継続的な改善ループも可能になります。新しいデータでモデルを微調整およびトレーニングするとき、またはパラメーターを変更すると、これらのパーソナライズされたメトリックは、進捗を評価するための一貫した方法を提供します。ドメイン固有の精度、ユーザーエクスペリエンスアラインメント、または微妙なスコアリング方法に焦点を当てているかどうかにかかわらず、Llamaボードは、これらの結果を時間の経過とともに比較および追跡する視覚的かつ定量的な方法を提供します。

カスタマイズされたメトリックを使用してモデル評価を強化することにより、Llama-Factoryを使用すると、データ駆動型の決定を下し、モデルを正確に改良し、結果を実際のアプリケーションとより適切に合わせることができます。このカスタマイズ機能により、効果的に機能し、関連する目標に向けて最適化し、実際の展開に付加価値を提供するモデルを作成することができます。