このガイドでは、カスタム評価メトリックのTollama-Factoryを追加するプロセスを説明します。 Llama-Factoryは、ユーザーフレンドリーなWebUIとモデルのトレーニング、展開、評価のための包括的なスクリプトセットのおかげで、ユーザーが大規模な言語モデル(LLM)を簡単に微調整できるようにする多用途ツールです。 Llama-Factory Isllama Boardの重要な機能は、評価メトリックも表示され、モデルのパフォーマンスに関する貴重な洞察を提供する統合ダッシュボードです。標準メトリックはデフォルトで利用できますが、カスタムメトリックを追加する機能により、特定のユースケースに直接関連する方法でモデルを評価できます。
また、Llamaボードにカスタムメトリックを作成、統合、視覚化する手順についても説明します。このガイドに従うことにより、ドメイン固有の精度、微妙なエラータイプ、ユーザー中心の評価に関心があるかどうかにかかわらず、ニーズに合わせた追加のメトリックを監視できます。このカスタマイズにより、モデルのパフォーマンスをより効果的に評価することができ、アプリケーションのユニークな目標と一致するようにします。飛び込みましょう!
この記事は、データサイエンスブログソンの一部として公開されました。
Hiyougaが開発したLlama-Factoryは、ユーザーがユーザーフレンドリーなWebUIインターフェイスを介して言語モデルを微調整できるようにするオープンソースプロジェクトです。微調整、チャットボットの構築、サービング、ベンチマークLLMのための完全なツールとスクリプトを提供します。
初心者と非技術的なユーザーを念頭に置いて設計されたLlama-Factoryは、カスタムデータセットでオープンソースLLMを微調整するプロセスを簡素化し、複雑なAIの概念を把握する必要性を排除します。ユーザーは、単にモデルを選択し、データセットをアップロードし、いくつかの設定を調整してトレーニングを開始できます。
完了すると、Webアプリケーションはモデルをテストすることもでき、ローカルマシンでLLMSを微調整するための迅速かつ効率的な方法を提供します。
標準メトリックは、微調整されたモデルの一般的なパフォーマンスに関する貴重な洞察を提供しますが、カスタマイズされたメトリックは、特定のユースケースでモデルの有効性を直接評価する方法を提供します。メトリックを調整することにより、一般的なメトリックが見落とす可能性のあるユニークな要件をモデルがどれだけうまく満たしているかをよりよく評価できます。カスタムメトリックは、実用的なニーズと特別に整合した対策を作成および追跡する柔軟性を提供し、関連する測定可能な基準に基づいて継続的な改善を可能にするため、非常に貴重です。このアプローチにより、ドメイン固有の精度、加重の重要性、およびユーザーエクスペリエンスアライメントにターゲットを絞った焦点が可能になります。
この例では、Python環境を使用します。 Python 3.8以降があり、リポジトリの要件に従って必要な依存関係がインストールされていることを確認してください。
最初にすべての要件をインストールします。
git clone - デプス1 https://github.com/hiyouga/llama-factory.git CD llama-factory ピップインストール-e "。[トーチ、メトリック]"
llamafactory-cli webui
注:公式セットアップガイドは、GitHubで詳細を確認できます。
BLEUやルージュスコアなど、Llama-Factoryが提供するデフォルトの評価メトリック、およびモデルのパフォーマンスを評価するために不可欠な理由について学びます。このセクションでは、メトリックをカスタマイズする価値も紹介します。
BLEU(バイリンガル評価アンダースタディ)スコアは、マシン翻訳モデルによって生成されたテキストの品質を参照(またはヒト翻訳)テキストと比較することにより、テキストの品質を評価するために使用されるメトリックです。 BLEUスコアは、主に、生成された翻訳が1つ以上の参照翻訳とどれほど類似しているかを評価します。
ルージュ(要点評価のためのリコール指向の研究)スコアは、参照要約と比較することにより、テキストの要約の品質を評価するために使用される一連のメトリックです。要約タスクに広く使用されており、生成されたテキストと参照テキストの間の単語とフレーズの重複を測定します。
これらのメトリックはデフォルトで使用できますが、特定のユースケースに合わせたカスタマイズされたメトリックを追加することもできます。
このガイドは、ラマ大会がすでにマシンにセットアップされていると仮定しています。そうでない場合は、インストールとセットアップについては、Llama-Factoryドキュメントを参照してください。
この例では、関数は0〜1のランダムな値を返し、精度スコアをシミュレートします。ただし、これを独自の評価ロジックに置き換えて、特定の要件に基づいて精度値(またはその他のメトリック)を計算して返すことができます。この柔軟性により、ユースケースをよりよく反映するカスタム評価基準を定義できます。
まず、 Custom_metric.pyというPythonファイルを作成し、その中のカスタムメトリック関数を定義しましょう。
この例では、カスタムメトリックはx _scoreと呼ばれます。このメトリックは、 PREDS (予測値)とラベル(グラウンドトゥルース値)を入力として取得し、カスタムロジックに基づいてスコアを返します。
ランダムをインポートします def cal_x_score(preds、labels): "" " カスタムメトリックスコアを計算します。 パラメーター: PREDS-予測値のリスト ラベル - グラウンドトゥルース値のリスト 返品: スコア - 要件に従ってランダムな値またはカスタム計算 "" " #カスタムメトリック計算ロジックはここにあります #例:0から1の間のランダムスコアを返します risom.uniform(0、1)を返す
ランダムスコアを特定の計算ロジックに置き換えることができます。
Llamaボードが新しいメトリックを認識することを確認するには、 SRC/LlamaFactory/Train/SFT/Metric.py内のメトリック計算パイプラインに統合する必要があります。
メトリックをスコア辞書に追加します:
self.score_dict = { 「ルージュ-1」:[]、 「ルージュ-2」:[]、 「bleu-4」:[]、 "x_score":[]#ここにカスタムメトリックを追加します }
__call__methodでカスタムメトリックを計算して追加します。
.custom_metricインポートCal_x_scoreから def __call __(self、preds、labels): #カスタムメトリックスコアを計算します custom_score = cal_x_score(preds、labels) #スコア辞書の「extra_metric」にスコアを追加する self.score_dict ["x_score"]。
この統合ステップは、カスタムメトリックがLlamaボードに表示されるために不可欠です。
Predict_X_Scoreメトリックが正常に表示されるようになり、このモデルと検証データセットで93.75%の精度を示します。この統合は、評価パイプライン内で各微調整されたモデルを直接評価するための簡単な方法を提供します。
カスタムメトリックをセットアップした後、評価パイプラインを実行した後、Llamaボードで表示されます。 Extra MetricsCoresは、評価ごとに更新されます。
これらの手順を使用すると、カスタム評価メトリックをLlama-Factoryに統合しました!このプロセスにより、デフォルトのメトリックを超えて、モデル評価を調整してプロジェクトの独自のニーズを満たす柔軟性が得られます。ユースケースに固有のメトリックを定義および実装することにより、モデルのパフォーマンスに関するより意味のある洞察を得て、目標に最も重要な方法で改善の強みと領域を強調します。
カスタムメトリックを追加すると、継続的な改善ループも可能になります。新しいデータでモデルを微調整およびトレーニングするとき、またはパラメーターを変更すると、これらのパーソナライズされたメトリックは、進捗を評価するための一貫した方法を提供します。ドメイン固有の精度、ユーザーエクスペリエンスアラインメント、または微妙なスコアリング方法に焦点を当てているかどうかにかかわらず、Llamaボードは、これらの結果を時間の経過とともに比較および追跡する視覚的かつ定量的な方法を提供します。
カスタマイズされたメトリックを使用してモデル評価を強化することにより、Llama-Factoryを使用すると、データ駆動型の決定を下し、モデルを正確に改良し、結果を実際のアプリケーションとより適切に合わせることができます。このカスタマイズ機能により、効果的に機能し、関連する目標に向けて最適化し、実際の展開に付加価値を提供するモデルを作成することができます。
A. Llama-Factoryは、モデルをトレーニング、展開、評価する機能を備えた、ユーザーフレンドリーなWebUIを介して大規模な言語モデルを微調整するためのオープンソースツールです。
Q2。なぜカスタム評価メトリックを追加するのですか?A.カスタムメトリックを使用すると、ユースケースに固有の基準に基づいてモデルパフォーマンスを評価し、標準メトリックがキャプチャできない可能性のある洞察を提供します。
Q3。カスタムメトリックを作成するにはどうすればよいですか?A. Pythonファイルでメトリックを定義し、データに基づいてパフォーマンスを計算する方法のロジックを指定します。
Q4。ラマファクトリーのカスタムメトリックはどこで統合しますか?A.メトリックをSFT/Metric.pyファイルに追加し、スコア辞書と計算パイプラインを更新して含めます。
Q5。私のカスタムメトリックはLlamaボードに表示されますか?A.はい、カスタムメトリックを統合すると、Llamaボードが表示され、他のメトリックとともに結果を視覚化できます。
この記事に示されているメディアは、Analytics Vidhyaが所有しておらず、著者の裁量で使用されています。
以上がLlama-Factoryのカスタムメトリックを使用したモデル評価をブーストしますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。