Llama-Factory의 사용자 정의 메트릭으로 모델 평가 부스트-일체 포함-php.cn

이 안내서에서는 사용자 정의 평가 메트릭 톨라마 팩토리를 추가하는 과정을 안내합니다. Llama-Factory는 사용자 친화적 인 WebUI 및 모델 교육, 배포 및 평가를위한 포괄적 인 스크립트 세트 덕분에 사용자가 대형 언어 모델 (LLM)을 쉽게 미세 조정할 수있는 다양한 도구입니다. Llama-Factory Isllama 보드의 주요 기능은 평가 메트릭을 표시하는 통합 대시 보드 인 모델 성능에 대한 귀중한 통찰력을 제공합니다. 기본적으로 표준 메트릭을 사용할 수 있지만 사용자 정의 메트릭을 추가하는 기능을 통해 특정 사용 사례와 직접 관련된 방식으로 모델을 평가할 수 있습니다.

또한 LLAMA 보드의 사용자 정의 메트릭을 생성, 통합 및 시각화하는 단계도 다룹니다. 이 안내서를 따르면 도메인 별 정확도, 미묘한 오류 유형 또는 사용자 중심 평가에 관심이 있는지 여부에 관계없이 귀하의 요구에 맞는 추가 메트릭을 모니터링 할 수 있습니다. 이 사용자 정의를 통해 모델 성능을보다 효과적으로 평가할 수있어 응용 프로그램의 고유 한 목표와 일치 할 수 있습니다. 다이빙하자!

학습 결과

llama-factory에서 사용자 정의 평가 메트릭을 정의하고 통합하는 방법을 이해하십시오.
맞춤형 메트릭을 포함하도록 metric.py를 수정하는 실용적인 기술을 얻으십시오.
향상된 모델 통찰력을 위해 LLAMA 보드의 사용자 정의 메트릭을 시각화하는 방법을 배우십시오.
특정 프로젝트 요구에 맞게 조정 모델 평가에 대한 지식을 습득하십시오.
개인화 된 메트릭을 사용하여 도메인 별 모델 성능을 모니터링하는 방법을 모색하십시오.

이 기사는 Data Science Blogathon 의 일부로 출판되었습니다 .

학습 결과
라마 팩토리는 무엇입니까?
라마 팩토리를 시작하는 것
라마 팩토리의 평가 지표 이해
사용자 정의 메트릭을 추가하기위한 전제 조건
사용자 정의 메트릭 정의
사용자 정의 메트릭을 통합하기 위해 sft/metric.py 수정
결론
자주 묻는 질문

라마 팩토리는 무엇입니까?

Hiyouga가 개발 한 Llama-Factory는 사용자에게 친숙한 WebUI 인터페이스를 통해 사용자가 언어 모델을 미세 조정할 수있는 오픈 소스 프로젝트입니다. 미세 조정, 챗봇 구축, 서빙 및 LLM 벤치마킹을위한 전체 도구 및 스크립트 제품군을 제공합니다.

초보자 및 비 기술적 사용자를 염두에두고 설계된 Llama-Factory는 사용자 정의 데이터 세트에서 오픈 소스 LLM을 미세 조정하는 프로세스를 단순화하여 복잡한 AI 개념을 파악할 필요가 없습니다. 사용자는 단순히 모델을 선택하고 데이터 세트를 업로드 한 다음 교육을 시작하기 위해 몇 가지 설정을 조정할 수 있습니다.

완료되면 웹 애플리케이션을 사용하면 모델을 테스트 할 수있어 로컬 컴퓨터의 LLM을 미세 조정하는 빠르고 효율적인 방법을 제공합니다.

표준 메트릭은 미세 조정 된 모델의 일반적인 성능에 대한 귀중한 통찰력을 제공하지만 맞춤형 메트릭은 특정 사용 사례에서 모델의 효과를 직접 평가하는 방법을 제공합니다. 메트릭을 조정하면 일반적인 메트릭이 간과 할 수있는 고유 한 요구 사항을 얼마나 잘 충족하는지 더 잘 측정 할 수 있습니다. 맞춤형 메트릭은 실용적인 요구와 구체적으로 조정 된 측정 값을 생성하고 추적 할 수있는 유연성을 제공하여 관련성 있고 측정 가능한 기준을 기반으로 지속적인 개선을 가능하게하기 때문에 매우 중요합니다. 이 접근법을 사용하면 도메인 별 정확도, 가중의 중요성 및 사용자 경험 정렬에 대한 타겟팅 초점을 맞출 수 있습니다.

라마 팩토리를 시작하는 것

이 예에서는 파이썬 환경을 사용하겠습니다. 리포지토리 요구 사항에 따라 Python 3.8 이상과 필요한 종속성이 설치되어 있는지 확인하십시오.

설치

먼저 모든 요구 사항을 설치합니다.

 git 클론 ---depth 1 https://github.com/hiyouga/llama-factory.git
CD llama-factory
PIP 설치 -E ". [토치, 메트릭]" "

로그인 후 복사

LLAMA 보드 GUI와의 미세 조정 (Gradio에 의해 구동)

 llamafactory-cli webui

로그인 후 복사

참고 : GitHub에서 공식 설정 안내서를 자세히 찾을 수 있습니다.

라마 팩토리의 평가 지표 이해

Llama-Factory가 제공하는 기본 평가 메트릭 (예 : Bleu 및 Rouge Scores)과 모델 성능을 평가하는 데 필수적인 이유에 대해 알아보십시오. 이 섹션에서는 메트릭 사용자 정의의 가치도 소개합니다.

블루 스코어

BLEU (이중 언어 평가 학대) 점수는 기준 (또는 인간 전환) 텍스트와 비교하여 기계 번역 모델에 의해 생성 된 텍스트의 품질을 평가하는 데 사용되는 지표입니다. BLEU 점수는 주로 생성 된 번역이 하나 이상의 참조 번역과 얼마나 유사한 지 평가합니다.

루즈 점수

Rouge (리콜 지향적 학대를위한 리콜 지향 학부) 점수는 텍스트 요약 품질을 참조 요약과 비교하여 텍스트 요약 품질을 평가하는 데 사용되는 일련의 메트릭 세트입니다. 그것은 요약 작업에 널리 사용되며 생성 된 텍스트와 참조 텍스트 사이의 단어와 문구의 겹침을 측정합니다.

이 메트릭은 기본적으로 사용할 수 있지만 특정 사용 사례에 맞게 맞춤형 메트릭을 추가 할 수도 있습니다.

사용자 정의 메트릭을 추가하기위한 전제 조건

이 안내서는 Llama-Factory가 이미 컴퓨터에 설정되어 있다고 가정합니다. 그렇지 않은 경우 설치 및 설정에 대한 Llama-Factory 문서를 참조하십시오.

이 예에서, 함수는 정확도 점수를 시뮬레이션하기 위해 0과 1 사이의 임의 값을 반환합니다. 그러나이를 자신의 평가 논리로 바꾸어 특정 요구 사항에 따라 정확도 값 (또는 기타 메트릭)을 계산하고 반환 할 수 있습니다. 이 유연성을 사용하면 사용 사례를 더 잘 반영하는 사용자 정의 평가 기준을 정의 할 수 있습니다.

사용자 정의 메트릭 정의

시작하려면 custom_metric.py 라는 Python 파일을 만들고 사용자 정의 메트릭 기능을 정의하겠습니다.

이 예에서는 사용자 지정 메트릭을 x _score 라고합니다. 이 메트릭은 PREDS (예측 값) 및 레이블 (지면 진실 값)을 입력으로 사용하고 사용자 정의 논리에 따라 점수를 반환합니다.

 무작위로 가져옵니다

def cal_x_score (preds, labels) :
    "" "
    사용자 정의 메트릭 점수를 계산합니다.

    매개 변수 :
    PREDS- 예측 값 목록
    레이블 - 지상 진실 값 목록

    보고:
    점수 - 요구 사항에 따라 임의의 값 또는 사용자 정의 계산
    "" "
    # 사용자 정의 메트릭 계산 로직이 여기로 이동합니다
    
    # 예 : 0과 1 사이의 임의의 점수를 반환합니다.
    random.ufiorm (0, 1)을 반환합니다.

로그인 후 복사

임의의 점수를 특정 계산 로직으로 바꿀 수 있습니다.

modifyingsft/metric.pyto 사용자 정의 메트릭을 통합합니다

Llama Board가 새로운 메트릭을 인식하도록하려면 SRC/Llamafactory/Train/Sft/Metric.py 내에서 메트릭 계산 파이프 라인에 통합해야합니다.

점수 사전에 메트릭을 추가하십시오.

sft/metric.py 내에서 촉진증 기능을 찾으십시오
다음과 같이 새 메트릭을 포함시키기 위해 self.score_dict를 업데이트하십시오.

 self.score_dict = {
    "Rouge-1": [],
    "Rouge-2": [],
    "Bleu-4": [],
    "x_score": [] # 여기에 사용자 정의 메트릭을 추가하십시오
}

로그인 후 복사

Llama-Factory의 사용자 정의 메트릭으로 모델 평가 부스트

__call__method에서 사용자 정의 메트릭을 계산하고 추가하십시오.

__call__ 메소드 내에서 사용자 정의 메트릭을 계산하여 score_dict 에 추가하십시오. 다음은 다음을 수행하는 방법의 예입니다.

 .custom_metric import에서 cal_x_score
def __call __ (self, preds, labels) :
    # 사용자 정의 메트릭 점수를 계산합니다
    custom_score = cal_x_score (preds, labels)
    # 스코어 사전에서 'extra_metric'으로 점수를 추가하십시오.
    self.score_dict [ "x_score"]. Append (custom_score * 100)

로그인 후 복사

이 통합 단계는 LLAMA 보드에 사용자 정의 메트릭이 표시되는 데 필수적입니다.

Llama-Factory의 사용자 정의 메트릭으로 모델 평가 부스트

Predict_X_Score 메트릭은 이제 성공적으로 나타나서이 모델 및 유효성 검사 데이터 세트에 대해 93.75%의 정확도를 나타냅니다. 이 통합은 평가 파이프 라인 내에서 직접 미세 조정 된 모델을 평가할 수있는 간단한 방법을 제공합니다.

결론

사용자 정의 메트릭을 설정 한 후 평가 파이프 라인을 실행 한 후 LLAMA 보드에서 볼 수 있습니다. TheExtra MetricsCores는 각 평가에 대해 업데이트됩니다.

이러한 단계를 통해 사용자 정의 평가 메트릭을 Llama-Factory에 성공적으로 통합했습니다! 이 프로세스를 통해 프로젝트의 고유 한 요구를 충족시키기 위해 기본 메트릭을 넘어 모델 평가를 조정할 수있는 유연성을 제공합니다. 사용 사례에 맞는 메트릭을 정의하고 구현함으로써 모델 성능에 대한보다 의미있는 통찰력을 얻고, 목표에 가장 중요한 방식으로 강점과 개선을위한 영역을 강조합니다.

사용자 정의 메트릭을 추가하면 지속적인 개선 루프가 가능합니다. 새로운 데이터에 대한 모델을 미세 조정하고 훈련 시키거나 매개 변수를 수정할 때이 개인화 된 메트릭은 진행 상황을 평가하는 일관된 방법을 제공합니다. Llama Board는 도메인 별 정확도, 사용자 경험 정렬 또는 미묘한 점수 방법에 중점을 두 든 시간이 지남에 따라 이러한 결과를 비교하고 추적하는 시각적이고 정량적 인 방법을 제공합니다.

LLAMA-Factory를 사용하면 모델 평가를 향상시켜 데이터 중심 결정을 내리고 정밀한 모델을 개선하며 결과를 실제 응용 프로그램과 더 잘 맞출 수 있습니다. 이 사용자 정의 기능을 사용하면 효과적으로 수행하고 관련 목표를 최적화하며 실제 배포에 부가 가치를 제공하는 모델을 만들 수 있습니다.