하이퍼파라미터 최적화 비교: 그리드 검색, 무작위 검색, 베이지안 최적화-일체 포함-php.cn

이 글에서는 머신러닝 결과를 개선하는 데 사용되는 가장 일반적인 하이퍼파라미터 최적화 방법을 자세히 소개합니다.

번역가 | Zhu Xianzhong

Reviewer | Sun Shujuan

소개

일반적으로 사람들이 머신러닝 모델을 개선하려고 할 때 가장 먼저 생각하는 해결책은 더 많은 훈련 데이터를 추가하는 것입니다. 추가 데이터는 종종 도움이 되지만(특정 상황 제외) 고품질 데이터를 생성하는 데는 비용이 많이 들 수 있습니다. 초매개변수 최적화는 기존 데이터를 사용하여 최고의 모델 성능을 얻음으로써 시간과 리소스를 절약합니다.

이름에서 알 수 있듯이 하이퍼파라미터 최적화는 최적화 기능을 충족하기 위해(즉, 연구 중인 데이터 세트에서 모델 성능을 최대화하기 위해) 기계 학습 모델에 대한 최상의 하이퍼파라미터 조합을 결정하는 프로세스입니다. 즉, 각 모델은 모델에 대한 최적의 하이퍼파라미터 조합을 달성할 때까지 변경할 수 있는 옵션의 여러 조정 "버튼"을 제공합니다. 하이퍼파라미터 최적화 중에 변경할 수 있는 매개변수의 예로는 학습률, 신경망 아키텍처(예: 숨겨진 레이어 수), 정규화 등이 있습니다.

이 글에서는 가장 많이 사용되는 세 가지 하이퍼파라미터 최적화 방법인 그리드 검색, 랜덤 검색, 베이지안 최적화를 개념적으로 소개하고 하나씩 구현해 보겠습니다.

독자의 참고를 위해 글의 시작 부분에 높은 수준의 비교표를 제공하고, 글의 나머지 부분에서는 비교표의 각 항목을 더 탐색하고 설명하고 구현해 보겠습니다.

하이퍼파라미터 최적화 비교: 그리드 검색, 무작위 검색, 베이지안 최적화

표 1: 하이퍼파라미터 최적화 방법 비교

1. 그리드 검색 알고리즘

그리드 검색은 아마도 정의된 검색 공간에서 검색하는 하이퍼파라미터 최적화를 위한 가장 간단하고 직관적인 방법일 것입니다. 최고의 하이퍼파라미터 조합. 이 맥락에서 "검색 공간"은 전체 하이퍼파라미터와 최적화 중에 고려되는 해당 하이퍼파라미터의 값입니다. 예제를 통해 그리드 검색을 더 잘 이해해 봅시다.

3개의 매개변수만 있는 기계 학습 모델이 있다고 가정합니다. 각 매개변수는 표에 제공된 값을 사용할 수 있습니다.

parameter_1 = [1, 2, 3]
매개변수_2 = [a, b, c ]
매개변수_3 = [x, y, z]

이러한 매개변수의 어떤 조합이 모델의 최적화 기능을 최적화할지 알 수 없습니다(즉, 기계 학습 모델에 최상의 출력 제공). 그리드 검색에서는 이러한 매개변수의 모든 조합을 시도하고 각 매개변수에 대한 모델 성능을 측정한 후 최상의 성능을 제공하는 조합을 선택하기만 하면 됩니다. 이 예에서 매개변수 1은 3개의 값(예: 1, 2, 3)을 가질 수 있고, 매개변수 2는 3개의 값(예: a, b, c)을 가질 수 있으며, 매개변수 3은 3개의 값을 가질 수 있습니다. (예: x, y, z). 즉, 총 3*3*3=27개의 조합이 있습니다. 이 예의 그리드 검색에는 최고의 성능 조합을 찾기 위해 기계 학습 모델의 성능을 평가하는 27라운드가 포함됩니다.

보시다시피 이 방법은 매우 간단하지만(시행착오 작업과 유사) 몇 가지 제한 사항도 있습니다. 이 방법의 장점과 단점을 요약해 보겠습니다.

그 중 장점은 다음과 같습니다.

이해 및 구현이 용이함
병렬화가 용이함
이산 공간과 연속 공간 모두에 적합단점은 주로 다음과 같습니다.
대규모 및/또는 복잡한 공간 많은 수의 하이퍼파라미터가 있는 시스템 모델에 비용이 많이 듭니다(모든 조합을 시도하고 평가해야 하기 때문에)
메모리 - 과거 관찰로부터 학습하지 않음
검색 공간이 너무 크면 최상의 조합을 찾지 못할 수 있음 내 조언은 다음과 같습니다. 검색 공간이 작은 간단한 모델의 경우 그리드 검색을 사용하고, 그렇지 않으면 더 큰 검색 공간에 더 적합한 솔루션을 찾기 위해 계속 읽어 보는 것이 좋습니다.
이제 실제 예시를 통해 그리드 검색을 구현해 보겠습니다.

1.1. 그리드 검색 알고리즘 구현

그리드 검색을 구현하기 위해 scikit-learn의 Iris 데이터 세트를 사용하여 Random Forest 분류 모델을 만듭니다. 이 데이터 세트에는 3가지 다른 붓꽃 꽃잎과 꽃받침 길이가 포함되어 있으며 이 분류 연습에 사용됩니다. 본 논문에서는 다양한 하이퍼파라미터 최적화 전략의 성능을 비교하는 것이 목표이므로 모델 개발은 부차적입니다. 모델 평가 결과와 각 하이퍼파라미터 최적화 방법이 선택한 하이퍼파라미터 세트에 도달하는 데 필요한 시간에 집중하시기 바랍니다. 실행 결과를 설명한 다음 이 기사에서 사용된 세 가지 방법에 대한 요약 비교표를 제공하겠습니다.

모든 하이퍼파라미터 값을 포함하는 검색 공간은 다음과 같이 정의됩니다.

search_space = {'n_estimators': [10, 100, 500, 1000],
'max_length': [2, 10, 25, 50, 100],
'min_samples_split': [2, 5, 10],
'min_samples_leaf': [1, 5, 10]}

위 검색 공간은 4*5*3*3=으로 구성됩니다. 전체 조합의 하이퍼파라미터는 180개입니다. 그리드 검색을 사용하여 다음과 같이 목적 함수를 최적화하는 조합을 찾습니다.

# 라이브러리 가져오기
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
import time
# Iris 데이터세트 로드
iris = load_iris()
X, y = iris.data, iris.target
#초매개변수 검색 공간 정의
search_space = {'n_estimators': [10, 100, 500, 1000],
'max_length': [2 , 10, 25, 50, 100],
'min_samples_split': [2, 5, 10],
'min_samples_leaf': [1, 5, 10]}
#Define Random Forest Classifier
clf = RandomForestClassifier (random_state=1234)
# 옵티마이저 객체 생성
optimizer = GridSearchCV(clf, search_space, cv=5, Score='accuracy')
#총 소모량 계산에 사용할 수 있도록 시작 시간을 저장 Time
start_time = time.time()
# 피팅 데이터에 대한 옵티마이저
optimizer.fit(X, y)
# 총 시간을 계산할 수 있도록 종료 시간을 저장합니다
end_time = time .time ()
# 최적의 하이퍼파라미터 세트와 해당 점수를 인쇄합니다.
print(f"selected hyperparameters:")
print(optimizer.best_params_)
print("")
print(f"best_score: {optimizer. best_score_}")
print(f"elapsed_time: {round(end_time-start_time, 1)}")

위 코드의 출력은 다음과 같습니다.

하이퍼파라미터 최적화 비교: 그리드 검색, 무작위 검색, 베이지안 최적화

여기서 다음의 사용법을 볼 수 있습니다. 네트워크 그리드 검색은 하이퍼파라미터 값을 선택합니다. 그중 best_score는 선택된 하이퍼파라미터 세트를 사용한 평가 결과를 설명하고, elapsed_time은 내 로컬 노트북이 이 하이퍼파라미터 최적화 전략을 실행하는 데 걸린 시간을 설명합니다. 다음 방법으로 진행하면서 평가 결과와 경과 시간을 염두에 두고 비교하세요. 이제 무작위 검색에 대해 살펴보겠습니다.

2. 무작위 검색 알고리즘

이름에서 알 수 있듯이 무작위 검색은 정의된 검색 공간에서 하이퍼파라미터를 무작위로 샘플링하는 프로세스입니다. 그리드 검색과 달리 무작위 검색은 미리 정의된 반복 횟수(시간, 예산, 목표 등 사용 가능한 리소스에 따라)에 대해 하이퍼파라미터 값의 무작위 하위 집합만 선택하고 각 하이퍼파라미터 성능에 대한 기계 학습 모델을 계산합니다. 그런 다음 최상의 하이퍼파라미터 값을 선택합니다.

위의 접근 방식을 바탕으로 무작위 검색이 전체 그리드 검색보다 비용이 저렴하지만 여전히 다음과 같은 고유한 장점과 단점이 있다고 상상할 수 있습니다.

장점:

쉬운 이해 및 구현
병렬화가 용이함
이산 공간과 연속 공간 모두에 적용 가능
그리드 검색보다 저렴함
동일한 시도 횟수로 그리드 검색보다 최적으로 수렴할 가능성이 높음 단점:
메모리 - 학습하지 않음 과거 관찰 결과
무작위 선택을 고려하면 중요한 하이퍼파라미터 값이 누락될 수 있습니다

다음 방법에서는 그리드 문제와 무작위 검색의 "메모리리스" 단점을 해결하겠습니다. 하지만 이 방법을 논의하기 전에 무작위 검색을 구현해 보겠습니다.

2.1. 무작위 검색 알고리즘 구현

아래 코드 조각을 사용하여 그리드 검색 구현에서 설명한 것과 동일한 문제에 대한 무작위 검색 하이퍼 매개변수 최적화를 구현합니다.

# 라이브러리 가져오기
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

# RandomizedSearchCV 객체 생성
optimizer = RandomizedSearchCV(clf, param_distributinotallow=search_space,
n_iter=50, cv= 5, 점수='accuracy',
random_state=1234)

# 총 실행 시간을 계산하기 위해 시작 시간을 저장
start_time = time.time()

# 데이터에 옵티마이저 맞추기
optimizer .fit(X, y)

# 총 실행 시간을 계산하기 위해 종료 시간을 저장합니다.
end_time = time.time()

# 최상의 하이퍼파라미터 세트와 해당 점수를 인쇄합니다.
print(f"selected hyperparameters :" )
print(optimizer.best_params_)
print("")
print(f"best_score: {optimizer.best_score_}")
print(f"elapsed_time: {round(end_time-start_time, 1) }" )

위 코드의 출력은 다음과 같습니다.

하이퍼파라미터 최적화 비교: 그리드 검색, 무작위 검색, 베이지안 최적화

무작위 검색 결과

이러한 결과는 그리드 검색 결과와 비교하면 매우 흥미롭습니다. best_score는 동일하게 유지되지만 elapsed_time은 352.0초에서 75.5초로 감소합니다! 얼마나 인상적입니까! 즉, 무작위 검색 알고리즘은 그리드 검색에 필요한 시간의 약 21% 시간에 그리드 검색과 동일한 성능을 발휘하는 하이퍼파라미터 집합을 찾는 데 성공했습니다! 그러나 여기의 효율성은 훨씬 높습니다.

다음으로, 최적화 프로세스 중 모든 시도로부터 학습하는 베이지안 최적화라는 다음 방법으로 넘어가겠습니다.

3. 베이지안 최적화

베이지안 최적화는 확률 모델을 사용하여 이전 시도로부터 "학습"하고 검색 공간에서 최적의 하이퍼파라미터 조합으로 검색을 유도함으로써 기계 학습의 목적 함수를 최적화하는 하이퍼파라미터 최적화 방법입니다. 모델.

베이지안 최적화 방법은 4단계로 나눌 수 있는데, 아래에서 설명하겠습니다. 프로세스를 더 잘 이해하기 위해 다음 단계를 읽어 보시기 바랍니다. 하지만 이 방법을 사용하는 데 필요한 사전 지식은 없습니다.

목적 함수를 최적화하는 가장 가능성이 높은 초매개변수 조합에 대한 특정 시점의 우리의 믿음에 대한 확률 모델인 "사전" 정의
초매개변수 샘플을 평가하는 모델
단계 사용 2단계에서 얻은 지식을 사용하여 1단계("사전 모델"이라고 함)의 확률 모델을 업데이트하여 목적 함수를 최적화하는 가장 가능성 있는 하이퍼 매개변수 조합이 어디에 있는지 이해합니다. 우리의 업데이트된 믿음은 "후부"라고 불립니다. 즉, 2단계에서 얻은 지식은 검색 공간을 더 잘 이해하는 데 도움이 되며, 2단계에서 결정된 검색 공간 및 목적 함수에 대한 "최신" 지식을 사후에 제공하여 이전부터 사후까지 가져옵니다. 정보를 제공합니다.
모델 성능이 수렴되거나 리소스가 소진되거나 기타 사전 정의된 측정항목이 충족될 때까지 2단계와 3단계를 반복합니다.

베이지안 최적화에 대해 더 자세히 알아보고 싶다면 다음 게시물을 확인하세요.

"기계 학습의 베이지안 최적화 알고리즘", 주소는 다음과 같습니다.
https://medium.com/@fmnobar/conceptual-overview-of-bayesian-optimization-for-parameter-tuning-in -machine-learning-a3b1b4b9339f .

이제 베이지안 최적화의 작동 방식을 이해했으므로 장점과 단점을 살펴보겠습니다.

이점:

과거 관찰을 통해 학습하여 더욱 효율적으로 작업할 수 있습니다. 즉, 메모리 없는 방법보다 더 적은 반복으로 더 나은 하이퍼파라미터 세트를 찾을 것으로 예상됩니다.
특정 가정을 고려한 최적성에 대한 수렴 단점:
어려운 병렬화
그리드보다 계산량이 크고 반복당 무작위 검색이 더 큼
베이지안 최적화에 사용되는 함수(예: get 함수 등)에 대한 사전 및 초기 확률 분포의 선택은 성능과 학습 곡선에 큰 영향을 미칠 수 있습니다

자세한 내용은 생략하고 베이지안 최적화를 구현하고 살펴보겠습니다. 결과.

3.1. 베이지안 최적화 알고리즘 구현

이전 섹션과 유사하게 그리드 검색 구현에서 설명한 것과 동일한 문제에 대해 다음 코드 조각을 사용하여 베이지안 하이퍼파라미터 최적화를 구현하겠습니다.

# 라이브러리 가져오기
from skop import BayesSearchCV

# 베이지안 최적화 수행
optimizer = BayesSearchCV(estimator=RandomForestClassifier(),
search_spaces=search_space,
n_iter=10,
cv=5 ,
점수='정확도',
random_state=1234)

# 총 실행 시간을 계산하기 위해 시작 시간을 저장합니다.
start_time = time.time()

optimizer.fit(X, y)

# 총 실행 시간을 계산하기 위해 종료 시간을 저장합니다.
end_time = time.time()

# 최상의 하이퍼파라미터 세트와 해당 점수를 인쇄합니다.
print(f"selected hyperparameters:")
print(optimizer.best_params_ )
print("")
print(f"best_score: {optimizer.best_score_}")
print(f"elapsed_time: {round(end_time-start_time, 1)}")

의 출력 위 코드는 다음과 같습니다:

하이퍼파라미터 최적화 비교: 그리드 검색, 무작위 검색, 베이지안 최적화

베이지안 최적화 결과

또 다른 흥미로운 결과 모음! best_score는 그리드 및 무작위 검색으로 얻은 결과와 일치하지만 결과는 무작위 검색의 75.5초, 그리드 검색의 352.0초에 비해 23.1초만 걸렸습니다! 즉, 베이지안 최적화를 사용하면 그리드 검색보다 약 93% 정도 시간이 덜 걸립니다. 이는 더 크고 복잡한 모델과 검색 공간에서 훨씬 더 의미 있는 엄청난 생산성 향상입니다.

베이지안 최적화는 이전 반복에서 학습할 수 있기 때문에(무작위 및 그리드 검색과 반대) 10번의 반복만 사용하여 이러한 결과를 얻었습니다.

결과 비교

아래 표는 지금까지 논의된 세 가지 방법의 결과를 비교한 것입니다. "방법론" 열에서는 사용된 하이퍼파라미터 최적화 방법을 설명합니다. 그 다음에는 각 방법을 사용하여 선택한 하이퍼파라미터가 나옵니다. "최고 점수"는 특정 방법을 사용하여 얻은 점수이고, "경과 시간"은 내 로컬 노트북에서 최적화 전략을 실행하는 데 걸린 시간을 나타냅니다. 마지막 열인 효율성 향상에서는 그리드 검색을 기준으로 가정하고 그리드 검색과 비교하여 다른 두 가지 방법으로 얻은 효율성을 계산합니다(경과 시간 사용). 예를 들어 무작위 검색에는 75.5초가 걸리고 그리드 검색에는 352.0초가 걸리므로 그리드 검색 기준선 대비 무작위 검색의 효율성은 1–75.5/352.0=78.5%로 계산됩니다.

하이퍼파라미터 최적화 비교: 그리드 검색, 무작위 검색, 베이지안 최적화

표 2 - 방법 성능 비교표

위 비교표의 두 가지 주요 결론:

효율성: 베이지안 최적화와 같은 학습 방법이 어떻게 더 짧은 시간에 더 나은 성능을 얻을 수 있는지 확인할 수 있습니다. 최적화된 하이퍼파라미터 세트
매개변수 선택: 정답은 여러 개일 수 있습니다. 예를 들어 베이지안 최적화를 위해 선택된 매개변수는 그리드 및 무작위 검색의 매개변수와 다르지만 평가 지표(예: best_score)는 동일하게 유지됩니다. 이는 더 크고 복잡한 환경에서 더욱 중요합니다.

결론

이 글에서는 하이퍼파라미터 최적화가 무엇인지 논의하고 이 최적화 연습에 사용되는 가장 일반적인 세 가지 방법을 소개했습니다. 그런 다음 이 세 가지 방법을 각각 자세히 소개하고 분류 연습에서 구현합니다. 마지막으로 세 가지 방법을 구현한 결과를 비교합니다. 이전 시도에서 학습한 베이지안 최적화와 같은 방법은 효율성을 크게 향상시킬 수 있으며 이는 효율성이 결정 요인이 될 수 있는 심층 신경망과 같은 대규모 복잡한 모델에서 중요한 요소가 될 수 있습니다.