기계 학습 회귀 모델과 관련된 중요한 지식 요약-일체 포함-php.cn

1. 선형 회귀의 가정은 무엇입니까?

선형 회귀에는 네 가지 가정이 있습니다.

선형성: 독립 변수(x)와 종속 변수(y) 사이에 선형 관계가 있어야 합니다. 즉, x 값이 변경되면 y 값도 변경되어야 합니다. 같은 방향.
독립성: 기능은 서로 독립적이어야 합니다. 즉, 다중 공선성이 최소화되어야 합니다.
정규성: 잔차는 정규 분포를 따라야 합니다.
동분산성: 회귀선 주변의 데이터 포인트 분산은 모든 값에 대해 동일해야 합니다.

2. 잔차란 무엇이며 회귀 모델을 평가하는 데 어떻게 사용되나요?

잔차오차는 예측값과 관측값 사이의 오차를 말합니다. 회귀선에서 데이터 포인트까지의 거리를 측정합니다. 관측값에서 예측값을 빼서 계산됩니다.

잔차 도표는 회귀 모델을 평가하는 좋은 방법입니다. 세로축에 잔차를 모두 표시하고, x축에 특징을 표시한 그래프입니다. 데이터 포인트가 패턴이 없는 선에 무작위로 흩어져 있으면 선형 회귀 모델이 데이터에 잘 맞는 것입니다. 그렇지 않으면 비선형 모델을 사용해야 합니다.

기계 학습 회귀 모델과 관련된 중요한 지식 요약

3. 선형 회귀 모델과 비선형 회귀 모델을 구별하는 방법은 무엇입니까?

둘 다 회귀 문제 유형입니다. 둘의 차이점은 훈련받은 데이터입니다.

선형 회귀 모델은 특성과 레이블 간의 선형 관계를 가정합니다. 즉, 모든 데이터 포인트를 가져와 선형(직선) 선으로 플롯하면 데이터에 맞아야 합니다.

비선형 회귀 모델은 변수 간에 선형 관계가 없다고 가정합니다. 비선형(곡선) 선은 데이터를 올바르게 분리하고 맞춰야 합니다.

기계 학습 회귀 모델과 관련된 중요한 지식 요약

데이터가 선형인지 비선형인지 확인하는 가장 좋은 세 가지 방법 -

잔차 플롯
산점도
데이터가 선형이라고 가정하고 선형 모델을 훈련하고 정확성을 기준으로 평가합니다.

4. 다중 공선성은 무엇이며 모델 성능에 어떤 영향을 미치나요?

다중공선성은 특정 특성이 서로 높은 상관관계를 가질 때 발생합니다. 상관관계는 한 변수가 다른 변수의 변화에 의해 어떻게 영향을 받는지 나타내는 측정값을 나타냅니다.

특성 a의 증가가 특성 b의 증가로 이어진다면 두 특성은 양의 상관관계가 있습니다. a의 증가로 인해 특성 b의 감소가 발생하면 두 특성은 음의 상관 관계가 있습니다. 학습 데이터에 상관 관계가 높은 두 변수가 있으면 해당 모델이 데이터에서 패턴을 찾을 수 없어 모델 성능이 저하되므로 다중 공선성이 발생합니다. 따라서 모델을 훈련하기 전에 먼저 다중 공선성을 제거해야 합니다.

5. 이상치가 선형 회귀 모델의 성능에 어떤 영향을 미치나요?

아웃라이어는 데이터 포인트의 평균 범위와 값이 다른 데이터 포인트입니다. 즉, 이러한 점은 데이터와 다르거나 3차 기준을 벗어나는 것입니다.

기계 학습 회귀 모델과 관련된 중요한 지식 요약

선형 회귀 모델은 잔차를 줄이는 최적의 선을 찾으려고 시도합니다. 데이터에 이상값이 포함된 경우 가장 적합한 선이 이상값 쪽으로 약간 이동하여 오류율이 증가하고 MSE가 매우 높은 모델이 생성됩니다.

6. MSE와 MAE의 차이점은 무엇인가요?

MSE는 평균 제곱 오차(Mean Squared Error)를 의미하며, 이는 실제 값과 예측 값의 제곱 차이입니다. 그리고 MAE는 목표값과 예측값의 절대차입니다.

MSE는 큰 실수에 대해 처벌을 가하지만 MAE는 그렇지 않습니다. MSE와 MAE의 값이 모두 감소할수록 모델이 더 잘 맞는 선이 되는 경향이 있습니다.

7. L1 및 L2 정규화는 무엇이며 언제 사용해야 합니까?

머신러닝의 주요 목표는 훈련 및 테스트 데이터에서 더 나은 성능을 발휘할 수 있는 일반 모델을 만드는 것입니다. 하지만 데이터가 매우 적을 경우 기본 선형 회귀 모델은 과적합되는 경향이 있으므로 l1 및 l2 정규화를 사용합니다. .

L1 정규화 또는 올가미 회귀는 기울기의 절대값을 비용 함수 내의 페널티 항으로 추가하여 작동합니다. 임계값보다 작은 기울기 값을 가진 모든 데이터 포인트를 제거하여 이상값을 제거하는 데 도움이 됩니다.

L2 정규화 또는 능선 회귀는 계수 크기의 제곱과 동일한 페널티 항을 추가합니다. 경사 값이 더 높은 피처에 페널티를 줍니다.

l1 및 l2는 훈련 데이터가 작고 분산이 높으며 예측 특징이 관측값보다 크고 데이터에 다중 공선성이 있을 때 유용합니다.

8. 이분산성은 무엇을 의미하나요?

가장 적합한 선 주변의 데이터 포인트의 분산이 범위 내에서 다른 상황을 말합니다. 이로 인해 잔여물이 고르지 않게 분산됩니다. 데이터에 존재하는 경우 모델은 잘못된 출력을 예측하는 경향이 있습니다. 이분산성을 테스트하는 가장 좋은 방법 중 하나는 잔차를 그리는 것입니다.

데이터 내 이분산성의 가장 큰 원인 중 하나는 범위 특성 간의 큰 차이입니다. 예를 들어 1에서 100000까지의 열이 있는 경우 값을 10% 늘려도 낮은 값은 변경되지 않지만 높은 값에서는 매우 큰 차이가 발생하므로 큰 분산 데이터 포인트가 생성됩니다. .

9. 분산 팽창 요인의 역할은 무엇인가요?

분산 팽창 계수(vif)는 다른 독립 변수를 사용하여 독립 변수를 얼마나 잘 예측할 수 있는지 확인하는 데 사용됩니다.

v1, v2, v3, v4, v5 및 v6 기능이 포함된 예제 데이터를 살펴보겠습니다. 이제 v1의 vif를 계산하려면 이를 예측 변수로 간주하고 다른 모든 예측 변수를 사용하여 예측해 보세요.

VIF 값이 작다면 데이터에서 변수를 제거하는 것이 좋습니다. 값이 작을수록 변수 간의 상관 관계가 높다는 것을 의미하기 때문입니다.

10. 단계적 회귀는 어떻게 작동하나요?

단계적 회귀는 가설 테스트를 통해 예측 변수를 제거하거나 추가하여 회귀 모델을 만드는 방법입니다. 각 독립 변수의 유의성을 반복적으로 테스트하고 각 반복 후에 일부 기능을 제거하거나 추가하여 종속 변수를 예측합니다. n번 실행하여 관측값과 예측값 사이의 오류가 가장 작은 종속변수를 예측하는 최상의 매개변수 조합을 찾으려고 시도합니다.

대량의 데이터를 매우 효율적으로 관리하고 고차원 문제를 해결할 수 있습니다.

11. MSE, MAE 외에 다른 중요한 회귀 지표가 있나요?

기계 학습 회귀 모델과 관련된 중요한 지식 요약

회귀 문제를 사용하여 이러한 지표를 소개합니다. 여기서 입력은 업무 경험이고 출력은 급여입니다. 아래 그래프는 급여를 예측하기 위해 그려진 선형 회귀선을 보여줍니다.

기계 학습 회귀 모델과 관련된 중요한 지식 요약

1. 평균 절대 오차(MAE):

기계 학습 회귀 모델과 관련된 중요한 지식 요약

평균 절대 오차(MAE)는 가장 간단한 회귀 측정입니다. 각 실제 값과 예측 값의 차이를 더한 후 관측치 수로 나눕니다. 회귀 모델이 좋은 모델로 간주되려면 MAE가 최대한 작아야 합니다.

MAE의 장점은 다음과 같습니다.

간단하고 이해하기 쉽습니다. 결과는 출력과 동일한 단위를 갖게 됩니다. 예: 출력 열의 단위가 LPA이고 MAE가 1.2인 경우 결과를 +1.2LPA 또는 -1.2LPA로 해석할 수 있습니다. MAE는 이상값에 대해 상대적으로 안정적입니다(다른 회귀 지표인 MAE와 비교). 이상값의 영향을 덜 받습니다).

MAE의 단점은 다음과 같습니다.

MAE는 모듈러 함수를 사용하지만 모듈러 함수는 모든 지점에서 미분 가능하지 않으므로 많은 경우 손실 함수로 사용할 수 없습니다.

2. 평균 제곱 오차(MSE):

기계 학습 회귀 모델과 관련된 중요한 지식 요약

MSE는 각 실제 값과 예측 값의 차이를 구한 다음 그 차이를 제곱하고 더한 다음 마지막으로 관측치 수로 나눕니다. 회귀 모델이 좋은 모델로 간주되려면 MSE가 최대한 작아야 합니다.

MSE의 장점: 제곱 함수는 모든 점에서 미분 가능하므로 손실 함수로 사용할 수 있습니다.

MSE의 단점: MSE는 제곱 함수를 사용하므로 결과의 단위는 출력의 제곱입니다. 따라서 결과를 해석하기가 어렵습니다. 제곱 함수를 사용하므로 데이터에 이상값이 있는 경우 차이도 제곱되므로 MSE는 이상값에 대해 안정적이지 않습니다.

3. 평균 제곱근 오차(RMSE):

기계 학습 회귀 모델과 관련된 중요한 지식 요약

평균 제곱근 오차(RMSE)는 각 실제 값과 예측 값의 차이를 구한 다음 그 차이를 제곱하여 더한 다음 마지막으로 관찰 수. 그런 다음 결과의 제곱근을 취합니다. 따라서 RMSE는 MSE의 제곱근입니다. 회귀 모델이 좋은 모델로 간주되려면 RMSE가 최대한 작아야 합니다.

RMSE는 MSE 문제를 해결합니다. 단위는 제곱근을 취하므로 출력의 단위와 동일하지만 여전히 이상값에 대해서는 덜 안정적입니다.

위 지표는 우리가 해결하고 있는 문제의 맥락에 따라 달라집니다. 실제 문제에 대한 이해 없이는 MAE, MSE, RMSE 값만 보고 모델의 품질을 판단할 수 없습니다.

4, R2 점수:

기계 학습 회귀 모델과 관련된 중요한 지식 요약

입력 데이터가 없지만 그가 이 회사에서 받는 급여가 얼마나 되는지 알고 싶다면, 우리가 할 수 있는 최선의 방법은 모든 직원의 평균을 제공하는 것입니다. ' 급여 가치.

기계 학습 회귀 모델과 관련된 중요한 지식 요약

R2 점수는 0에서 1 사이의 값을 제공하며 어떤 상황에서도 해석될 수 있습니다. 핏의 품질로 이해될 수 있습니다.

SSR은 회귀선 오류 제곱의 합이고, SSM은 이동 평균 오류 제곱의 합입니다. 회귀선을 평균선과 비교합니다.

기계 학습 회귀 모델과 관련된 중요한 지식 요약

R2 점수가 0이면 우리 모델의 결과가 평균과 동일하다는 의미이므로 모델을 개선해야 합니다.
R2 점수가 1이면 방정식의 우변은 0이 됩니다. 이는 모델이 모든 데이터 포인트에 적합하고 오류가 없는 경우에만 발생할 수 있습니다.
R2 점수가 음수이면 방정식의 우변이 1보다 크다는 뜻이며, 이는 SSR > SSM일 때 발생할 수 있습니다. 이는 우리 모델이 평균보다 나쁘다는 것을 의미합니다. 이는 우리 모델이 평균을 사용하여 예측하는 것보다 나쁘다는 것을 의미합니다.

모델의 R2 점수가 0.8이면 모델이 설명할 수 있다고 말할 수 있습니다. 출력 변동의 80%. 즉, 임금변동의 80%는 투입(근로연수)에 의해 설명 가능하지만 나머지 20%는 알 수 없다.

모델에 근무 연수와 면접 점수라는 2가지 특성이 있는 경우 모델은 이 두 가지 입력 특성을 사용하여 급여 변화의 80%를 설명할 수 있습니다.

R2의 단점:

입력 특성 수가 증가함에 따라 R2는 그에 따라 증가하거나 동일하게 유지되는 경향이 있지만, 입력 특성이 모델에 중요하지 않더라도(예: 숫자를 추가하는 경우에도) 절대 줄어들지 않습니다. 인터뷰 당일 입력 기능) 예시에 공기 온도를 추가하면 온도가 출력에 중요하지 않더라도 R2는 떨어지지 않습니다.