일관성을 위해 데이터 프레임 열 정규화
데이터 분석에서는 데이터 범위의 일관성을 보장하기 위해 데이터 프레임 열을 정규화해야 하는 경우가 많습니다. 이는 다양한 소스의 데이터를 처리하거나 값의 규모가 서로 다른 경우 특히 중요합니다.
문제 설명
다양한 값 범위를 갖는 열이 있는 데이터 프레임을 고려해보세요.
df: A B C 1000 10 0.5 765 5 0.35 800 7 0.09
목표는 각 값이 0과 1 사이에 있도록 이 데이터 프레임의 열을 정규화하는 것입니다.
해결책
평균 정규화
Pandas를 사용하면 평균 정규화를 다음과 같이 구현할 수 있습니다.
normalized_df = (df - df.mean()) / df.std()
이 방법은 원래 값에서 각 열의 평균을 뺀 다음 이를 다음으로 나눕니다. 표준 편차.
최소-최대 정규화
최소-최대 정규화의 경우:
normalized_df = (df - df.min()) / (df.max() - df.min())
이 접근 방식은 각각의 최소값과 최대값을 계산합니다. 열을 사용하여 원래 값을 [0, 1] 범위로 조정합니다.
결과
두 정규화 방법 모두 각 값이 다음과 같은 열이 있는 데이터 프레임을 생성합니다. 0과 1 사이입니다. 주어진 예제 데이터 프레임의 경우 예상되는 출력은 다음과 같습니다.
A B C 1 1 1 0.765 0.5 0.7 0.8 0.7 0.18
위 내용은 데이터 일관성을 달성하기 위해 DataFrame 열을 어떻게 정규화할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!