반응형
정규화
- 각 컬럼에 속하는 데이터 값을 동일한 크기 기준으로 나눈 비율로 나타냅니다.
- 정규화 과정을 거친 데이터의 범위는 0~1 또는 -1~1 입니다.
- 각 변수(컬럼)에 들어 있는 수자 데이터의 상대적 크기 차이 때문에 머신러닝(회귀) 분석 결과가 달라져 숫자 데이터의 상대적인 크기 차이 제거가 필요합니다.
- EX) A변수는 0~1000범위, B변수는 0~1범위 값을 가질 때 한 쪽 변수의 영향이 더 커질 수 있습니다.
▶ 방법 1
각 컬럼의 데이터를 해당 컬럼의 최대값으로 나눕니다.
# 정규화 방법 1
hp_max = df_auto.horsepower.max()
(df_auto.horsepower / hp_max) # 0.2 ~ 1
▶ 방법2
각 변수의 데이터 중 최대값과 최소값을 뺀 값으로 나눕니다.
# 정규화 방법 2
hp_max = df_auto.horsepower.max()
hp_min = df_auto.horsepower.min()
# 최대값 - 데이터값 / 최대값 - 최소값
((hp_max - df_auto.horsepower) / (hp_max - hp_min)).min() # 0
((hp_max - df_auto.horsepower) / (hp_max - hp_min)).max() # 1
반응형
'Python' 카테고리의 다른 글
[Python] Function Mapping (0) | 2022.10.06 |
---|---|
[Python] TimeSeries (0) | 2022.10.06 |
[Python] 데이터 사전처리 (0) | 2022.10.01 |
[Python] Seaborn (0) | 2022.10.01 |
[Python] Boxplot (0) | 2022.09.30 |