Python

[Python] 정규화

SangRok Jung 2022. 10. 6. 11:36
반응형

정규화


  • 각 컬럼에 속하는 데이터 값을 동일한 크기 기준으로 나눈 비율로 나타냅니다.
  • 정규화 과정을 거친 데이터의 범위는 0~1 또는 -1~1 입니다.
  • 각 변수(컬럼)에 들어 있는 수자 데이터의 상대적 크기 차이 때문에 머신러닝(회귀) 분석 결과가 달라져 숫자 데이터의 상대적인 크기 차이 제거가 필요합니다.

 

  • EX) A변수는 0~1000범위, B변수는 0~1범위 값을 가질 때 한 쪽 변수의 영향이 더 커질 수 있습니다.

 

 

 

▶ 방법 1

각 컬럼의 데이터를 해당 컬럼의 최대값으로 나눕니다.

# 정규화 방법 1
hp_max = df_auto.horsepower.max()
(df_auto.horsepower / hp_max) # 0.2 ~ 1

 

 

 

 

▶ 방법2

각 변수의 데이터 중 최대값과 최소값을 뺀 값으로 나눕니다.

# 정규화 방법 2
hp_max = df_auto.horsepower.max()
hp_min = df_auto.horsepower.min()

# 최대값 - 데이터값 / 최대값 - 최소값
((hp_max - df_auto.horsepower) / (hp_max - hp_min)).min() # 0
((hp_max - df_auto.horsepower) / (hp_max - hp_min)).max() # 1
반응형

'Python' 카테고리의 다른 글

[Python] Function Mapping  (0) 2022.10.06
[Python] TimeSeries  (0) 2022.10.06
[Python] 데이터 사전처리  (0) 2022.10.01
[Python] Seaborn  (0) 2022.10.01
[Python] Boxplot  (0) 2022.09.30