반응형

정규화 2

[Python] 정규화

정규화 각 컬럼에 속하는 데이터 값을 동일한 크기 기준으로 나눈 비율로 나타냅니다. 정규화 과정을 거친 데이터의 범위는 0~1 또는 -1~1 입니다. 각 변수(컬럼)에 들어 있는 수자 데이터의 상대적 크기 차이 때문에 머신러닝(회귀) 분석 결과가 달라져 숫자 데이터의 상대적인 크기 차이 제거가 필요합니다. EX) A변수는 0~1000범위, B변수는 0~1범위 값을 가질 때 한 쪽 변수의 영향이 더 커질 수 있습니다. ▶ 방법 1 각 컬럼의 데이터를 해당 컬럼의 최대값으로 나눕니다. # 정규화 방법 1 hp_max = df_auto.horsepower.max() (df_auto.horsepower / hp_max) # 0.2 ~ 1 ▶ 방법2 각 변수의 데이터 중 최대값과 최소값을 뺀 값으로 나눕니다. #..

Python 2022.10.06

[Data Modeling] 정규화(Nomalization) 이해와 예제

정규화는 쉽다. 하지만 왜 정규화를 쓰는지 모르기 때문에 정규화가 어려운 것이다. Entity 조직 속성과 Entity를 grouping 한다. 조직 단계에서 Entity가 명확해진다 조직 단계에서 추가적인 Entity가 도출될 수 있다. 관계 도출 관계는 PK, FK 등으로 구현한다. Entity와 Entity 간의 관계는 동사로 표현한다. 개념적 모델링(ERD) 시나리오 1. ERD(개념적 모델링)를 엑셀을 이용하여 테이블을 작성한다. → 문제점 작성자, 댓글아이디의 data가 중복하여 where문을 적용 할 수 없다. = Non Atomic Colums 2. 중복성을 해결한다. → 문제점 데이터의 중복이 발생한다. (제목, 본문, 작성일) DB 이상현상(DB Anomaly)이 발생한다. → 해법 :..

DataBase 2022.04.04
반응형