정규화 (Normalization)
한 데이터의 항목들의 범위의 차이를 왜곡하지 않고 공통 척도로 변경하는 작업.
보통 항목 간 Range의 차이가 심할 경우 정규화를 시켜준다.
Min-Max Scaling
Min-Max Scaling은 모든 항목들이 [0,1] 사이에 위치하도록 가공해준다.
위의 방법으로 정규화를 시켜줄 수 있으며, scikit-learn의 Normalizer로도 구현 가능하다.
표준화 (Standardization) or Z-Score Normalization
표준화는 모든 항목들이 다음과 같은 표중 정규분포의 속성을 가지게 만들어주며,
많은 머신러닝 알고리즘에서 표준화를 기본적으로 요구한다.
평균은 0이되고 표준편차는 1이 되고, 이 때, Z-score는 다음과 같이구할 수 있다.
이렇게 Z-Score를 구함으로써 데이터가 평균으로부터 얼마나 떨어져 있는지구한 다음,
특정 범위를 벗어난 데이터는 Outlier로 간주할 수 있다.
Normalization VS Standardization
통상적으로
1. 표준화를 통해 이상치를 제거하고
2. 정규화를 통해 상대적 크기에 대한 영향력을 줄이고
3. 데이터 분석을 시작한다.
'Statistics' 카테고리의 다른 글
[STAT 101] 모집단과 표본, 그 속 통계 값들과 표본 추출 방법 (0) | 2024.08.07 |
---|---|
[STAT 101] 잔차와 오차, 그리고 결정계수 (0) | 2024.07.16 |
[STAT 101] 단순선형회귀, 공분산과 상관관계 (0) | 2024.07.04 |
[STAT 101] T - Test (0) | 2024.07.04 |
[STAT 101] 가설과 가설 검정 (0) | 2024.07.04 |