Statistics

[STAT 101] 정규화 (Normalization)와 표준화 (Standardization)

thebuck104 2024. 7. 4. 16:34

 

정규화 (Normalization)

 

한 데이터의 항목들의 범위의 차이를 왜곡하지 않고 공통 척도로 변경하는 작업.

보통 항목 간 Range의 차이가 심할 경우 정규화를 시켜준다.

 

Min-Max Scaling

 

Min-Max Scaling은 모든 항목들이 [0,1] 사이에 위치하도록 가공해준다.

위의 방법으로 정규화를 시켜줄 수 있으며, scikit-learn의 Normalizer로도 구현 가능하다.

 


 

표준화 (Standardization) or Z-Score Normalization

 

표준화는 모든 항목들이 다음과 같은 표중 정규분포의 속성을 가지게 만들어주며,

많은 머신러닝 알고리즘에서 표준화를 기본적으로 요구한다.

 

 

평균은 0이되고 표준편차는 1이 되고, 이 때, Z-score는 다음과 같이구할 수 있다.

이렇게 Z-Score를 구함으로써 데이터가 평균으로부터 얼마나 떨어져 있는지구한 다음, 

특정 범위를 벗어난 데이터는 Outlier로 간주할 수 있다.

 


 

Normalization VS Standardization

 

통상적으로

 

1. 표준화를 통해 이상치를 제거하고

2. 정규화를 통해 상대적 크기에 대한 영향력을 줄이고

3. 데이터 분석을 시작한다.