Interview/ML
ML Interview - Normalization
김 정출
2024. 11. 10. 16:37
ML에서 정규화 방법
ML에서 정규화는 데이터의 분포를 조정하여 모델 학습을 더 쉽게 하고, 모델의 성능을 높이는 중요한 전처리 과정입니다. 정규화는 주로 입력 데이터의 범위를 조정하여 학습 속도를 향상시키고, 과적합을 방지하며, 예측 성능을 개선하기 위해 사용됩니다. 대표적인 정규화 방식은 Min-Max 정규화와 Z-정규화 (표준화)가 있습니다.
1. Min-Max 정규화
Min-Max 정규화는 데이터의 범위를 [0, 1] 또는 [-1, 1] 사이의 값으로 조정하는 방식입니다. 각 데이터 값을 해당 변수의 최솟값과 최댓값을 사용하여 다음과 같이 변환합니다.
- 장점: Min-Max 정규화는 데이터의 최대 및 최소 값이 모두 중요한 경우에 효과적이며, 특히 신경망 등에서 활성화 함수의 범위에 맞추어 입력 데이터를 정규화하는 데 유용합니다.
- 단점: 이상치(outliers)에 민감하며, 데이터의 최댓값과 최솟값이 변화할 경우 재정규화가 필요합니다.
2. Z-정규화 (표준화)
Z-정규화는 데이터의 평균을 0으로, 표준편차를 1로 조정하여 평균이 0, 분산이 1인 정규 분포를 따르도록 만드는 방식입니다. 공식은 다음과 같습니다.
여기서 μ는 평균이고, σ는 표준편차입니다.
- 장점: Z-정규화는 데이터가 정규 분포를 따르는 경우 더욱 효과적이며, 이상치의 영향을 덜 받습니다. 회귀 분석과 같은 통계적 분석에서 주로 사용됩니다.
- 단점: 데이터가 반드시 정규 분포를 따르지 않을 수 있으므로, 모든 데이터에 적합하지는 않습니다.
비교
- 적용 환경: Min-Max 정규화는 이미지 처리나 신경망 모델에서 주로 사용되는 반면, Z-정규화는 회귀, PCA 등과 같은 통계적 모델링에서 많이 사용됩니다.
- 이상치에 대한 민감도: Min-Max 정규화는 이상치에 민감한 반면, Z-정규화는 이상치의 영향을 상대적으로 덜 받습니다.
- 데이터의 분포: Z-정규화는 데이터가 정규 분포를 따를 때 유리하지만, Min-Max 정규화는 데이터 분포에 상관없이 사용할 수 있습니다.
따라서, 데이터의 특성과 문제의 요구 사항에 따라 적절한 정규화 방식을 선택하는 것이 중요합니다.