Interview/ML
ML Interview - Anomaly Detection
김 정출
2024. 11. 10. 14:58
Anomaly Detection
이상치 탐지 (Anomaly Detection)
이상치 탐지는 정상적인 패턴에서 벗어난 데이터를 탐지하는 기술로, 소수 클래스가 이상치나 특이치로 간주될 때 매우 유용합니다. 예를 들어, 금융 사기 탐지나 제조업에서 불량품 감지와 같은 경우에 적용할 수 있습니다.
이상치 탐지 기법의 주요 유형:
- 통계 기반 기법:
- 데이터 분포를 이용하여 평균이나 분산에서 벗어나는 데이터를 이상치로 감지합니다.
- Z-Score 또는 IQR (Interquartile Range) 등을 통해 소수 클래스 데이터를 감지할 수 있습니다.
- 예를 들어, 데이터가 정규 분포를 따른다면 평균에서 일정 범위 이상 벗어나는 데이터를 이상치로 간주합니다.
- 밀도 기반 기법:
- 밀도 기반 이상치 탐지 방법은 데이터의 밀집도에 따라 이상치를 감지하는 방법입니다.
- DBSCAN (Density-Based Spatial Clustering of Applications with Noise), LOF (Local Outlier Factor) 등과 같은 알고리즘이 여기에 속합니다.
- 밀집도가 낮은 소수 클래스 데이터가 이상치로 탐지될 수 있습니다.
- 머신러닝 기반 기법:
- 이상치 탐지용 머신러닝 모델을 학습시켜 소수 클래스를 구분할 수 있습니다. 예를 들어, Isolation Forest나 One-Class SVM은 정상 데이터만으로 학습하여 비정상 데이터를 탐지하는 데 사용됩니다.
- Autoencoder와 같은 비지도 학습 모델을 활용하여 정상 패턴을 학습하고, 이 패턴에서 벗어난 소수 클래스를 감지할 수 있습니다. Autoencoder는 입력 데이터를 압축한 후 다시 복원하는 구조로, 정상 데이터에서는 재구성 오류가 적지만 이상 데이터는 큰 오류를 나타내므로 이를 이용해 소수 클래스를 탐지합니다.
- 시간적 패턴 기반 기법 (시계열 데이터의 경우):
- 시계열 데이터에서 정상적인 시간적 패턴에서 벗어나는 이상치를 탐지할 수 있습니다. ARIMA 모델이나 LSTM 기반의 예측 모델을 활용하여 예측 오차가 큰 시점을 이상치로 간주합니다.
예시:
- 금융 사기 탐지: 대부분의 거래가 정상 거래이고, 소수 클래스인 사기 거래를 이상치 탐지 기법을 통해 탐지할 수 있습니다.
- 산업 장비의 이상 감지: 기계의 센서 데이터를 학습하여 정상 작동 범위에서 벗어나는 데이터를 탐지함으로써 고장 가능성을 파악합니다.
https://jeongchul.tistory.com/841
https://jeongchul.tistory.com/842