ML Interview - 하이퍼파라미터 튜닝 기법
·
Interview/ML
하이퍼파라미터 튜닝 기법머신러닝에서 하이퍼파라미터 튜닝은 모델의 성능을 최적화하기 위해 중요한 단계입니다. 주요 하이퍼파라미터 튜닝 기법은 다음과 같습니다: 그리드 서치 (Grid Search)하이퍼파라미터의 모든 가능한 조합을 탐색합니다.하이퍼파라미터 값의 범위를 사전에 정의하고, 모든 조합을 시도하는 방식입니다.매우 많은 계산이 필요할 수 있지만, 모든 경우를 시도해 볼 수 있습니다.랜덤 서치 (Random Search)하이퍼파라미터 공간에서 임의로 조합을 선택해 탐색합니다.계산 비용을 줄일 수 있고, 효율적으로 최적값에 가까운 값을 찾을 가능성이 있습니다.그리드 서치보다 속도가 빠르고 자원이 적게 소모됩니다.베이즈 최적화 (Bayesian Optimization)베이지안 접근 방식을 사용해 탐색합니..
ML Interview - IQR
·
Interview/ML
IQR(Interquartile Range)IQR(Interquartile Range, 사분위 범위)는 데이터의 중간 50%가 퍼져 있는 범위를 나타내는 지표로, 머신러닝에서 이상치(outlier)를 탐지하거나 데이터의 분포를 분석할 때 유용하게 사용됩니다. IQR은 데이터셋의 1사분위수(Q1)와 3사분위수(Q3) 간의 차이로 계산됩니다. IQR 계산IQR을 계산하는 과정은 다음과 같습니다:데이터를 오름차순으로 정렬합니다.1사분위수(Q1)와 3사분위수(Q3)를 찾기:Q1은 데이터의 하위 25%에 해당하는 값입니다.Q3은 데이터의 상위 75%에 해당하는 값입니다.IQR 계산: IQR = Q3 - Q1  IQR을 이용한 이상치 탐지IQR은 주로 이상치를 탐지할 때 유용하게 사용됩니다. IQR 기반의 이상치 ..
ML Interview - Z Score
·
Interview/ML
Z ScoreZ Score(또는 Z-점수)는 데이터 포인트가 평균에서 얼마나 떨어져 있는지를 표준 편차 단위로 나타내는 지표입니다.Z Score는 통계학과 머신러닝에서 데이터의 표준화를 위해 자주 사용됩니다. 이는 각 데이터 포인트가 평균보다 얼마나 높은지 또는 낮은지를 나타내며, 주로 데이터 분포를 비교하거나 이상치를 감지하는 데 유용합니다.Z Score 계산 공식은 다음과 같습니다:Z = (X − μ) / σ- X: 데이터 포인트,- μ: 데이터셋의 평균,- σ: 데이터셋의 표준 편차입니다. Z Score의 의미:Z Score가 0에 가까우면 데이터 포인트가 평균에 가깝다는 것을 의미합니다.Z Score가 양수면 평균보다 크고, 음수면 평균보다 작습니다.Z Score의 절대값이 클수록 평균에서 멀리 ..
ML Interview - Anomaly Detection
·
Interview/ML
Anomaly Detection이상치 탐지 (Anomaly Detection)이상치 탐지는 정상적인 패턴에서 벗어난 데이터를 탐지하는 기술로, 소수 클래스가 이상치나 특이치로 간주될 때 매우 유용합니다. 예를 들어, 금융 사기 탐지나 제조업에서 불량품 감지와 같은 경우에 적용할 수 있습니다.이상치 탐지 기법의 주요 유형:통계 기반 기법:데이터 분포를 이용하여 평균이나 분산에서 벗어나는 데이터를 이상치로 감지합니다.Z-Score 또는 IQR (Interquartile Range) 등을 통해 소수 클래스 데이터를 감지할 수 있습니다.예를 들어, 데이터가 정규 분포를 따른다면 평균에서 일정 범위 이상 벗어나는 데이터를 이상치로 간주합니다.밀도 기반 기법:밀도 기반 이상치 탐지 방법은 데이터의 밀집도에 따라 이..
ML Interview - Transfer Learning
·
Interview/ML
전이 학습 (Transfer Learning)전이 학습은 기존에 학습된 모델의 지식을 새로운 문제에 적용하는 방법으로, 특히 소수 클래스에 대한 데이터가 부족할 때 효과적입니다. 이를 통해 모델이 적은 데이터로도 일반화 능력을 유지할 수 있습니다.전이 학습의 주요 단계:사전 학습 모델 선정:먼저 대규모 데이터셋에서 학습된 모델을 선택합니다. 예를 들어, 이미지 처리에서는 ImageNet 데이터셋으로 학습된 ResNet, VGG, EfficientNet과 같은 모델을 사용합니다.텍스트 기반의 작업에서는 BERT, GPT, T5 등의 사전 학습된 언어 모델을 사용할 수 있습니다.모델의 일부 고정 또는 미세 조정 (Fine-tuning):선택한 사전 학습 모델의 일부 레이어는 고정하고, 나머지 레이어는 새로운..
ML Interview - 데이터셋의 레이블 불균형 처리 방법안
·
Interview/ML
ML에서 레이블 불균형은 특정 클래스의 데이터가 다른 클래스에 비해 매우 적거나 많은 상황을 말합니다. 이를 해결하지 않으면 모델이 대부분의 데이터를 차지하는 클래스에 편향되어 다른 클래스의 성능이 저하될 수 있습니다. 레이블 불균형을 다루는 방법에는 다음과 같은 전략들이 있습니다:데이터 리샘플링 (Resampling)오버샘플링 (Oversampling): 소수 클래스의 데이터를 증강해 학습 데이터의 균형을 맞춥니다. 일반적으로 SMOTE(Synthetic Minority Over-sampling Technique)를 사용해 기존 데이터를 기반으로 가상 데이터를 생성합니다.언더샘플링 (Undersampling): 다수 클래스의 데이터를 줄여 데이터의 균형을 맞춥니다. 데이터의 손실이 있을 수 있으므로 데..
김 정출
'Interview/ML' 카테고리의 글 목록 (2 Page)