ML Interview - 하이퍼파라미터 튜닝 기법
·
Interview/ML
하이퍼파라미터 튜닝 기법머신러닝에서 하이퍼파라미터 튜닝은 모델의 성능을 최적화하기 위해 중요한 단계입니다. 주요 하이퍼파라미터 튜닝 기법은 다음과 같습니다: 그리드 서치 (Grid Search)하이퍼파라미터의 모든 가능한 조합을 탐색합니다.하이퍼파라미터 값의 범위를 사전에 정의하고, 모든 조합을 시도하는 방식입니다.매우 많은 계산이 필요할 수 있지만, 모든 경우를 시도해 볼 수 있습니다.랜덤 서치 (Random Search)하이퍼파라미터 공간에서 임의로 조합을 선택해 탐색합니다.계산 비용을 줄일 수 있고, 효율적으로 최적값에 가까운 값을 찾을 가능성이 있습니다.그리드 서치보다 속도가 빠르고 자원이 적게 소모됩니다.베이즈 최적화 (Bayesian Optimization)베이지안 접근 방식을 사용해 탐색합니..
ML Interview - IQR
·
Interview/ML
IQR(Interquartile Range)IQR(Interquartile Range, 사분위 범위)는 데이터의 중간 50%가 퍼져 있는 범위를 나타내는 지표로, 머신러닝에서 이상치(outlier)를 탐지하거나 데이터의 분포를 분석할 때 유용하게 사용됩니다. IQR은 데이터셋의 1사분위수(Q1)와 3사분위수(Q3) 간의 차이로 계산됩니다. IQR 계산IQR을 계산하는 과정은 다음과 같습니다:데이터를 오름차순으로 정렬합니다.1사분위수(Q1)와 3사분위수(Q3)를 찾기:Q1은 데이터의 하위 25%에 해당하는 값입니다.Q3은 데이터의 상위 75%에 해당하는 값입니다.IQR 계산: IQR = Q3 - Q1  IQR을 이용한 이상치 탐지IQR은 주로 이상치를 탐지할 때 유용하게 사용됩니다. IQR 기반의 이상치 ..
ML Interview - Z Score
·
Interview/ML
Z ScoreZ Score(또는 Z-점수)는 데이터 포인트가 평균에서 얼마나 떨어져 있는지를 표준 편차 단위로 나타내는 지표입니다.Z Score는 통계학과 머신러닝에서 데이터의 표준화를 위해 자주 사용됩니다. 이는 각 데이터 포인트가 평균보다 얼마나 높은지 또는 낮은지를 나타내며, 주로 데이터 분포를 비교하거나 이상치를 감지하는 데 유용합니다.Z Score 계산 공식은 다음과 같습니다:Z = (X − μ) / σ- X: 데이터 포인트,- μ: 데이터셋의 평균,- σ: 데이터셋의 표준 편차입니다. Z Score의 의미:Z Score가 0에 가까우면 데이터 포인트가 평균에 가깝다는 것을 의미합니다.Z Score가 양수면 평균보다 크고, 음수면 평균보다 작습니다.Z Score의 절대값이 클수록 평균에서 멀리 ..
ML Interview - Anomaly Detection
·
Interview/ML
Anomaly Detection이상치 탐지 (Anomaly Detection)이상치 탐지는 정상적인 패턴에서 벗어난 데이터를 탐지하는 기술로, 소수 클래스가 이상치나 특이치로 간주될 때 매우 유용합니다. 예를 들어, 금융 사기 탐지나 제조업에서 불량품 감지와 같은 경우에 적용할 수 있습니다.이상치 탐지 기법의 주요 유형:통계 기반 기법:데이터 분포를 이용하여 평균이나 분산에서 벗어나는 데이터를 이상치로 감지합니다.Z-Score 또는 IQR (Interquartile Range) 등을 통해 소수 클래스 데이터를 감지할 수 있습니다.예를 들어, 데이터가 정규 분포를 따른다면 평균에서 일정 범위 이상 벗어나는 데이터를 이상치로 간주합니다.밀도 기반 기법:밀도 기반 이상치 탐지 방법은 데이터의 밀집도에 따라 이..
ML Interview - Transfer Learning
·
Interview/ML
전이 학습 (Transfer Learning)전이 학습은 기존에 학습된 모델의 지식을 새로운 문제에 적용하는 방법으로, 특히 소수 클래스에 대한 데이터가 부족할 때 효과적입니다. 이를 통해 모델이 적은 데이터로도 일반화 능력을 유지할 수 있습니다.전이 학습의 주요 단계:사전 학습 모델 선정:먼저 대규모 데이터셋에서 학습된 모델을 선택합니다. 예를 들어, 이미지 처리에서는 ImageNet 데이터셋으로 학습된 ResNet, VGG, EfficientNet과 같은 모델을 사용합니다.텍스트 기반의 작업에서는 BERT, GPT, T5 등의 사전 학습된 언어 모델을 사용할 수 있습니다.모델의 일부 고정 또는 미세 조정 (Fine-tuning):선택한 사전 학습 모델의 일부 레이어는 고정하고, 나머지 레이어는 새로운..
ML Interview - 데이터셋의 레이블 불균형 처리 방법안
·
Interview/ML
ML에서 레이블 불균형은 특정 클래스의 데이터가 다른 클래스에 비해 매우 적거나 많은 상황을 말합니다. 이를 해결하지 않으면 모델이 대부분의 데이터를 차지하는 클래스에 편향되어 다른 클래스의 성능이 저하될 수 있습니다. 레이블 불균형을 다루는 방법에는 다음과 같은 전략들이 있습니다:데이터 리샘플링 (Resampling)오버샘플링 (Oversampling): 소수 클래스의 데이터를 증강해 학습 데이터의 균형을 맞춥니다. 일반적으로 SMOTE(Synthetic Minority Over-sampling Technique)를 사용해 기존 데이터를 기반으로 가상 데이터를 생성합니다.언더샘플링 (Undersampling): 다수 클래스의 데이터를 줄여 데이터의 균형을 맞춥니다. 데이터의 손실이 있을 수 있으므로 데..
MySQL BLOB
·
Interview/DB
BLOB 타입MySQL에서 BLOB(Binary Large Object) 타입은 대용량의 이진 데이터를 저장할 수 있는 데이터 타입입니다. 주로 이미지, 비디오, 오디오 파일, 바이너리 파일 등의 비정형 데이터를 데이터베이스에 저장하기 위해 사용됩니다. BLOB 타입은 데이터의 크기에 따라 네 가지로 나뉩니다.TINYBLOB: 최대 255 바이트의 데이터를 저장할 수 있는 작은 BLOB.BLOB: 최대 65,535 바이트(약 64KB)의 데이터를 저장할 수 있는 중간 크기의 BLOB.MEDIUMBLOB: 최대 16MB(16,777,215 바이트)의 데이터를 저장할 수 있는 큰 BLOB.LONGBLOB: 최대 4GB(4,294,967,295 바이트)의 데이터를 저장할 수 있는 매우 큰 BLOB.특징MySQ..
hash 함수
·
Interview/Etc
hash 함수hash 함수는 임의의 길이를 가진 데이터를 고정된 길이의 데이터로 매핑하는 수학적 함수입니다.hash 함수 개념**해시 함수(Hash Function)**란, 임의의 길이를 가진 데이터를 고정된 길이의 데이터로 매핑하는 수학적 함수입니다.해시 함수는 입력된 데이터(메시지, 문자열 등)를 일정한 길이의 해시 값(해시 코드, 해시 체크섬)으로 변환합니다. 이때, 같은 입력 값에 대해서는 항상 동일한 해시 값을 생성해야 하며, 해시 함수의 작은 변화가 큰 해시 값 변화를 일으키도록 설계됩니다.해시 함수의 중요한 특징은 다음과 같습니다:고정된 길이의 출력: 입력 데이터의 길이와 상관없이 해시 값은 고정된 길이를 가집니다. 예를 들어, SHA-256은 항상 256비트(32바이트)의 해시 값을 생성합..
김 정출
'Interview' 카테고리의 글 목록 (2 Page)