인공지능 대학원 면접 준비 _ 머신러닝, 딥러닝 예상문제 정리
Q1. 지도학습과 비지도학습의 차이를 설명하고 각각 예를 드시오
지도학습과 비지도학습은 데이터의 정답(label)의 유무에 따라 구분됩니다.
• 지도학습(Supervised Learning) : 입력 데이터에 대한 정답 레이블이 주어진 상태에서 모델을 학습시키는 방식입니다.
데이터 (X, y)에서 함수 f: X → y를 학습하며, 새로운 입력에 대해 올바른 출력을 예측하는 것이 목표입니다.
예시: 이미지에 사람/동물 등의 레이블이 달린 분류 문제, 주택 면적과 가격 쌍으로부터 가격을 예측하는 회귀 문제 등이 있습니다.
• 비지도학습(Unsupervised Learning) : 정답 레이블 없이 데이터의 구조나 패턴을 학습하는 방식입니다.
주어진 데이터 X만을 이용해 데이터 간 유사성, 군집 구조, 저차원 표현 등을 찾아냅니다.
예시: 데이터들을 몇 개의 그룹으로 자동으로 묶는 군집화(clustering, 예: K-평균 알고리즘),
고차원 데이터의 특성을 요약하는 차원 축소(예: PCA) 등이 있습니다.
Q2. 과적합(Overfitting)과 과소적합(Underfitting)의 차이를 설명하고, 과적합을 완화하는 방법을
두 가지 이상 제시하시오.
A: 모델의 복잡도와 일반화 성능의 관점에서 과적합과 과소적합을 구분할 수 있습니다.
• 과적합 (Overfitting): 모델이 훈련 데이터에는 매우 낮은 오류를 보일 정도로 복잡하게 학습되었지만, 새로운 데이터(테스트 데이터)에는 성능이 떨어지는 현상입니다. 즉, 훈련 세트의 노이즈나 상세 패턴까지 기억하여 일반화를 못하는 상태입니다.
• 완화 방법: 모델의 복잡도를 낮추거나, 규제화(regularization) 기법을 적용합니다. 예를 들어, L1/L2 정규화(가중치 페널티 부여), 드롭아웃(dropout) 적용, 얼리 스토핑(조기 종료)으로 과도한 학습을 방지 등이 효과적입니다. 또한 훈련 데이터 양을 증가시켜도 과적합을 줄일 수 있습니다.
• 과소적합 (Underfitting): 모델이 훈련 데이터조차 충분히 학습하지 못하여 오류가 큰 상태입니다. 주어진 데이터의 패턴을 제대로 못 잡아 훈련 세트와 테스트 세트 모두에서 성능이 낮습니다.
• 대처 방법: 더 복잡한 모델을 사용하거나, 충분한 학습을 위해 더 오래 훈련하거나 더 풍부한 특성(feature)을 투입합니다.
모델에 충분한 표현력이 부여되면 underfitting을 해결할 수 있습니다.
Q3. 선형 회귀(Linear Regression)와 로지스틱 회귀(Logistic Regression)의 차이를 비교 설명하시오.
A: 선형 회귀와 로지스틱 회귀는 모두 독립변수의 선형 결합을 활용하지만,
목적과 출력이 다릅니다. 아래 표는 주요 차이를 정리한 것입니다.
구분 | 선형회귀 | 로지스틱 회귀 |
출력 | 연속적 실수값 (예: 예상되는 출력 자체) | 0과 1 사이 확률값 (특정 클래스에 속할 확률) |
모델 형태 | 입력 x에 대해 가중치 합 w·x + b를 직접 출력으로 사용 |
입력에 대한 가중치 합 w·x + b를 로지스틱 함수(sigmoid)로 변환한 값을 출력 |
목적/용도 | 회귀 문제 (예: 주택 가격 예측) – 연속형 값 예측 | 이진 분류 문제 (예: 스팸/햄 분류) – 범주 확률 예측 후 임계값으로 분류 |
손실 함수 | 평균제곱오차(MSE) 등 회귀 오차 측정 사용 | 로그손실(교차 엔트로피) 등 분류에 적합한 손실 사용 (최대우도 추정과 연결) |
기타 | 출력이 정규 분포 가정 하에 최소제곱 해석 가능 | 출력이 시그모이드 확률이므로 결정 경계는 선형, 하지만 확률로 해석됨 |
요약하면, 선형 회귀는 연속값을 예측하기 위한 것이며 출력이 입력의 선형 조합인 반면, 로지스틱 회귀는 분류를 위한 알고리즘으로 선형 조합을 시그모이드 함수로 확률로 변환하여 사용합니다.
Q4. 분류 문제에서 자주 쓰이는 교차 엔트로피 손실(cross-entropy loss)을 설명하고,
회귀 문제에서 사용하는 평균제곱오차(MSE)와의 차이점을 설명하시오.
A: 손실 함수는 모델 예측과 실제 정답 간 차이를 수치화한 것으로, 모델 학습의 지표이자 목표입니다.
• 교차 엔트로피 손실(Cross-Entropy Loss): 주로 분류 문제에서 사용됩니다. 모델이 출력한 확률분포와 실제 정답 분포(원-핫 벡터) 사이의 엔트로피 차이를 계산합니다.
모델이 정답을 확신하여 맞추면 손실이 매우 작아지고, 틀리면 매우 커지도록 설계되어, 분류에서는 작은 확률로 정답을 맞추는 경우보다 크게 틀리는 경우를 더욱 강하게 벌하는 효과가 있습니다.
• 평균제곱오차(MSE): 주로 회귀 문제에서 사용하는 손실로, 예측 값과 실제 값의 차이를 제곱하여 평균낸 것입니다.
오차의 크기에 비례하여 벌점이 커집니다. 연속적인 오류의 크기를 잘 반영하며, 정규분포를 가정한 최소제곱 추정과 관련이 있습니다.
차이점: MSE를 분류 문제에 적용하면 출력 확률 대신 레이블(0/1)과 연속값 간의 오차를 취해 학습이 불안정하거나 성능이 떨어질 수 있습니다. 반면 교차 엔트로피는 확률 공간에서 정의되어 분류에 적합합니다.
요약하면, 회귀에는 MSE,
분류에는 교차 엔트로피를 쓰는 것이 일반적이며,
이는 두 손실 함수가 각 문제의 목표에 더 잘 부합하기 때문입니다.
Q5. 머신러닝 모델의 편향-분산 트레이드오프(Bias-Variance Tradeoff)에 대해 설명하시오.
A: 편향-분산 트레이드오프는 모델의 복잡도와 예측 오차 구성요소 간의 균형을 설명하는 핵심 개념입니다.
• 편향(Bias): 모델이 실제 데이터의 관계를 얼마나 단순화하여 가정하고 있는지를 나타냅니다. 높은 편향은 모델이 너무 단순하여 실제 패턴을 잘 잡지 못하는 언더피팅(underfitting) 경향을 보입니다.
이 경우 훈련 및 테스트 오류 모두 높아집니다. (예: 선형 모델로 비선형 관계를 학습하려 할 때)
• 분산(Variance): 모델이 학습 데이터에 얼마나 민감하게 맞춰져 있는지를 나타냅니다. 높은 분산은 모델이 훈련 데이터의 작은 변동에도 민감하게 맞아 과적합(overfitting)된 상태를 의미합니다. 훈련 오류는 낮지만, 새로운 데이터에 대한 오류가 커집니다.
트레이드오프: 모델 복잡도를 높이면 편향은 낮아지고 분산은 높아지는 경향이 있고, 복잡도를 낮추면 그 반대입니다. 최적의 모델은 이 둘의 균형을 맞춰 일반화 오류를 최소화하는 지점에 있습니다.
따라서 모델 선택이나 하이퍼파라미터 튜닝 시 편향-분산 트레이드오프를 고려하여 복잡도를 조절해야 합니다.