인공지능 대학원 면접 준비 _ 머신러닝, 딥러닝 예상문제 정리

자격증 취득 공부하기/대학원 준비

인공지능 대학원 면접 준비 _ 머신러닝, 딥러닝 예상문제 정리

해리팍 HarryPark 2025. 3. 28. 17:09

728x90

Q1. 지도학습과 비지도학습의 차이를 설명하고 각각 예를 드시오

지도학습과 비지도학습은 데이터의 정답(label)의 유무에 따라 구분됩니다.

• 지도학습(Supervised Learning) : 입력 데이터에 대한 정답 레이블이 주어진 상태에서 모델을 학습시키는 방식입니다.

데이터 (X, y)에서 함수 f: X → y를 학습하며, 새로운 입력에 대해 올바른 출력을 예측하는 것이 목표입니다.

예시: 이미지에 사람/동물 등의 레이블이 달린 분류 문제, 주택 면적과 가격 쌍으로부터 가격을 예측하는 회귀 문제 등이 있습니다.

• 비지도학습(Unsupervised Learning) : 정답 레이블 없이 데이터의 구조나 패턴을 학습하는 방식입니다.

주어진 데이터 X만을 이용해 데이터 간 유사성, 군집 구조, 저차원 표현 등을 찾아냅니다.

예시: 데이터들을 몇 개의 그룹으로 자동으로 묶는 군집화(clustering, 예: K-평균 알고리즘),

고차원 데이터의 특성을 요약하는 차원 축소(예: PCA) 등이 있습니다.

Q2. 과적합(Overfitting)과 과소적합(Underfitting)의 차이를 설명하고, 과적합을 완화하는 방법을
두 가지 이상 제시하시오.

A: 모델의 복잡도와 일반화 성능의 관점에서 과적합과 과소적합을 구분할 수 있습니다.

• 과적합 (Overfitting): 모델이 훈련 데이터에는 매우 낮은 오류를 보일 정도로 복잡하게 학습되었지만, 새로운 데이터(테스트 데이터)에는 성능이 떨어지는 현상입니다. 즉, 훈련 세트의 노이즈나 상세 패턴까지 기억하여 일반화를 못하는 상태입니다.

• 완화 방법: 모델의 복잡도를 낮추거나, 규제화(regularization) 기법을 적용합니다. 예를 들어, L1/L2 정규화(가중치 페널티 부여), 드롭아웃(dropout) 적용, 얼리 스토핑(조기 종료)으로 과도한 학습을 방지 등이 효과적입니다. 또한 훈련 데이터 양을 증가시켜도 과적합을 줄일 수 있습니다.

• 과소적합 (Underfitting): 모델이 훈련 데이터조차 충분히 학습하지 못하여 오류가 큰 상태입니다. 주어진 데이터의 패턴을 제대로 못 잡아 훈련 세트와 테스트 세트 모두에서 성능이 낮습니다.

• 대처 방법: 더 복잡한 모델을 사용하거나, 충분한 학습을 위해 더 오래 훈련하거나 더 풍부한 특성(feature)을 투입합니다.

모델에 충분한 표현력이 부여되면 underfitting을 해결할 수 있습니다.

Q3. 선형 회귀(Linear Regression)와 로지스틱 회귀(Logistic Regression)의 차이를 비교 설명하시오.

A: 선형 회귀와 로지스틱 회귀는 모두 독립변수의 선형 결합을 활용하지만,

목적과 출력이 다릅니다. 아래 표는 주요 차이를 정리한 것입니다.

구분	선형회귀	로지스틱 회귀
출력	연속적 실수값 (예: 예상되는 출력 자체)	0과 1 사이 확률값 (특정 클래스에 속할 확률)
모델 형태	입력 x에 대해 가중치 합 w·x + b를 직접 출력으로 사용	입력에 대한 가중치 합 w·x + b를 로지스틱 함수(sigmoid)로 변환한 값을 출력
목적/용도	회귀 문제 (예: 주택 가격 예측) – 연속형 값 예측	이진 분류 문제 (예: 스팸/햄 분류) – 범주 확률 예측 후 임계값으로 분류
손실 함수	평균제곱오차(MSE) 등 회귀 오차 측정 사용	로그손실(교차 엔트로피) 등 분류에 적합한 손실 사용 (최대우도 추정과 연결)
기타	출력이 정규 분포 가정 하에 최소제곱 해석 가능	출력이 시그모이드 확률이므로 결정 경계는 선형, 하지만 확률로 해석됨

요약하면, 선형 회귀는 연속값을 예측하기 위한 것이며 출력이 입력의 선형 조합인 반면, 로지스틱 회귀는 분류를 위한 알고리즘으로 선형 조합을 시그모이드 함수로 확률로 변환하여 사용합니다.

Q4. 분류 문제에서 자주 쓰이는 교차 엔트로피 손실(cross-entropy loss)을 설명하고,
회귀 문제에서 사용하는 평균제곱오차(MSE)와의 차이점을 설명하시오.

A: 손실 함수는 모델 예측과 실제 정답 간 차이를 수치화한 것으로, 모델 학습의 지표이자 목표입니다.

• 교차 엔트로피 손실(Cross-Entropy Loss): 주로 분류 문제에서 사용됩니다. 모델이 출력한 확률분포와 실제 정답 분포(원-핫 벡터) 사이의 엔트로피 차이를 계산합니다.

모델이 정답을 확신하여 맞추면 손실이 매우 작아지고, 틀리면 매우 커지도록 설계되어, 분류에서는 작은 확률로 정답을 맞추는 경우보다 크게 틀리는 경우를 더욱 강하게 벌하는 효과가 있습니다.

• 평균제곱오차(MSE): 주로 회귀 문제에서 사용하는 손실로, 예측 값과 실제 값의 차이를 제곱하여 평균낸 것입니다.

오차의 크기에 비례하여 벌점이 커집니다. 연속적인 오류의 크기를 잘 반영하며, 정규분포를 가정한 최소제곱 추정과 관련이 있습니다.

차이점: MSE를 분류 문제에 적용하면 출력 확률 대신 레이블(0/1)과 연속값 간의 오차를 취해 학습이 불안정하거나 성능이 떨어질 수 있습니다. 반면 교차 엔트로피는 확률 공간에서 정의되어 분류에 적합합니다.

요약하면, 회귀에는 MSE,

분류에는 교차 엔트로피를 쓰는 것이 일반적이며,

이는 두 손실 함수가 각 문제의 목표에 더 잘 부합하기 때문입니다.

Q5. 머신러닝 모델의 편향-분산 트레이드오프(Bias-Variance Tradeoff)에 대해 설명하시오.

A: 편향-분산 트레이드오프는 모델의 복잡도와 예측 오차 구성요소 간의 균형을 설명하는 핵심 개념입니다.

• 편향(Bias): 모델이 실제 데이터의 관계를 얼마나 단순화하여 가정하고 있는지를 나타냅니다. 높은 편향은 모델이 너무 단순하여 실제 패턴을 잘 잡지 못하는 언더피팅(underfitting) 경향을 보입니다.
이 경우 훈련 및 테스트 오류 모두 높아집니다. (예: 선형 모델로 비선형 관계를 학습하려 할 때)

• 분산(Variance): 모델이 학습 데이터에 얼마나 민감하게 맞춰져 있는지를 나타냅니다. 높은 분산은 모델이 훈련 데이터의 작은 변동에도 민감하게 맞아 과적합(overfitting)된 상태를 의미합니다. 훈련 오류는 낮지만, 새로운 데이터에 대한 오류가 커집니다.

트레이드오프: 모델 복잡도를 높이면 편향은 낮아지고 분산은 높아지는 경향이 있고, 복잡도를 낮추면 그 반대입니다. 최적의 모델은 이 둘의 균형을 맞춰 일반화 오류를 최소화하는 지점에 있습니다.

따라서 모델 선택이나 하이퍼파라미터 튜닝 시 편향-분산 트레이드오프를 고려하여 복잡도를 조절해야 합니다.

728x90

저작자표시 (새창열림)