-
[AI 대학원 면접 준비] AI 기초 개념 문제 및 답변 / 피드백 정리 - 1일차자격증 취득 공부하기/대학원 준비 2025. 4. 1. 19:43728x90반응형
📘 문제 1. 과적합(Overfitting)
과적합이란 무엇인지 설명하고, 이를 방지하기 위한 대표적인 기법 3가지를 서술하시오. 또한, 본인이 수행한 프로젝트나 상상 가능한 사례를 하나 들어 과적합이 어떻게 발생할 수 있었는지 예시를 설명하시오
📝 피드백 요약
🔹 보완할 점
• 정의에서: 과적합은 데이터가 많아서가 아니라 데이터가 적고 모델이 너무 복잡해서 발생하는 경우가 많아요. 예측값이 너무 훈련 데이터에만 맞춰져서, 테스트 데이터에는 일반화되지 못하는 상태예요.
• 방지 기법: ‘모델 단순화’, ‘정규화’, ‘드롭아웃’, ‘데이터 증강’, ‘조기 종료’ 등 딱 떨어지는 표현을 써주면 더 좋습니다!
• 예시: KMeans는 클러스터링(비지도학습)이고 클래스 불균형 해결이나 과적합 방지와는 조금 거리가 있어요. 예를 들어, “도금 설비의 잔존수명을 예측하는 모델에서, 학습 데이터가 적을 때 Random Forest 모델이 모든 데이터를 완벽하게 맞춰 과적합되었고, 이를 줄이기 위해 하이퍼파라미터 조정과 교차검증을 적용하였다” 같은 사례면 딱이에요.
📘 문제 2. 선형 회귀와 로지스틱 회귀
선형 회귀와 로지스틱 회귀의 차이를 목표 변수, 모델 구조, 출력 결과, 손실 함수 측면에서 비교 설명하시오.
또한, 두 회귀 모델이 각각 적절한 예시 문제 상황을 1개씩 들어 설명하시오.
📝 피드백 요약
🔹 잘한 점
• 선형 회귀는 연속형, 로지스틱 회귀는 범주형이라는 핵심 구분은 정확히 하셨어요!
• 선형 회귀가 일차 함수 구조라는 설명도 적절했습니다.
🔹 보완할 점
• 로지스틱 회귀는 ReLU와는 다릅니다. 로지스틱 회귀는 시그모이드 함수를 사용해서, 출력이 0~1 사이 확률로 나옵니다. ReLU는 음수는 0, 양수는 그대로 내보내는 함수고, 회귀와는 무관해요.
• 손실 함수는 꼭 외워주세요:
• 선형 회귀 → MSE (Mean Squared Error)
• 로지스틱 회귀 → Binary Cross Entropy (이진 분류일 경우)
• 예시를 꼭 써주세요!
• 예: 선형 회귀 → “집 면적에 따른 가격 예측”
• 로지스틱 회귀 → “스팸 여부 분류 (스팸/스팸 아님)”
✍️ 샘플 모범답안 요약
선형 회귀는 연속형 변수를 예측하는 데 사용되며, 모델 구조는 선형 방정식 y = w_1x_1 + w_2x_2 + b 형태입니다. 출력은 실수값이고 손실 함수로는 MSE가 사용됩니다. 예시: 집의 평수에 따라 가격을 예측하는 문제.
로지스틱 회귀는 이진 또는 범주형 변수를 분류하기 위해 사용되며, 선형 결합 뒤 시그모이드 함수를 통해 출력이 0~1 사이의 확률로 변환됩니다. 손실 함수는 Binary Cross Entropy입니다. 예시: 이메일이 스팸인지 여부를 분류하는 문제.
📘 문제 4. 활성화 함수(Activation Function)
다음 중 활성화 함수의 주요 목적은 무엇이며, 아래 3가지 활성화 함수의 특징을 각각 간단히 설명하시오.
1. Sigmoid
2. Tanh
3. ReLU
또한, 기울기 소실(Vanishing Gradient) 문제와 관련된 함수는 무엇이며, 왜 그런 문제가 발생하는지도 설명해보세요.
📝 피드백 요약
🔹 잘한 점
• Sigmoid, Tanh, ReLU 각각의 출력 범위에 대한 설명은 꽤 정확했어요!
• Tanh의 -1~1 표현도 잘 기억하셨습니다.
🔹 보완할 점
• 활성화 함수의 목적: 선형 모델로는 복잡한 패턴을 학습할 수 없기 때문에, **비선형성(non-linearity)**을 도입하기 위한 역할이에요.
• ReLU 설명 보완: “특정 함수”가 아니라 명확히 f(x) = max(0, x)라고 써주면 좋아요.
• 기울기 소실 관련 함수: 기울기 소실은 Sigmoid와 Tanh에서 발생합니다. 입력이 크거나 작으면 기울기가 0에 가까워져서 학습이 안 되는 문제죠. ReLU는 오히려 이 문제를 해결하려고 나온 함수예요!
✍️ 참고 모범답안 요약
• 활성화 함수의 목적: 신경망에 비선형성을 부여하여, 복잡한 패턴을 학습할 수 있게 한다.
• Sigmoid: 출력 범위 0~1, 확률값 표현에 적합. 기울기 소실 문제가 있음.
• Tanh: 출력 범위 -1~1, 중심이 0이라 학습에 더 유리하지만 역시 기울기 소실 발생.
• ReLU: f(x) = max(0, x)로 계산이 단순하고, 기울기 소실 문제를 완화. 다만 음수 구간에서는 기울기 0이라 “죽은 ReLU” 문제가 생기기도 함.
• 기울기 소실 관련 함수: Sigmoid, Tanh – 출력이 포화되면 gradient가 매우 작아져서 역전파가 잘 되지 않는 문제가 발생함.
✅ 시그모이드 함수란?
• 식:
\sigma(x) = \frac{1}{1 + e^{-x}}
• 출력 범위: 0 ~ 1
• 그래프 모양은 S자형 곡선
❗ 왜 기울기 소실(Vanishing Gradient) 문제가 생기나?
🔹 1. 입력 값이 크거나 작을수록 출력이 포화(saturated) 됨
• x \ll 0이면 → 출력 ≈ 0
• x \gg 0이면 → 출력 ≈ 1
즉, 출력이 거의 일정해져요.
🔹 2. 도함수(기울기)가 매우 작아짐
• 시그모이드 함수의 도함수: \sigma{\prime}(x) = \sigma(x) \cdot (1 - \sigma(x))
• \sigma(x)가 0 또는 1에 가까우면 → \sigma{\prime}(x) \approx 0
🔹 3. 역전파 시 기울기가 곱해져서 점점 작아짐
• 신경망은 여러 층을 통과하며 기울기를 곱해가는데,
• 각 층에서 기울기가 0.01, 0.001처럼 작아지면,
• 초깃단까지 도달할 때쯤엔 거의 0에 수렴 → 학습이 안 됨
✅ 역전파(Backpropagation)가 하는 일은?
• 손실(loss) 값을 각 가중치(parameter)에 대해 미분해서
• “이 가중치를 얼마나 바꿔야 손실이 줄어드는지” 알려주는 과정이에요.
• 이걸 바탕으로 경사하강법(gradient descent) 으로 가중치를 업데이트함.
❗ 그런데 역전파가 잘 안 되면?
1. 기울기 소실(Vanishing Gradient)
• 각 층에서 gradient가 거의 0에 가까워짐
• **초기층(앞쪽 레이어)**까지 기울기가 전달되지 않음
→ 가중치가 거의 안 바뀜 → 학습이 안 됨
2. 학습 속도가 매우 느려짐
• 파라미터가 거의 그대로라 성능이 계속 제자리
3. 모델이 “아무것도 못 배우는” 상태가 됨
• 출력은 계속 똑같은 값
• 손실도 줄어들지 않음
• 특히 심층 신경망에서 자주 발생
📌 예를 들어…
10층짜리 딥러닝 모델에서, 마지막 출력층은 학습이 잘 되는데
앞쪽(1~3층)은 기울기가 거의 0이어서 학습이 아예 안 되는 상황
→ 전체적으로는 깊은 모델을 쌓아도 성능이 안 올라가는 문제 발생
✅ 그래서 해결책은?
• ReLU 같이 기울기가 잘 안 사라지는 함수 사용
• Batch Normalization, Residual Connection 사용
• 초기 가중치 설정을 잘 하는 것도 중요
정리하자면,
역전파가 잘 안 되면 = 기울기가 전달되지 않아서 = 가중치가 안 바뀜 = 학습이 안 됨
728x90반응형'자격증 취득 공부하기 > 대학원 준비' 카테고리의 다른 글
[AI 대학원 면접 준비] AI 기초 개념 문제 및 답변 / 피드백 정리 - 3일차 (1) 2025.04.01 [AI 대학원 면접 준비] AI 기초 개념 문제 및 답변 / 피드백 정리 - 2일차 (0) 2025.04.01 인공지능 대학원 면접 준비 _ 머신러닝, 딥러닝 예상문제 정리 (0) 2025.03.28