[AI 대학원 면접 준비] AI 기초 개념 문제 및 답변 / 피드백 정리 - 3일차

자격증 취득 공부하기/대학원 준비 2025. 4. 1. 20:23

728x90

📘 문제 10. 교차 검증(Cross Validation)

1. 교차 검증의 개념을 설명하고,

2. 왜 단순히 훈련/검증/테스트 데이터로 나누는 것보다 더 신뢰할 수 있는 평가 방식인지 서술하시오.

3. 대표적인 교차 검증 방식인 **K-겹 교차 검증(K-Fold Cross Validation)**의 절차를 설명하고,

4. 어떤 상황에서 교차 검증이 특히 효과적인지도 예시와 함께 제시해 보세요.

📝 피드백 요약

🔹 잘한 점

• **산업 사례(제조업, 설비 데이터의 다양성)**와 연결한 것은 정말 좋았어요.

실제로 제품군마다 센서 특성이나 환경이 다르면 고정된 훈련/검증 데이터로는 편향된 성능 평가가 될 수 있어요.

• 교차 검증을 쓰면 데이터의 다양한 면을 평가할 수 있다는 관점을 잘 잡으셨어요.

🔹 보완할 점

1. 교차 검증 개념은 좀 더 명확하게 정리할 수 있어요:

데이터를 여러 조각으로 나눠, 그중 하나를 검증용으로, 나머지를 훈련용으로 반복하며 학습 → 모든 데이터가 훈련과 검증에 한 번씩 참여하게 만드는 평가 방법

2. K-Fold Cross Validation 절차는 꼭 외워두세요:

• 데이터를 K개로 나눔

• 각 fold를 한 번씩 검증용으로 사용하고 나머지는 훈련용으로 사용

• 총 K번 학습 & 평가 → 평균 성능 계산

3. 왜 신뢰도가 높나?

• 단 한 번 나눈 훈련/검증/테스트 데이터는 우연히 편향된 분포일 수 있음

• 교차 검증은 모든 데이터가 평가에 참여하므로 일반화 성능을 더 정확히 측정 가능

✍️ 모범 요약 예시

교차 검증은 데이터를 여러 조각으로 나누어, 각 조각을 번갈아가며 검증용으로 사용하는 평가 방법이다.

K-Fold 교차 검증은 데이터를 K개로 나누고, K번 반복하여 매번 한 조각을 검증용으로, 나머지를 훈련용으로 사용한다.

이 방식은 단일 분할보다 더 안정적이고 일반화된 성능 평가가 가능하다.

예를 들어, 제조업에서 다양한 제품을 생산할 때, 일부 제품 데이터만으로 평가하면 특정 조건에만 최적화된 모델이 될 수 있다.

교차 검증은 제품군마다 데이터를 골고루 포함시켜 정합성과 신뢰성 있는 성능 측정이 가능하다.

📘 문제 11. Random Forest 알고리즘

1. Random Forest의 기본 개념을 설명하시오.

2. Decision Tree와 비교해 Random Forest가 가지는 장점 2가지를 설명하시오.

3. Random Forest에서 Feature Importance를 어떻게 해석할 수 있는지도 서술하시오.

4. 실제 산업 현장에서 Random Forest를 활용할 수 있는 사례를 1가지 제시하시오.

📝 피드백 요약

✅ 잘한 점

• Random Forest가 여러 개의 의사결정나무를 사용한다는 핵심 개념 잘 짚었어요!

• 실제 설비 예지정비 사례로 진동, 온도 등의 센서 데이터를 활용해 마모 예측한 것은 정말 좋은 산업적 응용이에요.

• 회귀(Random Forest Regressor)를 이용해 잔존 수명을 예측한 부분도 현업 감각이 느껴져요.

⚠️ 보완할 점

1. “연속형 변수에서 결정나무는 어렵다”는 표현은 오해

→ 결정나무도 연속형 변수 잘 처리합니다. 분할 기준(예: 온도 > 45도)을 잘 정하면 돼요.

2. Random Forest의 장점

• 과적합 방지: 여러 트리를 평균내서 개별 트리의 편향/분산을 줄임

• 일반화 성능 향상: 다양한 트리 조합으로 예측의 신뢰도 증가

• 잡음에 강함, 훈련 데이터 일부 누락에도 강건함

3. Feature Importance

• 보통은 **각 특성이 노드 분할에 기여한 정도(Gini 감소, MSE 감소 등)**를 기준으로 평가해요

• AUC는 모델 성능 평가 지표이지, Feature Importance와는 직접 연결되진 않아요

✍️ 모범 요약 예시

Random Forest는 여러 개의 결정 나무를 학습시켜, 그 결과를 평균(회귀) 또는 투표(분류) 방식으로 예측을 수행하는 앙상블 모델이다.

Decision Tree에 비해 과적합에 강하고, 일반화 성능이 높다.

각 특성(변수)이 트리의 분할 기준으로 얼마나 자주 사용되고, 예측 성능에 얼마나 기여했는지를 기준으로 Feature Importance를 계산한다.

예를 들어, 제조 현장에서 설비의 진동, 온도, 사용 시간 데이터를 입력으로 사용해, 설비의 마모량을 예측하거나 잔존 수명을 추정하는 데 사용할 수 있다.

📘 문제 12. 오차 행렬(Confusion Matrix)

1. 오차 행렬의 기본 구조를 그리고, 각 항목 (TP, FP, FN, TN)의 의미를 설명하시오.

2. 오차 행렬을 바탕으로 계산할 수 있는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-score의 정의를 각각 수식으로 제시하시오.

3. 불균형한 클래스(예: 양성이 5%, 음성이 95%) 상황에서 어떤 지표가 더 중요한지 설명하고, 그 이유를 서술하시오.

📝 피드백 요약

🔹 잘한 점

• 정밀도와 재현율의 방향은 맞고, 불균형 클래스 문제에서 정확도보다 정밀도/재현율이 중요하다는 인식도 잘 잡고 있어요!

🔹 보완할 점

1. TP / FP / TN / FN 개념 정리

실제 Positive실제 Negative

구분	실제 Positive	실제 Negative
예측 Positive	TP	FP
예측 Negative	FN	TN

2. 수식 정리

• 정확도(Accuracy)

\frac{TP + TN}{TP + TN + FP + FN}

• 정밀도(Precision)

\frac{TP}{TP + FP}

• 재현율(Recall)

\frac{TP}{TP + FN}

• F1-score

2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}

3. 왜 불균형일 때 정밀도/재현율이 중요한가?

• 예를 들어, **암 환자 100명 중 5명만 양성(암)**이라면

→ 모델이 “전부 음성”이라고만 해도 정확도 95%

→ 하지만 진짜 중요한 건 양성 환자를 놓치지 않는 것(재현율)

→ 또는 양성이라고 한 것 중 진짜 암환자가 얼마나 있는지(정밀도)

✍️ 모범 요약 예시

오차 행렬은 예측값과 실제값을 바탕으로 TP, FP, TN, FN 네 가지로 구분된다.

정밀도는 예측 Positive 중 실제 Positive의 비율, 재현율은 실제 Positive 중 예측이 Positive인 비율이다.

F1-score는 이 둘의 조화 평균으로, \frac{2 \cdot P \cdot R}{P + R}이다.

불균형 클래스 문제에서는 정확도가 높아도 양성 탐지 성능이 떨어질 수 있으므로, 정밀도와 재현율을 함께 고려해 모델 성능을 판단해야 한다.

📘 문제 13. 딥러닝 모델 학습 시 주요 하이퍼파라미터

다음 하이퍼파라미터들이 모델 학습에 어떤 영향을 미치는지 각각 설명하시오.

또한, 각 항목의 값이 너무 크거나 작을 경우 생길 수 있는 문제점도 함께 서술하시오.

• 학습률 (Learning Rate)

• 배치 크기 (Batch Size)

• 에폭 수 (Epoch)

• 드롭아웃 확률 (Dropout Rate)

가능하면, 본인이 실제로 모델을 다뤘을 때 하이퍼파라미터 튜닝과 관련해 경험하거나 떠올릴 수 있는 사례를 추가로 제시해 주세요.

📝 피드백 요약

🔹 잘한 점

• 실제 프로젝트에서 학습률 조절 실패 경험 언급은 학습된 지식을 현실과 연결했다는 점에서 매우 좋았어요!

• 각 하이퍼파라미터가 모델 성능에 어떤 영향을 주는지 의식하고 있다는 점이 드러났습니다.

🔹 보완할 점

1. 학습률 (Learning Rate)

• 너무 크면 → 손실 함수가 진동하거나 발산

• 너무 작으면 → 수렴 속도 느림, 지역 최소값에 갇힘

• 과적합보다는 **학습 실패(발산)**와 더 관련 있음

2. 배치 크기 (Batch Size)

• 너무 작으면 → 노이즈가 많아 학습이 불안정하지만 일반화 성능은 좋아질 수 있음

• 너무 크면 → 빠르게 수렴하지만, 과적합될 가능성 있음

3. 에폭 (Epoch)

• 너무 많으면 → 훈련 데이터에 과적합

• 너무 적으면 → 과소적합(underfitting)

4. 드롭아웃 확률

• 너무 높으면 → 뉴런 너무 많이 제거 → 학습 저하

• 적절하게 (예: 0.3~0.5) 설정하면 과적합 억제에 효과적

✍️ 모범 요약 예시

학습률은 모델이 가중치를 얼마나 크게 조정할지 결정하며, 너무 크면 학습이 발산하고, 너무 작으면 수렴이 느려진다.

배치 크기는 한 번에 학습하는 데이터 수로, 작으면 일반화에 좋지만 학습 속도가 느리다.

에폭 수가 많으면 과적합, 적으면 과소적합의 문제가 생긴다.

드롭아웃 확률은 과적합을 줄이는 데 효과적이나, 너무 높이면 학습 자체가 어려워질 수 있다.

예를 들어 설비 잔존 수명 예측 모델에서 데이터가 적은 상황에서 학습률을 높게 설정해 정확한 예측이 어려웠던 경험이 있다.

좋아요! **에폭(Epoch)**과 **배치 크기(Batch Size)**는 딥러닝 모델 학습에서 매우 중요한 개념이에요.

아래에 각각 개념과 차이, 그리고 함께 고려할 때의 의미를 쉽게 설명해드릴게요.

✅ 1. 에폭(Epoch)이란?

에폭은 전체 데이터셋을 모델이 한 번 모두 학습하는 횟수를 의미합니다.

예시로, 훈련 데이터가 1000개 있고, 배치 크기를 100으로 한다면:

• 1에폭 = 100개씩 10번 학습해서 전체 데이터 1000개를 한 바퀴 학습한 것

• 10에폭 = 1000개를 10번 반복 학습한 것

에폭 수가 클수록 모델이 더 많이 학습하지만, 너무 많으면 과적합(overfitting) 위험이 있습니다.

✅ 2. 배치 크기(Batch Size)란?

한 번에 모델에 넣어서 학습하는 데이터 수를 말합니다.

• 작은 배치 (ex: 16, 32):

• 장점: 자주 weight 업데이트 → 일반화 잘 됨

• 단점: 더 오래 걸림, 손실이 들쭉날쭉할 수 있음

• 큰 배치 (ex: 256, 512):

• 장점: 학습 속도 빠름

• 단점: 메모리 많이 사용, 과적합 위험 증가

✅ 3. 에폭과 배치 크기의 관계

에폭 × 배치 크기 조합에 따라 학습의 질과 속도 모두 달라져요.

예시:

• 데이터 10,000개

• 배치 크기 100 → 1에폭당 100번 학습 (100 steps)

• 에폭 10 → 총 1000번 학습

반대로,

• 배치 크기 500이면 1에폭당 20번 학습 → 같은 10에폭이라도 총 200번만 업데이트됨

즉, 업데이트 횟수 = (데이터 개수 / 배치 크기) × 에폭 수

→ 모델이 얼마나 자주 weight를 업데이트하느냐가 달라집니다.

✅ 요약표

항목의미크면 생기는 일작으면 생기는 일

에폭	전체 데이터를 몇 번 반복 학습할지	과적합 위험	학습 부족
배치 크기	한 번에 학습하는 데이터 수	빠르지만 과적합 위험	일반화 좋지만 느림

728x90

저작자표시 (새창열림)

'자격증 취득 공부하기 > 대학원 준비' 카테고리의 다른 글

[AI 대학원 면접 준비] AI 기초 개념 문제 및 답변 / 피드백 정리 - 2일차 (0)	2025.04.01
[AI 대학원 면접 준비] AI 기초 개념 문제 및 답변 / 피드백 정리 - 1일차 (0)	2025.04.01
인공지능 대학원 면접 준비 _ 머신러닝, 딥러닝 예상문제 정리 (0)	2025.03.28

ABOUT ME

소중한 시간을 사진속에 담자 - 해리팍 소중한 시간을 사진속에 담자 - 해리팍

📘 문제 10. 교차 검증(Cross Validation)

📘 문제 11. Random Forest 알고리즘

'자격증 취득 공부하기 > 대학원 준비' 카테고리의 다른 글

티스토리툴바

ABOUT ME

📘 문제 10. 교차 검증(Cross Validation)

📘 문제 11. Random Forest 알고리즘

'자격증 취득 공부하기 > 대학원 준비' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바