빅데이터분석기사 실기 작업형 제2유형 캐글 데이터를 활용한 분류 모델 평가지표 ROC AUC 올리기 전략 정리

빅데이터분석기사 실기 작업형 제2유형 캐글 데이터를 활용한 분류 모델 평가지표 ROC AUC 올리기는 단순 모델 선택 문제가 아닙니다. 저도 처음 실기를 준비할 때는 정확도(Accuracy)만 보고 모델을 튜닝하다가 점수가 기대만큼 나오지 않았던 경험이 있습니다. 특히 불균형 데이터에서 ROC-AUC를 제대로 이해하지 못하면 모델이 좋아 보여도 실제 평가는 낮게 나옵니다.

 

작업형 제2유형은 주어진 캐글 형식 데이터를 기반으로 분류 모델을 만들고, 평가 지표를 최대한 끌어올리는 것이 핵심입니다. 그중에서도 ROC-AUC는 단순 정답률이 아니라 모델의 분류 능력을 전체 임계값 기준에서 평가합니다.

 

ROC-AUC는 확률 예측의 품질을 평가하는 지표이며, 임계값 조정이 아닌 모델 자체의 분류 성능을 개선해야 점수가 오른다는 점을 먼저 이해해야 합니다.

 

오늘은 ROC-AUC 개념, 점수 하락 원인, 전처리 전략, 모델 튜닝 방법, 실전 점수 향상 팁까지 체계적으로 정리해보겠습니다.

 

ROC-AUC 개념과 시험에서의 의미

ROC 곡선은 True Positive Rate와 False Positive Rate의 관계를 나타낸 그래프입니다. AUC는 그 아래 면적입니다. 값은 0~1 사이이며, 1에 가까울수록 좋은 모델입니다.

 

Accuracy와 달리, ROC-AUC는 클래스 불균형에 비교적 강합니다. 예를 들어 90:10 데이터에서 단순히 0만 예측해도 정확도는 90%가 나올 수 있지만 ROC-AUC는 낮게 나옵니다.

 

ROC-AUC는 “얼마나 잘 구분했는가”를 보는 지표이지, 단순히 맞췄는지를 보는 지표가 아닙니다.

 

시험에서는 보통 0.7 이상이면 기본 점수, 0.8 이상이면 상위 점수 구간에 들어갑니다.

 

ROC-AUC가 낮게 나오는 주요 원인

1. 범주형 변수 인코딩 오류
2. 결측치 단순 제거
3. 클래스 불균형 미처리
4. 기본 모델 그대로 제출

 

특히 원-핫 인코딩을 무작정 적용하면 차원이 과도하게 증가해 모델이 불안정해질 수 있습니다.

 

또한 train-test 분리 시 stratify를 적용하지 않으면 클래스 비율이 달라져 ROC-AUC가 급격히 흔들립니다.

 

전처리 단계에서 점수 올리는 전략

첫째, 결측치는 평균/중앙값 대체보다 도메인 기반 처리 또는 별도 카테고리 생성이 효과적입니다.

 

둘째, 불균형 데이터는 SMOTE 또는 class_weight=’balanced’ 옵션을 활용합니다.

 

셋째, 스케일링은 트리 기반 모델에는 필요 없지만, 로지스틱 회귀나 SVM에는 필수입니다.

 

제가 만든 아래 표를 참고해보세요!

 

전처리 요소 권장 방법 ROC-AUC 영향
결측치 의미 기반 대체 상승 가능
불균형 처리 SMOTE / 가중치 크게 영향
인코딩 타깃 인코딩 고려 중요

 

전처리 단계에서 이미 ROC-AUC의 절반은 결정됩니다.

 

모델 선택과 튜닝 전략

기본 모델로는 로지스틱 회귀, 랜덤포레스트, XGBoost가 자주 사용됩니다.

 

트리 기반 모델은 비선형 관계를 잘 잡아 ROC-AUC가 높게 나오는 경우가 많습니다.

 

GridSearchCV를 활용해 하이퍼파라미터를 조정하면 0.02~0.05 정도 점수 향상이 가능합니다.

 

중요 변수 확인 후 불필요한 변수 제거도 과적합 방지에 도움이 됩니다.

 

실전 제출 전 체크리스트

1. stratify 적용 여부 확인
2. predict_proba 사용 여부 확인
3. 데이터 누수 없는지 점검
4. 교차검증 평균 ROC-AUC 확인

 

predict 대신 predict_proba를 사용해야 ROC-AUC 계산이 정확합니다.

 

질문 QnA

Accuracy가 높은데 ROC-AUC는 낮습니다. 왜 그런가요?

클래스 불균형 문제일 가능성이 높습니다. ROC-AUC는 확률 예측 능력을 평가합니다.

트리 모델이 항상 더 좋은가요?

대부분 유리하지만 데이터 특성에 따라 로지스틱 회귀가 더 나을 수도 있습니다.

SMOTE는 반드시 써야 하나요?

불균형이 심한 경우 효과적이지만, 과적합 위험도 있으므로 교차검증이 필요합니다.

ROC-AUC 0.8 이상이면 충분한가요?

시험 기준에서는 상위 점수권이지만, 교차검증 안정성도 함께 확인해야 합니다.

 

작업형 제2유형은 코드 몇 줄 차이로 점수가 크게 갈립니다. 오늘 연습한다면 모델을 바꾸기 전에 전처리를 다시 점검해보세요. ROC-AUC는 모델 선택보다 데이터 이해에서 시작됩니다. 결국 높은 점수는 화려한 알고리즘이 아니라, 탄탄한 기본에서 나옵니다.