1. 예측모델을 위한 타겟을 올바르게 선택하고 그 분포를 확인
  2. 테스트/학습 데이터 사이 or 타겟과 특성들간 일어나는 정보의 누출(leakage)피하기
  3. 상황에 맞는 검증 지표(metrics)를 사용

1.예측 문제 정의

우선 예측 해야 하는 타겟을 명확히 정하고 그 분포를 살펴봐야 함.

지도학습(Supervised learning)에서는 예측할 타겟을 먼저 정합니다.

테이블 형태의 데이터세트인 경우 어떤 특성을 예측타겟으로 할지 먼저 정해야 합니다.

어떤 문제는 회귀/분류문제가 쉽게 구분이 안되는 경우도 있습니다.

Untitled

## recommend 특성을 만들어 이진분류문제로 변환합니다
df['recommend'] = df['rating'] >= 3.7
df['recommend'].nunique(

2.정보의 누수(leakage) 확인

모델을 만들고 평가를 진행했는데 예측을 100% 잘 하는 경우를 종종 보게 될 것

정보의 누수가 존재할 가능성이 매우 큼

  1. 타겟변수 외에 예측 시점에 사용할 수 없는 데이터가 포함되어 학습이 이루어 질 경우
  2. 훈련데이터와 검증데이터를 완전히 분리하지 못했을 경우