
예측모델을 구체적으로 만들기 전에 가장 간단하고, 직관적이며, 최소한의 성능을 나타내는 기준이 되는 모델
평균값을 기준으로 사용하면 ‘평균기준모델’
모델 학습에 사용한 훈련 데이터를 잘 맞추는 모델이 아니라, 학습에 사용하지 않은 테스트 데이터를 얼마나 잘 맞추는지가 목적.
이것을 하기 위해서는 학습에 사용하는 데이터와 모델을 평가할때 사용하는 데이터를 분리 시켜야됨.
훈련(train)/테스트(test) 데이터셋으로 나눔
관찰이나 실험으로 얻은 샘플자료(적은 수의 자료)를 분석하고 설명하기 위해서는 그 자료를 잘 표현할 수 있는 '방정식'을 예측해야 합니다. 자료를 가장 잘 설명하는 방정식이란, 원래 자료와의 오차(error)를 가장 적게 만든 식 입니다.
아래 그림의 x와 y의 분포도에 있는 저 선(Regression line)이 바로 '자료를 가장 잘 설명하는 방정식'이 됩니다.
회귀분석에서는 이 선을 '회귀선'이라고 하며, 이 회귀선의 '회귀(방정)식'을 이용하면 독립변수로 종속변수를 예측할 수 있게 됩니다.
독립변수 X와 종속변수 y 두 변수 간의 상관관계를 함수 식으로 설명하는 통계적 방법이다.