211. 단순선형회귀(Simple Linear Regression)

기준모델

예측모델을 구체적으로 만들기 전에 가장 간단하고, 직관적이며, 최소한의 성능을 나타내는 기준이 되는 모델
평균값을 기준으로 사용하면 ‘평균기준모델’
- 분류문제: 타겟의 최빈 클래스
- 회귀문제: 타겟의 평균값
- 시계열회귀문제: 이전 타임스탬프의 값

Untitled

→ 위 그림을 통해 평균 예측은 에러가 상당히 크다는 것을 알 수 있다

** 에러: 평균값-실제값

회귀선&회귀모형

잔차: 예측값과 관측값의 차이

(오차는 모집단에서의 예측값과 관측값의 차이)

회귀선: 잔차 제곱들의 합=RSS를 최소화하는 직선
RSS: SSE라고도 하며 회귀모델의 비용함수

스크린샷 2021-12-21 오후 8.18.31.png

RSS를 최소화하는 방법: 최소제곱회귀
- 최소제곱법으로 선형 회귀계수(기울기계수=slope, 절편계수=intercept)를 구할 수 있다
보간: 선형회귀는 주어져 있지 않은 점의 함수값을 예측할 수 있게 도와주는데, 이것을 ‘보간’이라고 한다 (노란색)
외삽: 선형회귀모델은 기존 데이터의 범위를 넘어서는 값을 예측하는 데 도와주는데, 이것을 ‘외삽’이라고 한다 (파란색)

Untitled

선형회귀직선은 독립변수(x), 종속변수(y) 간의 관계를 요약해 주는데
- 종속변수는 반응변수=label=target으로
- 독립변수는 예측변수=설명변수=특성(feature)로 불리기도 한다
회귀모형의 목적
- 예측&추론: 예측은 output 예측, 추론은 variable 관계를 이해하는 것
  - 모델의 복잡도가 높으면 예측력은 좋으나 추론하기 어려움
단순선형회귀: 추론에 굿

선형회귀모델 만들기 using scikit-learn

Untitled

→ scikit-learn를 활용해 모델을 만들고 데이터 분석하기 위해 위와 같은 데이터 구조를 사용

**주로 타겟은 y, 특성은 X로 표현

## Scikit-Learn 라이브러리에서 사용할 예측모델 클래스를 Import 합니다
from sklearn.linear_model import LinearRegression

## 예측모델 인스턴스를 만듭니다
model = LinearRegression()

## X 특성들의 테이블과, y 타겟 벡터를 만듭니다
feature = ['GrLivArea']
target = ['SalePrice']
X_train = df[feature]
y_train = df[target]

## 모델을 학습(fit)합니다
model.fit(X_train, y_train)

## 새로운 데이터 한 샘플을 선택해 학습한 모델을 통해 예측해 봅니다
X_test = [[4000]]
y_pred = model.predict(X_test)

## 전체 테스트 데이터를 모델을 통해 예측해 봅니다.
X_test = [[x] for x in df_t['GrLivArea']]
y_pred = model.predict(X_test)
## 전체 예측값 입니다.
y_pred

## train 데이터에 대한 그래프를 그려보겠습니다.
plt.scatter(X_train, y_train, color='black', linewidth=1)

## test 데이터에 대한 예측을 파란색 점으로 나타내 보겠습니다.
plt.scatter(X_test, y_pred, color='blue', linewidth=1);

Untitled

선형회귀모델의 계수 Coefficients

## 기울기 계수(coefficient)
model.coef_

## 절편 계수(intercept)
model.intercept_