기준모델

Untitled

→ 위 그림을 통해 평균 예측은 에러가 상당히 크다는 것을 알 수 있다

** 에러: 평균값-실제값

회귀선&회귀모형

(오차는 모집단에서의 예측값과 관측값의 차이)

스크린샷 2021-12-21 오후 8.18.31.png

Untitled

선형회귀모델 만들기 using scikit-learn

Untitled

→ scikit-learn를 활용해 모델을 만들고 데이터 분석하기 위해 위와 같은 데이터 구조를 사용

**주로 타겟은 y, 특성은 X로 표현

## Scikit-Learn 라이브러리에서 사용할 예측모델 클래스를 Import 합니다
from sklearn.linear_model import LinearRegression

## 예측모델 인스턴스를 만듭니다
model = LinearRegression()

## X 특성들의 테이블과, y 타겟 벡터를 만듭니다
feature = ['GrLivArea']
target = ['SalePrice']
X_train = df[feature]
y_train = df[target]

## 모델을 학습(fit)합니다
model.fit(X_train, y_train)

## 새로운 데이터 한 샘플을 선택해 학습한 모델을 통해 예측해 봅니다
X_test = [[4000]]
y_pred = model.predict(X_test)

## 전체 테스트 데이터를 모델을 통해 예측해 봅니다.
X_test = [[x] for x in df_t['GrLivArea']]
y_pred = model.predict(X_test)
## 전체 예측값 입니다.
y_pred

## train 데이터에 대한 그래프를 그려보겠습니다.
plt.scatter(X_train, y_train, color='black', linewidth=1)

## test 데이터에 대한 예측을 파란색 점으로 나타내 보겠습니다.
plt.scatter(X_test, y_pred, color='blue', linewidth=1);

Untitled

선형회귀모델의 계수 Coefficients

## 기울기 계수(coefficient)
model.coef_

## 절편 계수(intercept)
model.intercept_