
→ 위 그림을 통해 평균 예측은 에러가 상당히 크다는 것을 알 수 있다
** 에러: 평균값-실제값
(오차는 모집단에서의 예측값과 관측값의 차이)



→ scikit-learn를 활용해 모델을 만들고 데이터 분석하기 위해 위와 같은 데이터 구조를 사용
**주로 타겟은 y, 특성은 X로 표현
## Scikit-Learn 라이브러리에서 사용할 예측모델 클래스를 Import 합니다
from sklearn.linear_model import LinearRegression
## 예측모델 인스턴스를 만듭니다
model = LinearRegression()
## X 특성들의 테이블과, y 타겟 벡터를 만듭니다
feature = ['GrLivArea']
target = ['SalePrice']
X_train = df[feature]
y_train = df[target]
## 모델을 학습(fit)합니다
model.fit(X_train, y_train)
## 새로운 데이터 한 샘플을 선택해 학습한 모델을 통해 예측해 봅니다
X_test = [[4000]]
y_pred = model.predict(X_test)
## 전체 테스트 데이터를 모델을 통해 예측해 봅니다.
X_test = [[x] for x in df_t['GrLivArea']]
y_pred = model.predict(X_test)
## 전체 예측값 입니다.
y_pred
## train 데이터에 대한 그래프를 그려보겠습니다.
plt.scatter(X_train, y_train, color='black', linewidth=1)
## test 데이터에 대한 예측을 파란색 점으로 나타내 보겠습니다.
plt.scatter(X_test, y_pred, color='blue', linewidth=1);

## 기울기 계수(coefficient)
model.coef_
## 절편 계수(intercept)
model.intercept_