- 지도학습 모델을 학습하기 위한 훈련데이터를 생성
- 지도학습을 위한 데이터 엔지니어링 방법을 이해하고 올바른 특성을 만들어 낼 수 있다
1. 정의
분석을 하거나 모델을 만들기 전에 데이터를 사용하기 쉽게 변형하거나 맵핑하는 과정
- EDA 와의 구분이 애매하고 서로 혼용되는 경우가 많은 듯?
- 모델링 과정 중 가장 많은 시간이 소요되는 단
2. 종류
-
데이터프레임 만들기
-
Tidy Data
- 원하는 대로 데이터 정렬


-
Group Data (groupby 사용)
- 데이터 그루핑

-
Summarize Data
- 데이터셋에 대한 요약 / 정보 얻기 (.describe, .shape 등)
-
Make New Variables
-
Combine Data sets
- 데이터셋을 합쳐 새로운 데이터셋 만들기 (merge)
-
결측치 채우기
-
Plotting
출처 : https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

