Feature = dataframe의 column/열 혹은 dimension
Feature Engineering - dataset에 존재하는 feature들을 재조합하여 새로운 feature를 만드는것

중요한 Step들:
- dtypes 로 데이터형을 찾기
- dtypes로 확인 가능
- df.info()로 도 확인 가능
- Missing Value 해결
- Missing Values - NaN/None (Not A Number), Null (empty object), Na (missing/does not exist), etc.
- Missing Value 처리 방법
- isnull()- boolean형으로 missing value들 표기 (true/false)
- notnull()- isnull()의 반대
- dropna()- missing value를 없앰
- fillna()- missing value를 다른 값으로 대채 (ex. 0 혹은 mean, mode, max value(idx_max()), 등등
- *마지막에 sum()으로 총 계수 확인 가능
**df.count()는 missing data가 아닌 값을 세기 때문에 (len(df)- df.count()).sum()으로도 계수 확인 가능
- String을 Numerical로 변환
- 일반적으로 25,970 + 82,524 = 108,464가 되어야 하지만 Python은 25,97082,524를 return하는 이유는 25,970과 82,524는 둘다 문자열 (string)이기 때문
- 문자열을 숫자로 형 변환하는 다양한 방법
-
string replace - string variable.replace(“삭제할 글자“, ‘’) 의 형태로 사용 ( 공백으로 대치 )
-
s.replace(' , ' , ' ' )

-
type casting- built-in function사용
- int()- 정수(integer)형으로 변환
- str()- 문자열(string)형으로 변환
- float()- 부동소수(float)형으로 변환
-
as Function- 함수 사용
- 직접 함수를 만들어서 적용
- ex. def toInt(string):
return int(string.replace(' , ' , ' '))
-
Apply- column단위로 모든 데이터를 한번에 변환가능
- 먼저 apply안에 들어갈 함수 선언 (ex. toInt)
- column에 apply 적용
- Ex. df['자산'] = df['자산'].apply(toInt)
df