112. Feature Engineering

Feature = dataframe의 column/열 혹은 dimension

Feature Engineering - dataset에 존재하는 feature들을 재조합하여 새로운 feature를 만드는것

Screen Shot 2021-12-08 at 15.42.56.png

중요한 Step들:

dtypes 로 데이터형을 찾기
1. dtypes로 확인 가능
2. df.info()로 도 확인 가능
Missing Value 해결
1. Missing Values - NaN/None (Not A Number), Null (empty object), Na (missing/does not exist), etc.
2. Missing Value 처리 방법
  1. isnull()- boolean형으로 missing value들 표기 (true/false)
  2. notnull()- isnull()의 반대
  3. dropna()- missing value를 없앰
  4. fillna()- missing value를 다른 값으로 대채 (ex. 0 혹은 mean, mode, max value(idx_max()), 등등
  5. *마지막에 sum()으로 총 계수 확인 가능 **df.count()는 missing data가 아닌 값을 세기 때문에 (len(df)- df.count()).sum()으로도 계수 확인 가능
String을 Numerical로 변환
1. 일반적으로 25,970 + 82,524 = 108,464가 되어야 하지만 Python은 25,97082,524를 return하는 이유는 25,970과 82,524는 둘다 문자열 (string)이기 때문
2. 문자열을 숫자로 형 변환하는 다양한 방법
  1. string replace - string variable.replace(“삭제할 글자“, ‘’) 의 형태로 사용 ( 공백으로 대치 )
    1. s.replace(' , ' , ' ' )
  2. type casting- built-in function사용
    1. int()- 정수(integer)형으로 변환
    2. str()- 문자열(string)형으로 변환
    3. float()- 부동소수(float)형으로 변환
  3. as Function- 함수 사용
    1. 직접 함수를 만들어서 적용
      1. ex. def toInt(string): return int(string.replace(' , ' , ' '))
  4. Apply- column단위로 모든 데이터를 한번에 변환가능
    1. 먼저 apply안에 들어갈 함수 선언 (ex. toInt)
    2. column에 apply 적용
    3. Ex. df['자산'] = df['자산'].apply(toInt) df