Feature = dataframe의 column/열 혹은 dimension

Feature Engineering - dataset에 존재하는 feature들을 재조합하여 새로운 feature를 만드는것

Screen Shot 2021-12-08 at 15.42.56.png

중요한 Step들:

  1. dtypes 로 데이터형을 찾기
    1. dtypes로 확인 가능
    2. df.info()로 도 확인 가능
  2. Missing Value 해결
    1. Missing Values - NaN/None (Not A Number), Null (empty object), Na (missing/does not exist), etc.
    2. Missing Value 처리 방법
      1. isnull()- boolean형으로 missing value들 표기 (true/false)
      2. notnull()- isnull()의 반대
      3. dropna()- missing value를 없앰
      4. fillna()- missing value를 다른 값으로 대채 (ex. 0 혹은 mean, mode, max value(idx_max()), 등등
      5. *마지막에 sum()으로 총 계수 확인 가능 **df.count()는 missing data가 아닌 값을 세기 때문에 (len(df)- df.count()).sum()으로도 계수 확인 가능
  3. String을 Numerical로 변환
    1. 일반적으로 25,970 + 82,524 = 108,464가 되어야 하지만 Python은 25,97082,524를 return하는 이유는 25,970과 82,524는 둘다 문자열 (string)이기 때문
    2. 문자열을 숫자로 형 변환하는 다양한 방법
      1. string replace - string variable.replace(“삭제할 글자“, ‘’) 의 형태로 사용 ( 공백으로 대치 )

        1. s.replace(' , ' , ' ' )

          Screen Shot 2021-12-08 at 15.55.51.png

      2. type casting- built-in function사용

        1. int()- 정수(integer)형으로 변환
        2. str()- 문자열(string)형으로 변환
        3. float()- 부동소수(float)형으로 변환
      3. as Function- 함수 사용

        1. 직접 함수를 만들어서 적용
          1. ex. def toInt(string): return int(string.replace(' , ' , ' '))
      4. Apply- column단위로 모든 데이터를 한번에 변환가능

        1. 먼저 apply안에 들어갈 함수 선언 (ex. toInt)
        2. column에 apply 적용
        3. Ex. df['자산'] = df['자산'].apply(toInt) df