정교한 모형을 개발하기 전에 데이터의 구조와 특징에 대한 충분한 이해를 하기 위한 방법. 분석에 바로 사용하기 어려운 원본 데이터에 대한 견적을 내는 방법. 요리를 하기 위해 식재료를 준비하는 단계! 많은 시행착오나 오류는 ‘잘못된 이해’에서 온다. 데이터 분석을 통한 결과값을 출력하기 전에 어떤 결과값을 낼지 가설을 갖고 기본적인 표나 그림을 그려보며 사전 검증하는 단계

  1. 시각화 이용, 패턴 발견
  2. 데이터 특이성(결측치 등) 확인
  3. 통계와 그래픽으로 가설 검정 과정
  1. 그래피컬 : 차트 혹은 그림 등을 이용하여 데이터를 확인하는 방법
  2. 논 그래피컬 : 시각적인 요소를 사용하지 않는 방법으로, 주로 기술 통계량(Summary Statistics)를 통해 데이터를 확인하는 방법입니다.
  1. 수치 데이터: 기술 통계(평균, 중간값, 형태, 이상치 등)
  2. 범주 데이터: 도수 분포(frequency distribution), 교차표(cross tabulation) 등
  1. 데이터 클리닝 : 결측치 처리, 노이즈(큰 방향성에서 벗어난 무작위 오류 혹은 분산을 포함하는 데이터) 제거, 일관성이 없는 데이터를 제거/보정,
  2. 데이터 통합 : 여러 데이터를 하나로 합치는 과정