정교한 모형을 개발하기 전에 데이터의 구조와 특징에 대한 충분한 이해를 하기 위한 방법. 분석에 바로 사용하기 어려운 원본 데이터에 대한 견적을 내는 방법. 요리를 하기 위해 식재료를 준비하는 단계! 많은 시행착오나 오류는 ‘잘못된 이해’에서 온다. 데이터 분석을 통한 결과값을 출력하기 전에 어떤 결과값을 낼지 가설을 갖고 기본적인 표나 그림을 그려보며 사전 검증하는 단계
- 시각화 이용, 패턴 발견
- 데이터 특이성(결측치 등) 확인
- 통계와 그래픽으로 가설 검정 과정
- 그래피컬 : 차트 혹은 그림 등을 이용하여 데이터를 확인하는 방법
- 논 그래피컬 : 시각적인 요소를 사용하지 않는 방법으로, 주로 기술 통계량(Summary Statistics)를 통해 데이터를 확인하는 방법입니다.
- EDA 대상 : 단변량(일원, univariate), 다변수(multivariate)(여러 변수들 간 관계를 보는 것)
- CSV(comma-separated values) : 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일
- 단변량 – 논 그래피컬: 표본 데이터 분포 확인.
- 수치 데이터: 기술 통계(평균, 중간값, 형태, 이상치 등)
- 범주 데이터: 도수 분포(frequency distribution), 교차표(cross tabulation) 등
- 단변량 – 그래피컬: 히스토그램, 파이 차트, 박스플롯 등. 그러나 만약 값들이 너무 다양하면 변수 구간화(binning), 교차표 활용할 수 있음.
- 다변량 – 논 그래피컬: 변수 간 관계를 보는 것이 주된 목표. 교차 통계, 교차 통계량(상관 관계, 공분산) 등 사용.
- 다변량 – 그래피컬: 범주형, 수치형 모두 > 박스플롯, 누적 막대 그래프(stacked bar chart) 등
- 데이터 전처리 흐름: 데이터 클리닝 > 통합 > 변환 > 데이터 축소
- 데이터 클리닝 : 결측치 처리, 노이즈(큰 방향성에서 벗어난 무작위 오류 혹은 분산을 포함하는 데이터) 제거, 일관성이 없는 데이터를 제거/보정,
- 데이터 통합 : 여러 데이터를 하나로 합치는 과정