결정트리모델 단점:
한 개의 트리만 사용하기 때문에 한 노드에서 생긴 에러가 하부 노드에서도 계속 영향
트리의 깊이에 따라 과적합되는 경향
→ 이러한 문제는 앙상블모델인 랜덤포레스트를 사용하면 쉽게 해결할 수 있음
앙상블(Ensemble) 방법
한 종류의 데이터로 여러 머신러닝 학습모델(
weak base learner, 기본모델
)을 만들어 그 모델들의 예측결과를 다수결이나 평균을 내어 예측하는 방법
랜덤포레스트는 결정트리를 기본모델로 사용하는 앙상블 방법
랜덤포레스트 기본모델
배깅(Bagging,
B
ootstrap Aggregating)
부트스트랩 샘플링
앙상블에 사용하는 작은 모델들은 부트스트래핑(bootstraping)이라는 샘플링과정으로 얻은
부트스트랩세트
를 사용해 학습. 원본 데이터에서 **복원추출(**샘플을 뽑아 값을 기록하고 제자리에 돌려놓는 것)
샘플링을 특정한 수 만큼 반복하면 하나의 부트스트랩세트가 완성
부트스트랩세트의 크기가 n이라 할 때 한 번의 추출과정에서 어떤 한 샘플이 추출 되지 않을 확률