134. Clustering

Scree Plot
1. Eigenvalue순서, eigenvalue크기로 점을 찍고 선으로 연결해서 가파른 정도로 구분 기울기가 급격하게 변하는점을 기점으로 개수를 선택 (PCA개수)
2. 목적: PCA실행을 위해 가장 큰 영향(?)을 주는 component들 구분
Machine Learning
1. Supervised Learning(지도 학습)
  1. 트레이닝 데이터에 라벨(답)이 있을때 사용 가능
    1. Classification(분류)- 주어진 데이터의 카테고리 혹은 클래스 예측
    2. Prediction(희귀)- Continuous한 데이터를 바탕으로 결과를 예측
2. Unsupervised Learning(비지도 학습)
  1. 라벨이 없을때
    1. Clustering(클러스링)- 데이터의 연관된 feature를 바탕으로 유사한 그룹생성
    2. Dimensionality Reduction(차원축소)- Feature/Dimension이 많은 데이터셋에서 feature extraction/selection을 통해 차원을 줄이는 방법
    3. Association Rule Learning(연관 규칙 학습)- 데이터셋 feature들의 관계를 발견 하는 방법 (feature-output 이 아닌 feature-feature)
    4. Reinforcement Learning(강화학습)- 기계가 잘하면 보상, 못하면 처벌이라는 피드백으로 행동을 학습해나감 (ex. 똥개훈련)
Clustering:
1. 목적: 데이터들이 얼마나, 어떻게 유사한지 찾기
2. 용도: 데이터셋 요약/정리 하는데 효율적인 방법으로 많이 사용 (EDA단계에서 많이 쓰임)
3. 단점(?): 정답을 보장 하지 않음
4. 종류:
  1. Hierarchical
    1. Agglomerative: 개별 포인트에서 시작후 점점 크게 합쳐감 (모여)
    2. Divisive: 한개의 큰 cluster에서 시작후 점점 작은 cluster로 나눠감 (나눠)
  2. Point Assignment
    1. 시작시에 cluster의 수를 정해서 데이터를 하나씩 배정(assign) 시킴
  3. Hard vs. Soft Clustering
    1. Hard: 데이터는 하나의 cluster에만 할당 (일반적으로 Clustering이라 볼림)
    2. Soft: 데이더는 여러 cluster에 확률을 가지고 할당
5. Similarity
  1. Euclidean
  2. Cosine
  3. Jaccard
  4. Edit Distance
  5. Etc.
6. K-Means Clustering
  1. 과정: n-차원의 데이터에서
    1. k개의 랜덤한 데이터를 cluster의 중심으로 설정
    2. 해당 cluster에 근접해 있는 데이터를 cluster로 할당
    3. 변경된 cluster에 대해서 중심점을 새로 계산
    4. Cluster의 유의미한 변화가 없을때까지 #2, 3 반복
  2. Tutorial/Demo
    1. 데이터셋
    1. Centroid(중심점) 계산
    2. Centroid 기준으로 Cluster할당
    1. 새로운 cluster의 centroid계산.
    1. 유의미한 변화가 없을때까지 반복
  3. K를 결정하는 방법
    1. Eyeball Method- 주관적인 판단을 통해 임의로 지정 (눈대중?)
    2. Metrics- 객관적인 지표를 설정하요 최적화된 K를 선택하는 방법.
  4. Scikit-Learn으로 K-Means
  5. Elbow Method- 팔꿈치 부분을 cluster개수로 설정

Screen Shot 2021-12-16 at 12.45.15.png