1. Scree Plot

    1. Eigenvalue순서, eigenvalue크기로 점을 찍고 선으로 연결해서 가파른 정도로 구분 기울기가 급격하게 변하는점을 기점으로 개수를 선택 (PCA개수)

      Screen Shot 2021-12-16 at 12.11.13.png

    2. 목적: PCA실행을 위해 가장 큰 영향(?)을 주는 component들 구분

      Screen Shot 2021-12-16 at 12.13.23.png

  2. Machine Learning

    1. Supervised Learning(지도 학습)
      1. 트레이닝 데이터에 라벨(답)이 있을때 사용 가능
        1. Classification(분류)- 주어진 데이터의 카테고리 혹은 클래스 예측
        2. Prediction(희귀)- Continuous한 데이터를 바탕으로 결과를 예측
    2. Unsupervised Learning(비지도 학습)
      1. 라벨이 없을때
        1. Clustering(클러스링)- 데이터의 연관된 feature를 바탕으로 유사한 그룹생성
        2. Dimensionality Reduction(차원축소)- Feature/Dimension이 많은 데이터셋에서 feature extraction/selection을 통해 차원을 줄이는 방법
        3. Association Rule Learning(연관 규칙 학습)- 데이터셋 feature들의 관계를 발견 하는 방법 (feature-output 이 아닌 feature-feature)
        4. Reinforcement Learning(강화학습)- 기계가 잘하면 보상, 못하면 처벌이라는 피드백으로 행동을 학습해나감 (ex. 똥개훈련)
  3. Clustering:

    1. 목적: 데이터들이 얼마나, 어떻게 유사한지 찾기
    2. 용도: 데이터셋 요약/정리 하는데 효율적인 방법으로 많이 사용 (EDA단계에서 많이 쓰임)
    3. 단점(?): 정답을 보장 하지 않음
    4. 종류:
      1. Hierarchical
        1. Agglomerative: 개별 포인트에서 시작후 점점 크게 합쳐감 (모여)
        2. Divisive: 한개의 큰 cluster에서 시작후 점점 작은 cluster로 나눠감 (나눠)
      2. Point Assignment
        1. 시작시에 cluster의 수를 정해서 데이터를 하나씩 배정(assign) 시킴
      3. Hard vs. Soft Clustering
        1. Hard: 데이터는 하나의 cluster에만 할당 (일반적으로 Clustering이라 볼림)
        2. Soft: 데이더는 여러 cluster에 확률을 가지고 할당
    5. Similarity
      1. Euclidean
      2. Cosine
      3. Jaccard
      4. Edit Distance
      5. Etc.
    6. K-Means Clustering
      1. 과정: n-차원의 데이터에서

        1. k개의 랜덤한 데이터를 cluster의 중심으로 설정
        2. 해당 cluster에 근접해 있는 데이터를 cluster로 할당
        3. 변경된 cluster에 대해서 중심점을 새로 계산
        4. Cluster의 유의미한 변화가 없을때까지 #2, 3 반복
      2. Tutorial/Demo

        1. 데이터셋

        Screen Shot 2021-12-16 at 12.35.00.png

        Screen Shot 2021-12-16 at 12.35.13.png

        1. Centroid(중심점) 계산

          Screen Shot 2021-12-16 at 12.35.57.png

        2. Centroid 기준으로 Cluster할당

        Screen Shot 2021-12-16 at 12.37.04.png

        1. 새로운 cluster의 centroid계산.

        Screen Shot 2021-12-16 at 12.38.50.png

        1. 유의미한 변화가 없을때까지 반복

        Screen Shot 2021-12-16 at 12.40.06.png

      3. K를 결정하는 방법

        1. Eyeball Method- 주관적인 판단을 통해 임의로 지정 (눈대중?)
        2. Metrics- 객관적인 지표를 설정하요 최적화된 K를 선택하는 방법.
      4. Scikit-Learn으로 K-Means

        Screen Shot 2021-12-16 at 12.44.31.png

      5. Elbow Method- 팔꿈치 부분을 cluster개수로 설정

Screen Shot 2021-12-16 at 12.45.15.png