422. Distributed Representation (분산 기반의 표현)

분산 기반의 표현 Distributed Representation

단어 자체를 벡터화하는 방법
분포 가설을 토대로 주변 단어의 분포에 따라 단어의 벡터 표현이 결정되기 때문에 ‘분산 표현'이라고 부름
- 분포 가설: 비슷한 의미를 지닌 단어는 주변 단어의 분포도 비슷하다
단어 벡터화 방법
1. 원핫 인코딩
  - I : [1 0 0 0]
    
    am : [0 1 0 0]
    
    a : [0 0 1 0]
    
    student : [0 0 0 1]
  - 단점: 단어 간의 유사도를 구할 수 없음
    - 두 벡터 간의 내적이 항상 0이 되기 때문에 단어 간의 관계를 파악할 수 없음
2. 임베딩
  - 원핫 인코딩의 단점을 해결
  - 단어를 차원이 일정한 벡터로 나타냄
    - [0.04227, -0.0033, 0.1607, -0.0236, ...]
      
      → 각 요소가 연속적인 값
  - 예) Word2Vec 등

Word2Vec

단어를 벡터로 나타내는 임베딩 방법 중 하나
특정 단어의 양 옆 두 단어(window size = 2)의 관계를 활용
1. **CBoW**와 Skip-gram
  - CBoW:주변 단어에 대한 정보를 토대로 중심 단어의 정보를 예측
    
    “… 나 는 [ -- ] 하나 에 … “
    
    “… 는 별 [ ---- ] 에 아름다운 …”
    
    “… 별 하나 [ -- ] 아름다운 말 …”
    
    “… 하나 에 [ -------- ] 말 한마디 …”
  - Skip-gram: 중심 단어 정보를 토대로 주변 단어의 정보를 예측
    
    “… [ -- ] [ -- ] 별 [ ---- ] [ -- ] …”
    
    “… [ -- ] [ -- ] 하나 [ -- ] [ -------- ] …”
    
    “… [ -- ] [ ---- ] 에 [ -------- ] [ -- ] …”
    
    “… [ ---- ] [ -- ] 아름다운 [ -- ] [ ------ ] …”
  - 역전파 관점에서는 후자가 더 많은 학습이 일어나 모델 성능이 더 좋음
1. 모델의 구조: Skip-gram
  - 입력: 인코딩된 단어 벡터
  - 은닉층: 임베딩 벡터의 차원수= 노드 수, 층이 1개
  - 출력층: 단어 수 = 노드 수, 활성화함수=소프트맥스
2. 학습 데이터 디자인
  - 예) "The tortoise jumped into the lake"
    - 중심 단어 : tortoise, 주변 문맥 단어 : the, jumped, into
      - 학습 샘플: (tortoise, the), (tortoise, jumped), (tortoise, into)
    - 중심 단어 : jumped, 주변 문맥 단어 : the, tortoise, into, the
      - 학습 샘플: (jumped, the), (jumped, tortoise), (jumped, into), (jumped, the)
  - Skip-gram은 중심단어를 입력값, 문맥단어를 label로 분류 학습
3. Word2Vec 학습 결과
  - 위 예시로 학습을 하면, 결과로 skip-gram 모델을 통해 10000개 단어 * 300 차원의 임베딩 벡터 생성
    - 차원을 조절하고 싶을 때에는 은닉층 노드 수에 변화를 주어서 수정 가능
  - 임베딩 벡터는 문장 간 관련도 계산 및 문서 분류 작업 등에 사용 가능
  - 아래 그림은 신경망 내부에 있는 10000*300 가중치 행렬에 의해 10000개 단어의 300차원 벡터가 생성되는 모습을 나타냄

Word2Vec로 임베딩한 벡터 시각화
- Word2Vec로 얻은 임베딩 벡터는 단어 간의 의미적/문법적 관계를 잘 나타냄
- 예시 ⬇️
  1. 생성된 임베딩 벡터가 단어의 의미적(Semantic) 관계를 잘 표현
  2. 임베딩 벡터가 단어의 문법적(Syntactic) 관계도 잘 표현

임베딩 벡터를 사용하여 문장 분류 수행하기

+ pad_sequences

패딩 padding: 길이가 동일한 문장이나 문서들을 한 번에 묶어서 처리 가능하기 때문에 길이가 다른 각 문장이나 문서의 길이를 임의로 동일하게 맞춰주는 작업
- 즉 데이터에 특정 값을 채워서 데이터의 크기(shape)를 조정하기
- 길이가 긴 문장/문서에 맞추기 위해 짧은 것은 가상의 단어 'PAD'를 사용
- 제로 패딩(zero padding): 숫자 0을 사용해 패딩하는 방법
- pad_sequences: 케라스로 패딩하게 돕는 함수
```
maxlen_pad= 400

X_train=pad_sequences(X_encoded, maxlen=maxlen_pad, padding='post')
y_train=np.array(y_train)
```