Word Embedding

- the this의 경우 cat을 꾸며주는 관계, hunts, purs의 경우 cat 이 할만한 행위라는 것을 알 수 있음.
- 주어진 학습 데이터를 바탕으로 cat 주변에 나타나는 단어들의 확률 분포들을 예측하게 됨


- 주어진 학습 데이터를 tokenization
- 이후 unique한 단어를 가지고 사전을 만듬
- 임베딩 차원의 크기는 사전의 크기로 정해짐
- Sliding window를 적용하여, 앞뒤로 나타난 각각의 단어와, 입*출력 쌍을 구성하게됨
예를 들어 window size =3, 단어가 study인 경우에 [(study, I), (study, math)]
- 히든레이어의 노드 수는 하이퍼 파라미터로 설정

- word embedding의 역할을 잘 나타낸 예제, king과 queen벡터의 차이는 Man과 woman의 차이와 유사하다
- 또다른 예시로 Intrusion Detection

- 여러가지 단어들이 주어져 있을 때, 나머지 단어들과 의미가 가장 상이한 단어를 탐색
- 각 단어별로 나머지 단어들의 유클리드 거리를 측정한후 평균을 냄
- 이 평균 값이 가장 큰 단어가 주어진 단어들 중 가장 의미가 상이한 단어라고 할 수 있음.

- Word2Vec과의 차이 : 각 입력 및 출력 단어 쌍에 대해서, 한 윈도우에서 동시에 등장한 횟수를 사전에 체크하여 확률을 계산하고⇒ $P_{ij}$, ${u_i}^T$(입력 단어의 임베딩 벡터) $v_j$(출력 단어의 임베딩 벡터)의 내적과 등장 확률의 로그 값이 비슷하게 되게끔 학습