Day 21 (09.06) | Notion

Word Embedding

Untitled

the this의 경우 cat을 꾸며주는 관계, hunts, purs의 경우 cat 이 할만한 행위라는 것을 알 수 있음.
주어진 학습 데이터를 바탕으로 cat 주변에 나타나는 단어들의 확률 분포들을 예측하게 됨

Untitled

Untitled

주어진 학습 데이터를 tokenization
이후 unique한 단어를 가지고 사전을 만듬
임베딩 차원의 크기는 사전의 크기로 정해짐
Sliding window를 적용하여, 앞뒤로 나타난 각각의 단어와, 입*출력 쌍을 구성하게됨 예를 들어 window size =3, 단어가 study인 경우에 [(study, I), (study, math)]
히든레이어의 노드 수는 하이퍼 파라미터로 설정

Untitled

word embedding의 역할을 잘 나타낸 예제, king과 queen벡터의 차이는 Man과 woman의 차이와 유사하다
또다른 예시로 Intrusion Detection

Untitled

여러가지 단어들이 주어져 있을 때, 나머지 단어들과 의미가 가장 상이한 단어를 탐색
각 단어별로 나머지 단어들의 유클리드 거리를 측정한후 평균을 냄
이 평균 값이 가장 큰 단어가 주어진 단어들 중 가장 의미가 상이한 단어라고 할 수 있음.

Untitled

Word2Vec과의 차이 : 각 입력 및 출력 단어 쌍에 대해서, 한 윈도우에서 동시에 등장한 횟수를 사전에 체크하여 확률을 계산하고⇒ $P_{ij}$, ${u_i}^T$(입력 단어의 임베딩 벡터) $v_j$(출력 단어의 임베딩 벡터)의 내적과 등장 확률의 로그 값이 비슷하게 되게끔 학습