본문 바로가기

자연어 처리 과정

Word2vec vs GloVe

Word2Vec takes texts as training data for a neural network. The resulting embedding captures whether words appear in similar contexts. GloVe focuses on words co-occurrences over the whole corpus. Its embeddings relate to the probabilities that two words appear together.

 

Word2vec은 local 하게 한 문장에서 sliding window 해서 맥락을 파악하여 pair들을 추출한 후, 그걸 ground truth로 삼아서 layer를 통과하고 softmax를 통과했을 때 output이 잘 예측되도록 하는 거다.

 

GloVe는 전체 corpus에서 한 단어를 global 하게 봐서, 이게 co-occurrence가 어떻게 등장하는지 정리해놓은 후

그 co-occurrence 통계 matrix에 맞게 값이 나오도록 가중치를 설정한다.

 

결과적으로는 비슷한 output이 나온다고 한다.

word2vec을 더 선호하는 사람들도 있다고 한다.

결국, 유사하지만 방법이 좀 다른 거다.

 

둘 다, output은 word 한 개 -> vector 한 개로 나타내준다.

 

referece: https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwjkvbW8lJn8AhWqhlYBHR6fBa0QFnoECBUQAw&url=https%3A%2F%2Ftowardsdatascience.com%2Fthe-three-main-branches-of-word-embeddings-7b90fa36dfb9&usg=AOvVaw23pRZN3WYmHstpUk459udz

'자연어 처리 과정' 카테고리의 다른 글

Why do we need to add bias in neural networks?  (0) 2022.12.28
Why RNN share the same weights?  (0) 2022.12.28
Time sequence로 정렬하기  (0) 2022.12.21
LSTM  (0) 2022.12.18
RNN  (0) 2022.12.18