본문 바로가기

728x90

CBOW

(1)

[논문 리뷰] Efficient Estimation of Word Representations in Vector Space 문제점 및 기여 부분 텍스트 데이터를 벡터화 하기 위해 가장 많이 사용된 One-Hot Encoding 방식 대신 새로운 방법론인 CBOW와 Skip-gram을 제시하며 Word2Vec의 대표적인 알고리즘으로 자리잡았다. 목차 Introduction Models Results 1. Introduction 텍스트 데이터는 단어 혹은 문장이기 때문에 바로 학습할 수 없다. 그래서 학습을 위해 범주형 데이터를 수치형 데이터로 변환해줘야 하는데 기존에는 One-Hot Encoding 방식이 가장 많이 사용됐다. One-Hot Encoding이란, 표현하고자 하는 단어를 1, 나머지 단어를 0으로 채운 (1, 단어 개수) 크기의 벡터이다. 위에 그림처럼 사과~참외까지의 거리가 100이라면 단어 개수는 100개이다..

이전 1 다음

728x90

티스토리툴바