본문 바로가기

728x90

nlp

(2)

[NLP] HuggingFace 토크나이저 커스텀하기 (커스텀 토큰 추가) 지금 NLP 분야에서는 새로운 모델을 학습시키는 것보다 Pre-trained 된 모델을 가져와 재학습 시키는 경우가 많다. 그럼 해당하는 모델이 사용하는 Embedding Layer를 지나가기 위해 토큰 정보를 담은 토크나이저는 수정할 수 없는걸까? 아니 커스터마이징 할 수 있다. 지금 내가 해결하고자 하는 문제에 대한 단어들이 토크나이저에 없을 수 있는데 추가할 수 있는 방법은 매우 간단하다. 일단 추가할 토큰을 명시하고 토크나이저에 추가한 다음에 해당 모델의 Embedding Layer input을 바꿔주면 된다. 1. 추가할 토큰 명시 add_tokens = ['[NEW'] 2. 토크나이저 업데이트 tokenizer = AutoTokenizer.from_pretrained({model_name}) ..

[논문 리뷰] Efficient Estimation of Word Representations in Vector Space 문제점 및 기여 부분 텍스트 데이터를 벡터화 하기 위해 가장 많이 사용된 One-Hot Encoding 방식 대신 새로운 방법론인 CBOW와 Skip-gram을 제시하며 Word2Vec의 대표적인 알고리즘으로 자리잡았다. 목차 Introduction Models Results 1. Introduction 텍스트 데이터는 단어 혹은 문장이기 때문에 바로 학습할 수 없다. 그래서 학습을 위해 범주형 데이터를 수치형 데이터로 변환해줘야 하는데 기존에는 One-Hot Encoding 방식이 가장 많이 사용됐다. One-Hot Encoding이란, 표현하고자 하는 단어를 1, 나머지 단어를 0으로 채운 (1, 단어 개수) 크기의 벡터이다. 위에 그림처럼 사과~참외까지의 거리가 100이라면 단어 개수는 100개이다..

이전 1 다음

728x90

티스토리툴바