In this paper, convolutional neural network architecture that jointly uses features for word and character embedding is proposed. This is the first paper that deals with the text classification task with word and character embedding feeding into the ConvNet at the same time. Our model uses independent sets of filters for word2vec embedding and one hot vector character-level embedding of a text, merges extracted features at fully connected layers to classify the text.
It is shown through series of text classification experiments that the proposed architecture can outpeform other models which adopt only one form of embedding such as word or character. Our model also converged 2 times faster than the other model which uses only characters.
이 논문에서는 문서의 단어와 글자의 특징을 결합하여 배우는 합성곱 신경망 구조를 제안하였다. 이 논문은 단어와 글자단위를 한번에 합성곱 신경망에 대입하여 문서 분류를 하는 첫번째 연구이다. 이 모델은 단어레벨의 워드투벡 임베딩과 글자 레벨의 원 핫 벡터 인코딩을 각각 독립적인 필터 집합을 이용하여 트레이닝 한 뒤, 추출된 특징들을 완전 연결 은닉 계층에서 합쳐 문서를 분류한다. 여러 문서 분류 실험 결과, 제시된 구조는 한 가지 레벨의 임베딩 (단어 또는 글자)만을 사용하는 모델 보다 우수한 분류 성능을 보였으며, 일부 데이터 셋에서는 글자만을 사용하는 모델보다 2배 빠르게 성능이 수렴하였다.