Concept recognition is a term that corresponds to the two sequential steps of named entity recognition and named entity normalization, and plays an essential role in the field of bioinformatics. However, the conventional dictionary-based methods did not sufficiently addressed the variation of the concepts in actual use in literature, resulting in the particularly degraded performances in recognition of multi-token concepts. In this paper, we propose a concept recognition method of multi-token biological entities using neural models combined with literature contexts. The key aspect of our method is utilizing the contextual information from the biological knowledge-bases for concept normalization, which is followed by named entity recognition procedure. The model showed improved performances over conventional methods, particularly for multi-token concepts with higher variations. We expect that our model can be utilized for effective concept recognition and variety of natural language processing tasks on bioinformatics.
개념어 인식은 개체명 인식과 개체명 정규화라는 두 순차적 단계를 통합한 용어로, 생물정보학 분야에서 필수적인 역할을 한다. 그러나 기존의 사전 기반 방법은 문헌에서 실제 사용되는 개념어의 변화를 충분히 반영하지 못하여 특히 다중 토큰 개념어를 인식하는 데 있어 성능이 저하되는 문제가 있었다. 본 연구에서는 문헌상의 맥락정보를 활용한 신경망 기반 언어모델을 사용하는 다중 토큰 생물학적 개념어의 인식 방법을 제안한다. 제안된 연구의 핵심적 특징은 개체명 인식에 이은 개념어의 정규화를 위해 생물학적 지식베이스로부터 추출된 맥락 정보를 활용하는 것이다. 이 모델은 특히 단어의 변용이 큰 다중 토큰 개념어에서 기존 방법에 비해 향상된 성능을 보여주었다. 우리는 본 모델이 생물정보학 분야에서의 효과적인 개념어 인식 및 다양한 자연어 처리 문제에 활용될 수 있을 것으로 기대한다.