서지주요정보
Context-aware multi-token concept recognition for biomedical text mining = 바이오 텍스트마이닝을 위한 맥락정보를 고려한 다중토큰 개념어의 인식 기법
서명 / 저자 Context-aware multi-token concept recognition for biomedical text mining = 바이오 텍스트마이닝을 위한 맥락정보를 고려한 다중토큰 개념어의 인식 기법 / Kwangmin Kim.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037985

소장위치/청구기호

학술문화관(문화관) 보존서고

DBIS 21011

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Concept recognition is a term that corresponds to the two sequential steps of named entity recognition and named entity normalization, and plays an essential role in the field of bioinformatics. However, the conventional dictionary-based methods did not sufficiently addressed the variation of the concepts in actual use in literature, resulting in the particularly degraded performances in recognition of multi-token concepts. In this paper, we propose a concept recognition method of multi-token biological entities using neural models combined with literature contexts. The key aspect of our method is utilizing the contextual information from the biological knowledge-bases for concept normalization, which is followed by named entity recognition procedure. The model showed improved performances over conventional methods, particularly for multi-token concepts with higher variations. We expect that our model can be utilized for effective concept recognition and variety of natural language processing tasks on bioinformatics.

개념어 인식은 개체명 인식과 개체명 정규화라는 두 순차적 단계를 통합한 용어로, 생물정보학 분야에서 필수적인 역할을 한다. 그러나 기존의 사전 기반 방법은 문헌에서 실제 사용되는 개념어의 변화를 충분히 반영하지 못하여 특히 다중 토큰 개념어를 인식하는 데 있어 성능이 저하되는 문제가 있었다. 본 연구에서는 문헌상의 맥락정보를 활용한 신경망 기반 언어모델을 사용하는 다중 토큰 생물학적 개념어의 인식 방법을 제안한다. 제안된 연구의 핵심적 특징은 개체명 인식에 이은 개념어의 정규화를 위해 생물학적 지식베이스로부터 추출된 맥락 정보를 활용하는 것이다. 이 모델은 특히 단어의 변용이 큰 다중 토큰 개념어에서 기존 방법에 비해 향상된 성능을 보여주었다. 우리는 본 모델이 생물정보학 분야에서의 효과적인 개념어 인식 및 다양한 자연어 처리 문제에 활용될 수 있을 것으로 기대한다.

서지기타정보

서지기타정보
청구기호 {DBIS 21011
형태사항 iv, 55 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김광민
지도교수의 영문표기 : Doheon Lee
지도교수의 한글표기 : 이도헌
수록잡지명 : "Context-aware multi-token concept recognition of biological entities". BMC Bioinformatics,
학위논문 학위논문(박사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 References : p. 47-52
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서