서지주요정보
Biomedical named entity recognition with a deep learning-based label-label transition model = 딥러닝 레이블 전이 모델 기반 생물의학 개체명 인식
서명 / 저자 Biomedical named entity recognition with a deep learning-based label-label transition model = 딥러닝 레이블 전이 모델 기반 생물의학 개체명 인식 / Seungki Hong.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036859

소장위치/청구기호

학술문화관(문화관) 보존서고

DKSE 20010

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

As the volume of textual information in biology and medicine quickly grows, the demand for making use of ever-evolving knowledge over the Internet or the literature accordingly increases. To offer structured and organized information, various relationships among biomedical entities should be mined in diverse aspects. Prior to the relation extraction, discovering biomedical entities with high accuracy is preceded with respect to the pipeline of the information extraction. Hence, the performance of biomedical named entity recognition (briefly, BioNER) is crucial in automated biomedical knowledge acquisition.To achieve the performance of BioNER, we have to overcome two problems. The first problem is the unique naming conventions in biomedical domain. Biomedical entities’ names have the following characteristics: (i) Descriptive naming convention, (ii) Diverse names for an entity, (iii) Abbreviation, (iv) Conjunction and disjunction. The second problem is the scare resource of annotated data. Because acquiring labels is costly, the amount of labeled data to obtain improved models in a supervised manner is still limited. These two problems still remain as obstacles in the advance of BioNER.In the dissertation, we address the challenging problems by taking advantage of the notion of cotraining. Co-training is essentially comprised of multiple learners, wherein each is given its specific view on data. Once trained, their knowledge formed via different learners are complementary to enhance the model performance. In the dissertation study, we employ deep learning for representation learning in an end-to-end learning manner. It also motivates us to suggest a novel co-training framework to incorporate deep learning because previous co-training methods rely on manually split feature sets. In the end, we solve the two problems in BioNER by suggesting a novel co-training framework and relevant algorithms.For the first problem, we present DTranNER, a CRF-based co-training framework with incorporating deep learning-based models. Conditional random fields (CRF) is widely used for BioNER by regarding it as a sequence labeling problem. The CRF yields structured label outputs by examining correlations between neighboring labels. Hence, DTranNER employs two CRF-based sequence learners, namely Unary-CRF and Pairwise-CRF. They are differentiated by two types of deep neural networks, namely Unary-Network and Pairwise-Network. The former is dedicated to learn representation for individual labeling, while the latter aims to model correlations between labels in a fine-grained manner. As a result, it is led that each of Unary-Network and Pairwise-Network offers complementary knowledge that the other does not have in prediction. In the end, we obtain sufficient representation to catch up with the non-standardized naming conventions in BioNER. We performed experiments on five benchmark BioNER corpora. In comparison with current state-of-the-art methods, DTranNER achieved the best performancein the four tests. In the ablation study, we also observed that Unary-Network and Pairwise-Network learn distinctive contextual clues to enhance BioNER.For the second problem, we present a novel co-training algorithm, called “co-paced learning,” for BioNER with the aim to leverage unlabeled data. The proposed algorithm is based on the early-proposed co-training framework. Hence, co-paced learning is given the two sequence learners, namely UnaryCRF and Pairwise-CRF. They are led to learn own representation according to its potential type (i.e., unary or pairwise). By using the complementary relationship, we present a robust pseudo-labeling approach by which each unlabeled sample is temporarily annotated as their agreed prediction. Next, the pseudo-labeled samples are individually examined whether it is learnable or not via the sampleselection strategy that we suggest. That is, the sample selection strategy rules out easy samples and offers informative samples to each learner. Thus, the proposed approach reflects the recent learning paradigm in curriculum learning and self-paced learning. Their criterion gradually takes with more complex samples as learning progresses. Consequently, Unary-CRF and Pairwise-CRF leverage each other in their learning enhancement. The experiments show that co-paced learning outperforms current state-of-the-art methods as for semi-supervised learning.The strength of the dissertation stands on the novel CRF-based co-training framework and the semi-supervised learning algorithm for the aforementioned two problems (i.e., (i) the unique naming conventions and (ii) the scare resource of annotated data). We expect that the study can be a stepping stone for further prosperity of biomedical literature mining.

생물의학 분야에 대한 관심이 커지는 만큼, 관련 연구에서의 자료 및 데이터가 빠른 속도로 축적되고 있으며, 그 방대한 규모의 데이터에서 의미가 되는 생물 의학 정보를 획득하기 위한 요구가 증가하고 있다. 생물의학적으로 의미를 갖는 정보를 추출하는 과정은 먼저 문헌 자료에서 생물 의학 개체들(예를 들어, 질명, 화학 물질, 바이러스, 단백질, DNA, 또는 RNA 등)을 찾아 내고 그들 간의 네트워크를 구성하는 일련의 단위 태스크들로 구성되며, 궁극적으로 개체들 사이에서의 인과 관계 또는 역학 관계를 발견하고 얻어내어 질병의 원인을 규명하거나 치료를 위한 약물을 개발하는데 이용될 수 있도록 하는데 있다. 그러한 과정에서 방대한 텍스트 데이타에서 생물 의학 개체명을 찾아 인식하는 단계가 가장 우선되며, 그 정확도는 이후의 정보 추출 단계를 밟아 나가는 과정에 중대한 영향을 끼치는 만큼 생물 의학 개체명 인식 성능은 중요하다.모델에 기반한 생물 의학 개체명 인식 성능을 향상시키기 위해서는 다음 두 개의 문제를 극복해야 한다. 그 첫번째 문제는 생물 의학 분야에서의 특유의 명명 특징에서 나오는 문제가 있다. 즉, (i) 해당 개체를 설명하거나 형용하는 단어들을 포함하여 개체명을 구성하는 경우, (ii) 같은 개체에 대해서 서로 다른 형태의 이름들이 존재하는 경우, (iii) 본래 이름에서 축약 형태로 다시 명명되는 경우, (iv) 하나의 개체명을 구성하는 단어 중에 접속사를 포함하는 경우들이 그것이다. 그리고, 두번째 문제는 만족스러운 성능을 얻기 위해서는 모델을 훈련시키는 단계에서 많은 훈련 데이타가 요구되지만 현실적으로 모델 훈련에 사용 가능한 데이타는 현저히 부족하다는 것이다. 훈련 데이터를 구축하기 위해서는 텍스트를 구성하는 단어 수준의 라벨랑 작업을 수행해야 하는데 많은 시간이 소요되며 전문가를 동원하여 진행하여야 함으로 많은 비용이 발생한다. 따라서, 모델을 구축하기 위한 훈련 데이터의 양은 제한적이다. 이러한 주요 문제들로 인하여 모델에 기반한 생물의학 개체명 인식 성능의 발전에 한계를 보이고 있다.본 학위 논문에서는 협동 학습(co-training)에 착안한 새로운 프레임워크와 모델 훈련 알고리즘을 제안함으로서 앞서 언급한 문제들을 해결하고자 한다. 협동 학습은 데이타를 바라보는데 있어서 각기 다른 관점을 기반으로 여러 개의 모델을 구축한다. 그렇게 서로 다른 관점에서 출발하여 학습된 모델들은 이후 하나의 모델로 구성시켜 구성원 간 시너지를 얻어내는 접근이다. 그리고, 본 학위 논문 연구에서는 최근 여러 인식 문제들에서 좋은 성능을 보이는 딥러닝(deep learning)을 협동 학습에 이용하고자 한다. 그러기 위해서는 새로운 협동 학습 프레임워크를 제시하여야 한다. 그 이유는 기존의 협동 학습에서는 데이타를 통한 모델 학습을 수행하기 전에 다른 관점에 해당하는 특징 집합들을 직접 설계하여 투입시키는 방식이었다면, 딥러닝은 학습 알고리즘이 데이터로부터 목적에 따른 데이타 표현을 유도해 내는 방식으로 동작하기 때문이다. 따라서, 본 학위 논문에서는 생물의학 개체명 인식을 위한 새로운 협동 학습 프레임워크와 관련 알고리즘을 제시하여 앞서 언급한 두 개의 문제를 해결하였다.첫 번째 문제를 해결하기 위하여, 우리는 딥러닝을 결합한 조건적 임의 필드(CRF) 기반의 협동 학습 프레임워크를 제안하였다. 생물의학 개체명 인식 문제는 흔히 순차적 라벨링(sequence labeling) 문제로 간주하여 CRF를 기반으로 모델을 구성한다. 그 CRF를 기반으로 하는 방법들은 이웃하는 라벨들 사이의 관련성을 고려하여 구조적으로 일관된 일련의 라벨 출력을 생성해 낸다. 관련하여, 본 학위 논문에서 제안하는 프레임워크는 CRF에 기반한 두개의 모델들을 포함한다. 하나는 Unary-CRF이고 다른 하나는 Pairwise-CRF이다. 이들은 서로 독립된 신경망(Neural Network)을 통하여 차별화된다. 그 하나의 신경망은 Unary-Network이며, 다른 신경망은 Pairwise-Network이다. 전자(Unary-Network)는 Unary-CRF에서 개별 라벨 예측에 특화되며, 후자(Pairwise-Network)는 이웃한 라벨들 사이의 관련성을 예측하는데 특화된다. 참고로, 이전 딥러닝을 도입한 연구들에서는 이웃하는 라벨들간의 상호 관련성에 대해서는 시시각각 변하는 데이타에 대한 고려없이 고정된 형태로 단순화하였다. 우리는 성능 검증을 위해 다섯 개의 생물의학 개체명 인식 성능 검증용 데이터에서 실험을 수행하였고, 최근의 우수한 성능을 보인 방법들과의 비교에서 그 중 네 개의 테스트 데이터 셋에서 앞선 성능을 득하였다. 이러한 실험 결과는 딥러닝을 이용하여 해당 데이타로부터 직접 파악한 이웃한 라벨간의 상관 관계 정보를 생물의학 개체명 인식에 활용하여 얻은 성능이다.두 번째 문제 관련하여, 우리는 라벨 정보가 주어지지 않은 데이타를 활용하기 위해 새로운 협동 합습 알고리즘을 제시한다. 우리는 그 알고리즘을 “co-paced learning” 이라고 명명한다. 제안된 알고리즘은 앞서 제안한 협동 합습 프레임워크에 기반한다. 따라서, co-paced learning은 Unary-CRF와 Pairwise-CRF의두개의 시퀀스 학습자들을 갖게 된다. 그 두개의 학습자는 CRF의 관점에서 서로 다른 potential(즉, Unary또는 Pairwise)에 기반하기 때문에 각자의 데이타 표현(representation)을 얻게된다. 그들의 상호 보완적인 관계를 이용하여, 우리는 라벨 정보가 없는 데이타 샘플에게 임시적인 라벨(pseudo-label)을 부여하는 방법을 제안한다. 그 임시 라벨은 Unary-CRF와 Pairwise-CRF 각자에서 예측한 결과가 같게되면 해당 샘플의 임시 라벨로 사용할 수 있도록 하였다. 다음으로, 그렇게 임시 라벨을 얻은 샘플들은 새롭게 제안하는 훈련 샘플 선택(training sample selection) 과정을 통해 그 샘플이 각 학습자에게 유용한지 여부를 결정한다. 그 훈련 샘플 선택 방법에서 쉽다고 여겨지는 샘플은 학습 대상에서 제외하고 오로지 해당 학습자에게 학습시킬 필요가 있다고 판단하는 경우에만 해당 학습자의 훈련 과정에 전달한다. 이러한 접근은 최근의 커리큘럼 학습(curriculum learning) 또는 자기 진도 학습(self-paced learning)에서 제시하는 학습 패러다임에 착안하여 새롭게 제안하였다. 그리고, 협동 학습 구조에 기반 하고 있기 때문에 co-paced learning이라 명명하였다. Co-paced learning을 검증하기 위해 세 개의 생물의학 개체명 인식 성능 검증용 데이터에서 실험을 수행하였고, 최신 알고리즘들과의 비교에서 앞선 성능을 획득하였다. 이러한 실험 결과는 새롭게 제안한 협동 학습 프레임워크 환경에서 두 개의 학습자가 서로의 학습 진도에 따라 보조를 맞추어 학습을 진행하는 방식이 라벨 정보가 없는 데이터를 활용하는 준지도 학습에 효과가 있음을 시사하는 것이다.본 학위 논문의 강점은 새로운 방식의 CRF기반의 협동 학습 프레임워크와 그에 기반한 준지도 학습 알고리즘을 통하여 앞서 설명한 생물의학 개체명 인식 문제에서의 두 가지의 문제를 해결하는데 있다. 본 학위 논문에서의 진행한 연구는 향후 생물 의학 분야에서 데이타 마이닝의 번영과 발전에 기여하고 폭넓게 활용될 수 있기를 기대한다.

서지기타정보

서지기타정보
청구기호 {DKSE 20010
형태사항 vi, 75 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 홍승기
지도교수의 영문표기 : Jae-Gil Lee
지도교수의 한글표기 : 이재길
학위논문 학위논문(박사) - 한국과학기술원 : 지식서비스공학대학원,
서지주기 References : p. 65-72
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서