Document-level gene normalization (GN), which produces gene identifiers given an input document, helps database curators to search for relevant articles with genes of interest as a query. Recent advances in the automatic extraction of information from the biology literature call for mention-level GN systems of finding gene identifiers relevant to gene mentions, since a piece of extracted information is likely to be relevant to only some, but not all, of the genes mentioned in a given article. However, except for early GN research that evaluat-ed GN systems on the mention level, there are no studies on mention-level GN.
In this thesis, we propose the need to look into gene normalization specifically on the mention level. For this purpose, we constructed mention-level annotations and explained the annotation process in detail. After constructing the annotation data, we analyzed the characteristics of the mention-level annotation dataset. Among the characteristics we analyzed, we found that there were many gene mentions that indicated not just single gene identifier but multiple gene identifiers. We concluded that these mentions with multiple gene identifi-ers are one of the great features of mention-level GN and proposed methods for dealing with them. We proposed a rule-based method and a machine-learning method. The rule-based method first divides mentions with multi-ple gene identifiers into four cases (homologous genes, family genes, coordination genes, and combinations of the three). In addition, it recognizes each case based on its mention string and assigns each case accordingly. The machine-learning method trains several features of mentions with multiple gene identifiers and classifies a candidate gene identifier based on whether it belongs to its gene mention. The evaluation results show that our methods enhance the performance of baseline systems to a meaningful degree, but also that the machine-learning method is better.
문서 단위의 유전자 식별자 파악은 입력으로 받은 문서에서 문서에 존재하는 유전자들의 식별자 리스트를 결과로 내보내주는 작업이다. 이 작업은 데이터베이스를 작업하는 사람들이 자신들이 현재 관심을 가지고 있는 유전자에 관련된 문서를 찾을 때 특히 유용하다. 생물학 문헌의 양이 많아짐에 따라 문헌에서 자동으로 정보를 추출하는 일에 관한 연구가 계속적으로 이루어지고 있다. 그 중에서 문헌에서 유전자가 어떤 질병과 관련있는지나 유전자와 유전자 간의 상호작용에 관련된 정보를 얻고자 할 때 유전자 개개의 언급의 식별자 파악의 필요성이 늘어나고 있다. 하지만 유전자 개개의 언급의 식별자 파악에 대한 연구는 거의 없었다. 특히 우리는 유전자 언급에서 하나의 유전자 언급이 여러 개의 식별자를 가리키는 경우에 대해 주목하였고 이러한 경우가 우리가 제작한 말뭉치에서 15%나 있는 것을 파악하였다. 이러한 여러 개의 식별자를 가리키는 유전자 언급은 생물학 문헌에서 개별 유전자가 어떻게 상호작용하는지에 대한 정보를 추출할 때 가능한 여러 식별자 중에서 하나만 파악되었을 때 추출할 수 있는 정보양이 줄어들고 해당 언급에 대한 정확한 정보를 얻을 때 필요하다. 우리는 이러한 복수 식별자를 가진 유전자 언급이 크게 family나 복수를 표현하는 언급, 종이 다르지만 같은 이름을 가진 유전자, and와 같은 접속사가 포함된 언급 등의 경우로 나뉜다는 것을 알아내었으며 이러한 특징을 이용하는 규칙 기반의 방법과 기계 학습 방법을 제시하였다. 규칙 기반 방법은 각 경우를 파악한 후 서로 다른 규칙을 사용하여 복수 식별자를 연결시키도록 하였으며 기계 학습 방법은 문자열 유사도와 같은 복수 식별자를 가진 유전자들의 특징을 학습하도록 하여 식별자를 선택하는 과정에서 학습한 시스템을 이용하는 방식을 취하였다. 실험 결과는 우리가 제안한 방법이 유전자 개별 단위 식별자 파악에 유용한 것으로 나타났으며 우리가 만든 시스템은 기존에 연구된 인간 유전자에 대한 유전자 개별 단위 식별자 파악 시스템의 성능과 비교해볼 때 충분한 성능을 가진 것이 확인되었다.