서지주요정보
Predicting the localization of extracellular matrix proteins using characteristic sequence repeats = 특징적인 서열 반복을 이용한 세포 외 기질 단백질 예측
서명 / 저자 Predicting the localization of extracellular matrix proteins using characteristic sequence repeats = 특징적인 서열 반복을 이용한 세포 외 기질 단백질 예측 / Ju-Hyun Jung.
발행사항 [대전 : 한국과학기술원, 2008].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8019034

소장위치/청구기호

학술문화관(문화관) 보존서고

MBiS 08011

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Subcellular localization problem has been researched to discover genes’ function and discover putative circulating biomarker proteins. Secreted proteins include extracellular matrix proteins which surround cells and influence critical cell behaviors. Extracellular matrix proteins are related to cancer progression and can be a therapeutic target. However, there was no paper to predict extracellular matrix proteins computationally. Introducing new features considering characteristic sequence repeats of extracellular matrix proteins improved the accuracy of prediction. Also 17 distinctive features are found which are robust to classifiers by analyzing feature important values given by random forest. Overall 98 % accuracy was achieved from 5-fold cross validation. Finally 30 novel extracellular matrix proteins are predicted using 17 features.

세포 외 기질 단백질 (extracellular matrix proteins)은 세포 밖으로 분비되는 단백질 중 세포를 둘러싸고 있는 세포 외 기질 (extracellular matrix)에 위치하게 되는 단백질을 말한다. 이들은 조직이나 기관을 형성하는 지지대 역할을 하며 세포의 성장, 죽음, 분화와 같은 중요한 행동에 영향을 미친다. 그 동안 단백질의 세포 내 위치를 예측하고자 한 연구는 있었으나 세포 외 기질 단백질을 예측하고자 하는 연구는 없었다. 본 연구에서는 단백질의 서열을 이용하여 세포 밖에 위치할 단백질 중에서도 세포 외 기질 단백질을 예측하고자 하였다. 기존의 단백질 위치 예측을 위해 사용되어 왔던 92 차원의 특징 (feature) 과 세포 외 기질 단백질의 특성을 반영한 새로운 10 차원의 특징을 구하였다. 10 차원의 특징은 세포 외 기질 단백질의 크기, 서열 내에 존재하는 반복 패턴, 그리고 도메인의 반복 패턴을 고려한 것이다. 분류와 특징 분석을 위한 기계 학습 방법으로는 랜덤 포레스트를 사용하였다. 랜덤 포레스트는 샘플 수에 비해 많은 특징이 있는 경우에도 좋은 성능을 보여준다. 기존에 알려진 1539개의 세포 밖 단백질 중 109개의 세포 외 기질 단백질을 데이터로 교차 검증을 시행한 결과 기존 92 차원 특징에 비해 새로운 특징 10 차원을 추가했을 때 성능이 12% 향상됨을 확인할 수 있었다. 또한 17 차원의 중요한 특징 만을 이용하여 세포 외 기질 단백질을 분류하였을 때 102 차원 전체 특징을 이용하였을 때보다 더 잘 분류할 수 있었다. 이 17 차원 중요한 특징을 이용하여 기존에 위치가 알려지지 않은 4155개의 인간 단백질 중 새로운 세포 외 기질 단백질 후보 30개를 구하였다.

서지기타정보

서지기타정보
청구기호 {MBiS 08011
형태사항 x, 57 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 정주현
지도교수의 영문표기 : Kwang-hyung Lee
지도교수의 한글표기 : 이광형
학위논문 학위논문(석사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 Reference : p. 40-43
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서