서지주요정보
Data mining for characterizing protein-protein interaction interfaces = 데이터 마이닝 기법을 적용한 단백질 분자 사이의 상호작용 특성에 대한 연구
서명 / 저자 Data mining for characterizing protein-protein interaction interfaces = 데이터 마이닝 기법을 적용한 단백질 분자 사이의 상호작용 특성에 대한 연구 / Kyu-il Cho.
저자명 Cho, Kyu-il ; 조규일
발행사항 [대전 : 한국과학기술원, 2007].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8018529

소장위치/청구기호

학술문화관(문화관) 보존서고

DBiS 07002

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

The main objective of this thesis is to suggest a new perspective to effectively describe protein-protein interaction interfaces in terms of data mining. Two systematic approaches are applied to answer the question of what features are effective in representing the interaction interfaces. One is proceeded in the aspect of specificity, and the other is performed in the aspect of stability, which are two critical factors determining the binding association. Firstly, specificity of molecular interactions is examined in the context of protein functions. This is the first approach to analyze interaction interfaces at the molecular interaction level in the context of protein functions. We perform systematic analysis at the molecular interaction level using classification and feature subset selection technique prevalent in the field of pattern recognition. To represent the physicochemical properties of protein-protein interfaces, we design 18 molecular interaction types using canonical and non-canonical interactions. Then, we construct input vectors using the frequency of each interaction type in protein-protein interfaces. The 131 interfaces of transient protein-protein heterocomplexes in PDB is analyzed : 33 protease-inhibitors, 52 antibody-antigens, and 46 signaling proteins including 4 cyclin dependent kinase and 26 G-protein. Using kNN classification and feature subset selection techniques, we clearly show that there are specific interaction types according to their functional categories, and such interaction types are conserved through the common binding mechanism, rather than through the sequence or structure conservation. The $C^\alpha-H\cdots O=C$ shows binding specificity for protease-inhibitor complexes, while cation-anion interaction is predominant in signaling complexes. In the case of antibody-antigen complexes, the sign is somewhat ambiguous. From the evolutionary perspective, while protease-inhibitors and signaling proteins have optimized their interfaces to suit their biological functions, antibody-antigen interactions are the happenstance, implying that antibody-antigen complexes do not show distinctive interaction types. Persistent interaction types regardless of their functions such as $\pi\cdots\pi$, amide-carbonyl, and hydroxyl-carbonyl interaction, are also appeared in the interaction interfaces. This indicates that proteins may selectively recognize their interacting partners with specific binding interactions under the appropriate local environments, and sustain their stability with help of persistent interactions. Secondly, new features, which can represent the energetic contribution of an individual residue to the binding association, are investigated with alanine mutated data. A concept of weighted packing density is newly suggested, which reflects the extent of contribution of an interface residue to the whole interface. Through this concept, we observe that the regions around the hot spot residues are denser than the regions around the energetically unimportant residues(EURs) in dimer. Surprisingly, the weighted packing density around the hot spots is much higher than the rest of the interface even in the unbounded state, and the distribution of the density difference before and after the binding association, is statistically significant. This implies that proteins have already densely structured organization in the unbounded state, to interact with their interacting partners, and these structured hot spots can be good targets for the interacting partners. These highly packed hot spots are more hydrophobic, and have larger surface area burial$(\Delta ASA)$ than the EURs. Unexpectedly, hot spot residues are not more conserved than the EURs, when antibody-antigen complexes are included in the analysis. However, when antibody-antigen complexes are excluded from the analysis, the hot spot residues are more conserved than the EURs. Interaction information is also investigated. Interestingly, each interaction type is not directly correlated with hot spots, but when summed up, the distribution between hot spots and the EURs is statistically different. These multifaceted information from different levels of description such as structure, sequence, and interaction, has been taken to develop a novel feature set, which can distinguish the EIRs(hot spots) from the EURs in protein-protein interaction interfaces. Our feature set shows the best performance, when compared with other methods. This study is indispensable to predict the interaction interfaces with high confidence. Reliable prediction enables us to identify the unique properties of the interaction interfaces, and based on these information, the interacting partners can be easily identified, which implies that a global protein interaction map can be constructed artificially. With this interaction map, the cellular functions of the proteins can be deduced. Moreover, this study can be extended to the practical issues such as development of drug candidates or identification of the proteins which can be the cause of diseases.

단백질은 생물 조직에 있어서 중요한 촉매이자, 구조적인 요소이고, 신호전달 매개체이며, 분자 기계에 해당한다. 단백질은 세포에서 발생하는 다양한 형태의 변화를 조절하는데 있어서 가장 중요한 역할을 수행하기 때문에, 정상적인 기능을 유지하지 못하는 단백질은 많은 질병의 원인이 된다. 따라서, 질병의 원인이 되는 단백질을 확인하고, 이의 기능을 밝히는 것은 그동안 많은 연구자들의 주된 관심 대상이었다. 단백질을 바라보는 최근의 관점은, 단백질 분자들 사이의 복잡한 상호작용의 흐름 속에 존재하는 개체로써 단백질을 바라보는 것이다. 이는 단백질 분자들 사이의 상호작용이, 기능을 정의하는 척도로서도 사용될 수 있음을 의미한다. 따라서, 단백질 분자들 사이의 상호작용에 대한 체계적인 연구가 선행되어야만, 단백질의 기능을 신뢰성 있게 확인할 수 있다. 단백질 상호작용에 관한 연구중에서도 특히, 상호작용면의 특징을 이해하고, 이를 바탕으로 상호작용면을 예측하는 연구는 치료제 개발이나, 단백질 기능조작과 같은 실용적인 면과 직접적으로 연관된다. 따라서, 많은 연구 그룹들이 상호작용면의 특징을 이해하고, 이를 효과적으로 예측하는 연구를 지속적으로 수행해오고 있지만, 지금까지도 명확한 이론이 정립되어 있는 것은 아니다. 때때로, 이들의 연구는 서로 상충되는 결과를 보여주기도 하는데, 이는 상호작용면을 이해하는 일이 얼마나 어려운지를 단적으로 드러내 주는 좋은 예이다. 따라서, 기존의 접근방법과는 다른 관점에서 상호작용면을 바라봄으로써, 상호작용면을 보다 더 잘 표현하는 새로운 특징을 발견하는 것이 매우 필요하다고 할 수 있다. 본 연구의 목적은 위에서 제시한 연구의 필요성을 충족시키는데 있다. 즉, 본 연구의 목적은 데이타 마이닝 기법을 적용하여, 단백질 분자 사이의 상호작용 현상을 효과적으로 묘사할 수 있는 새로운 시각을 제시하는데 있다. 본 연구는 상호작용의 특이성과 안정성 측면에서 어떤 특징이 단백질 분자 사이의 상호작용을 설명하는데 더 유용한지를, 체계적인 분석 방법을 통해 제시하고자 하였다. 먼저, 분자 수준에서 단백질의 기능에 따른 상호작용의 특이성이 존재하는지에 관한 연구를 수행하였다. 분자 수준에서의 단백질의 기능에 따른 상호작용의 결합 특이성은 본 연구에서 처음 시도된 것으로, 단백질에는 기능에 특이적인 상호작용 유형이 분명히 존재하며, 이러한 상호작용 유형은 단백질의 서열이나 구조의 보존에 상관없이 공통의 결합 메커니즘을 통해, 보존된다는 사실을 발견하였다. 또한, 기능에 관계없이 일정한 빈도수로 나타나는 상호작용 유형이 존재함을 증명하였다. 이는 단백질이 기능을 하기에 적당한 환경에서 기능 특이적인 상호작용 유형을 통하여, 상대 단백질과 상호작용하며, 기능에 상관없이 일정하게 유지되는 상호작용 유형을 통하여 안정성을 유지함을 의미한다. 다음으로, 알라닌 치환 자료를 이용하여, 단백질 결합에 하나의 아미노산이 결합에너지 측면에서 얼마나 공헌하는지를 표현할 수 있는 특징들을 발견하기 위한 연구를 수행하였다. 본 연구에서는, 단백질이 결합할때 생성되는 전체 상호작용면의 크기에, 하나의 독립적인 아미노산이 얼마나 기여하는지를 평가하여 이를 반영하는 새로운 개념을 제시하였다. 가중밀도(Weighted packing density)라는 새로운 개념을 제시하고, 이 특징이 기존의 방법보다 에너지면에서 중요한 아미노산들을 표현하는데, 훨씬 유용함을 통계적 방법을 통해 증명하였다. 또한, 단백질 이량체(Dimer)에서, 에너지적으로 중요한 아미노산 주변 지역은 그렇지 않은 아미노산의 주변 지역보다 훨씬 더 밀도가 크다는 것을 발견하였다. 매우 놀랍게도, 이러한 현상은 단백질 단량체(Monomer)에서도 그대로 유지되는 것으로 나타났다. 즉, 단량체에서도 에너지적으로 중요한 아미노산의 주변부는 그렇지 않은 아미노산의 주변부보다, 훨씬 더 밀도가 크다는 것을 새롭게 발견하였다. 이는 단백질이 단량체에서 이미 구조적으로 거의 완성되어 있음을 의미하며, 이렇게 고밀도의 구조를 갖고 있는 아미노산들이 상대 단백질의 고밀도 아미노산의 좋은 결합 목표가 될 수 있음을 의미한다. 이런 고밀도의 아미노산들은 그렇지 않은 아미노산보다 소수성의 성질을 더 갖고 있으며, 결합할때 물 분자를 차단하는 능력이 더 우수함을 나타내었다. 단백질 서열의 보존이라는 관점에서 분석하였을때, 에너지적으로 중요한 고밀도의 아미노산이 특별히 더 서열상 보존되는 경향을 보이지는 않았다. 이는 분석 자료에 항원-항체 복합체들(Complexes)이 섞여 있기 때문으로 밝혀졌는데, 항원-항체 복합체들을 제거하고 다시 분석하였을때는 명백히 고밀도의 아미노산들이 그렇지 않은 아미노산보다 서열적으로 더 보존됨을 알 수 있었다. 분자 수준의 상호작용 유형이 이러한 고밀도의 아미노산과 관련이 있는지에 관한 조사가 진행되었다. 흥미있는 결과는, 개개의 상호작용 유형은 고밀도의 아미노산과 큰 관련성은 없었지만, 상호작용 유형의 총합은 고밀도의 아미노산과 통계적으로 유의미한 관련이 있음을 보여주었다. 이는 고밀도의 아미노산은 분자수준에서 상호작용을 할 수 있는 기회가 더 많다는 것을 고려하면 당연한 결과로 해석할 수 있다. 위의 분석을 바탕으로, 서로 다른 수준으로부터 추출된 정보를 이용하여 에너지적으로 중요한 아미노산과 그렇지 않은 아미노산을 구분할 수 있는 특징들(Features)의 집합을 설계하였다. 이러한 특징 집합은 기존의 예측 방법들 보다 훨씬 좋은 성능을 보여주었다. 본 연구는 단백질 분자들 사이의 상호작용에 대한 신뢰성 있는 예측을 하는데 필수적인 연구이며, 이를 바탕으로, 질병의 진단과 치료에 필수적인 단백질을 확인하고, 치료 방법을 모색하는 것과 같은 실용적으로도 매우 가치가 있는 연구이다.

서지기타정보

서지기타정보
청구기호 {DBiS 07002
형태사항 xviii, 112 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 조규일
지도교수의 영문표기 : Kwang-H. Lee
지도교수의 한글표기 : 이광형
공동교수의 영문표기 : Dong-Sup Kim
공동교수의 한글표기 : 김동섭
수록잡지명 : "Specificity of moleular interactions in transient protein-protein interaction interfaces". Proteins: structure, function, and bioinformatics, 65, 593-606(2006)
학위논문 학위논문(박사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 References : p. 105-112
주제 Data mining, protein, interface, specificity, molecular interaction, densely structured organization, unbounded state, hot spot residues, Mann-Whitney, classification, feature selection, SVMs, kNN, SVD, PCA, Decision tree
데이터 마이닝, 단백질, 상호작용면, 특이성, 분자수준, 고밀도 구조, 단량체, 핫스팟 아미노산, 통계분석, 특징추출, 특징분류, 주변량 분석
QR CODE qr code