There are unknown types of data in spite of ubiquitous network
society. In this reason, we try to develop new ideas and
approaches for analysis of unknown data and network configuration.
One of unknown data in bulk is the human genome. Since the first
human genome was sequenced, a vast number of studies focused on
identifying direct association between genes and specific
pathophysiologic processes. Most biomedical scientists have
presumed that the genes are sole determinants of a wide range of
pathophysiologic phenotypes. However, we hypothesize that in
addition to the genes, various forms of unknown genetic elements,
which comprise the rest of the genome, play critical roles in
pathophysiology of humans and other species. Prior to an
investigation into the biological properties of repeat elements,
it is necessary to establish a comprehensive genome-wide map of
repeat elements depicting their locations and arrangement
patterns.
In practice, powerful analysis tools for genome have been required
to explore and characterize the genome. However, there is no
solution to meet our purposes in spite of the presence of many
algorithms and tools to analyze DNA sequences. They have shown a
variety of limitations although some functions are powerful within
restricted ranges. To overcome the limitations of previous tools
and achieve our ultimate goals, we developed a unique tool in a PC
environment, which is capable of analyzing the largest chromosome
as a single entry and contains a set of efficient and interactive
analytical features.
Also, the incorporated analytical features allow for an instant
retrieval of the sequence alignment results directly from a
dotmatrix data and a close-up examination and structural
characterization of complex arrangement patterns of repeat
elements. The unique and versatile tool developed for surveying
and analysis of repeat elements will enable us to acquire
sufficient data to understand the architectural profiles of repeat
element.
Generally, utilizing structural patterns of the given data, we can
investigate the unknown data from networks and protocols that are
newly installed and used for the first time. Through the
collaborative efforts of output components, we finally identify
its data using specific protocols and network configurations of
interest.
컴퓨터들 사이를 전 지구적으로 연결하는 인터넷의 개발로 송수신하는
데이터 양은 급속히 증가하였다. 시스템 유지 보수나 시스템 설계 등의
이유로 인해서 통신망을 지나다니는 임의의 대용량 데이터를 분석하고
검증하는 과정에서 역공학이 발전하게 된다. 요즘, 융합 연구가 한창인
대학에서 생물학과 통신을 접목하는 시기에 맞추어 새로운 접근 방법과
시도를 모색하고자 한다. 특히, 이에 아직 알려지지 않은 인간의
유전체를 중심으로 분석을 수행하고, 이 접근 방법을 활용하여 통신망
분석에 적용하고자 한다.
인간의 유전체 서열 분석 완료를 기점으로 하여, 다른 종에 대한
유전체 분석도 진행되고 있다. 특히 인간의 경우, 유전자는 겨우
유전체 전체의 약 $3\%$를 차지하고 있음에도, 지금까지의 연구는 이
유전자를 중심으로 생물학적인 기본원리를 설명하고 이해하는 방향으로
진행되었다. 기존의 연구방향과는 달리, 최근에 유전체 전체의
$50\%$를 넘는 반복적 요소에 대한 기능적 측면에서의 연구도 고려되고
있다.
이에 발맞추어, 우리는 반복적 요소가 생성하는 독특한 구조적 패턴이
유전체 구조와 생물학적 발현에 중요한 역할을 할 것이라는 가정을
세우고 이 연구를 진행하였다. 이런 가정을 검증하기 위하여,
최우선적으로 유전체 전반적인 범위에서 반복적 요소들을 탐색하고,
반복적 요소가 만들어내는 구조적 패턴에 대하여 분석할 도구가
필요하게 되었다. 하지만, 기존에 보고 되었거나 현재 사용중인 다양한
도구들은 유전체의 반복적 요소가 만드는 구조적인 패턴을 분석하는 데
있어서 제한적이거나 기능적 한계를 드러냄에 따라, 이러한 제약조건을
넘어서는 동시에 반복적 요소를 탐색하고 분석하는데 필수적인 기능을
탑재한 프로그램을 설계하고 구현하게 되었다.
인간의 생물학적인 염색체 데이터의 특성에서 얻은 아이디어를 통신망
분석 및 취약성 분석에 활용할 수 있다. 이 논문에서 제시한 연구
방법을 통해서 미지의 데이터 패턴 상호간 연관 관계를 찾고 새로운
존재를 규명하게 된다면 역공학적인 측면에서 새로운 돌파구를
마련하는 개기가 될 것이라고 기대한다.