Universal data compression algorithms fail to compress genetic sequences. It is due to the specificity of this particular kind of “text”. We analyze in some details the properties of the sequences, which cause the failure of classical algorithms. We then present a lossless algorithm, DNAcompress, to compress the information contained in DNA and RNA sequences, based on the detection of regularities, such as the presence of palindromes. The algorithm combines substitutional and statistical methods, and to the best of our knowledge, lead to the highest compression of DNA. The results, although not satisfactory, gives insight to the necessary correlation between compression and comprehension of DNA sequences.
보편적인 데이타 압축 알고리즘은 DNA 염기열을 압축하는데 효율적이지 못하다. 그것은 DNA 염기열의 특이한 성질에 기인한다. 우리는 고전 알고리즘의 실패에 원인이 된 이러한 성질에 대해 자세히 분석해보고, 무손실 알고리즘인 DNAcompress를 제안한다. 이 알고리즘은 DNA 염기열에서 palindrome 과 같은 규칙성을 탐지함으로써 DNA 나 RNA 에 함유된 정보를 압축한다. 이 알고리즘은 substitutional 방법과 statistical 방법을 결합한것으로서 DNA 염기열 압축에 높은 효율성을 가진다. 이러한 결과를 바탕으로, 아직 만족스럽진 않지만, DNA 염기열의 압축과 이해사이에 필수적인 연관관계가 있음을 통찰해 볼 수 있다.