Genes differentially expressed in different tissues, during development, or during specific pathologies are of foremost interest to both basic and pharmaceutical research. So called transcript profiles or digital Northerns are generated routinely by partially sequencing thousands of randomly selected clones from relevant cDNA libraries. Differentially expressed genes can then be detected from variations in the counts of their cognate sequence tags. The first systematic study on the influence of random fluctuations and sampling size on the reliability of this kind of data was presented by $St\acute{e}phane$ Audic and Jean-Michel Claverie. They established a rigorous significance test and demonstrated its use on publicly available transcript profiles. Their method(Audic's Test) became popular but it also has practical limitations because it is affected only by sampling sizes. Furthermore they thought the probability distribution they found was not specified yet but it turned out to be the negative binomial distribution. So we can utilize the statistics and properties of it to make computations less complex. On our work, we give a combinatorial proof of Audic's formula so that we can apply their result to more general cases where the test is not controlled only by sampling sizes but also by other experimental factors.
수 천명을 대상으로 에이즈 감염 여부를 조사하는 것과 같이 어떤 사건이 일어날 확률이 매우 작은 시행들을 매우 여러 번(1000번 이상) 시행하는 실험이 있을 때 동일한 실험을 반복했을 경우 두 실험에서 일어난 사건의 수의 차이에 대한 고찰이 $St\acute{e}phane$ Audic과 Jean-Michel Claverie의 공동 작업에 의해 이루어졌다. 그들은 생물학 분야에서 각 조직의 cDNA pool에서 추출된 EST 수의 차이로부터 조직 특이적 유전자의 후보를 찾아내기 위하여 이 작업을 했는데 그들의 작업은 생물학 분야가 아니더라도 반복되는 실험에 매우 유용하게 적용될 수 있다. 그들이 찾아낸 확률 밀도는 아직 정의된 바 없다고 했지만 식을 약간만 변형하면 음이항분포의 확률함수라는 사실을 쉽게 확인할 수 있다. 이 논문에서는 그들의 공식을 조합적 방법으로 증명함으로써 좀 더 일반적인 경우에 적용시킬수 있도록 일반화하고 음이항 분포의 특성을 이용해서 신뢰구간을 쉽게 찾는 법을 제시했다.