In the field of synthetic biology, the application of computer-based approaches can accelerate the design-build-test-learn cycle. For example, utilizing models that predict the yield of reaction products proves highly practical, guiding subsequent optimal experiments. However, obtaining biological experimental data is time-consuming and costly, often insufficient for training machine learning models. This study addresses the challenge of data scarcity by combining masking pretext tasks of self-supervised learning with prior knowledge of multi-step enzyme reactions to augment experimental data. The synthetic data exhibits statistically similar characteristics to the original data, enhancing the performance of various enzymatic reactions analysis tasks. Consequently, this data augmentation technique is expected to be valuable in overcoming data scarcity issues in the field of synthetic biology and life sciences.
합성생물학 분야에서 컴퓨터 기반의 접근법은 디자인-빌드-테스트-러닝 사이클을 가속화할 수 있다. 그 예로, 반응 생성물의 수율을 예측하는 모델은 최적의 후속 실험을 탐색하는데 도움을 주는 등 높은 실용성을 가진다. 그러나 생물학적 실험 데이터를 얻는 것은 시간 및 비용이 많이 소요되며, 기계 학습 모델을 훈련시키기에는 충분하지 않은 경우가 많다. 본 연구는 자가지도학습의 마스킹 작업과 다중 단계 효소 반응의 사전 지식을 결합하여 실험 데이터를 증강, 데이터 부족 문제에 대응하였다. 합성된 데이터는 원본 데이터와 유사한 통계적 특성을 보이며 다양한 효소 반응 분석의 성능을 향상시킨다. 결과적으로 이 데이터 증강 기법은 합성생물학 및 생명과학 분야에서의 데이터 부족 문제를 극복하는데 사용될 수 있으리라 기대된다.