Transcriptome has served as an important systems biology tool for examining the physiological status of a cell, and has been applied to a wide range of fundamental and application studies. As an increasingly greater volume of transcriptome profiles are being generated, they can serve as a useful resource for building a predictive model. Developing such a predictive model can be useful when examining transcriptome profiles for a large number of cells under varied culture conditions, which can be cost and time prohibitive. To this end, we develop a deep learning-based model, namely DeepCGR, which predicts the effects of a given compound on the expression level of a given gene in a human cell line. DeepCGR takes a protein sequence and structural information of a small molecule as inputs, and classifies whether the input protein is upregulated or downregulated in response to a given compound. In addition, z-score of the expression level of the input protein is also generated as an output, which allows the regression analysis. This model was developed for 15 different human cell lines, which showed the average AUC and F1 score of 0.879 and 0.425, respectively, for the upregulation, and 0.860 and 0.388 for the downregulation. The mean squared error was 0.837 in the range of -10 to +10, and the Spearman’s correlation coefficient was 0.739 in the z-score> ±1.5. DeepCGR will lay the ground for high-throughput transcriptome analysis of a large number of the combinations of cell lines and small molecules, and will be particularly useful for drug screening where the effects of a large number of compounds need to be examined.
전사체는 시스템 생물학에서 세포의 생리적 상태를 이해하는 중요한 도구로 사용되었으며, 여러 연구 분야에 광범위하게 적용되어 왔다. 그에 따라 점점 더 많은 전사체 프로파일이 생성되고 있으며, 이는 컴퓨터 기반의 예측 모델 구축에 유용하게 사용될 수 있다. 이러한 예측 모델의 개발은 특히 많은 비용과 시간을 소모하는 전사체 프로파일링이 필요할 때 유용하다. 본 연구에서는 인간 세포주에서 화합물이 주어졌을 때 유전자의 발현 수준에 미치는 변화를 예측하는 딥러닝 기반 모델인 DeepCGR을 개발했다. DeepCGR은 단백질 서열과 화합물의 구조 정보를 입력으로 받아 해당 유전자가 상향 또는 하향 조절되는지를 예측하는 동시에, 발현 수준의 변화가 어느 정도인지도 z-score로 예측한다. DeepCGR은 15개의 다른 인간 세포주에 대해 개발되었으며, 평균 AUC 및 F1 score는 상향 조절에 대해 각각 0.873 및 0.402, 하향 조절에 대해 각각 0.890 및 0.446였다. 평균 제곱 오차는 -10에서 +10 범위에서0.837, 스피어만 상관계수는 z-score > ±1.5 수준에서 0.739였다. DeepCGR은 많은 수의 세포주 및 화합물 조합에 대한 대용량 전사체 분석 및 약물 스크리닝에 유용하게 사용될 수 있을 것이다.