Diffusion models have shown remarkable performance in generation problems over various domains including images, videos, text, and audio. A practical bottleneck of diffusion models is their sampling speed, due to the repeated evaluation of score estimation networks during the inference. In this work, we propose a novel framework capable of adaptively allocating compute required for the score estimation, thereby reducing the overall sampling time of diffusion models. We observe that the amount of computation required for the score estimation may vary along the time step for which the score is estimated. Based on this observation, we propose an early-exiting scheme, where we skip the subset of parameters in the score estimation network during the inference, based on a time-dependent exit schedule. Using the diffusion models for image synthesis, we show that our method could significantly improve the sampling throughput of the diffusion models without compromising image quality. Furthermore, we also demonstrate that our method seamlessly integrates with various types of solvers for faster sampling, capitalizing on their compatibility to enhance overall efficiency.
디퓨전 모델은 이미지, 비디오, 텍스트, 오디오 등 다양한 영역에서 생성 문제에서 놀라운 성능을 보여주고 있습니다. 그러나 디퓨전 모델을 활용하고자 할 때, 가장 큰 문제점은느린 샘플링 속도입니다. 본 연구에서는 점수 추정에 필요한 계산을 유연하게 할당할 수 있는 새로운 프레임워크를 제안하여 확산 모델의 전체적인 샘플링 시간을 줄일 수 있는 방법론을 제안합니다. 점수 추정에 필요한 함수의 크기가 시간에 따라서 다를 수 있다는 것을 실험적으로 다를 수 있다는 것을 관찰했습니다. 이 관찰을 기반으로 우리는 샘플링을 하는 과정 중에 시간에 따라 다르게 움직이는 방법을 제안합니다. 이 방식은 추론 중에 점수 추정 네트워크의 일부 파라미터를 건너뛰는데, 이때 시간 종속적인 종료 스케줄에 기반합니다. 이러한 방법론이 유용함을 보여주기 위해, 이미지 합성 디퓨전 모델에 방법론을 적용했을 떄 이미지 품질을 희생하지 않고 디퓨전 모델의 샘플링 처리량을 크게 향상시킬 수 있음을 보여줍니다. 더 나아가, 우리의 방법이 다양한 유형의 솔버와 원활하게 통합되어 전반적인 효율성을 향상시키는데 기여할 수 있도록, 빠른 샘플링을 위한 다양한 유형의 솔버와의 호환성을 살린 실험도 수행합니다.