In this paper, I tackle the non-stationary kernel problem of the JSA algorithm by Ou and Song 2020, a recent proposal that learns a deep generative model pθ(x,h) and a corresponding approximate posterior qφ(h,x) by drawing samples from a non-stationary Markov chain and estimating gradients with these samples. The non-stationary kernel problem refers to the degraded performance of the algorithm due to the constant change of the transition kernel of the chain throughout the run of the algorithm. I present an automatic adaptive strategy for checking whether this change is significant at each gradient-update step or not, and resetting the chain with a sample drawn from the current approximate posterior qφ(h,x) if the answer to the check is yes. In the experiments with the binarized MNIST, this strategy gives results comparable with or slightly better than those reported in the original paper on JSA, while avoiding the nontrivial manual intervention required for handling the non-stationary kernel problem in the original JSA algorithm.
본 논문에서는 비정상 마르코프 연쇄(chain)에서 샘플을 추출하고 이를 이용해 기울기(gradient)를 추정하여 심층 생성 모델과 해당 근사 사후확률을 학습하는 결합확률근사 알고리즘의 비정상 커널 문제를 다룬다. 비정상 커널 문제는 알고리즘이 실행되는 동안 마르코프 연쇄의 전이 커널이 지속적으로 변하게 되어 알고리즘의 성능이 저하되는 것을 나타낸다. 이 변화가 각 기울기 업데이트 단계에서 중요한 지의 여부를 확인하고, 이에 대한 대답이“예”인 경우 현재의 근사 사후확률에서 추출한 샘플로 마르코프 연쇄를 재설정하는 자동 적응 전략을 제시하고자 한다. 이 전략은 이진화된 MNIST 손글씨 데이터를 사용한 실험에서 결합확률근사 논문에서 보고된 결과와 비슷하거나 좀 더 나은 결과를 제공하는 동시에, 원래 논문에서 비정상 커널 문제를 해결하기 위해 필요했던 직접적인 개입을 최소화할 수 있다.