Masked autoencoding (MAE) can be valuable for state-of-the-art optical flow estimation models. FlowFormer++ introduced Masked Cost Volume Autoencoding (MCVA) to pretrain its transformer-based cost-volume encoder, along with a block-sharing masking strategy to prevent information leakage between highly correlated cost maps of neighboring source pixels. In this thesis, we propose a segment-sharing masking strategy to further suppress masked information leakage and promote the learning of relations between cost maps of source pixels at different semantic regions. We show that our pretraining task accelerates optical flow training and enables more accurate recovery of motion boundaries. We also show that the proposed segment-sharing MCVA is more difficult than the original block-sharing MCVA, and that it indeed facilitates the propagation of information between cost maps of source pixels in different semantic regions.
마스크 오토인코딩 사전훈련은 고정밀 광학 흐름 추정 모델의 훈련에 큰 도움이 될 수 있다. FlowFormer++는 코스트 볼륨에 대한 마스크 오토인코딩 기법을 도입하여 트랜스포머 기반의 인코더 부분의 사전 훈련을 수행했고, 이 과정에서 상관관계가 높은 인접한 픽셀들의 코스트 맵 사이에서 정보 누수를 방지하기 위해 블록 공유식 마스크 생성법을 제안하였다. 본 연구에서는 분할 영역 공유식 마스크 생성법을 제안하여 정보 누수를 더욱 감소시키고 서로 다른 시맨틱 영역에 위치한 픽셀들의 코스트 맵 사이에서의 상관관계를 학습하도록 한다. 제안한 사전 훈련 방법이 광학 흐름 추정 학습을 가속화시키고 모션 불연속면의 더 정확한 복원을 가능케 하였음을 보인다. 또한 제안한 분할 영역 공유식 마스크 생성법이 기존의 블록 공유식 마스크 생성법보다 더 어려운 사전 훈련 문제이며, 실제로 서로 다른 시맨틱 영역에 위치한 픽셀들의 코스트 맵 사이에서의 정보 전파의 학습이 유도되는 경향성을 확인한다.