Contrastive learning, which has recently received a lot of attention, exploits multi-views of instances (images) to learn view-invariant representation. Conventionally, the multi-views are generated by composition of multiple stochastic augmentations. Since the contrastive learning methods so far implicitly assumed that the generated multi-views are always an appropriate positive pair, their representations were made to be recklessly close in the representation space. However, in the case of complex images, which is common in real-world, inappropriate view pairs are likely to be generated. It likely results in learning problematic representation by encouraging representations to be closer even though the pair is not appropriate. To alleviate this problem, we propose to use a regularized stochastic representation considering the adequacy of the given view pair. With this, we devised a novel method that the model can attenuate the effect from inappropriate pairs. The proposed method consistently outperforms baselines for various downstream tasks (image classification, object detection) on various benchmark datasets (CIFAR-100, ImageNet-100, COCO).
최근 굉장한 주목을 받는 대조 학습은 인스턴스(이미지)의 여러 관점을 활용하여 관점에 변함없는 표현을 배우도록 한다. 일반적으로 여러 관점은 확률적으로 작동하는 여러 데이터 증강기법들을 통해 만들어진다. 지금까지의 대조 학습 방법들은 암시적으로 생성된 여러 관점이 적절한 짝이라고 가정하였기 때문에, 이들의 표현이 표현공간에서 무조건 가까워지도록 하였다. 하지만 현실의 복잡한 이미지의 경우 적절하지 않은 짝의 관점들이 생성되기 쉽고, 적절하지 않은 경우에도 표현공간에서 가까워지도록 학습함으로써 잘못된 표현을 배우게 될 가능성이 높다. 우리는 이 문제를 해결하기 위해서 주어진 짝의 적절성이 고려되며 확률적으로 나타내어지는 표현 공간을 사용할 것을 제안한다. 이를 통해 주어진 짝의 적절성에 따라 적응적으로 학습할 수 있는 새로운 방법을 고안하였다. 제안된 방법은 다양한 벤치마크 데이터 세트에서 다양한 다운스트림 테스크(이미지 분류, 객체 검출)에 대해 일관되게 기존의 방법보다 좋은 성능을 보였다.