Contrastive learning is a method of learning visual representations by training Deep Neural Networks (DNNs) to increase the similarity between representations of positive pairs (transformations of the same image) and reduce the similarity between representations of negative pairs (transformations of different images). Here we explore Energy-Based Contrastive Learning (EBCLR) that leverages the power of generative learning by combining contrastive learning with Energy-Based Models (EBMs). EBCLR can be theoretically interpreted as learning the joint distribution of positive pairs, and it shows promising results on small and medium-scale datasets such as MNIST, Fashion-MNIST, CIFAR10, and CIFAR100. Specifically, we find EBCLR demonstrates from ×4 up to ×20 acceleration compared to SimCLR and MoCo v2 in terms of training epochs. Furthermore, in contrast to SimCLR, we observe EBCLR achieves nearly the same performance with 254 negative pairs (batch size 128) and 30 negative pairs (batch size 16) per positive pair, demonstrating the robustness of EBCLR to small numbers of negative pairs. Hence, EBCLR provides a novel avenue for improving contrastive learning methods that usually require large datasets with a significant number of negative pairs per iteration to achieve reasonable performance on downstream tasks.
대조적 학습은 심층 신경망이 양성 짝(같은 이미지의 변형)의 표현의 유사도를 증가시키고 음성 짝(다른 이미지의 변형)의 표현의 유사도를 감소시키도록 훈련함으로써 시각적 표현을 배우는 기법이다. 이 연구에서는 에너지 기반 모델과 대조적 학습을 융합한 에너지 기반 대조적 학습을 제안한다. 에너지 기반 대조적 학습은 이론적으로 양성 짝의 결합 분포를 학습하는 것으로 해석할 수 있으며 MNIST, Fashion-MNIST, CIFAR10, CIFAR100과 같은 소형, 또는 중형 데이터 세트에서 좋은 성능을 보인다. 구체적으로, SimCLR와 MoCo v2에 비교하면 에너지 기반 대조적 학습은 4배에서 20배 정도로 훈련 속도를 가속한다. 또한, 에너지 기반 대조적 학습은 하나의 양성 짝 당 254개의 음성 짝, 그리고 16개의 음성 짝을 사용했을 때 같은 성능을 보인다. 따라서 에너지 기반 대조적 학습은 큰 데이터 세트와 많은 음성 짝이 필요한 기존의 대조적 학습 기법을 개선하는 새로운 방향을 제시한다.