Preventing attention leakage in slot attention for object-centric learning = 객체중심학습을 위한 슬롯 어텐션에서의 어텐션 누출 방지 기법
서명 / 저자 Preventing attention leakage in slot attention for object-centric learning = 객체중심학습을 위한 슬롯 어텐션에서의 어텐션 누출 방지 기법 / Janghyuk Choi.
발행사항 [대전 : 한국과학기술원, 2023].
MCS 23045

Object-centric learning (OCL) aims for a compositional understanding of scenes, like humans recognize the visual world at the object level, by representing a scene as a set of object-centric representations. Although OCL has been successfully applied to the multi-view image and video datasets by leveraging geometric or temporal information to adopt various data-driven inductive biases, it faces challenges when applied to single-view images. This is due to the reduced availability of information regard- ing scene decomposition, resulting in the attention leakage problem where object-centric representation gives attention to not only individual objects but also the background around the objects. The attention leakage problem incurs deficient background separation, thereby object-centric representation can be constructed with the background noise. To address this challenge, we introduce SLot Attention via SHepherding (SLASH), a novel OCL framework for single-view images. SLASH integrates two simple- yet-effective modules into Slot Attention: the Attention Refining Kernel (ARK) and the Intermediate Point Predictor and Encoder (IPPE). These modules, respectively, prevent slots from being distracted by background noise and provide focus points to guide the learning of object-centric representations. We further propose a weak semi-supervision approach that leverages point-level annotation for OCL. Even though it is trained with annotation, our framework can be used without any assistant annotation during the inference phase. Experimental results demonstrate that our proposed method enhances the consistency in learning object-centric representations and delivers robust performance across four different datasets.

객체 중심 학습은 인간이 시각정보를 객체 수준에서 인식하는 것처럼 이미지를 객체 수준의 잠재적 벡터인 객체중심표현들을통해이미지에대한구성적이해를하는것을목표로한다. 하지만최근의연구는물체 수준의 이미지 해석과 관련된 정보의 가용성이 부족한 상황에서 학습된 객체 중심 표현이 특정 물체뿐만 아니라 주변 배경에도 주의를 기울이는 어텐션 누출 문제가 발생한다는 한계를 보이고 있다. 본 논문에서는 이러한 어텐션 누출 문제를 해결하기 위한 연구를 진행한다. 제안된 방법론은 두 개의 모듈인 어텐션 정제 커널과 중간 지점 예측기 및 인코더를 개발하고 이를 슬롯 어텐션에 적용하며 구성된다. 각 모듈들은 슬롯이 배경 노이즈에 의해 방해 받는 것을 방지하고, 물체의 잠재적 위치를 슬롯에게 제공하며 객체 중심 학습을 돕는다. 또한 이러한 모듈을 효율적으로 학습하기 위한 방법론으로서 포인트 수준 주석을 활용하는 약한 준감독 접근 방식을 제안한다. 우리의 프레임워크는 데이터 주석과 함께 훈련되었음에도 불구하고 추론 단계에서 주석 없이 활용될 수 있다는 점에서 기존 방법론과 차별점이 있다. 4개의 데이터셋에 대해 진행된 다양한 실험 결과를 통해 제안된 방법론이 어텐션 누출 문제를 방지함으로써 객체 중심 학습을 개선했다는 것을 실증적으로 증명한다.


청구기호 {MCS 23045
형태사항 v, 42 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 최장혁
지도교수의 영문표기 : Ho-Jin Choi
지도교수의 한글표기 : 최호진
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 37-40
주제 Object-centric learning
object-centric representation
slot attention
attention leakage problem
weak semi-supervision
객체 중심 학습
객체 중심 표현
슬롯 어텐션
어텐션 누출 문제
약한 반지도학습





