Multispectral pedestrian detection using RGB and thermal sensors (RGBT) has emerged as a promising solution for safety-critical vision applications that require non-stop operations all day/night. However, there are unsolved issues in multispectral pedestrian detection, including the modality bias problem. The imbalanced modality distribution in RGBT datasets provoke modality bias, where models tend to rely on one modality (thermal) over the other (RGB). Therefore, it is necessary to address the modality bias problem in order to learn multimodal relationships robustly in real-world environments. We deal with modality bias problems for multimodal representation through counterfactual approaches that can compensate for modality imbalance in datasets. First, we propose a novel model framework: Causal Mode Multiplexer (CMM) based on counterfactual intervention and guide the model to learn the causality between multimodal inputs and outputs. Different from the symmetrical fusion topology of existing methods, the proposed approach leverages two distinct causal graphs that are tailored to the multimodal data type. Second, we introduce a novel data augmentation framework: Prototypical Cross-modal Balancing (PCB) based on counterfactual image generation. Unlike existing augmentation methods, PCB generates multimodal data considering the modality balance of multimodal data. Each of the proposed methods from the model and data perspective are validated under extensive experiments including comparisons to the state-of-the-art methods, ablation studies, and further qualitative/quantitative results.
전자광학 및 열적외선 센서를 이용한 다중 스펙트럼 보행자 검출은 주/야간 작동이 필요한 비전 문제에서 중요하게 다루어진다. 그러나 다중 스펙트럼 보행자 데이터셋의 불균형한 모달리티 분포로 인해 모델이 한 가지 모달리티에 의존하는 모달리티 편향 문제가 존재한다. 따라서 실제 환경에서 멀티모달 관계를 올바르게 학습하려면 모달리티 편향 문제를 해결하는 것이 필요하다. 우리는 데이터셋의 모달리티 불균형 분포를 보상할 수 있는 반사실적 접근 방식을 통해 이 문제를 해결한다. 먼저, 반사실적 개입을 기반으로 하는 ‘인과 모드 다중화기’라는 새로운 모델 프레임워크를 제안하고 모델이 멀티모달 입력과 출력 간의 인과성을 학습하도록 한다. 제안된 방식은 기존 방법의 대칭 융합 토폴로지와 달리 멀티모달 데이터 유형에서 발생하는 두 개의 서로 다른 인과 그래프를 활용한다. 둘째, 새로운 데이터 증대 프레임워크인 반사실적 이미지 생성을 기반으로 하는 ‘프로토타입 교차 모드 밸런싱’을 소개한다. 프로토타입 교차 모드 밸런싱은 기존의 데이터 증대 방식과 달리 멀티모달 데이터의 모달리티 균형을 고려하여 멀티모달 데이터를 생성한다. 모델과 데이터 관점에서 제안된 각각의 방법들은 최신 방법과의 비교, 절제 연구, 정성/정량 결과를 포함한 광범위한 실험을 통해 검증되었다.