Whole-slide imaging (WSI) is a digital technique that enables high-resolution scanning of entire histological slides, thereby creating digitized representations of tissue samples for subsequent analysis. However, this process confronts significant challenges, including the gigapixel size of images and the demand for high-quality annotated data, which often burden pathologists with laborious manual annotation. Additionally, most methods necessitate preprocessing tens of thousands of patches, leading to prolonged training time. In response to these challenges, we introduce CRASH-MIX, an efficient framework designed to eliminate the need for detailed annotations and significantly reduce the number of required slide labels while maintaining high performance. Our approach builds upon the robust foundation provided by the Hierarchical Image Pyramid Transformer (HIPT) and incorporates active learning strategies for more proficient WSI classification. Specifically, CRASH-MIX modifies the vanilla Barlow Twins method by introducing CutMix, thus emphasizing the significance of mixing different slides together to generate more positive pairs during pretraining. To the best of our knowledge, we are the first to demonstrate that fully finetuning slide-level pretrained models significantly enhances performance compared to training from scratch under the same settings. When paired with Manifold Mixup in downstream classification, our proposed framework shows an average improvement of 0.047 across six existing acquisition functions under five different WSI sample budgets. This result is confirmed against a full set of 129 WSI test samples on the Camelyon16 dataset and compared to the modified HIPT in the active learning setting. Our innovative approach greatly enhances the efficiency and effectiveness of WSI classification, particularly under conditions of limited labeled datasets. By reducing reliance on manual labeling through the utilization of unlabeled WSIs and accelerating training time, our approach not only provides considerable benefits for clinical practice but also holds substantial potential to revolutionize the field of digital histopathology.
Whole-slide imaging (WSI)은 전체 조직학 슬라이드의 고해상도 스캐닝을 가능케 하는 디지털 기술로, 조직 샘플의 디지털화된 데이터로 표현을 학습하여 후속 분석에 활용한다. 그러나 이것을 이용한 기계 학습 과정은 기가픽셀 크기의 데이터와 병리학자들에게 번거로운 주석 작업을 요구하는 고품질 주석 데이터 확보 등의 상당한 어려움에 직면해있다. 또한 대부분의 방법론은 수천 개의 패치를 전처리해야 하므로 긴 훈련 시간을 필요로한다. 이러한 문제를 해결하고자 우리는 CRASH-MIX를 제안한다. 이것은 모델의 성능을 유지하면서도 고품질 주석의 필요성을 제거함과 동시에 필요한 슬라이드 레이블 수를 감소시키는 효율적인 프레임워크이다. 우리의 접근 방식은 계층적 이미지 피라미드 변환기 (HIPT)에 기반하며, WSI 분류 성능 향상을 위한 액티브 러닝 전략을 통합하였다. 구체적으로, CRASH-MIX는 CutMix를 바닐라 Barlow Twins 방법론에 도입함으로써, 사전 훈련에서 더 많은 양성 샘플 (positive sample)을 서로 다른 슬라이드를 섞어 생성한다. 우리가 아는 한, 우리의 연구는 슬라이드 수준에서 사전 학습된 모델을 전체 파라미터에 대해 미세조정하는 것이 같은 설정에서 모델을 처음부터 학습하는 것 보다 좋은 성능을 이끌어낼 수 있음을 처음으로 증명하였다. 하위 분류 미세조정에서 사전 학습한 모델에 Manifold Mixup을 도입한다면, 우리의 제안 방법론은 다섯 가지 서로 다른 WSI 샘플에 대해 여섯 가지 지표에서 평균 0.047의 향상을 이끌어냈다. 이 결과는 Camelyon16 데이터세트 전체인 129개의 시험 샘플에서 확인되었으며, 액티브 러닝 환경에서 수정된 HIPT와도 비교되었다. 우리의 혁신적인 접근 방식은 특히 주석 작업이 제한된 데이터세트 조건에서 WSI 분류의 효율성과 효과성을 크게 증대시켰다. 주석이 없는 WSI의 활용은 훈련시간 단축과 주석 작업 의존도를 낮추어 임상 실무에서 상당한 이점을 제공할 뿐만 아니라 디지털 병리학 분야를 혁신할 잠재력을 가진다.