Differentiable Sorting Algorithm is used in end-to-end differentiable frameworks, enabling gradient-based optimization of models that involve sorting operations. The Differentiable Sorting Network, the most recent state-of-the-art Differentiable Sorting Algorithm, necessitates an equal gap between input scalars for accurate sorting. We consider the sorting operation as a seq2seq generation task, where the input sequence consists of unsorted scalars, and the output sequence represents the argsort result of the unsorted scalars. From that perspective, we present TranSort, a transformer architecture proposed as an alternative to Differentiable Sorting Algorithm. TranSort demonstrates stable sorting performance on various distribution of input scalars, distinguishing itself from Differentiable Sorting Network. Moreover, we present empirical evidence highlighting the enhanced performance of end-to-end learning tasks when utilizing TranSort compared to previous Differentiable Sorting Algorithms.
미분가능한 정렬 알고리즘은 종단 간 미분가능한 프레임워크에 사용되어 정렬 작업을 포함하는 모델의 그래디언트 기반 최적화를 가능하게 한다. 미분가능한 정렬 알고리즘 중에서 가장 성능이 좋은 것으로 알려진 미분가능한 정렬 네트워크는 올바른 정렬을 위해 입력 스칼라 간의 균등한 차이를 필요로 한다. 우리는 정렬 작업을 시퀀스-투-시퀀스 생성 작업으로 간주한다. 여기서 입력 시퀀스는 정렬되지 않은 스칼라들로 구성되고 출력 시퀀스는 정렬되지 않은 스칼라들의 argsort 결과를 나타낸다. 이러한 관점에서 미분가능한 정렬 네트워크의 대안으로 제안된 트랜스포머 아키텍처인 TranSort를 제시한다. TranSort는 미분가능한 정렬 네트워크와 대조적으로 다양한 입력 스칼라 분포에서 안정된 정렬 성능을 보여준다. 또한, 우리는 TransSort를 사용할 때 이전 미분가능한 정렬 알고리즘들을 사용했을 때 보다 종단 간 학습 작업의 성능을 향상시킬 수 있다는 경험적 증거를 제시한다.