The optimization with orthogonality has been proven to be useful in training deep neural networks (DNNs). To impose orthogonality on DNNs, existing algorithms either utilize hard constraints or soft constraints. However, the methods using hard constraints are computationally expensive, and those based on soft constraints can hardly maintain the orthogonality during the whole training process. To this end, we propose a novel method, named Feedback Gradient Descent (FGD), that induces orthogonality based on the simple Euler discretization of a continuous-time dynamical system on the tangent bundle of the Stiefel manifold, showing high efficiency and stability simultaneously. Rather than using time-consuming structure-preserving discretization methods such as variational or symplectic integrators, we employ the framework of feedback integrators for the discretization. Namely, a continuous-time dynamical system is constructed in a Euclidean space containing the tangent bundle of the Stiefel manifold such that the tangent bundle becomes a local exponential attractor of the system. Since the system is in a Euclidean space, the stability of the tangent bundle is carried over to its discretized system with any off-the-shelf discretization method such as Euler, yielding the FGD algorithm that is fast in speed and stable in the preservation of the tangent bundle of the Stiefel manifold. We conduct extensive image classification experiments on popular benchmark datasets, e.g., CIFAR-10/100 and ImageNet, using various models, e.g., WideResNet and ResNet, where FGD comprehensively outperforms the existing state-of-the-art methods in terms of accuracy, efficiency, and stability.
직교성을 가진 최적화가 심층 신경망 학습에 유용하다는 것은 이미 증명된 사실이다. 직교성을 심층 신경망 학습에 적용하기 위한 기존의 기법들은 강한 제약을 사용하거나 소프트 제약을 사용하는 기법으로 구분된다. 강한 제약을 사용하는 기법들은 직교성이 보장되지만 계산 시간이 오래 걸린다는 문제가 있으며, 소프트 제약을 사용하는 기법들은 속도가 빠른 반면 전체 학습 진행 간에 직교성을 유지하지 못 한다는 문제가 있다. 이러한 이유로, 이 논문에서는 새로운 기법인 "피드백 경사 하강"을 제안한다. 제안하는 방법은 스티펠 다양체의 접다발에 대한 연속시간 동역학계의 오일러 이산화를 기반으로 직교성을 초래하며, 높은 효율성과 안정성을 나타낼 수 있다. 다시 말해, 하나의 연속시간 동역학계는 접다발이 해당 동역학계의 하나의 끌개가 되는 스티펠 다양체의 접다발을 포함하는 유클리드 공간에 구성된다. 해당 동역학계는 유클리드 공간에서 정의되기 때문에, 오일러 기법과 같은 기존의 이산화 기법을 사용하여 이산화할 수 있으며, 안정성이 보장된다. 대중적인 벤치마크 데이터 세트과 다양한 모델을 사용한 광범위한 이미지 분류 실험을 수행하였으며, 제안하는 알고리즘이 정확도와 효율성, 안정성 측면에서 기존의 최신 기법들 보다 압도적으로 뛰어난 성능을 보였다.