Sharpness-Aware Minimization (SAM) has emerged as a promising training scheme that leads to good generalization through finding flat minima. Despite its accomplishments in various fields, the existing theoretical understanding of SAM is far behind its successes. To extend the understanding of SAM, we theoretically analyze the SAM from two novel perspectives: escape efficiency and asymmetric valleys. First, we prove that SAM can escape a minimum faster than SGD. Hence the SAM can explore more minima than SGD and can converge to flatter minima by escaping minima where SGD would be stranded. Second, we show that SAM converges to a flatter region on asymmetric valleys than SGD and it leads to better generalization. Moreover, we prove that these effects are amplified by increasing the radius of inner maximization. Based on the proposed theory, we further study an efficient way to utilize SAM, Parsimonious SAM (PSAM), which uses SAM periodically in the early phase of training. Finally, on various architectures and datasets, we empirically verify that the proposed theory holds well in practice, and PSAM presents comparable performance to SAM while it requires only 65% of the computational cost of SAM.
예리도 인지 최소화는 편평한 최소 점을 찾아 좋은 일반화 성능을 갖도록 하는 학습 방법으로, 최근 다양한 분야에서 괄목할 만한 성과를 거두었다. 그럼에도, 예리도 인지 최소화에 대한 이론적 분석은 성공적인 성능 향상과 비교하면 많이 뒤떨어져 있는 상황이다. 본 연구에서는 예리도 인지 최소화에 대한 이론적 이해를 확장하기 위해 탈출 효율과 비대칭 경사면의 두 가지 새로운 관점에서 예리도 인지 최소화의 우수한 일반화 성능에 대해 분석한다. 본 연구에서는 다음의 두 가지를 증명한다. 우선, 예리도 인지 최소화는 기존의 확률적 경사 하강법보다 지역 최소 점을 더 빨리 탈출할 수 있다. 두 번째로, 예리도 인지 최소화는 비대칭 경사면에서 더 편평한 지역으로 수렴한다. 또한, 이러한 효과가 예리도 인지 최소화의 국소 최대화 반경이 커짐에 따라 증폭됨을 증명한다. 나아가, 제안된 이론에 기반하여 예리도 인지 최소화를 더욱 효율적으로 활용할 수 있는 새로운 학습 체계인 인색한 (Parsimonious) 예리도 인지 최소화를 제안한다. 본 연구에서는 다양한 데이터셋과 네트워크 구조에 대해 제안된 이론이 성립함을 실험적으로 검증하고, 제안된 학습 방법이 실제로 효과가 있음을 확인한다.