Neural Network Quantization aims to reduce the size and computational complexity of a neural network for more efficient training and inference of neural networks. However, existing methods often render themselves impractical in real-world scenarios, such as On-device Federated Learning, and with compact models such as MobileNet. In this paper, We show that applying Neural Network quantization in these scenarios are difficult. In On-device Federated Learning scenarios, many diverse devices with different hardware constraints can participate in the same Federated Learning, which leads to degenerate performance in the high-performance devices. With compact models with less redundancies in the weights, it is much more difficult to find quantized weights that do not incur a drop in the model's accuracy. We tackle these challenges by introducing two novel methods for practical neural network quantization: Bitwidth Heterogeneous Federated Learning with Progressive Weight Dequantizer, and Neural Network Binarization with Task-dependent Aggregated Transform. We show that these methods are effective at applying Neural Network quantization in the aforementioned practical scenarios.
인공신경망 양자화는 효율적인 학습과 추론 수행을 위해 인공신경망의 크기와 연산량을 줄이는 것을 목표로 한다. 기존의 방법들은 온디바이스 연합학습과 같은 실용적인 시나리오나 MobileNet과 같은 집적된 모델과 같은 경우 잘 작동하지 않는다. 본 논문에서는 이러한 경우에 인공신경망 양자화를 적용하는 것이 어렵다는 사실을 밝혔다. 즉, 온디바이스 연합학습에서는, 다양한 하드웨어적 사양을 가진 장치들이 모두 같은 연합학습에 참여하는데, 이 경우 상대적으로 높은 사양을 가진 장치의 모델 성능이 떨어진다. 또한, 가중치의 중복성이 낮은 집적 모델은 정확도를 떨어뜨리지 않고 양자화를 하는 것이 훨씬 더 어렵다. 이 문제를 해결하기 위해 새로 두 가지 방법, 즉 첫째, ``점진적 디퀀타이저를 이용한 이종 정밀도 연합학습''과 둘째, ``태스크 의존적 가중치 통합 변환을 이용한 인공신경망 이진화'를 제안하였다. 그리고 이 두 가지 방법이 인공신경망 양자화를 앞서 말한 실용적인 시나리오에 효과적으로 적용할 수 있음을 밝혔다.