We tackle the problem of realtime latency reduction in huge deep neural networks for the tasks of semantic segmentation and video object detection. Input dependent or conditional computation is employed to dynamically generate connectivity paths in a neural network for a given input. We also employ forecasting of unseen feature maps in cases where it is easier to generate such feature maps and avoid the expensive computation of backbone networks. Finally, we explore the utilization of a tracker and couple with a slow but accurate object detector using a reinforcement learning scheduling routine.
우리는 이미지 세그멘테이션 이나 영상에서의 물체 검출과 같은 무거운 딥러닝 모델을 기존보다 빠르게 만들기 위한 연구를 진행했습니다. 딥러닝 모델에 들어오는 이미지 인풋에 따라 기존 모델의 계산 과정을 생략함으로써 계산 시간을 단축할 수 있는 방법을 사용하였습니다. 영상에서의 경우, 무거운 딥러닝 모델의 연산없이 다음에 들어오는 이미지 인풋의 피쳐 결과를 예측하는 모델을 사용하여 계산 시간을 많이 단축하였습니다. 마지막으로, 강화학습 기반의 트래커, 물체 검출 혼합 모델을 고안하여 계산 시간을 단축하는 방법을 다루었습니다.