With the rapid advancement in technology, the interaction between human and computer has become inevitable. This has led to an active studies on different text entry systems. In particular, air writing recognition systems gained a lot of attention due to an intrinsic writing pattern that it allows users to follow. Current air writing recognition systems, however, contain many shortcomings. For instance, use of expensive motion sensors and character level recognition hinders real life deployment where easily accessible and word to sentence level recognition system is desirable. In addition, they require users to follow unistroke writing patterns which defeats the purpose of air writing systems: offering an easy communication via natural writing patterns. In this study, we investigate a new air writing recognition system which we call “Writing In The Air (WITA)” recognition system. The WITA text entry system that we propose requires no extra device other than an RGB camera, ensuring accessibility and cost-efficiency, and allows users to follow their natural writing pattern. In order to reach our objective, we take a deep learning approach which requires sufficient amount of data. Thus, a large and comprehensive benchmark dataset, composed of five sub-datasets in two languages (Korean and English) was collected. In addition, four ResNet based end-to-end spatio-temporal networks are proposed to recognize a handwriting from finger movements in RGB data. The best performing network achieves 46% character error rate (CER) in English dataset.
기술의 급속한 발전으로 인해 인간과 컴퓨터의 상호 작용이 늘어났으며 이와 동시에 텍스트 입력 시스템에 대한 연구가 활발히 이어졌다. 특히, 공중 쓰기 인식 시스템은 사용자에게 직관적인 쓰기 패턴을 제공함으로써 많은 주목을 받았다. 그러나 현재의 공중 쓰기 인식 시스템에는 많은 한계점이 있다. 그 예로, 값 비싼 모션 센서와 문자 수준의 인식으로 인해 접근의 용이성과 단어 수준의 인식을 요구하는 실제 적용에는 제한이 따른다. 또한, 자연스러운 쓰기 패턴의 적용은 단일 스트로크 쓰기 패턴을 따르는 공중 필기 인식 시스템의 특성으로 인해 제한된다. 따라서, 본 연구에서는 WITA (Writing In The Air) 인식 시스템이라는 새로운 공중 쓰기 인식 시스템을 제안한다. 본 연구에서 제안하는 WITA 인식 시스템은 RGB 카메라 외에 추가 장치가 필요하지 않아 접근성과 비용 효율성, 그리고 자연스러운 쓰기 패턴을 보장한다. 이러한 목표를 달성하기 위해 방대한 양의 데이터가 요구되는 딥 러닝을 적용하며, 데이터 확보를 위해 2개의 언어 (한국어 및 영어)로 구성된 5개의 데이터 세트를 수집하였다. 또한, RGB 데이터에서의 손가락 움직임을 활용한 필기 인식을 위해 4개의 ResNet 기반 end-to-end 시공간 네트워크를 제안한다. 4개의 네트워크 중 가장 성능이 좋은 네트워크는 영어 데이터 세트에서 46%의 문자 오류율 (CER)을 보였다.