The advent of large-scale language models (LLMs) has opened up new opportunities in mobile task automation. Thanks to their superior language comprehension and reasoning capabilities, users can automate complex and repetitive tasks. However, the inherent instability of LLMs significantly limit their practical applicability. To address these issues, this paper presents MobileGPT, an innovative LLM-based mobile task automation tool augmented by a unique app memory. MobileGPT emulates the cognitive processes by which humans interact with mobile apps to explore, select, derive, and recall. This approach makes learning more accurate and efficient by breaking down work procedures into small modular components that can be reused, rearranged, and adapted for different purposes. Additionally, its human-in-the-loop memory repair mechanism allows users to edit these modular components themselves, which reinforces the accuracy of MobileGPT. We implement MobileGPT using online LLM services (GPT-4). Throughout controlled experiments (N=25), we demonstrate the high usability of MobileGPT compared to other task automation tools. Furthermore, we found out the necessity of the repair mechanism in the task automator and our human-in-the-loop mechanism fulfilled that need with intuitive UI.
대규모 언어 모델의 등장이 모바일 작업 자동화의 발전을 가속하고 있다. 뛰어난 언어 이해력과 추론 능력으로 복잡하고 반복적인 작업을 자동화할 수 있다. 그러나 대규모 언어 모델의 내재된 불안정성으로 인해 이를 적용하는 것은 상당히 제한적이다. 이 논문에서는 이 문제를 해결하기 위해 대규모 언어 모델 기반 자동화 도구를 고유한 어플리케이션 메모리로 강화한 MobileGPT를 소개한다. MobileGPT는 인간이 모바일 어플리케이션과 상호작용하는 과정을 모방하여 탐색, 선택, 도출, 기억을 수행한다. 이 접근 방식을 통해 작업의 수행 과정을 재사용, 재배치, 그리고 적용 가능하게 세분화해서 보다 정확하고 효율적으로 학습할 수 있다. 또한 사용자 메모리 수정 메커니즘으로 사용자가 세분화한 수행 과정을 직접 수정할 수 있어 MobileGPT의 정확도를 강화했다. 온라인 대규모 언어 모델 서비스 (GPT4)를 사용해서 MobileGPT를 구현했다. 25명의 통제된 실험을 통해 다른 자동화 도구에 비해 MobileGPT가 더 높은 사용성을 가지고 있다는 것을 입증했다. 또한, 자동화 도구에서 수정 기능이 필요함을 보이고 우리의 해결책이 직관적인 UI를 통해서 그 필요성을 충족시킴을 확인했다.