Text-to-SQL parsing is a task that translates natural language into SQL, enabling users who are not database experts to retrieve information from databases using only natural language. There are several important yet under-explored objectives in this field: interactivity, compositionality, and efficiency. In this paper, we present EHR-SeqSQL, a sequential Text-to-SQL dataset for interactively exploring Electronic Health Record (EHR) databases. We demonstrate the benefits of multi-turn setting over single-turn setting with respect to compositionality, and provide a new data split and an additional test set to evaluate compositional generalization. Furthermore, we introduce unique special tokens in SQL queries to enhance execution efficiency. This study represents the first attempt in the Text-to-SQL parsing field to simultaneously consider interactivity, compositionality, and efficiency, aiming to narrow the gap between industrial demands and academic research.
Text-to-SQL 파싱은 자연어를 SQL로 번역하는 태스크로 데이터베이스 비전문가인 사용자들이 자연어만을 사용하여 데이터베이스에서 정보를 얻을 수 있게 해준다. 이를 실제 상황에 적용하기 위해 중요하게 고려해야 하지만, 기존 연구들에서는 아직 충분히 논의되지 않은 연구 주제들로 상호 작용성, 구성성, 그리고 효율성이 있다. 본 논문에서는 전자건강기록(EHR) 데이터베이스를 상호 작용적으로 탐색하는 순차 Text-to-SQL 데이터셋인 EHR-SeqSQL을 소개한다. 먼저, 구성성과 관련하여 단일 턴 대비 다중 턴 설정에서의 이점을 보여주고, 구성적 일반화를 평가하기 위한 새로운 데이터 분할과 추가 테스트 셋을 제공한다. 또한, SQL 쿼리에 특수 토큰을 도입하여 실행 효율성을 높인다. 본 연구는 Text-to-SQL 파싱 분야에서 상호 작용성, 구성성 및 효율성을 동시에 고려한 첫 시도이며, 이를 통해 산업적 요구와 학계 연구 간의 격차를 완화하고자 한다.