Dialogue response selection models typically predict an appropriate response relying on the context-response content similarity. However, the selection model with over-reliance only on superficial features is vulnerable to adversarial responses that are semantically similar but irrelevant to dialogue context. Recent studies have shown that leveraging these adversarial responses as negative training samples is useful for improving the robustness of the selection model. Nevertheless, existing methods often require further fine-tuning for data creation or have limited scalability. To overcome these limitations, this paper proposes a simple but effective method for generating adversarial negative responses leveraging a large-scale language model. Our method can generate realistic negative responses only with a few human-written examples and a prompt designed to optimize generation quality. Experimental results on the dialogue selection task show that our method outperforms existing synthesizing methods for creating negative responses. Synthetic quality analyses and ablation studies prove that our method is scalable and can generate high-quality negative responses. These results suggest that our method can be an effective alternative to human annotators in generating adversarial responses.
대화 응답 선택 모델은 일반적으로 대화 문맥과 응답 간 내용 유사성에 따라 적절한 응답을 예측한다. 그러나 내용의 피상적인 특징에만 지나치게 의존하는 선택 모델은 의미론적으로 유사하지만 대화 맥락과는 무관한 적대적인 응답에 취약하다. 최근의 연구는 이러한 적대적 응답을 부정적인 훈련 샘플로 활용하는 것이 선택 모델의 강건성을 향상시키는 데 유용하다는 것을 보여주었다. 그럼에도 불구하고 기존 방법들은 종종 데이터 생성을 위한 추가 미세 조정이 필요하거나 제한적인 확장성을 갖는다. 이러한 한계를 극복하기 위해 본 논문은 대규모 언어 모델을 활용하여 적대적 부정적 반응을 생성하는 간단하지만 효과적인 방법을 제안한다. 우리의 방법은 사람이 작성한 몇 가지 예와 생성 품질을 최적화하도록 설계된 프롬프트만으로 현실적인 적대적 부정적 반응을 생성할 수 있다. 대화 선택 과제에 대한 실험 결과는 우리의 방법이 부정적인 반응을 만드는 기존 합성 방법들보다 우수하다는 것을 보여준다. 합성 품질 분석 및 절제 연구는 우리의 방법이 확장 가능하며 고품질 음성 반응을 생성할 수 있다는 것을 증명한다. 이러한 결과는 우리의 방법이 적대적 반응을 생성하는 데 있어 인간 주석자에 대한 효과적인 대안이 될 수 있음을 시사한다.