서지주요정보
Towards human-like conversation agent = 인간과 유사한 대화가 가능한 대화 시스템 이론
서명 / 저자 Towards human-like conversation agent = 인간과 유사한 대화가 가능한 대화 시스템 이론 / Jung Hyuk Im.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038501

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 22027

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Development of deep learning allows machine-learning based algorithms to solve more diverse, complex problems. Recently revealed generative neural networks with outstanding performance show that deep learning is not limited to solving only classification related problems. In the field of natural language processing, machine-translation algorithms have been expanded to text-to-text dialogue systems with the advancement of encoder-decoder structures such as seq2seq along with high performance word embedding models. Traditional conversation models based on rule-based language understanding and output query from a fixed database of sentences target goal-oriented dialogues and simple question-answering, and as a result they are limited to stereotyped dialogues in which users select their response from a given options of input. In contrast, deep-learning based dialogue systems utilize encoder-decoder structures and high-performance word embeddings to understand language and generate a relative response in a word-wise fashion. This generative property allows the system to perform dialogues not limited to format. On the other side the natural language understanding performance of neural network-based systems depend strongly on the utilized word embeddings, and even if long-short-term memory is applied, the system cannot maintain the context of previous utterances when the conversation gets longer than four sequences. Results shown in Chapter 2 introduce a method of building dialogue systems that performs well while maintaining the context of the overall dialogue sequences. The results suggest the possibilities of neural network-based dialogue systems to perform more human-like conversation and overcome the limitations of traditional methods. In Chapter 3, a hybrid approach that combines rule-based language understanding and neural network encoder-decoder structure to utilize the advantages of both goal-oriented and non-goal-oriented dialogue system is presented. The complex property of natural languages that a single word may have different meanings depending on the context of the overall dialogue even if identical words are used makes non-goal-oriented dialogues difficult. Humans use symbolic context features for precise comprehension, which include various factors such as who they are talking to, what conversation came over before and after the target utterance, and visual information. As deep-learning algorithms strictly understands language based on the used word embedding, there are cases when the system misunderstands the context of the input utterance and generate unrelated response or fails to generate appropriate responses. To overcome this limitation, a hybrid system of rule-based context retrieval and an artificial neural network-based encoder combined with Bayesian skip-gram is presented. The example dialogue responses of given context categories show that the hybrid approach improves the performance of a non-goal-oriented dialogue agent. An approach to expand the capabilities of a text-to-text dialogue agent with multi-modal algorithms and persona embedding is introduced in Chapter 4. Real human conversation not solely takes text-given information to interpret messages. Visual, auditory and knowledge-based information are interpreted along with text to offer multiplex interpretation, which sometimes result as a totally different inference. Multi-modal algorithm is already a wide field of research, but a majority of presented models utilize the ensemble method in which the features of different modalities are concatenated as an input into a single network. The end-to-end ensemble-based feature-fusion leads to lower performance, especially in cases when the two modalities do not affect each other in a complementary relationship. In this research, we target the task of context classification of image-text multi-modal SNS posts with corresponding hashtags as the output. A novel multi-phase training method is introduced to effectively fuse image and text features using a single deep perceptron. Also, we perform a mathematical decomposition of the multi-phase training scheme into an end-to-end equivalent, which allows us to use stochastic gradient descent in the training process. The final experiment of this paper introduces a method of embedding personality into machine-learning based language models. Statistical approaches introduce methods by using a fixed format of questionnaires to classify one’s personality into different categories. We introduce a training method to apply these statistical methods into neural network based models, and provide a benchmark model for measuring the performance of personality classification. By the series of research conducted in this paper, we suggest possibilities to build a human-like AI dialogue agent.

근 10여년간 신경망 기반 딥 러닝 기술의 혁신적인 발전으로 인하여 기계학습 알고리즘이 풀 수 있는 문제의 다양성이 확장되고 성능이 대폭 향상되었다. 이러한 기술의 발전은 분류만이 아니라 새로운 결과를 생성할 수 있는 생성 신경망의 개발로 이루어졌으며, 자연어처리 분야에서는 기계학습 기반 번역만이 아닌 사용자와 텍스트를 입출력으로 대화를 주고받을 수 있는 대화 시스템 개발이 활발하게 이루어지고 있다. 기존 대화시스템은 사용자의 명확한 목적을 해소하고 질의응답을 성공적으로 하기 위한 목적으로 규칙 기반 알고리즘을 활용하여 사용자가 전달하고자 하는 바를 객관식으로 주어진 문항 중에 선택하고 이에 대한 적절한 답변을 데이터베이스 내에서 선택하기 때문에 자유로운 형식의 대화가 불가능하다는 한계점이 존재한다. 반면 딥 러닝 기반 대화 시스템은 인코더-디코더 구조를 활용하여 사용자의 입력 문장을 기계 학습 기반 언어 엠베딩으로 변환한 후 이에 대한 적절한 답변을 단어 단위로 생성하기 때문에 보다 다양한 주제에 대해 다채로운 답변을 생성할 수 있다는 장점이 있다. 한편으로는 문장에 대한 해석이 언어 엠베딩의 성능에 크게 영향을 받고, 장단기 메모리 기반 인코더를 활용하여도 대화가 길어질수록 이전 대화에 대한 문맥이 희석되기 때문에 완벽히 사람과 흡사한 대화를 하기엔 한계점이 명확히 존재한다. 따라서 본 논문에서는 순환신경망 인코더-디코더 구조를 활용하면서도 4회 이상의 문장이 오고 가는 긴 대화에서도 문맥을 유지하며 높은 성능의 대화를 생성할 수 있는 대화 시스템을 개발하고 이를 이용한 멀티-시퀀스 대화 시스템을 통해 추출한 실제 대화 예제들을 제시한다. 이를 통해 현재 상용화되어 있는 대부분의 대화 시스템과는 달리 대화의 자유도를 제공하면서 인간과 흡사한 대화를 수행할 수 있는 인공지능 기반 대화 시스템에 대한 방향성을 제시한다. 3장에서는 규칙 기반 알고리즘과 딥 러닝 기반 알고리즘을 접목하여 목적성 대화와 비목적성 대화의 장점을 동시에 고려할 수 있는 하이브리드 대화 시스템 이론을 제안한다. 딥 러닝 기반 비목적성 대화 에이전트들은 입력 문장을 언어 엠베딩을 통해 단어 단위로 해석하여 사용자의 의도와 다르게 문장을 해석할 수 있는 여지가 존재하기 때문에, 상황에 따라 여러 의미로 해석될 수 있는 문장에 대한 답변 능력이 제한된다. 반면 인간은 문장에 이용된 단어만이 아닌, 함께 사용된 단어와 문장이 입력된 상황을 고려하여 입체적으로 문장을 해석하기 때문에 동일한 단어의 조합에 대해서도 여러가지 해석이 나올 수 있다. 비목적성 대화 에이전트의 이러한 한계점을 극복하기 위해, 인간이 문장을 해석할 때 사용하는 심볼릭 특성과 언어 엠베딩으로 정의되는 기계학습 기반 특성을 혼합하여 문장을 해석할 수 있도록 규칙 기반 대화 문맥 파악 알고리즘과 이를 활용할 수 있는 Bayesian Skip-Gram을 이용한 세미 하이브리드 대화 시스템과 이를 응용한 대화 예제들을 통해 비목적성 에이전트의 성능을 보완한다. 4장에서는 이미지-텍스트 멀티모달 학습 알고리즘과 Persona-Specific 엠베딩을 이용한 인격 부여를 통해 대화 에이전트의 적용 분야에 대한 확장성을 제시한다. 실제 인간의 대화는 텍스트 뿐만이 아닌 시각, 청각 정보가 함께 동원되며 이에 따라 다른 해석과 답변이 파생된다. 두 가지 이상의 감각을 입력으로 하는 멀티모달 모델들은 이미 연구가 이루어지고 있으나 대부분 다른 형태의 입력에 대한 특성 벡터를 연쇄하여 단일 신경망을 통해 통합하는 앙상블 기법을 이용하고 있기 때문에, 특히 서로 다른 모달리티가 상호보완적이 아닌 경우에서 성능이 매우 떨어지며 효과적인 특성 통합이 이루어지지 않는 결과가 발생한다. 본 논문에서는 이미지와 텍스트를 혼용하는 최신 SNS의 포스트와 이에 대한 주제 및 컨텍스트를 정의하는 해시태그를 실험 대상으로 하여, 단일 신경망을 이용해도 효과적으로 특성 통합을 이룰 수 있는 다단계 학습 구조와 이에 Stochastic Gradient Descent 기법을 적용할 수 있도록 End-to-End 학습과 동치적으로 전환할 수 있는 새로운 학습 기법을 제시한다. 최종적으로, 인문학 분야에서 통계적인 접근으로 검증하여 정해진 유형의 질의 응답을 통해 사람의 성격 유형을 분류할 수 있는 기법을 딥 러닝 기반 언어 모델에 적용하여, 텍스트 출력으로 표현되는 기계학습 대화 에이전트의 성격을 분류하고 판별할 수 있는 학습 방식과 비교를 위한 벤치마크 모델을 제시한다. 위와 같은 연구 결과를 통해 딥 러닝 기반 비목적성 대화 에이전트가 더욱 사람과 흡사한 대화가 가능하도록 하는 방향성을 제안한다.

서지기타정보

서지기타정보
청구기호 {DEE 22027
형태사항 iv, 51 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 임정혁
지도교수의 영문표기 : Dae-Shik Kim
지도교수의 한글표기 : 김대식
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 47-48
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서