서지주요정보
Relationship-oriented qualification scheme for data objects in automated data modeling = 데이터 모델링 자동화를 위한 관계 중심 데이터 객체 판별 기법
서명 / 저자 Relationship-oriented qualification scheme for data objects in automated data modeling = 데이터 모델링 자동화를 위한 관계 중심 데이터 객체 판별 기법 / Hakyoul Choe.
저자명 Choe, Hakyoul ; 최학열
발행사항 [대전 : 한국과학기술원, 2018].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033377

소장위치/청구기호

학술문화관(문화관) 보존서고

DMT 18008

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

등록번호

9001109

소장위치/청구기호

서울 학위논문 서가

DMT 18008 c. 2

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Data has become a substantial source of corporate competitive advantage, as information technology dramatically has changed industry structure and market. The data model is the foundation stone for companies to strategically manage and utilize their data. The existing data model is written for technical purposes to develop and operate corporate database, which makes the data model isolated from field users. The intervention of data designer without user engagement induces misinterpretation of data requirements and consumes time and cost for data modeling. Automated data modeling research has been actively conducted to enable the users to take a proactive role in data modeling so that companies can leverage data more agile. The data modeling system needs to automate the process of data object extraction and qualification performed by experts. For decades, knowledge-based and rule-based research has been conducted to extract and identify data objects. However, these studies have been unable to incorporate agile business requirements into the data model due to relying heavily on previous results. Moreover, the existing systems have limitations in field applicability because the systems are semi - automated methods that qualify data objects interacting with users who do not have knowledge of data model. In this thesis, we propose a relationship-oriented data modeling automation (ROM) that fully automates data modeling from textual job descriptions freely created by field users without knowledge base construction that consumes a lot of time and money or any strict restrictions for job descriptions. ROM extracts object candidates from job descriptions, constructs a network including contextual information, and automatically qualify data objects by using relationship information between objects. ROM also exploits a domain corpus to eliminate the ambiguity of job descriptions. The domain corpus is constructed by transforming field vocabulary into context vectors using neural network language model. In the final data object qualification step, we use a discrete choice model including relational variables such as centrality and structural hole, which are computed in relation to each other in contextual network. In order to evaluate the applicability of the proposed ROM, we developed a pilot system as well. Experimental results have shown that ROM greatly improves the performance of data object qualification over conventional automation methods.

데이터는 정보기술이 기업 구조와 시장을 획기적으로 변화시키면서 기업 경쟁우위의 핵심 원천이 됐다. 데이터 모델은 기업이 데이터를 전략적으로 관리하고 활용하기 위한 출발점이다. 기존의 데이터 모델은 현장 사용자와 분리되어 데이터 설계 전문가가 데이터베이스를 개발하고 운영하기 위한 기술적 용도로 작성됐다. 데이터 모델링에 사용자가 수동적 역할만 수행하고 전문가가 개입하면서 모델링 오역이 발생하고 시간과 비용이 증가하기 때문에 데이터 모델의 비즈니스 대응력은 저하될 수 밖에 없다. 기업이 민첩하게 데이터를 활용할 수 있도록 사용자가 데이터 모델링을 주도적으로 수행할 수 있도록 지원하는 자동화 연구가 활발하다. 데이터 모델링 자동화 시스템은 전문가가 수행한 데이터 객체 추출과 판별 과정을 자동화해야 한다. 지난 수십년 동안 데이터 객체 추출과 판별을 위해 지식기반, 규칙기반 자동화 연구가 수행되었다. 하지만 이들 연구는 과거 결과에 과도하게 의존함으로써 새로운 업무 요구사항을 데이터 모델에 반영할 수 없었다. 더구나 기존 시스템은 객체 후보 추출은 자동화하고 최종 판별은 데이터 모델 지식이 없는 사용자에게 재확인하는 반자동화 방식으로 현장 사용에 한계가 있었다. 본 연구에서는 많은 시간과 비용이 소모되는 지식베이스 구축이나 엄격한 사전 제약 없이 사용자가 자유롭게 작성한 텍스트 업무기술서에서 데이터 모델링을 완전 자동화하는 관계 중심 객체 판별 모형 (Relationship-oriented Data Modeling Automation, ROM) 을 제안한다. ROM은 텍스트 업무기술서에서 객체 후보를 추출하고, 컨텍스트 정보가 포함된 네트워크를 구축하여 객체간의 관계 정보를 활용하여 객체를 자동 판별한다. ROM은 텍스트 업무기술서의 모호성을 사전에 제거하기 위해 도메인 말뭉치를 구축한다. 도메인 말뭉치는 현장 용어들을 신경 언어망 기반의 컨텍스트 벡터로 변환하여 구성한다. 최종 데이터 객체 판별 단계에서는 컨텍스트 네트워크에서 객체간 관계에서 계산되는 중심성, 구조적 공백과 같은 관계 변수를 포함한 이산형 선택 모형을 사용한다. 본 연구에서 제안한 ROM의 현장 적용 가능성을 평가 검증하기 위해서 파일럿 시스템을 제작하였다. 실험을 통해 ROM이 기존 자동화 방법보다 데이터 객체 판별 성능을 매우 개선함을 확인했다.

서지기타정보

서지기타정보
청구기호 {DMT 18008
형태사항 iv, 86 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 최학열
지도교수의 영문표기 : Songchun Moon
지도교수의 한글표기 : 문송천
Appendix: A, Formal Expressions of Mechanisms in ROM. - B, Job description samples
학위논문 학위논문(박사) - 한국과학기술원 : 경영공학부,
서지주기 References : p. 80-86
주제 data model
automated data modeling
contextual network
recurrent neural network language model
choice model
object qualification
데이터 모델
데이터 모델링 자동화
컨텍스트 네트워크
순환 신경망 언어 모형
선택 모형
데이터 객체 판별
QR CODE qr code