서지주요정보
Study on safety risk factors in traffic accidents using data mining techniques = 데이터 마이닝 기법을 이용한 교통사고 위험요인에 관한 연구
서명 / 저자 Study on safety risk factors in traffic accidents using data mining techniques = 데이터 마이닝 기법을 이용한 교통사고 위험요인에 관한 연구 / Oh-Hoon Kwon.
저자명 Kwon, Oh-Hoon ; 권오훈
발행사항 대전 한국과학기술원, 2014].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8026833

소장위치/청구기호

학술문화관(문화관) 보존서고

DCE 14007

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

One of the main topics in traffic safety studies is identifying important causal factors of traffic accidents. Various conventional methods have been widely applied to historical accident data for this purpose. However, recent digitization of historical accident reports and increase of database size have encouraged the application of various data mining techniques to data driven safety researches. This broadened choice of statistical approaches has contributed to the discovery of new knowledge from a large-scale accident database and mitigated weaknesses of existing models stemming from predefined assumptions. This study aims to discover characteristics of traffic accident risk factors by applying various data mining techniques to a large-scale accident database. A historical accident database of the state of California from 2004 to 2010 is used as a data source. This study addresses three subjects in traffic safety: (1) identification of the influential risk factors on injury severity with consideration of interdependency; (2) application of the key risk factors to a logistic regression model for an injury severity analysis, and (3) evaluation of the effectiveness of the handheld cellphone law. The first subtopic applies a few methodologies using two different classification methods, the Naive Bayes Classifier and the Decision Tree Classifier, to identify the relatively important risk factors with respect to injury severity level and analyze dependency among the risk factors. The scope of the analysis is constrained to accidents involving only cars and 25 risk factors in the SWITRS data. The findings are that some important risk factors have strong interdependency and considering the dependency among the top risk factors is vital for an accurate analysis. In the second subtopic, we apply the identified key risk factors to a logistic regression model which is one of the typical methods in an accident severity analysis. The evaluation is performed using the two top-ranked risk factor sets that are identified by the two classifiers. The analysis shows that the logistic regression model has relatively low performance in comparison with the other classification models and that the ranking selection of the Decision Tree, which accounts for interdependency of risk factors, is more effective for obtaining an accurate logistic regression model than the Naive Bayes’ selection. Lastly, we propose a probabilistic model-based approach to evaluate the effectiveness of the handheld cellphone law in California. This approach detects a turning point in the trend of the number of accidents involving cellphone use, and the results provide scientific evidence that the enactment of the law has a primary effect on a decline in the number of collisions involving handheld cellphone use while driving.

교통사고로 인한 인적, 물적 피해는 꾸준히 발생해 왔으며, 그로 인한 사회적, 경제적 손실 또한 상당하다. 이러한 교통사고를 줄이기 위하여 많은 연구와 정부 정책이 시행되어 왔다. 교통사고를 유발시키는 중요 위험요인을 찾는 것은 교통안전 연구의 핵심 과제 중 하나이다. 이를 위해 기존 연구들은 교통사고 이력데이터에 다양한 계량경제학적 모델을 적용하여 위험요인을 분석해 왔다. 그러나 기존의 분석 방법은 변수들 사이에 독립성을 가져야 한다는 점에서 상호 의존성을 가진 위험요인을 분석하는 데 있어 한계점을 가진다. 최근 교통사고 리포트의 전산화와 데이터베이스 구축의 활성화로 교통사고 이력데이터의 활용도가 커지고, 더욱 다양한 통계학적 방법의 적용이 가능해졌다. 다양한 데이터 마이닝 기법의 활용 또한 기존 분석법의 한계점 보완과 새로운 지식을 발견하는 데 있어 교통안전 연구의 새로운 프래임워크를 제공한다. 본 연구의 목적은 대용량 교통사고 데이터베이스에 다양한 데이터 마이닝 기법을 적용하여 교통사고의 위험요인에 대한 특성을 파악하는 것이다. 분석에 사용된 교통사고 데이터베이스 (SWITRS)는 미국 캘리포니아 주 전역에서 2004년부터 2010년까지의 7년간 발생한 교통사고 리포트들을 포함한다. 본 연구는 교통사고 위험요인에 대한 세가지 세부 주제를 다룬다. 첫 번째 주제는 나이브 베이지안 분류 (Naive Bayes classifier)와 의사결정나무 분류 (Decision Tree classifier)를 이용하여 사고 부상 심각도에 크게 영향을 주는 중요 위험요인들을 찾고, 그들 사이의 상호 의존성을 분석한다. 이 연구의 분석 대상은 SWITRS 사고 데이터 중에서 일반 승용차, SUV, 승합차의 사고로 국한 시켰고, 총 25개의 데이터필드를 사용하여 위험요인을 찾는다. 분석 결과, 중요 위험요인들 사이에 상호 의존성이 크게 나타났으며, 그런 의존성을 고려한 중요 위험요인들이 사고의 부상 심각도를 결정하는데 핵심적인 역할을 수행한다. 그리고 위험요인들 사이의 의존성을 고려하는 의사결정나무 분류가 그렇지 않은 나이브 베이지안 분류보다 분류 정확도 면에서 높은 성능을 보여주었다. 두 번째 주제는 이렇게 식별된 중요 위험요인들을 기존의 대표적인 분석 방법 중 하나인 로지스틱 회귀분석 (logistic regression) 모델에 적용하여 그 성능을 살펴본다. 앞서 나이브 베이지안 분류법에 의해 의존성을 고려하지 않은 중요 위험요인들과 의사결정나무 분류법에 의해 식별된 의존성을 고려한 중요 위험요인을 각각 로지스틱 회귀분석 모델의 설명 변수 (explanatory variable)에 적용하여 예측 정확도를 조사해본 결과, 많은 수의 위험요인을 사용하였을 때보다 의존성을 고려한 중요 위험요인들을 변수로 사용하였을 때 가장 높은 성능을 보여주었다. 그러나 회귀분석 모델의 특성 상 다른 두 분류 모델보다 그 예측 정확도가 떨어지는 경향을 보여주었다. 이 연구를 통해 교통사고 부상 심각도에 영향을 주는 요인 분석 시 그들 사이의 상호 의존성은 정확한 모델링을 위해서 반드시 고려되어야 할 특성으로 확인되었다. 마지막 주제는 일반적인 위험요인 분석 결과를 바탕으로 특정한 위험요인에 대한 교통 정책의 효용성을 평가하였다. 최근 많은 연구에서 그 위험성이 확인된 운전 중 휴대전화 사용은 주요 교통사고 위험요인으로 간주되어 왔다. 이로 인해 많은 국가와 미국 주에서는 운전 중 휴대전화 사용을 금지하는 법을 시행 중에 있다. 그러나 그 법의 효용성에 대한 판단이 연구에 따라 상이하다. 본 연구에서는 SWITRS 데이터의 2005년부터 2010년까지의 휴대전화 사용으로 인한 사고 수의 변화를 터닝 포인트 분석 (turning point analysis) 통하여 파악하고, 그로부터 캘리포니아 주의 휴대전화 사용 금지법 시행 시기와 비교하였다. 분석에 사용된 방법은 빈도학파 (frequentist) 접근법과 베이지안 (Bayesian) 접근법을 사용하였으며, 그 결과 휴대전화 사용 금지법과 정확히 일치하는 터닝 포인트를 찾았고, 이로부터 캘리포니아 주의 휴대전화 사용 금지법이 휴대전화 사용으로 인한 사고 수 감소의 주요 요인으로 작용했다는 것을 통계적으로 확인하였다.

서지기타정보

서지기타정보
청구기호 {DCE 14007
형태사항 vii, 100 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 권오훈
지도교수의 영문표기 : Yoon-Jin Yoon
지도교수의 한글표기 : 윤윤진
수록잡지명 : "Evaluating the effectiveness of the law banning handheld cellphone use while driving". Safety Science, v.70, pp. 50-57(2014)
학위논문 학위논문(박사) - 한국과학기술원 : 건설및환경공학과,
서지주기 References : p. 90-95
주제 Traffic Safety
Data Mining
Risk Factor
Historical Accident Data
교통안전
데이터 마이닝
위험요인
교통사고 이력데이터
QR CODE qr code