With the emerging fintech trend, P2P lending is in the limelight. Analysis on the delinquency and default rate plays a crucial role in this business. Previous research covers various factors, including demographic, geographic and economic factors, yet does not take into account sales of P2P lending applicants, which are sources of revenue. Thus, this thesis studies factors related to business failure from credit/debit/pre-paid card transaction data of online P2P lending applicants. Various features are engineered based on the data, which are then, partially selected for a logistic regression model by classifying feature importance with Gradient Boosting Classifier. The logistic regression model analysis demonstrates that the contract period, the ratio of the number of transactions in autumn, the transaction trend in recent three and twelve months have a negative correlation with the probability of business failure. On the other hand, the ratio of transaction volume in spring, the volatility of monthly transaction volume in winter, the ratio of the number of transactions in summer, the merchant category of food and cultural entertainment compared with health care show a positive correlation with the business failure probability. Where the applicants are located does not have a meaningful correlation with the failure probability. Moreover, according to the decision tree model, if the contract period, the transaction trend in recent 12 months, the ratio of transaction volume in autumn and winter exceed certain values, the applicants have a high probability of survival. This thesis demonstrates business failure factors of online P2P lending applicants and their importance in prediction.
핀테크가 발전하면서 P2P 대출 분야 역시 각광받고 있다. 이에 따라 P2P 대출의 연체율 및 부실률 분석의 중요성이 부상하고 있다. 기존의 연구는 인구, 지리적 특성, 경제적 변수 등 다양한 요인을 고려하고 있으나 수익의 원천인 매출에 대해서는 고려하지 않고 있는 실정이다. 따라서 본 연구에서는 온라인 P2P 대출 신청 사업장의 카드 승인 데이터에서 발견할 수 있는 폐업 예측 요인을 분석하였다. 해당 데이터를 기반으로 다양한 파생 변수를 생성한 후 그래디언트 부스팅 분류기(Gradient Boosting Classifier: GBC)를 통해 예측력이 높은 변수들을 선별하여 로지스틱 회귀모형을 구축하였다. 로지스틱 회귀모형 분석 결과, 계약기간, 가을결제건수비율, 최근3개월결제액추세, 최근12개월결제액추세는 폐업 확률과 음의 상관관계를 보이고, 봄결제금액비율, 겨울월별결제액변동성, 여름결제건수비율, 업종대분류 중 보건/의료 대비 식생활(음식점/식음료) 및 교양/문화/오락은 폐업 확률과 양의 상관관계를 지닌다. 사업장지역은 폐업 확률과 유의미한 관계가 없다. 또한 의사결정나무 예측 모형에서는 계약기간, 최근12개월결제액추세, 가을결제액비율, 겨울결제액비율이 특정 값을 초과할 때 사업장의 생존 확률이 높다고 확인할 수 있었다. 본 연구를 통해 온라인 P2P 대출 신청 사업장의 폐업과 관련 있는 요인을 밝힐 수 있었으며, 요인의 중요도도 파악할 수 있었다.