Every year, colleges and universities are overloaded with large volumes of applications for admissions. In response, prior studies have attempted to fully automate the review process; however, such systems may lead to undesirable outcomes for some of the applicants. In this work, we propose a human-in-the-loop evaluation framework that incorporates a machine learning model to automate the acceptance and rejection of unquestionable applicants, while proceeding borderline applicants to be passed onto the admissions committee for review. To deploy our framework in colleges, we additionally consider two critical cases: (i) applicants who may be qualified should not be rejected by our model before the human review, and (ii) the model mispredictions should not be biased towards a certain subgroup of applicants (e.g., female applicants more likely to be mispredicted than male counterparts, and vice versa). To quantify the bias properly, we also propose a novel fairness metric that measures the degree to which each subgroup is getting mispredicted by the model. We empirically demonstrate that our proposed model, which is built upon the state-of-the-art deep neural networks, surpasses the widely used baselines in terms of the number of mispredictions made and the bias of mispredictions.
매년 100만명이 넘는 지원자를 평가해야 하는 입학사정관의 부담을 덜기 위해 서류 검토를 자동화하려는 시도가 있었다. 하지만, 사람의 개입 없이 머신러닝 모델만을 사용한다면, 서류 검토 과정에서 예상하지 못한 잘못된 결과가 나타날 수 있다. 따라서 본 논문은 머신러닝 모델이 지원자를 ‘확실한 합격’, ‘확실한 불합격’, ‘불확실함’ 세 분류로 나누고, ‘불확실함’에 속한 지원자들만 입학사정관이 평가하는 서류 평가 시스 템을 제시한다. 이러한 시스템을 실제 입학사정관 전형 심사에 적용하기 위해서, 본 논문은 다음의 두 가지 경우를 고려한다: (i) 실제로 사람이 심사했다면 합격할 학생을 ‘확실한 불합격’이라고 예측 해서는 안되며, (ii) 그러한 ‘잘못 예측하는 정도’가 특정 군에 몰리도록 하게 해서는 안된다 (e.g., 여자가 남자에 비해 모델이 잘못 예측하는 비율이 지나치게 높아서는 안된다). 따라서 본 논문에서는 (i) 데이터셋이 다중레이블 세팅 (여러명의 심사위원) 임을 이용하여 잘못 예측될 정도를 최소화한다. 또한 (ii) 각 군 간의 잘못 예측되는 비율이 공평한지 측정할 수 있는 공정성 측정 기준을 제시하고, 이를 최대화 할 수 있는 모델을 제시한다. 본 논문은 실험을 통해 제시된 모델이 기존 알고리즘들 보다 높은 성능을 냄을 보인다.