안녕하세요, 데이터Hub팀 윤병연입니다. 오늘 뉴스레터에서는 재수강 데이터를 다뤄보도록 하겠습니다. 재수강은 수업을 다시 들으면서 이해도를 높일 수 있다는 점에서는 의미가 있으나 대부분 성적 향상을 목적으로 반복 수강하는 것이기 때문에 효율적인 시간 사용이라고 하기는 어렵습니다. 학생 입장에서도 최대한 재수강을 피하고 원하는 성적을 받는 것을 선호하겠지만 초수강시에는 이를 예측하기 어렵습니다. 그 누구도 다시 들을 생각을 하면서 수강 신청을 하지는 않으니까요. 이번 분석에서는 여러 차원에서의 재수강 발생 요인과 예측 가능성을 분석해보도록 하겠습니다.
1. 데이터 둘러보기
오늘 분석에서는 2019년 수강 기록 중 재수강 데이터를 따로 추출하여 활용합니다. 학생 개인정보 혹은 학과별 정보가 포함된 경우 구체적인 수치는 공개하지 않거나 뉴스레터에 포함하지 않았습니다. 우선 이수구분별로 확인해 보겠습니다. 교양 수업이 절반, 그 다음은 전공 과목이 절반을 차지하고 있는 비율입니다. 후술하겠지만 교양 과목의 경우 저학년 때 주로 수강하는 기초 과목이 포함되어 있기 때문에 전공만큼 큰 비율로 나타나는 것으로 보입니다.

Note. 이수구분별 재수강 과목
그 다음 과목 분포입니다. 교양 혹은 기초 과목들이 몰려 있는 기초교육원이 상위권을 차지하고 있는 모습이 보입니다. 그 다음 수학과에서는 여러 학과에서 기본으로 요구하는 미적분학 같은 수업이 포함되어 있어 높은 재수강 비율을 보이고 있습니다. 오늘 뉴스레터에는 포함하지 못했지만 미적분학의 경우 초수강 년도가 1학년 때인 비율이 높은 편입니다. 특히 남학생의 경우에 2016년도 초수강 했던 수업의 재수강 비율이 높은 모습을 보이는데요, 이는 군 전역 후 입학생 때 들었던 수업을 다시 재수강 하기에 나타난 것으로 보입니다. 추가적인 분석도 있지만 학생 정보가 포함되어 있어 제한적으로 보여드릴 수밖에 없는 점 이해 부탁드립니다.

Note. 재수강 빈도가 높은 과목 리스트
2. 관련 연구 & 분석
방법
ü재수강 예측
기존 연구에서는 주로 수업 및 대학에서의 중도탈락을 많이 다룹니다. 온라인 학습자의 중도탈락 예측 및 주요 변인 탐색 (박혜진 외, 2022; Kashyap & Nayak, 2018), 신입생 대상 중도탈락 예측 모형 구성(이은정 & 이정훈, 2021) 등이 중도탈락을 주제로 한 연구들입니다. 중도탈락 시기에 대한 분석이 필요하면 생존 분석을 활용하기도 합니다.
이번 분석에서는 중도탈락의 의미를 재수강으로 확장합니다. 학교를 그만두거나 수강 포기를 하는 것도 재수강과 같은 맥락에 놓여 있는 것으로 볼 수 있습니다. 재수강을 통해 새로운 성적을 받고 초수강의 성적을 포기할 수 있기 때문입니다. 재수강 여부에는 시간 정보가 포함되어 있지 않기 때문에 이진 분류 문제로 볼 수 있습니다. 따라서 이번 분석에서는 특정 과목을 들은 학생들 중 재수강 여부를 기준으로 코딩하고 중도탈락과 동일하게 분석합니다.
ü 분석 방법
중도탈락을 다룬 기존 연구에서는 분류를 위해 다양한 머신러닝 기법을 활용합니다. 랜덤 포레스트, 서포트 벡터 머신, 로지스틱 분석 등이 중도탈락 분류를 위한 기법으로 사용된 바 있습니다. 만약 시간에 대한 고려가 필요하다면 딥러닝에 기반한 생존 분석 기법을 활용해 중도탈락을 예측하기도 합니다(정보처 뉴스레터 참고). 이번 뉴스레터에서는 시험적으로 로지스틱 분석, 랜덤 포레스트를 활용해 재수강을 예측해보고 주요 변인을 찾아보도록 하겠습니다.
3. 연구 문제 설정
1) 초수강 상황에서 어떤 요인이 재수강에 영향을 미치는가?
2) 재수강을 예측할 수 있는가?
4. 분석 맛보기
해당 연구 문제를 본격적으로 탐구하기 앞서 시험삼아 연구 문제 2를 분석해보도록 하겠습니다. 기본적인 정보와 학기 수강기록을 기반으로 재수강을 예측시 도출되는 정확도와 중요 변인은 다음과 같습니다. 분석 결과 로지스틱 분석: 67% 랜덤 포레스트: 68%로 높지 않은 모습을 보입니다. 랜덤 포레스트 모델에서 변수 중요도를 통해 확인해보면 입학년도, 재학년도, 이수구분이 상대적으로 중요한 변수로 도출됩니다.

아예 엉망인 모델은 아니지만 그렇다고 의미가 있는 결과는 아닙니다. 기본적인 정보만을 피처로 넣었기 때문에 중요도로 나온 변수도 어떤 의미가 있는 것인지, 어느 정도의 중요성을 지니는지 판가름하기 어렵습니다. 따라서 재수강 여부를 예측하기 위해서는 학생들의 수강 관련 정보가 꼭 필요할 것입니다. 또한 학업 성취도와 직접적인 연관이 있는 만큼 기존 연구에서 성취도에 영향을 미치는 것으로 판명했던 데이터도 같이 고려해야겠죠. 어떤 수업을 같이 듣는지, 수강하는 수업의 다양성(수강 과목들의 개설학과가 다양할 수록 성적이 높거나 혹은 낮을 수도 있을 것입니다.) 혹은 시간표마저 (Larabi-Marie-Sainte et al., 2021) 영향을 주는 요인이 될 수 있습니다. 아침 시간에 듣는 수업이거나 연강인 경우 재수강 할 확률이 더 높을 가능성이 있습니다. 이번 편은 시험삼아 분석해 본 것인 만큼, 다음 2편에서는 학생들의 수강 관련 정보가 들어 있는 데이터를 분석에 활용하고자 합니다. 다음 뉴스레터에서 뵙겠습니다. 감사합니다.

References
박혜진, 김석원, 이성혜. (2022). 온라인 학습자의 중도탈락 예측 요인 탐색: 랜덤 포레스트를 적용하여. 교육공학연구, 38(1), 297-332.
이은정, 이정훈.(2021).대학 신입생 중도탈락 예측 요인 분석: S대학 사례를 중심으로.한국콘텐츠학회논문지,21(4),317-330.
Kashyap, Avinash & Nayak, Ashalatha. (2018). Different Machine Learning Models to Predict Dropouts in MOOCs. 80-85. 10.1109/ICACCI.2018.8554547.
Larabi-Marie-Sainte S, Jan R, Al-Matouq A, Alabduhadi S (2021) The impact of timetable on student’s absences and performance. PLOS ONE 16(6): e0253256. https://doi.org/10.1371/journal.pone.0253256