학교에서는 다양한 설문을 통해 구성원의 의견을 듣고 정책이나 서비스 방향을 결정 합니다. 우리 학교에서는 구글의 G Suite를 사용하고 있어 구글폼을 이용한 설문문항을 이메일이나 문자로 보내어 의견을 많이 구합니다. 중국에서는 구글사이트가 접근이 안되는 문제 등을 고려해서, 다른 설문폼 솔루션으로도 구성원들의 의견을 묻기도 하는데, 과연 얼마나 온라인에서 설문에 답할까요? 온라인으로 설문조사를 할 때 응답자 숫자가 증가하는 형태가 어떤지에 대한 시간적인 분포를 보고 대략적으로 예측할 수 있을까요? 혹은 많이 참여하게 하려면 어떻게 해야 할까요? 몇가지 설문응답 데이터를 보고 여러분도 같이 생각해 보실까요? 


우선 2017년~2020년에 있었던 몇가지 설문조사의 시간에 따른 누적 응답자수 경향을 [그림 1]~[그림 4] 에서 볼 수 있습니다. 흥미롭게도 조사기간은 다르지만 누적 응답자수는 비슷한 모양을 따르고 있습니다. SNS, 문자, 이메일을 다른 형태로 다른 시기에 상기를 시켜 응답자수가 그에 따라 반응하고 있는 것도 확인할 수 있습니다. 


[그림 1] 수강신청 제도개선 설문조사: 2019년 10월 4일~10월23일까지의 응답율 (20일)


[그림 1]은 2019년 2학기에 행해진 수강신청 시스템 개선을 위한 설문조사 응답패턴입니다. 20일에 걸쳐 2400여명의 응답자를 볼 수 있었으며 대략 5번의 급격한 변곡점이 존재하는 것을 볼 수 있습니다. SNS, 이메일, 문자를 통해 구글설문폼이 학생들에게 전달되었습니다. 급격히 증가하는 시점에는 어떤 일이 있었을까요?


[그림 2] 졸업식 참석, 가운 대여 관련 설문: 2020년 2월10일 밤 9시~2월11일 밤 (1일)


[그림 2]는 코로나 바이러스 때문에 2020년 2월 졸업식 가운을 대여하는 것과 졸업식 개최여부에 대한 설문을 급하게 한 결과입니다. 구글폼 특성상 중복으로 대답을 한 경우가 있었음을 고려하더라도 단 하루사이에 6500여건을 응답함으로써 시급하고 중요하면 많은 학생들이 설문에 응함을 볼 수 있습니다. 여기서도 급격한 변곡점이 처음 시작할때 두번, 하루가 지난 오전에 두번 정도 있음을 볼 수 있습니다. 과연 어떤 일이 있었을까요?

[그림 3] 공과대학 해동학술도서관 사용형태 설문조사: 2017년 9월25일~28일 (4일)


[그림 1] ~ [그림 2] 가 학교차원에서 학생들의 큰 관심을 보여주는 사안이었다면, [그림 3]은 2017년 공과대학 공학관 2층에 있는 해동학술정보실에 대한 이용패턴에 대해 공과대학 학생들에게만 설문한 것입니다. 최종 인원이 180여명으로 [그림 2]와는 달리 1/30 수준이지만 누적 응답자수의 개형은 비슷함을 볼 수 있습니다. 응답자 수가 작을 수록 개형이 울퉁불퉁해집니다. 한번의 급격한 변화가 2017년 9월27일 오후 11시경에 발생하는데 이때 상기 이메일을 더 보낸 것으로 짐작 됩니다.
 

[그림 4] ICT/IoT 캠퍼스 위원회 학생수요 설문조사: 2019년 8월16일~23일 (9일)


[그림 4] 는 [그림 3]과 달리 학교 전체를 대상으로 했지만 응답율이 그다지 높지 않았던 “ICT/IoT 캠퍼스에 바라는 모습”에 대한 설문결과 입니다. 여기서도 최초 설문시작 후 한번의 급격한 변화가 보입니다.


[그림 1]~[그림 4]는 각기 다른 설문조사이지만, 누적 설문응답자수의 시간적 추이는 비슷한 개형을 보여주고 있습니다. 이를 특징적으로 정리하면 아래와 같습니다. 

첫째, 이메일, 문자, SNS 등을 통해 공지가 나간 초기에 급격히 설문조사 응답자수가 증가하다가 포화되는 경향을 보이지만 그래도 완만하게나마 증가합니다. 

둘째, 증가율의 변곡점이 되는 시점은 설문조사를 하는 기간, 중요도, 설문문항의 복잡도에 따라 다르게 나타날 수 있지만 곡률이 바뀌는 형태는 비슷합니다. 

셋째, 포화되더라도 이메일, 문자, SNS를 통해 재차 공지를 하면, 초기에 누적 응답자수가 다시 급격히 증가하고 다시 포화패턴에 완만하게 증가하는 경향이 나타납니다. 

넷째, 응답인원이 줄어들거나 인원변화를 세밀하게 따져보면 개형이 울퉁불퉁 해지며 아침, 밤의 변화, 업무시작 시간과도 연동해서 변화가 있음을 추측해 볼 수 있습니다. 

지금까지 다양한 설문형태에 대해서 누적응답자 수의 변화를 살펴보았고 비슷한 개형을 따라감을 알 수 있었는데, 그럼 어떤 패턴을 따르는지 예측할 수 있을까요?

[그림 5] 졸업식과 졸업가운에 대한 누적 설문응답자 수 증가경향 (분 단위)


[그림 5] 는 급격히 증가하다가 포화형태를 보이지만 완만하게 증가하고 있는 경향을 보여줍니다. 그려주는 범위를 늘려주면 포화정도가 좀 더 나타나기 때문에 포화되며 증가하는 경향은 비슷합니다. 포화형태를 보여주는 그래프 개형을 보기 위해 증가하는 지수함수 감쇄 정도를 수식으로 [식 1]에 표현했습니다. [그림 5]에서 fit 부분은 [식 1]에 맞추어 본 것으로 증가형태의 Exponential decay 그래프에 비교적 잘 따르고 있음을 알 수 있습니다. 하지만, [식 2] Logistic growth model과는 잘 맞지 않았습니다. S 곡선의 경우 Logistic 증가함수로 많이 표현하기도 하지만,Logistic 증가함수의 급격한 변화와 포화경향은 완만한 증가와 완만한 포화패턴의 누적응답자 증가 경향과 조금 차이가 있었습니다. (http://www.foresightguide.com/logistic-growth-s-curves/)



[식 1: Exponential Decay (증가형태)]


[식 2: Logistic Growth Model (증가형태)]


[그림 6] 은 [식 1]에서 k 값을 바꾸어 가면서 증가형태의 Exponential Decay 그래프가 어떤 모양을 따르는가 그려본 것입니다. k 값이 커질수록 포화형태가 두드러지며, 작아질수록 완만하게 증가하는 형태를 보여주고 있습니다. 전체적으로 설문에 있어서의 누적응답자수 패턴개형을 잘 따르고 있음을 알 수 있습니다. 증가형태의 Exponential Decay 식을 미분하여 변형해 보면 [식 3]과 같이 나타나는데 이는 단위시간당 응답자의 상대변화율이 일정함을 의미합니다. 상대응답율이 시간당 1%, 2% 이런식으로 표현하는 것이 가능하다는 것입니다.


[식 3: Exponential Decay (증가형태) 미분형태)


[그림 6] [식 1]에서 N0=1, t0=0, k=1, 3, 5, 7, 9 로 바뀌는 경우의 그래프 개형



이번 호에서는 흔히 일어나는 온라인 설문에 대해 답하는 응답자수의 변화에 대해 개형을 우선 살펴보았습니다. 다음 호에는 살짝 맛보기로 전체 개형을 수식으로 표현하고 최종 응답자수를 어떻게 예측될 것인지에 대해서 생각해 볼까 합니다. 여러분도 아래 링크로 들어가셔서, 설문응답 누적자수 데이터로 직접 도표도 그려 보고 예측모델도 한번 만들어 보시겠는지요? 모델을 정확히 만들어 기계학습 등을 적용할 수 있다면, 처음의 설문에 대한 반응을 보고 설문에 대한 관심도 자체도 볼 수 있고 좀 더 폭넓은 설문응답을 받는데 도움이 될 것입니다. 


요즈음 코로나 바이러스가 확산되는 확진자 그래프도 급격히 증가하다가 포화되는 경향을 예상하고 있기 때문에 누적 설문응답자수 패턴을 분석해 보는 것은 요즈음 사회 이슈를 데이터를 통해서 볼 수 있는 기회가 될 것입니다. 

여러 분이 만들어본 예측모델과 분석을 datahub@korea.ac.kr 로 3월 27일(금)까지 보내주시면, 다음 호에 같이 게재하도록 하겠습니다. 관심 있게 한번 같이 해볼까요?


Data@KU 편집팀(datahub@korea.ac.kr)