[에세이] 디지털 세상, 생각해 봅시다. (2편)


보이스 피싱, 합성된 음성으로 기계와 사람을 기만한다!
모든 것이 합성된다면 우리 사회에서는 무슨 일들이 일어나게 되는 걸까? 최근 시카고 대학교의 연구진이 어떻게 사람과 기계가 합성된 음성을 '진짜'라고 믿게 되는지를 밝힌 연구를 발표하였다. 결과는 미래안보와 적잖은 사회문제를 암시하고 있다.
실험방식: 실험을 위하여 연구진은 두가지 시스템을 이용하였다. SV2TTS(구글의 Tacotron이라는 툴을 활용한 딥러닝 기반 문자 대 음성 합성 시스템)와 AutoVC(오토인코더 방식의 음성 변환 시스템)이 그것이다.
공격방식: 연구진은 다음과 같은 오픈소스, 상용 시스템을 공격하는 방식으로 테스트를 진행하였다. Resemblyzer(오픈소스 DNN 스피커 인코더, VoxCeleb이라는 데이터셋으로 학습), Microsoft Azure의음성인식 API, WeChat의 음성지문 로그인 시스템, Amazon Alexa의 음성 프로파일 시스템

기계 시스템에 대한 기만 결과: SV2TTS는 Resemblyzer에 대하여 VCTK라는 데이터셋을 학습할 경우, 50.5% 기만하였고 LibriSpeech 데이터셋을 학습 할 경우, 100% 기만 할 수 있었다. 반면, AutoVC는 효과적인 기만 공격에 실패하였다. SV2TTS는 AutoVC에 비하여 Azure에 대하여 29.5% 더 효과적으로 기만 공격에 성공하였고, WeChat과 Alexa에 대하여 각각 약 63% 높은 기만 공격 성공율을 나타냈다.

(위의 표와 그림은 Resemblyzer 시스템을 공격할 경우, LibriSpeech 데이터셋이 기만공격용 모델 학습에 효과적이었으며 여성 목소리 합성 기만이 남성 목소리에 비하여 호소력 있었음을 알 수 있다.)

(위의 표와 그림은 Azure 시스템에 대한 공격 결과를 나타낸다.)

(위의 표는 WeChat과 Alexa에 대한 공격 결과를 기만 성공율로 정리한 결과이다.)
사람에 대한 기만 결과: 사람은 기계에 비하여 기만 공경이 통하기 쉽지 않지만 적잖이 기만 공격에 취약하였으며, 실제 음성과 허위 음성(합성 기만 음성)을 50% 정도로 구분할 수 있었다.

(위의 표는 기만 시스템이 사람에 대하여 기만 공격을 가하였을 경우, 유명인의 목소리 분별은 79.9%로 다소 높은 기만 실패율을 보였으나 불특정 사람의 목소리는 약 50% 정도의 기만 실패율 즉 기만 성공률 결과를 보여주고 있다.)
사회적 시사점:우리 사회는 스팸으로 이미 일상적인 공격에 노출되어 있으나 전화로 들려오는 목소리가 ‘가짜‘임이 분명한 경우가 대부분 입니다. 그러나 만일 그것들이 ‘진짜‘ 목소리로 들리기 시작한다면 문제는 심각해 질 것 입이다. 그리고 만약, 기만 음성을 판별하는 앱이나 시스템을 사용하더라도 여전히 차단되지 않는다면 어떻게 해야 할까요?…

(위 표는, 세 가지 방식의 기존에 발표된 기계학습 및 딥러닝 기반 기만 탐지 시스템의 탐지 성공률과 실패율을 보여준다. 합성 기만 음성은 두가지 스피커 장비를 통하여 발성 되었다. 일반적으로 실패율이 1% 이하 일 경우 고성능 생물 계측 시스템으로 분류된다. 표의 결과는 모두 5% 이상의 실패율을 보여주고 있다.)
“본 글은 https://us13.campaign-archive.com/?u=67bd06787e84d73db24fb0aa5&id=69dc2c2424 에 실린 글을 번역하여 https://arxiv.org/pdf/2109.09598.pdf 의 “Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World, (by Emily Wenger et al., 20 Sep. 2021) 논문 내용을 참고로 작성되었음을 밝힙니다.”
감사합니다.
-끝-