음성 기반 보안 인증을 단계적으로 폐지할 것.
오픈AI가 음성 생성 AI '보이스 엔진'(Voice Engine)의 미리보기를 공개하며 권장한 사안이다. 동영상 생성 AI '소라' 공개 이후 약 1달 만이다.
보이스 엔진은 약 15초 분량의 음성 샘플을 입력하는 것 만으로 감정 표현을 포함한 사실적인 음성을 제작할 수 있다. 오픈AI는 2022년 말 보이스 엔진을 개발했으나, 오용의 우려가 있어 소규모 테스트를 진행하며 배포 여부와 방법을 결정할 예정이라고 밝혔다.
오픈AI의 소개에 따르면 보이스 엔진은 생성형 AI GPT-4를 통해 실시간으로 음성을 제작할 수 있다. 주어진 샘플의 특성이 제작된 음성에도 반영되는 것이 특징이다. 가령 프랑스어 화자의 목소리로 영어 문장을 만들 경우 프랑스어 억양이 섞인 음성이 완성되는 식이다.
- 레퍼런스 음성
- 보이스 엔진으로 제작된 음성
일본어
중국어
스페인어
(출처: 오픈AI)
오픈AI 홈페이지에는 퇴행성 언어 장애로 고통받는 환자의 목소리를 비장애인과 같이 변환해 주거나, 다양한 지역 방언이 사용되는 아프리카 지역에서 내담자가 선호하는 언어로 상담 답변을 해주는 등의 활용 방식이 공개되었다.
작년 말부터 진행된 보이스 엔진 테스트는 교육 기업 에이지 오브 러닝(Age of Learning), 아프리카 보건 상담 서비스 기업 다이마지(Dimagi), AI 아바타 서비스 기업 리복스(Livox), 비영리 의료 단체 라이프스팬(Lifespan) 등이 참여했다.
오픈AI는 ▲음성 기반 보안 인증 단계적 폐지 ▲개인의 목소리 사용을 보호하기 위한 정책 논의 ▲사기성 AI 콘텐츠의 가능성을 포함한 대중 교육 ▲시청각 콘텐츠의 출처를 추적하는 기술의 개발 및 채택 가속화 등과 같은 조치를 권장했다.
이어 "더욱 설득력 있는 생성형 모델은 여러 문제를 야기할 수 있다. (보이스 엔진 미리보기가) 사회적 대안 마련의 동기를 부여하기를 희망한다"며, "정책 입안자, 연구원, 개발자 및 창작자들과 함께 합성 목소리의 과제와 기회에 관한 대화에 참여할 수 있기를 기대한다"고 밝혔다.