"잠시 후 우회전입니다. 이어서 300m 앞 좌회전입니다."
문장을 음성으로 읽어주는 TTS(텍스트 투 스피치) 기술은 우리 생활 속 깊숙이 들어왔다. 운전자들에게 익숙한 내비게이션부터, 최근에는 유튜브 영상의 내레이션에서도 흔히 들을 수 있다. 여러 채널에서(특히 숏폼 영상에서) 특정 AI(인공지능) 보이스가 '캐릭터'로서 기능하는 경우도 많이 보셨을 것이다. 당장 대형 언론사들의 유튜브 뉴스 영상만 봐도 'AI 앵커'가 읽어주고 있으니 말이다.
게임 업계에서도 AI 보이스는 뜨거운 주제다. GDC 2024에서는 'AI가 게임 내 음성에 미치는 영향'에 대해 자유로운 담론이 오가는 라운드테이블이 열렸을 정도다. 현장에는 글로벌 시장에서 활동하고 있는 성우들, 이런 성우들과 함께 작업하는 개발사 및 현지화 담당자 등 다양한 직군의 사람들이 모였다. 그리고 기술 활용에 대한 뜨거운 논쟁이 이어졌다. 작금의 상황을 정리하면 다음과 같다.
▲ 단순히 문장을 읽어주는 TTS는 꽤 발전한 상황
▲ 하지만 해당 언어를 모국어로 활용하는 사람들에겐 어느 정도 '위화감'이 드는 수준인 게 현실
▲ 감정, 상황, 뉘앙스를 포함한 '연기'를 하는 AI 보이스는 더더욱 불완전한 상태
▲ 음성 학습량이나 활용하는 사람의 기술 이해도에 따라 높은 퀄리티의 결과물도 드물게 나오고 있음
AI 발전 속도는 매우 빠르다. 사람의 육성인지, 인공지능이 만든 음성인지 구분하기 어려운 시점이 곧 올 것이며, 단순 정보 전달을 넘어 AI의 연기력을 논하는 날이 올지도 모른다. AI 보이스를 대하는 업계의 입장은 각양각색이다. 누군가는 환영하는 반면, 누군가는 반대하고 있다. 양측 모두 확실한 '논리'가 있어 좀처럼 입장이 좁혀지지 않는 상황이다. 미리 밝히지만 단순한 '비용 지불 문제'가 아니다.
이번 글은 GDC 2024 'AI 보이스 라운드테이블' 및 최근의 취재를 종합해 작성하는 칼럼이다. 특정 업체나 집단에 대한 옹호 및 저격을 하고자 하는 의도가 아니며, 중요한 담론에 대한 이해를 높이는 차원에서 해당 주제를 다루고 있음을 미리 밝힌다. /디스이즈게임 김승준 기자
라운드테이블에서 게임 개발에 AI 보이스가 필요하다고 주장한 개발사들은 어떤 이유를 제시했을까? 비용 절감 때문에? AI 보이스가 필요하다고 주장한 사람들의 입에서 '돈'에 대한 직접적인 이야기는 거의 나오지 않았다. 오히려 게임 그 자체를 위해 AI 보이스가 필요하다고 했다. (일단, 표면적으로는 그랬다.)
예를 들어, 우리는 튜토리얼 전후에 '플레이어'의 닉네임을 기입하는 수많은 게임들을 경험해왔다. 텍스트 단위에서는 "음주도치(은)는 여기에 어떻게 오게 됐어?"와 같은 변환이 쉽지만, 음성 출력에서는 이런 적용이 어렵다. 그래서 '여행자', '방랑자'와 같은 호칭을 사용하거나, 플레이어를 직접 지칭하는 부분의 음성을 생략하는 경우가 대부분이다. AI 보이스를 활용하면 이 모든 사례를 커버할 수 있다는 주장이다.
방대한 분량의 시네마틱을 포함한 게임이 늘어왔던 업계의 현황도 언급됐다. 이 많은 대사를 모두 성우의 목소리로 녹음하면, 제작 기간도 길어지고 품이 많이 든다는 맥락이다. 특히, 최근에는 AI를 활용해 스크립트를 생성해내는 게임도 등장하는 추세라서, 해당 기술에 AI 보이스까지 더해지면 게임 개발 및 플레이어 경험이 한 단계 확장될 것이라 전망했다.
다만, 해당 주장에 대해서는 시선이 크게 엇갈렸다. '효용'과 '비용' 사이의 논쟁이었다. 게임 개발이 용이해질 수는 있겠으나, 성우 업계에 끼칠 영향 및 보이스를 '악용'하는 사례에 대한 우려의 목소리가 나왔다. 어떤 미래가 다가올지 뻔히 알고 있다면, 가만히 눈 뜨고 보고 있을 게 아니라 바로잡으려는 노력이라도 해야 한다는 주장 또한 나왔다.
다수의 성우들과 일부 게임사들은 사회적 합의와 약속이 선행되어야 한다고 피력했다. 2023년 할리우드에서 딥페이크 기술에 의한 초상권 침해 등을 이유로 작가·배우들의 파업이 진행된 것을 기억하시는가? 미국 등 서구권에서는 배우와 성우의 경계가 흐릿하기 때문에, 이들은 같은 문제 의식을 공유하고 있었다.
일단 가장 큰 문제는 정당한 비용 지불에 대한 영역이다. 당장 보편적으로 활용되고 있는 TTS만 봐도, 해당 성우의 1회 녹음 비용, 평균 녹음 회수, TTS로 사용하기로 한 계약 기간 등을 고려해 비용을 지불하는 것이 일반적이나, 일부 블랙 기업들에 의한 일명 '가격 후려치기'가 존재하는 것 또한 사실이다.
AI의 연기력(?)이 발전할 미래의 상황을 가정해보자. 현재는 성우에게 '고유의 목소리'+'연기'에 대한 비용을 지불하고 있는데, '목소리'만 팔라고 주장한다면 어떻게 될까? (법적인 저작권은 없지만) '연기' 스타일만 팔라고 주장한다면? 기술이 발전한다고 해서 이게 선택적으로 거래될 수 있는 영역일까?
또 다른 문제는 성우의 동의 없는 무단 사용이다. AI 보이스 '사용처' 및 '용도'에 대한 명시를 한 계약이 주류가 되어 가고 있으나, 여전히 불공정 계약을 통해 성인물, 정치물, 도덕적 문제가 있을 수 있는 콘텐츠 등에 무단 사용되는 경우도 있다. 심지어 크레딧을 남기지 않고 학습 및 활용시키는 사례도 있다.(다만, 크레딧 명시는 계약 조건에 따라 다를 수 있다)
배우들이 작품이나 배역을 고사하는 이유 중엔 '연기폭이나 이미지 구축' 외에도 '소신과 신념'도 있다는 점을 잊지 말아야 한다. 라운드테이블 현장에서 한 성우는 "콘텐츠를 소비하는 사람들의 권리가 보호되어야 하는 것처럼, 만드는 사람들의 권리도 존중되어야 한다. 우리는 많은 사람들에게 연기를 전달하는 그 자체에서 큰 기쁨을 느끼고 있는데, 이 씬에 대한 존중은 왜 언급되지 않는가?"라고 말했다.
이번에는 조금 다른 차원의 이야기다. <더 위쳐> 시리즈와 <사이버펑크 2077> 등으로 친숙한 CD 프로젝트 레드(CDPR)는 뛰어난 시네마틱으로 그간 많은 사랑을 받아온 기업이고, 특히 '성우' 활용을 잘 하는 회사로 유명하다. 국내 게이머들에겐 <사펑>에서의 속 시원한(?) 비속어 더빙으로도 익숙하겠지만, 폴란드 원어를 포함한 많은 국가에서 현지화 및 음성 연기 연출에 대한 극찬을 받은 경험이 있다.
실감나는 게임 경험을 위해 한 명의 성우가 과도하게 많은 캐릭터를 연기하는 '중복 캐스팅'도 지양하고, 성우들의 연기력을 이끌어내기 위해 부단한 노력을 해왔던 CDPR이 AI 보이스 활용에 대해 '경우에 따라 필요할 수 있다'는 주장을 했다. 다름 아닌 '사망한 성우의 연기를 보존하기 위함'이었다.
CDPR 현지화 엑스퍼트 매니저 알렉산더 라드케비치는 10년 이상 그들과 함께 일해온 폴란드 성우 '렉젝'(Reczek)의 목소리를 AI에게 학습시켜 게임에 포함시킨 사례를 소개했다. <사이버펑크 2077>에 등장하는 '빅터 벡터' 배역의 목소리 연기를 추가하기 위해 여러 방안을 고려하던 중 "유족과의 합의 하에" 이러한 결정을 내렸다. 특히 렉젝의 자녀들은 이에 대해 매우 긍정적인 반응을 보였다고 한다.
기술적으로는 다른 배우가 렉젝의 스타일을 모방해 연기한 녹음본을 AI를 활용해 렉젝처럼 들릴 수 있게 수정하는 방식을 사용했다. CDPR은 이를 통해 렉젝과 그의 배역 모두를 존중하는 것에 성공했고, 게임의 팬들도 만족시킬 수 있었다. 가슴 따뜻해지는 AI 보이스 활용 사례라니, 낯설지 않은가? 이런 화이트 기업만 있다면 참 좋겠지만, 세상은 그리 평화롭지 못하다는 게 문제다.
여기까지 따라오셨으면 눈치 채신 분이 있으실 것이다. 성우들과 일부 게임사들이 지적한 '블랙 기업'의 입장이 없다. 그렇다, 라운드테이블 현장에선 성우들에게 불합리한 조건을 강요했던 기업들이 (참석 여부는 알 수 없으나) 입을 열지 않았다. 자신들도 스스로 떳떳하지 못하다는 것을 알거나, 이 담론 자체에 관심이 없거나 둘 중 하나이리라.
정작 이 이야기를 들어야 할 사람들이 없는 라운드테이블이라니 '홍철 없는 홍철팀' 아닌가 싶겠지만, 그럼에도 불구하고 이런 자리와 논의는 계속되어야 한다. AI는 하루가 다르게 발전하고 있고, 앞서 소개한 여러 사례처럼 직업 생존, 돈 문제를 넘어선 여러 가치가 충돌하고 있는 주제이기 때문이다.
성우와 게임사 대다수가 동의한 지점도 있었다. 사전, 중간 제작(Pre-Production)에서 워크 플로우 단축을 위해 AI 보이스를 활용하는 건 긍정적으로 받아들일 수 있으나, 소비자(게이머)에게 직접 제공되는 최종 제작 단계에서는 여전히 사람의 손길이 필요하다는 것이었다.
'아트'나 '창작'의 정의에 대한 논의까지 필요하다던 뜨거운 논쟁은, 어쩌면 머지않은 미래에 등장할 '연기 잘 하는 AI'에 의해 차갑게 식어버릴지도 모른다. 그런 날이 오면 우리는 어떤 연기를 선호하고, 소비하고, 사랑하고 있을까? 가격 경쟁력 앞에서 사람의 연기는 '돈 되는 미디어' 밖으로 밀려나게 될까?
성우 캐스팅을 보고 게임을 구매하는 기자 본인에게 이런 질문이 들어올 때가 있다. "왜 보이스를 그렇게 중요하게 생각하시나요?" 이유는 단순 명쾌하다. 그 캐릭터의 페르소나를 살려낸, 일대일 매칭이 되는 거의 유일한 인물이기 때문이다. 게임을 대표하는 인물이 메인 작가와 디렉터고, 여러 캐릭터들의 부모 역할을 하는 게 아트팀이라면, 해당 캐릭터 그 자체인 인물은 '성우'라는 생각이다.
원작과 많은 시간차를 둔 리메이크, 해당 작품의 판권 이동으로 인한 재더빙 사례 등을 제외하면, 우리는 한 캐릭터의 인상에 대해 '공통의 경험'을 가지고 있다. 그 경험의 중심에는 '성우 연기'가 존재한다. AI가 인간만큼 연기를 잘 하는 날이 오면, 성우 팬들은 AI 기술을 내놓은 개발사를 덕질할까? 글쎄, 최소한 기자 본인은 '팬덤'이 그렇게 건조하게 형성되지 않으리라 생각한다. 여러분의 생각은 어떠한가?