챗GPT가 연일 화제를 일으키는 가운데, 게임 모드에도 AI를 접목시키는 방안이 해외에서 활발하게 연구되고 있다.
해외 모드 생태계에서 최근 주목받고 있는 AI 기술은 영국의 스타트업 '일레븐랩스'(ElvenLabs)가 개발한 AI 음성 생성기 '일레븐'이다. 일레븐은 1월 23일 베타 서비스를 시작했는데, 이에 몇몇 게이머가 해당 프로그램을 활용해 손쉽게 자신의 모드나 창작물에 음성을 추가할 수 있는 점을 발견하면서 연구가 시작됐다.
더욱이 일레븐은 몇 주도 지나지 않아 의미 있는 결과물을 보여주고 있단 점에서 상당히 흥미롭다. 기술이 잘만 발전할 수 있다면 게임 모드 생태계, 나아가 RPG 장르에 큰 영향을 미칠 수도 있는 셈이다. /디스이즈게임 김승주 기자
# 결과물을 보여주고 있는 AI 보이스
먼저, 왜 일레븐은 모드 생태계에서 큰 주목을 받았을까?
게임의 음성 녹음은 단순하지 않다. 캐릭터에 어울리는 목소리를 가진 성우를 섭외하고, 녹음할 수 있는 공간을 구하고, 맥락을 포함한 대본을 만들고, 연기 톤을 세세하게 지도한다는 것은 개인의 자발성과 흥미에 의존하는 게임 모드 개발에서는 불가능에 가까웠다. 기존에는 아무리 사람들에게 호평받는 훌륭한 모드라도 캐릭터 음성과 관련해서는 어색함을 보이는 경우가 많았다.
모드를 만들 때 음성을 제외할 수도 있다. 그러나 모드를 지원하는 현세대 RPG의 진행 방식이 과거와 상당히 다름을 생각해야 한다. 과거의 RPG는 모든 대화에 대한 음성을 포함시키는 것이 용량 및 기술력 문제로 사실상 불가능했기에 별도의 창에서 출력되는 텍스트 위주로 대화를 이끌어 나갔다.
이후 음성을 넣을 만큼의 용량 확보가 가능해지자 몰입감을 살리고 더욱 많은 게이머를 끌어 모으기 위해 모든 NPC의 대화에 음성을 추가하기 시작했다. UI나 게임 시스템 역시 이에 맞춰 변화했다.
<폴아웃 2>
<폴아웃 4> 모든 대화문에 음성을 포함하면서, 표현 방식 역시 달라졌다. (출처: 베데스다)
따라서 최근의 게임은 음성 추가를 상정해 대화 시스템이 만들어지는 만큼, 아무리 좋은 캐릭터/퀘스트 모드를 만들더라도 대화 시 출력되는 음성이 없다면 상당히 어색할 수밖에 없었다. 음성을 수록하더라도 녹음 환경이 좋지 못하고, 모더가 스스로 녹음하거나 주위의 인물에게 도움을 청해 녹음하는 경우가 많았기에 냉정하게 말해 상당히 어색한 경우가 대다수였다.
해당 소프트웨어가 출시된 후 게임 모드 개발자들에게 큰 주목을 받은 이유는 여기에 있다. AI 기술을 통해 마주하고 있던 한계를 손쉽게 극복할 수 있었기 때문이다. 또한, 아직 '가능성'만이 논의되는 최근의 다른 AI 기술과는 다르게 실제로 결과물을 계속해서 보여 주고 있다는 점에서 더욱 의의가 있다.
일레븐을 활용해 주인공 캐릭터에게 음성을 추가한 <스카이림> 모드
가령 현재 시도되고 있는 사례를 꼽자면 2002년 출시된 <엘더 스크롤 3: 모로윈드>(이하 모로윈드)에 음성을 일부 추가하는 모드가 있다. <모로윈드>는 당시 기술의 한계로 일부 음성만을 구현하고, 대부분의 대화를 텍스트로 진행하는 방식을 선택했지만 AI 음성 프로그램을 활용한 모드를 통해 모든 대화에 음성을 추가하는 것이 현실적으로 가능하다.
<모로윈드>의 최종 보스이자 영미권 커뮤니티에서 큰 인기를 끌고 있는 캐릭터 '다고스 우르'의 AI 음성 도입 사례를 보면 어색함이 상당히 적은 것을 확인할 수 있다.
올드 게이머들은 "드디어 <모로윈드>에 풀 더빙을 추가하는 것도 꿈이 아니다!"라며 열띈 반응을 보냈다.
<폴아웃 4>로 <폴아웃: 뉴 베가스>를 구현하거나, <스카이림>으로 <오블리비언>을 구현하려 하는 대형 모드 개발에도 큰 도움이 될 수 있을 것으로 보인다.
이런 대형 모드는 수 년째 개발을 진행하고 있음에도 모드 개발의 한계로 느린 진척도를 보이고 있는데, 가장 큰 난관은 위에서 언급한 음성 녹음에 대한 문제였다. 거대한 규모의 모드를 만드는 만큼 등장하는 NPC 역시 많기 때문이다.
그러나 AI 보이스를 통해 캐릭터의 음성 더빙 문제에서 자유로워질 수 있다는 점이 증명됐으니 향후의 모딩 생태계에도 큰 영향을 끼칠 것으로 보인다. 이미 몇몇 모더는 재빠르게 자신의 기존에 만들었던 모드에 AI 보이스를 업데이트하며 실제 활용이 가능함을 증명했다.
물론, 1~2년 전 '딥페이크'가 유행하며 이미 AI를 활용하는 모습이 일반 대중들에게도 알려졌기에, 왜 이제야 AI 보이스가 모딩 생테계에서 주목받고 있냐는 질문을 할 수도 있다. 정확한 이유는 알 수 없지만 AI 소프트웨어에 대한 접근성이 높아졌으며 사용하기도 쉬워졌기 때문으로 추정된다.
예를들어 일레븐은 홈페이지에 방문한 후 소정의 구독료를 지불하고 텍스트를 입력하는 것으로 손쉽게 음성을 만들어낼 수 있다. 원하는 목소리 재생을 위해 많은 학습을 필요로 하지도 않으며, 감정 전달에는 분명한 한계가 있지만 평서문에서는 숨소리까지 구현되어 있는 등 어색함이 상당히 적어졌다는 점도 영향을 끼친 것으로 보인다.
# 여기에 챗 GPT를 접목한다면?
여기에 챗GPT와 같은 AI 기술을 접목한다면, RPG 장르의 미래에 대한 발칙한 상상을 해볼 수도 있다. 약 한 달 전, 해외 게임 커뮤니티에서 적지 않은 관심을 끌었던 동영상이 있다. 바로 <마운트 앤 블레이드: 배너로드>에 챗GPT를 활용한 동영상이다.
모더는 "RPG의 미래"라며 아무런 대본 없이 챗GPT만을 활용해 캐릭터와의 대화를 이어 갔음에도 어색함이 적었다고 설명했다.
해외 게이머들이 이 동영상에 놀랍다는 반응을 보낸 이유는 무엇일까? 앞서 언급했듯이 최근 RPG는 캐릭터의 대화에 대부분 음성을 포함하고 있는데, 이런 방식에서는 수많은 대화문을 일일이 녹음해야 한다는 단점이 있다. 이에 텍스트로 대화를 출력시키던 옛 게임에 비해 요즘 게임은 대화의 깊이가 단순해지고 있다는 비판이 게이머들 사이에서 종종 나오곤 했다.
'자유도'에 관한 문제도 있다. RPG는 플레이어가 실제 그 세계를 살아가는 듯한 느낌을 전하는 것이 중요한데, 현실적인 한계로 플레이어가 대화를 할 때 말할 수 있는 선택지는 제한되어 있었다. 특정한 이야기에 다른 반응을 하고 싶더라도 결국은 개발자가 만들어 놓은 스크립트를 따라갈 수밖에 없다는 것이다.
하지만, AI 기술이 더욱 발전하고 이런 게임에 접목될 수 있다면 더욱 생동감 있는 대화 연출이 가능해질 수 있다. 정해진 선택지를 고르는 대신에, 실제로 플레이어가 말하고 싶은 대화문을 직접 입력하고 NPC의 반응을 즐기는 식이다. 대화문의 어투도 플레이어가 조절할 수 있으며, NPC도 여기에 맞추어 다른 반응을 내보내고, 음성까지 출력할 수 있다면 몰입감과 이야기의 질은 차원이 달라질 수 있다.
물론, 아직까지는 '가능성'의 영역이다. 실제 활용을 위해서는 오랜 시간이 필요할 것으로 보인다. 그러나 게임 커뮤니티에서 늘 언급되는 'RPG의 자유도 한계'를 극복할 수 있다는 가능성을 보여줬다는 점에서는 의의가 있다.