[GDC 2024] 게임과 인공지능, 어디까지 왔나? ③

강화학습 실전 사용 중인 스퀘어에닉스와 텐센트게임즈

김재석(우티) 2024-03-20 13:33:02

19일(현지 시각) 문을 연 2024년의 GDC는 인공지능(AI)으로 시작됐다.

이번 GDC에서 열리는 강연 773개 중 AI을 주제로 삼은 것은 64개이다. 비중으로 따지면 약 8% 꼴로 기획, 프로그래밍, 아트 같은 일종의 부문 수준의 수를 차지하고 있다. 문제는 AI가 단순한 부문에 그치지 않는다는 것이다. AI를 활용한 프로그래밍, AI를 활용한 마케팅, AI를 활용한 마케팅까지 게임 개발의 전 과정에 거쳐 AI가 언급되고 있다.

'멍청한 NPC'처럼 플레이어의 유희를 위해 복무하던 AI 기술은, 이제 게임 개발은 물론 모든 산업을 송두리째 바꿔놓을 태세로 맹위를 떨치는 것이다. AI와 함께 각광받는 머신러닝에 대한 강연도. 현장에서 발표된 여러 인공지능 관련 강연 내용을 주제별로 엮어봤다. /미국 샌프란시스코= 디스이즈게임 김재석 기자

③ 목소리와 봇: 강화학습 실전 사용 중인 스퀘어에닉스와 텐센트게임즈

모리 유스케 스퀘어에닉스 AI 리서쳐

스퀘어에닉스에도 다른 대형 게임사와 마찬가지로 AI 리서치 그룹이 조직되어 있다. 이들이 GDC에서 발표한 것은 음성 합성 기술(TTS, text-to-speech technology)을 통한 가상의 음성 결과물을 만드는 방법이다. 이름하여 '허구의 스피치 합성'(Fictional Speech Synthesis)이다. 강화학습을 통해 가상의 언어처럼 들리는 스피치를 생성할 수 있는 기술이다.

모리 유스케 스퀘어에닉스 AI 리서쳐는 허먼 멜빌의 소설 <모비딕>을 가상의 언어 체계로 재생하는 모습을 시연했다. 주어진 자막에 허구의 스피치를 대응시켜 재생한 것이다. 이 예시는 톨킨의 퀘냐(Quenya)나 <스카이림>의 '용언'처럼 창작된 언어라기에는 구조 측면에서 부족함이 따르나, 무한히 가상의 음성을 생성하고, 그 안에서 간단한 시나리오나 상황을 읽히는 수준은 가능하다.

스퀘어에닉스는 머신러닝을 통해 TTS 결과물이 가상의 언어'처럼' 들리는 트릭을 고안했다.

가상의 스피치를 언어 수준으로 끌어올리려면 어떤 과제가 있을까? TTS를 음성화하기 위한 강화학습에는 무수히 많은 언어 데이터가 필요하다. 스퀘어에닉스는 가상의 언어 데이터에 천착하는 대신, 그 대상이 완전히 가상이라는 점에서 진짜처럼 들리게 하는 데 방점을 찍었다.

그러나 이를 위해서 TTS를 바로 사용하기에는 알파벳과 일본어의 가나, 한자 체계가 조응하지 않았다. 익숙한 언어로부터 합성 음성을 만들면 아무래도 '일본어 같다'는 티가 나게 되기 마련이므로 이들의 만족하는 수준에 접근하기 위해 보코더(Vocoder)를 활용했다. 생성되는 가상 스피치에 가상의 음향 요소를 넣은 뒤 프로세스화하여 익숙함을 제거한 것이다.

스퀘어에닉스는 이를 응용해 가나를 영어로, 알파벳을 일본어에 대응하는 등의 방식으로 더 생경한 언어 특징을 추출했다. 중요한 것은 이것이 무작위로 출력된 것이 아니라 머신러닝의 결과물로, 자기 안에서의 학습이 시스템화된 로그로 남게 된다. 훗날 이를 열어보고 가상의 언어 트릭을 만드는 길라잡이로 삼을 수도, 기존의 트릭을 강화하는 데 쓸 수 있을 것이다.

모리 리서쳐는 허구의 스피치 합성의 장점에 대해서 "게임 세계의 다양한 지역과 문화적 배경에 대응할 수 있음"을 꼽았다. 스퀘어에닉스는 해당 솔루션을 R&D 이상의 실제 적용까지 염두에 두고 있다.

가상의 언어 트릭은 게임 개발 과정에서 상당한 잠재력을 가지고 있다

텐센트게임즈의 <나루토모바일>(중국명 화영닌자)은 2016년 출시된 횡스크롤 격투게임으로 싱글 시나리오, 다른 유저와 대전하는 PvP 등의 요소로 구성되었다. 게임의 누적 플레이어 수는 1억 명에 달하고, 총 400명 이상의 캐릭터를 선택할 수 있다. 이 게임은 아직 중국에서 서비스 중인데, 텐센트게임즈는 해당 게임 데이터를 머신러닝해 발전된 봇 개발에 사용했다.

텐센트게임즈 앨비스 리우 엑스퍼트 엔지니어

이 게임에서 봇(AI 에이전트)은 플레이어의 훈련 대상이다. 어느 게임이나 마찬가지겠지만, 플레이어의 실력이 성장하기 위해서는 플레이어의 수준에 맞는 대전 실력을 선보여야 한다. 현재 <나루토모바일>에는 레벨에 따라서 20~25가지의 AI 보스몬스터가 존재하며, 이들을 물리치면 다음 보스몬스터를 맞서는 형태의 콘텐츠가 준비됐다. 현재 게임 내에서 가장 강력한 AI 보스 몬스터는 전체 플레이어의 90%를 꺾을 것으로 예상 정도로 강력하다.

전통적으로 격투 게임의 AI 봇은 비헤이비어 트리(개발 중 NPC, 오브젝트 등의 행동구조를 체계적으로 설계하기 위한 시스템) 모델로 개발되었다. <스트리트 파이터>, <더 킹 오브 파이터즈> 같은 게임들이 이러한 모델로 레벨 디자인을 구성해왔다. 그러나 이러한 모델은 결과적으로 예측이 가능하다는 문제가 있다. 1스테이지에서는 절대로 초필살기를 날리지 않는다던가, 높은 레벨에서는 특정 콤보를 사용하는 듯 고실력자 플레이어에게 쉽게 파훼되는 경향이 있다는 것이다.

텐센트게임즈는 봇의 학습을 위하여 리임보스(Reimburse) 모델을 사용했다. 행동의 플레이와 복잡성을 올리기 위해서 셀(cell) 단위의 플레이를 학습시킨 것이다. 하지만 그는 "(대전 격투 게임)에서 AI는 실제로 새로운 것이 아니다"라고 이야기했다. 대전 이력을 학습시켜 더 나은 봇을 만드는 것은 오늘날 AI가 대세가 되기 전부터 사용됐던 방법론이라는 의미로 해석된다.

대전게임에서는 봇의 발전을 위해 이미 인공지능 기술이 도입되고 있었지만 400여 종의 캐릭터가 등장하는 모바일게임에게는 버거운 지점이 있었다.

이들은 내시 균형(NASH equilibrium)을 피하기 위한 방법론을 연구, 반영했다. 내시 균형이란 이란 게임이론에서 상대방의 대응에 최선의 선택을 하면, 서로가 자기의 선택을 바꾸지 않는 경향성을 일컫는다. 최선에 최선으로 대하기 때문에 전략을 유지하는 것이 합리적이라는 판단이다. <나루토모바일>에서는, 이러한 내시 균형이 플레이어의 경험을 방해하는 수단으로 작용할 수 있다. 400개의 캐릭터가 넘기 때문에 모든 캐릭터들이 셀프플레이를 반복하면, 상대방을 너무 잘 알아서 패턴이 정해지는 내시 균형이 일어날 수 있다.

텐센트게임즈는 셀 방식의 훈련 방식에 최고의 반응(Best Response) 훈련 방식을 추가했다. 봇 A를 강화학습 시킬 때 일반화된 접근 방식으로 데이터가 축적되지 않은 봇 B을 섞어서 격투게임에서 상대방의 플레이를 잘 모르는 상태에서 대전 데이터를 쌓도록 훈련시켰다. 연구 결과, 텐센트게임즈는 <나루토모바일>에서 400개의 캐릭터를 전부 학습시키는 대신 50종의 인기 캐릭터에 대해서만 셀 플레이를 도입하고, 그 학습 능력을 일반화해서 최고의 반응을 얻을 수 있도록 하는 훈련 모델을 정립했다.