로그인

회원가입 | ID/PW 찾기

NDC

[NDC22] "선생님과 눈을 맞추고 이름을 불러주는 '아로나' 만들기"

<블루 아카이브> 아로나와 함께 하는 머신러닝 이야기

에 유통된 기사입니다.
현남일(깨쓰통) 2022-06-10 17:05:29

넥슨게임즈가 개발하고 넥슨이 글로벌 서비스하는 <블루 아카이브>는 기존의 서브컬처 게임들이 시도하지 않은 여러 다양한 '혁신'에 도전한 게임이기도 합니다. 대표적으로 이 게임은 '선생님'(플레이어)를 보조하는 AI 캐릭터라는 설정의 '아로나'가 게이머가 직접 입력한 이름을 '목소리'로 읽어주는 음성 합성 기능을 선보여서 많은 호평을 받았는데요.

 

이밖에도 넥슨게임즈는 PD 직속의 '머신러닝' 연구팀을 별도로 둬서 '플레이어와 게임 캐릭터의 상호작용의 실재감을 높이는' 다양한 시도를 하고 있다고 합니다. 넥슨게임즈 MX스튜디오 권민섭 ML 엔지니어는 10, NDC 22 강연을 통해 현재 넥슨게임즈가 R&D 중인 여러 기술들에 대한 설명을 진행했습니다. 

 

  

강연자: 권민섭

 

소속: 넥슨게임즈 MX 스튜디오 머신러닝(ML) 엔지니어

 

발표자 소개

현재 넥슨게임즈의 MX Studio에서 <블루 아카이브>의 개발에 머신러닝 엔지니어로 참여하고 있으며, 유저들과 캐릭터의 간극을 좁혀주는 기능들에 대한 R&D와 개발과정에 도움을 주는 R&D를 진행하고 있습니다. 유저들과 캐릭터의 교감을 위한 연구중 하나로 캐릭터가 유저의 이름을 불러주는 Text-to-Speech 시스템을 구축하여 서비스에 실장하였고, 해당 내용을 2021년 NDC에서 발표하여 최우수 세션으로 선정되었었습니다. 


 

# 아로나가 선생님의 이름을 불러주는 '음성합성' 기능 개발기

 

서문에서 말한 것 처럼 <블루 아카이브>의 '아로나'는 플레이어가 입력한 이름을 직접 인게임에서 '음성'으로 불러주는 음성합성 기능을 선보입니다. 권민섭 엔지니어는 이런 음성합성 기능을 통해 "유저들의 흥미"를 유발할 수 있었고, 캐릭터가 유저의 이름을 불러줌으로서 "캐릭터와 유저간의 교감에 도움을 주고", 무엇보다 다른 게임들과 확실한 차별화를 꾀할 수 있다는 점에서 해당 기능에 대한 R&D를 시작했다고 밝혔는데요. 

 


 

넥슨게임즈가 활용한 음성합성 모델은 'Tacotron2' 라고 불립니다. 이는 간단하게 말해서 유저가 입력한 문장을 '벡터화'(숫자드르이 조합)으로 바꾼 후, 이를 인코더와 디코더를 거쳐 최종적으로 wave 음원으로 바꾸는 과정을 거칩니다. 

 

그리고 머신러닝을 통해 AI가 굉장히 다양한 '대사' 데이터를 사전에 학습해서 완성된 대사로 조합하게 됩니다. 권민섭 엔지니어는 사전에 일본인 여성 1명의 10시간 분량의 음성 데이터셋을 통해 학습을 시켰다고 밝히면서, 영화에서 사용된 대사, 각종 애니메이션의 대사, <블루 아카이브> 내의 다른 캐릭터들의 대사를 모두 활용했다고 덧붙였습니다.  

 

플레이어가 입력한 텍스트가 어떤 과정을 통해 음성으로 바뀌는지에 대한 간단한 플로우

사전에 굉장히 방대한 양의 음성 데이터셋을 학습 시켰고

성우 음성에 대한 녹음을 진행했다. 아무래도 성우나 개발사나 TTS에 대한 녹음은 처음이라 모두 어려워했다고.

 

사전에 모든 대사를 '데이터'화 한 다음, 스카이프를 통해 실제 아로나의 성우를 불러 녹음이 진행되었습니다. 하지만 코로나 시국으로 인해 개발자가 직접 일본의 스튜디오로 갈 수는 없었기에 스카이프를 통해 참관이 진행되었고, '애드리브 금지', '과도한 감정 연기 금지', '문장부호는 확실하게 표현' 같은 몇가지 규칙을 통해 성우 녹음이 진행되었습니다.

 

다만 아무래도 이런 텍스트를 음성으로 불러주는 기능(TTS)에 대한 녹음은 성우든 개발사든 처음이었기 때문에 굉장히 많은 시행착오를 겪었다고 합니다. 

 

정말 간단하게 설명하자면, 미리 학습시킨 데이터 위에 성우의 음성을 덧씌워서 실제 TTS(텍스트를 음성으로 불러주는) 기능을 완성한 것이다. 

 
아로나의 음성 합성 기술은 단순하게 선생님(플레이어)들의 호칭을 불러주는 것에만 사용한 것이 아니라, 실제 인게임에서 아로나의 각종 '스토리 대사'를 읽는 것에도 사용되었습니다. 

개발사는 이를 '대사 음성합성'과 '호칭 음성합성'으로 나누어서 관리했고, 대사 음성합성은 보다 높은 퀄리티로 작업하면서도 호칭 음성합성과의 괴리가 일어나지 않고 일관될 수 있도록 많은 노력을 기울였다고 합니다.


'대사 음성합성'은 별도의 플로우를 통해 개발이 진행되었고, 일반적인 성우 음성 녹음과 괴리가 발생하지 않도록 신경을 썼다.

그리고 이런 과정을 통해 실제 인게임에 적용된 아로나의 음성합성 기술은 한국과 일본, 글로벌을 가릴 것 없이 큰 호평을 받았습니다. 

 

물론 음성합성을 통해 들리는 아로나의 음성은 아무래도 '사람 같지 않다'는 점에서 호불호가 갈릴 수 있지만, 이는 아로나의 '캐릭터성'에 어떻게 보면 또 부합되는 것이기 때문에 실제 인게임에 굉장히 자연스럽게 녹아들어갈 수 있었습니다.

  


게임 출시 이후 하루에만 7만건 이상의 호칭을 서버가 합성했고, 다행히 유실되는 요청 없이 모두 정상 처리되었다고
 
 

# 캐릭터가 플레이어의 얼굴을 인식하고 눈을 맞춘다? - 페이스 트래킹

 

넥슨게임즈 MX 스튜디오에서 현재 R&D중인 기술 중에 하나는 바로 '페이스 트래킹' 기능입니다. <블루 아카이브>는 플레이어가 '선생님' 이라는 캐릭터로 게임에 참여하고, '1인칭 시점'을 통해 다양한 캐릭터들과 커뮤니케이션한다는 설정의 씬이 많이 들어가죠. 

 

대표적으로 이게임의 가장 핵심적인 포인트 중에 하나인 '메모리얼 로비'가 그런 식의 '학생과 선생님의 1:1 커뮤니케이션'을 연출한 장면으로 손꼽힙니다.

 

그런데 만약 이런 장면에서 '캐릭터'가 플레이어를 인식하고, 플레이어의 얼굴 방향으로 고개나 눈동자를 돌려 시선을 맞춘다면 어떨까요? 그러면 <블루 아카이브>가 선보이는 '캐릭터와의 교감'에 대한 매력을 강화할 수 있을 것입니다. 그래서 권민섭 엔지니어를 중심으로 실제 이 기능에 대한 R&D가 진행되었습니다.  

 

 

  

<블루 아카이브>가 목표로 하는 페이스 트래킹은  휴대폰의 카메라를 통해 현재 화면을 보고 있는 플레이어의 얼굴이나 '눈동자'를 인식하고 추적하는 것이 우선적으로 필요합니다. 그래서 머신러닝을 통해 사전에 다양한 얼굴 이미지에 대한 학습을 진행했습니다. 특히 시국이 시국(?)인 만큼 '마스크'를 써서 눈동자만 추적할 수 있는 것 또한 학습을 진행했습니다.  




그 결과 실제로 플레이어의 눈동자 움직임을 비교적 만족스러울 정도로 추적하는 것이 실제로 가능했습니다. 이를 통해 실제 메모리얼 로비에서 캐릭터의 시선이 움직이는 것 또한 테스트를 할 수 있었습니다. 



하지만 실제 해당 기능을 적용하고 사내에서 피드백을 받아본 결과 전체적으로 '어색하다'는 지적이 많았다고 합니다. 무엇보다 시선을 추적하면서 캐릭터의 안구만 움직이고, 몸의 애니메이션은 아무런 변화가 없다 보니 더욱 더 어색했다고 하는데요. 여기에 '눈'을 추적하는 것 보다는 '얼굴'을 추적하는 것이 조금 더 자연스럽다는 결과가 나와서 이에 대한 R&D를 추가로 진행하게 되었습니다. 

 

또한 구형 휴대폰에서는 이 시선 추적 기능 자체를 사용하기 힘들다는 것 또한 개발팀에 과제로 주어지게 되었습니다. 


  

그래서 현재 권민섭 엔지니어는 이 페이스 트래킹 기능에 대해 다양한 방식으로 개선을 시도하면서 완성도를 높이는 작업을 진행하고 있다고 밝혔습니다. 예를 들어서 캐릭터가 안구만 움직이는 것이 아니라, 플레이어의 얼굴 방향에 따라 왼쪽/오른쪽/중앙을 기점으로 정해진 애니메이션을 연출한다는 식으로 개선을 꾀하고 있다고 하는데요. 실제로도 테스트 결과물에 대한 개발팀의 피드백이 전체적으로 괜찮아서 계속해 R&D를 진행하고 있다고 합니다.

 

다만 정말 아쉽게도 이 '페이스 트래킹' 기능은 <블루 아카이브>에 언제 적용될지는 미정이라고 합니다. 그런 만큼 게임을 좋아하는 게이머라면 즐거운 마음으로 기대해보면 어떨까 싶습니다. 

 



# 모션 캡처 수고를 획기적으로 덜 수 있는 '자동 리깅'

 

'리깅' 이란 간단하게 말해서 인간이나 동물 등 다양한 캐릭터들의 움직임을 표현하기에 앞서 캐릭터의 '뼈대' 를 붙이는 작업을 말합니다. 보통 이런 리깅 작업은 이후 애니메이션 품질에 가장 큰 영향을 끼치기 때문에 굉장히 고된 작업을 거치며, 보다 자연스럽게. 그리고 고 품질의 리깅 작업을 위해서는 실제 사람에게 다양한 기기를 붙여 이를 기록하는 '모션캡처' 또한 활용되죠.

'자동리깅' 이란 바로 이런 리깅 작업을 AI를 통해 이미지와 영상을 통해 자동으로, 빠른 시간 내에 진행하는 기술을 말합니다. 여기에도 머신러닝이 활용되며, 넥슨게임즈는 작업의 효율을 높이고 작업량을 줄인다는 측면에서 이 기술에 대한 R&D를 진행했다고 합니다.

 

  

하지만 현재 이 자동 리깅 기술은 실제 게임의 개발에 활용되지 못하고 있습니다. 지속적으로 '떨림'이 발생하고, 단순히 영상 등의 데이터만으로 리깅 작업이 이루어지기에는 그 정확도 또한 높지 않다고 하네요. 

 

그래서 현재 권민섭 엔지니어는 손목이나 발목 동작 같이 게임에서 크게 중요하지 않은 동작을 제외하고 서라도 그 추적의 정확도를 높이기 위해 작업을 진행하고 있으며, 또한 실제 애니메이션 제작팀에서 이 기술을 활용할 수 있도록 다양한 유틸리티를 만드는 과정을 거치면서 지속적으로 R&D를 진행하겠다고 밝혔습니다.   


 

머신러닝을 이용한 신기술의 R&D와 도입은 어떻게 보면 당장 무언가 '결과'를 내기 어려운 분야일 수 있습니다. 그렇기 때문에 권민섭 엔지니어는 '결과'보다는 R&D 과정에서 겪는 여러 신규 기술에 대한 경험과 적용 시도가 오히려 전체 게임 개발에 도움이 될 수 있다고 강조했습니다.

 

그리고 신기술을 도입한다는 것은 당장 개발팀 내부에서도 거부 반응을 불러일으킬 수 있기 때문에, 기술 도입에 대한 비전 공유가 잘되어야 하고, 무엇보다 여러 팀들과의 협업이 중요하다고 합니다.

 

보통 다른 게임사들은 머싱러닝 연구를 개발팀 '밖'의 별도 조직이 진행하는 경우가 많지만, <블루 아카이브>의 경우 실제 개발팀 내에서 함께 R&D를 진행함으로서 많은 개발자들과 소통하고, 협업하면서 좋은 결과를 냈다고 하는데요. 그런 만큼 이런 머신 러닝에 대한 연구가 보다 활발해져서 앞으로 대한민국 게임계에서도 그 과실을 딸 수 있기를 기대해보겠습니다. 

 




최신목록 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10