'알파고'로 바둑을 평정한 구글 딥마인드가 최근 FPS 장르에 도전장을 던져 좋은 성과를 냈다.
구글 딥마인드는 현지시간 3일, 공식 홈페이지를 통해 개발 중인 AI가 최근 <퀘이크 3 아레나> 깃발 뺏기 모드를 학습했고, 최근 다른 고수 유저들과 함께 진행한 토너먼트에서 인간 고수들을 따돌리고 최상위 점수를 기록했다고 발표했다.
FPS 게임의 깃발 뺏기 모드는 과거 '딥마인드'가 도전했던 바둑과 달리, 게임이 실시간으로 진행되고 캐릭터가 움직일 때마다 매 순간 맵이나 상대, 깃발 상태 등에 대한 새로운 정보가 발생하는 장르다. 또한 캐릭터의 시야가 제한되기 때문에 바둑처럼 전체를 조망할 수 없고, 순간 순간 얻는 정보로 최적의 선택을 해야 한다는 것이 차이점. 여기에 추가로 모드 특성 상 다른 플레이어와의 '협동'도 필수다.
딥마인드는 이런 복잡한 구조를 AI에게 학습시키기 위해 AI에게 기본적인 승리 조건을 입력하고, 승리를 위해 독자적으로 내부 목표를 설정할 수 있도록 프로그램을 짰다. 이후 딥마인드는 AI들에게 깃발 뺏기 모드 팀 플레이를 반복 플레이시켜 게임을 학습시켰다. 단, 학습 속도를 고려해, 학습은 '고저차'가 없는 맵으로 진행됐다.
그렇다면 딥마인드의 AI는 이런 장르에서 어떤 결과를 냈을까? 딥마인드의 AI 'FTW'(For The Win의 약자)는 최근 임의로 선정된 40명의 유저들과 함께 <퀘이크 3 아레나> 깃발 뺏기 모드 토너먼트에 참여했다. FTW가 다른 인간 플레이어들과 팀을 짜 깃발 뺏기 모드를 플레이하는 방식이었다.
FTW가 토너먼트에서 기록한 ELO 점수는 1600점. 참고로 최고 수준의 인간 플레이어는 ELO 점수 1300점이었고, 인간 유저들의 평균 점수는 1050점이었다. 토너먼트에 참여한 유저들은 FTW가 다른 인간 플레이어보다 더 '협동'을 잘한다고 밝혔다. FTW AI가 캠핑 등 인간 플레이어와 흡사한 행동 양상을 보인 것도 특기 사항.
딥마인드는 이런 내용을 발표한 뒤 "우리는 최근 <스타크래프트2>, <퀘이크 3 아레나> 같은 복잡한 게임에서 인상적인 작업을 했다. 복잡한 환경에서 AI가 어떻게 구축되는지 보게 돼 기쁘다. 무엇보다 AI들이 팀을 짜 게임을 학습하게 하는 것이, AI를 사람과 팀을 짜 상대를 꺾을 수 있을 정도로 강력한 학습 효과를 만들었다는 점이 인상적이다. 앞으로 이런 방법을 활용해 강화학습의 효율을 높일 수 있을 것 같다"라고 밝혔다.