최근 중국과 싱가포르의 연구진은 GPT-4V를 활용해 <레드 데드 리뎀션 2>의 플레이에 성공했다고 밝히며 논문을 아카이브에 게재했다. 연구진은 컴퓨터의 화면 이미지나 오디오를 AI가 입력으로 받고, 키보드와 마우스 조작을 출력해 모든 컴퓨터 작업을 이해하는 '일반 컴퓨터 컨트롤'(GCC)의 가능성을 확인하는 것이 실험의 목표였다고 밝혔다.
연구진은 이를 위해 비전 기능이 있고 음성 인식이 가능한 GPT-4V를 활용했다. 더불어 GPT-4V가 게임을 이해하고 컨트롤할 수 있도록 여섯 개의 모듈을 장착한 '크래들(CRADLE)'이라는 프레임워크를 사용했다.
<레드 데드 리뎀션 2>를 실험 대상으로 선택한 이유는 프레임워크의 성능 한계를 확인하기 위함이다. <레드 데드 리뎀션 2>은 대화, 고유한 아이콘, 게임 내 대사와 같은 정보를 복합적으로 해석하고 이해해야 플레이할 수 있다.
(출처: 아카이브)
연구진은 테스트 결과 크래들이 <레드 데드 리뎀션 2>의 '존 마스턴 구출'까지 이어지는 메인 스토리 초반부와 챕터 2에서 마을에 가 보급품을 구매하는 서브 퀘스트 플레이에 일부 성공했다고 밝혔다. 그러나 퀘스트 중간에 등장하는 총격전이나, 복잡한 실내 환경을 탐색하는 집 수색 등에서 많은 어려움을 보였다고 했다.
게임의 고유 아이콘이나 미니맵에 대한 이해, 세밀한 조작이 필요한 일부 키 사용, AI가 피드백을 인식하기 어려운 경우에는 잘 수행하지 못했기 때문이다.
가령 목표 중 하나인 '더치를 지켜라'에서는 마우스 휠 버튼으로 무기 교체 화면을 연 다음 총을 꺼내야 한다. AI는 처음에 칼을 꺼냈지만, 게임에서 (총을 꺼내지 않았기에) 다시 휠 버튼으로 무기를 선택하라는 메시지가 출력되자, AI는 자신의 행동이 잘못되었음을 인식하고 자기반성 모듈에 따라 행동을 반복해 총을 꺼냈다
피드백을 파악할 수 있는 요소가 부족하면 AI는 어려움을 보였다. 게임 내에서 집 안의 샷건을 획득하라는 목표가 주어지면, 적절한 거리까지 이동한 후 게임 화면에 샷건이 보이는 상태에서 버튼을 눌러 획득해야 하는데, 이 부분은 잘 수행하지 못한 것이다.
캐비넷을 여는 것도 어려움이 있었다. <레드 데드 리뎀션 2>에서 캐비넷을 열기 위해서는 애니메이션을 수행한 후, R 버튼을 꾹 눌러 열어야 한다. R 버튼을 너무 빠르게 누르면 아무런 행동이 발생하지 않는다. 시각적인 변화나 다른 형태의 피드백이 없기에 AI는 버튼을 잘못 누른 것인지, 아니면 타이밍 요소가 문제였는지 파악하기 어려워 한다.
행동에 대한 환경 피드백이 부족하고 행동의 의도와 게임 명령 사이의 의미적 차이가 있으면
AI는 추론을 어려워할 수 있다. (출처: 아카이브)
연구진은 “GPT-4V의 공간-시각 인식 능력은 정밀하고 세밀한 제어를 하기에는 부족하다"고 보았다. 총격전에서 어려움을 보인 것은 GPT-4V의 높은 응답 지연 시간이 원인이라고 했다.
이어 논문 마지막 문단에서 "저희가 아는 한, AAA 게임에서 처음부터 구체적인 (미션의) 목표를 완수한 LMM 기반 에이전트는 이번이 처음"라며 "이후 작업은 시뮬레이션 및 전략 게임과 같은 광범위한 게임과 다양한 소프트웨어 애플리케이션을 지원하도록 확장하여 다양한 환경에서 적응성을 입증하는 것을 목표로 할 것"이라고 전했다.
AI가 플레이한 <레드 데드 리뎀션 2>의 메인 퀘스트
난이도 단락은 게임의 난이도가 아니라, AI가 목표 수행을 얼마나 쉽게/어렵게 했는지를 나타낸다. (출처: 아카이브)