사람 같은 AI '게임 친구', 어디까지 왔을까?

딥마인드 SIMA, MS '코파일럿'이 보여준 가능성

방승언(톤톤) 2024-05-24 18:51:28

인간처럼 함께 게임을 즐길 수 있는 'AI 게임 친구’는 새로운 개념이 아니다.

사람 같은 인공지능과의 교감을 그린 10년 전 영화 <그녀>(Her)에는 주인공 ‘테오도르’가 AI 운영체제 ‘사만다’와 함께 동작인식 어드벤처 게임을 함께 플레이하는 모습이 등장한다. 극 중 사만다는 ‘게임 친구’로서의 역할을 완벽히 수행한다.

사만다는 대화를 통해 탈출 경로를 찾으려는 주인공의 의도를 파악하고, 그간의 게임플레이 내용을 고려해 공략(길 안내)을 제공하며, 예고에 없던 돌발 상황(욕쟁이 외계인의 등장)에도 즉각적 분석 뒤 적합한 제안을 건넨다.

영화 <그녀> (Her)

사실 극의 설정상 사만다는 일반인공지능(AGI), 혹은 초인공지능에 해당하는 모델이기에 이것은 당연히 수행 가능한 수준의 업무다. 일반인공지능이란 특정 분야에 국한되지 않고 모든 유형의 업무를 학습, 실행할 수 있는 인간과 같은 지능의 인공지능을 말한다.

AGI는 현재 오픈AI를 비롯, 인공지능 연구에 발을 들인 여러 빅테크 기업들의 궁극적 목표이기도 하다. 다만 (스포일러 주의) <그녀>의 종반부에서 사만다가 인류의 이해를 초월한 경지에 접어들어 예상 밖의 행동을 하는 것과 유사하게, 현실의 AGI 역시 인류가 인지하지 못하는 수준과 속도의 발전을 이룰 수 있다는 경고가 현재 다각도로 제시되고 있다.

한편 사만다와 같은 AGI의 도래 시기에 대해선 다양한 관측이 나온다. 극단적 예로 일론 머스크 테슬라 CEO는 2025년경 등장을 주장한 한편, 엔비디아의 젠슨 황 CEO는 5년 이내 등장 가능성을 제시하기도 했다. 그러나 AGI까지 가지 않더라도 ‘AI 게임 친구’의 등장은 훨씬 가까이 다가왔을 가능성이 있다. 이와 관련된 유의미한 발표가 올해 들어 이미 두 차례 이뤄졌기 때문이다.

AI 운영체제 '사만다'와 대화하며 게임을 플레이하는 <그녀>의 주인공 '테오도르' (출처: <그녀> 스틸)

# 보급형 사만다?…MS의 코파일럿

지난 5월 21일 MS는 신형 ‘서피스’ 제품과 자사 AI 비서 ‘코파일럿’의 신규 기능을 소개하는 발표회를 열었다. 이날 MS는 곧 GPT-4o를 탑재할 예정인 코파일럿이 유저의 PC 이용 경험에 어떤 변화를 불러올지 여러 예시를 통해 설명했다.

그중에서도 코파일럿과 함께 MS의 간판 게임 <마인크래프트>를 플레이하는 장면은 뭇 게이머의 시선을 사로잡았다. GPT-4o가 자랑하는 시각/음향정보 분석, 자연어 이해, 실시간 답변 등의 성능이 게임플레이에 직접 접목되는 인상적 모습이 연출됐기 때문이다.

시연 영상에서 <마인크래프트>를 플레이할 줄 모르는(혹은 그렇게 연출된) MS 직원 ‘라이언’은 코파일럿의 도움을 받아 게임 기초를 학습하고자 한다. 먼저 윈도우 코파일럿을 호출한 라이언은 <마인크래프트>를 실행하고 본격적 대화를 시작한다.

라이언이 간단한 인사를 건네자, 코파일럿은 “안녕, 보아하니 <마인크래프트>를 플레이하려는 모양이네”라고 답한다. 이어 라이언이 “검을 만드는 방법을 알고 싶다”고 말하자, 코파일럿은 “앞에 제작대가 보이네. E를 눌러서 인벤토리를 열어볼래?”라고 답하며 게임플레이를 자연스럽게 유도한다.

일견 단순해 보이는 이 짧은 대화에는 이미 몇 가지 중요한 지점이 드러나 있다. 먼저 코파일럿이 <마인크래프트>의 인게임 기능으로 구현된 것이 아니라, 윈도우즈 단위에서 별도로 구동되었다는 사실에 주목할 만하다. 발표를 맡은 유수프 메디 MS 부사장은 “코파일럿이 스스로 게임에 들어와있다는 사실을 인지하고 있다”고 설명한다.

이는 GPT-4o의 영상 분석 기능에 의한 것으로 보인다. 이어지는 장면에서도 확인할 수 있다. 라이언이 인벤토리를 열자 코파일럿은 내용물을 살펴본 뒤 ‘칼자루 재료는 있지만, 칼날을 만들 재료가 없다’는 정확한 진단을 내린다. 메디 부사장은 “코파일럿은 라이언의 요청을 이해하고, 스크린에 드러난 아이템 보유 상태를 파악하는 데 도움을 줬다”고 설명한다.

시연의 진정한 하이라이트는 다음 장면이다. 코파일럿의 조언에 따라 칼날에 쓸 자원을 수집하러 떠나려던 라이언은 예상치 못한 좀비들의 습격을 받는다. 당황하는 라이언에게 코파일럿은 “어서 도망쳐! 달려서 멀어지거나 블록 탑을 쌓아서 그 위로 올라가. 아니면 당장 숨을 곳을 찾거나 언덕 옆면을 파들어가서 숨어야 해”라고 조언한다.

‘검을 만드는 방법을 배우고 싶다’는 맥락이 제시됐던 직전 상황과 달리, 이것은 이용자의 맥락 인풋이 크게 제한되는 상황이다. 그럼에도 코파일럿은 유저에게 필요한 정보를 포착해 즉각적으로 제시했을 뿐만 아니라, 놀람과 공포를 표현하는 유저 목소리에도 조응하고 있다. 이것은 오픈AI가 최근 발표한 GPT-4o 시연 영상에서 드러난 모델의 주요 기능들과 일치하는 모습이다.

물론 문제의 영상은 MS가 홍보 목적으로 연출한 것인 만큼, 실제 사용례와는 동떨어져 있을 가능성이 있다. 그러나 앞서 <그녀>의 게임플레이 장면에서 사만다가 보여준 자연어 지시 이해, 맥락 파악, 정보 제공, 돌발상황 대응과 공략법 제안 등의 모든 기능을 이미 갖췄다는 점에서 일단은 기대를 키운다.

MS의 코파일럿은 완전히 새로운 맥락에 대해서도 빠르게 정확한 조언을 건네는 모습을 보여준다.

# 명령 대로 게임하는 딥마인드의 SIMA

그런데 AI가 ‘게임친구’로서 실제 인간 플레이어와 보조를 맞추기 위해서는, 대화 기능뿐만 아니라 3D 게임월드를 누비며 게임을 플레이하는 ‘에이전트’ 역할도 해내야 한다.

공교롭게도 이번 코파일럿 시연에 앞서 구글 딥마인드가 인간 플레이어의 지시를 이행할 수 있는 AI 게임 에이전트 연구 성과를 홍보했다는 사실이 흥미를 끈다. 지난 3월 딥마인드는 공식 블로그 등을 통해 현재 개발 중인 게임플레이 에이전트 ‘SIMA’를 소개했다.

명칭인 SIMA는 ‘확장성 있고 지시 이행이 가능한 멀티월드 에이전트’(Scalable, Instructable, Multiworld Agent)의 약자다. 이에 걸맞게 SIMA는 여러 게임 월드에 걸쳐 인간의 자연어 지시를 이해, 인게임 시스템에 맞춰 실제로 수행하는 기능을 목표로 개발되고 있다.

ChatGPT 이전에 AI 붐을 일으켰던 구글 딥마인드의 알파고, 그리고 그 후속 모델인 알파제로 역시 게임플레이 에이전트의 일종이다. 그러나 이들이 강화학습을 통해 인간을 상회하는 게임실력을 갖추는 것을 목표로 개발됐던 것과 달리, SIMA의 개발 목표는 사람의 지시를 받아 실제 게이머처럼 여러 인게임 활동을 수행하는 데에 주로 집중되어 있다.

이를 위해 딥마인드는 헬로게임즈, 커피스테인 등 여러 게임사와 손잡고 <발헤임>, <고트 시뮬레이터 3>, <노 맨즈 스카이> 등 시중에 나온 실제 게임들을 통해 SIMA를 훈련시켰다.

SIMA는 8개 게임으로 훈련을 거쳤다.

SIMA는 기존 개발된 이미지 인식 모델을 통해 게임의 소스코드나 API에 접근하지 않고도 게임 화면만으로 게임 데이터를 분석할 수 있다. 그러나 유저와 함께 자연스럽게 게임을 플레이하기 위해서는 화면 인식만으론 충분하지 않다. 자연어로 된 지시를 듣고 이를 이해한 뒤 적합한 행동을 스스로 결정하는 능력도 갖춰야 한다.

이를 위해서 딥마인드 개발진은 실제 게이머들의 게임플레이를 활용했다. 한 유저가 음성으로 게임플레이를 지시하면 다른 유저가 이를 수행하도록 했다. 이후에는 두 사람이 게임플레이 화면을 다시 검토하면서 마우스와 키보드의 움직임을 언어로 설명하도록 하는 과정을 거쳤다. 이를 통해 SIMA는 각각의 지시가 의미하는 바, 그리고 이를 실행하기 위한 실제 컨트롤을 배울 수 있다.

여덟 개의 오픈월드 게임에 걸쳐 해당 학습을 진행한 결과, SIMA는 600여 개의 기본 기술을 10여 초에 걸쳐 수행할 수 있게 되었다고 딥마인드는 밝혔다. 여기서 말하는 기본 기술이란 좌우로 걷기, 사다리 오르내리기, 나무 베기, 메뉴 열어서 맵 열기 등의 기초 활동을 말한다. 그뿐만 아니라 특정 게임에 국한된 활동(우주선 조종 등)도 수행할 수 있다.

딥마인드는 하나의 단일한 게임을 학습했을 때보다, 여러 게임 월드에서 학습을 진행했을 때 SIMA의 수행 능력이 더 뛰어났다고 밝혔다. 또한 학습에 활용된 8개 타이틀 외 전혀 새로운 게임에서도 인간 명령에 따라 ‘기본 기술’을 수행할 수 있다는 사실도 드러났다.

SIMA에는 사전 훈련을 마친 시각 분석 모델이 사용됐다.

다만 새로운 게임에서의 경우, 명령 이행의 정확도가 현저히 낮아진다고 제작진은 밝혔다. 그러나 종국에는 게임뿐 아니라 모든 3차원 환경에서(현실도 포함된다) 더 복잡하고 장기적인 지시 사항을 수행하는 것을 목표로 딥마인드는 연구를 계속하고 있다.

딥마인드는 “우리의 게임 에이전트가 향후에는 고급 전략 및 계획을 수립하고 이에 따른 세부 활동까지 수행할 수 있는 종합적 능력을 갖추길 원한다. 이를테면 ‘자원을 찾아 캠프를 지어라’ 따위의 명령을 수행하는 것을 말한다”고 전했다.

이는 비단 게임 분야가 아닌, AI 전반의 발전에 중요한 연구 목표다. 딥마인드는 “LLM이 세상의 지식 체계를 포착하고 계획을 만들어낼 수 있는 강력한 시스템으로서 현재 부상하고 있지만, 실제로 인간을 대신해 이를 수행할 능력은 갖추고 있지 못하기 때문이다”고 설명했다.

# 게임 이상을 해낼지도 모르는 ‘게임 친구’

SIMA와 코파일럿은 완벽한 ‘인공 게임 친구’가 탄생하는 데 있어 서로를 훌륭히 보완할 수 있다는 점에서 흥미롭다. 가능성은 작지만, 두 기업이 협력할 경우 인간 플레이어의 복잡한 요구를 이해하고, 스스로 계획을 세울 수 있으며, 이를 실행할 수 있는 능력까지 갖춘 AI가 등장할 가능성이 있다.

만약 이것이 로봇 공학과도 결합한다면 영화 속에나 등장하던 만능 도우미 로봇이 현실로 성큼 다가온다. 실제로 지난 3월 휴머노이드 로봇 개발 스타트업 ‘피규어 AI’가 공개한 ‘피규어 01’의 시연 영상은 이런 SF적 가능성을 제시한 사례다.

영화 <그녀> 중

오픈AI와의 협업을 통해 개발된 ‘피규어 01’은 해당 영상에서 인간의 질문에 따라 부엌의 상황을 묘사하는가 하면, “먹을 것을 달라”는 복합적이고 다소 불명확한 요구에도 시야에 들어오는 유일한 먹을거리인 사과를 집어 건네주는 모습을 보여 전 적잖은 충격을 안겼던 바 있다.