1,052개의 인공지능 NPC로 게임을 돌렸더니 놀라운 일이 일어났습니다.
그 전에, 게임에 들어가는 적지 않은 NPC들이 AI(Artificial Intelligence), 즉 인공지능입니다. 지난해 4월, 스탠포드 대학교와 구글 딥마인드는 GPT를 활용해, 스스로 상호작용할 수 있는 NPC를 증명했고, NPC들끼리 과거의 로그를 기억해(메모리 스트림) 서로를 상대하는 한편, 시간과 주변 환경에 대응하는 활동을 하는 모습을 보여준 적 있습니다.
이때 쓰인 NPC 모델은 총 25개였습니다. 연구진은 대규모 언어 모델(LLM)을 통한 신경망 학습으로 NPC(본문에는 Generative Agent)를 구성한 것이죠.
스탠포드와 구글은 이번에 무려 1,052개의 생성형 AI NPC들을 바탕으로 실험한 결과를 공개했습니다. 연구진은 참가자들을 인터뷰한 결괏값을 바탕으로 나이, 인종, 성별, 교육수준, 정치 이념 등 인구통계학적 특성을 샘플링해 1,052개의 AI NPC를 구성했습니다. 연구진은 심층 인터뷰, 종합사회조사(GSS) 등의 방법을 통해 그 답변에 걸맞은 NPC를 만들었습니다. 2주간 인간 참가자와 AI NPC 사이의 응답 재현 정확도는 "85%" 수준이라고 밝혔습니다.
연구진은 기존의 인구통계학 모델이 특정 집단에 대한 편향을 보였지만, 인터뷰를 기반으로 생성한 AI는 이런 편향을 줄이는 데 더 효과적이라고 전했습니다. 특히, 성별, 인종, 정치적 이념 등에 따른 불균형을 완화했다고 밝혔습니다. 특정 사회과학 연구가 사회적으로 다양한 집단을 공정하게 반영하는 한편, 그 결과물이 사람들의 개별적인 배경과 경험을 더 정확하게 반영하도록 할 수 있다는 것입니다.
연구진은 "우리의 아키텍처는 인구통계학적 설명이 주어진 에이전트에 비해 인종 및 이념적 그룹에 따른 정확도 편향을 줄이며 개인 및 집단 행동을 조사하는 데 도움이 되는 새로운 도구의 토대를 제공한다"고 밝혔습니다. 연구진은 "이러한 에이전트가 정책 결정 및 사회 과학 연구에 응용될 수 있다"라고 밝혔습니다.
지난 연구를 통해서 <심즈>에서처럼 작은 마을에서 일어나는 다양한 상호작용을 볼 수 있었다면, 이번 모델에서는 "새로운 공중 보건 정책에 대한 메시지" 등을 묻고 답할 수 있게 된 것입니다. 이들은 A와 B가 돈을 나누는 방식에 대해서 50:50, 100:0, 0:0 등의 경우의 수를 놓고 토의하는 '독재자게임'이나 공공재를 만들기 위해 자기 재산을 얼마나 투척할지 의논하는 '공공재게임' 등 행동경제학 연구에서 주로 수행하는 사고실험 게임을 진행했습니다.
하지만, 생성형 AI NPC들은 대부분의 행동경제학 게임에서 낮은 예측 정확도를 보였습니다. GSS는 평균 0.76의 예측정확도, 빅파이브 성격은 0.31의 상관관계를 나타낸 것에 비해, 각종 행동경제학 게임에 대해서는 낮은 상관관계를 나타냈습니다. 연구진은 AI NPC들의 협력과 비협력 과정을 완벽하게 예측하지 못했다고 전했는데, 이타적인 행동이나 이기적인 추구를 실험 속에서 정확한 행동을 하지 않았던 것으로 추측됩니다.
특히나 여러 게임 중 '공공재게임'에서는 -0.05의 역상관까지 관찰됐습니다. 행동경제학 게임에 유독 상관관계가 떨어지는 이유에 대해서 연구진은 "경제적 의사 결정을 더 잘 시뮬레이션하려면 보다 정교한 접근 방식이 필요하다"고 이야기했습니다.
이런 모델이 고도화된다면, 앞으로의 MMORPG는 어떻게 될까요? 앞으로는 다른 유저의 접속 없이 AI NPC들만으로 '나 혼자만 레벨업' 할 수 있게 되지는 않을까요? 사회과학 연구나 행동경제학 연구에서 쓰이는 사고 실험에는 실제 참가자가 아닌 AI NPC들이 뛰어들까요? 플레이어/인간의 가치는 어떻게 되는 걸까요?