AI 게임도 기술보단 기획…‘바다거북 스프’ 리뷰

‘할루시네이션’ 문제 극복 못한 퀴즈 게임

방승언(톤톤) 2024-07-10 18:35:53

“한 남자가 어느 레스토랑에서 바다거북 수프를 주문했다. 그는 수프를 한 입 먹고는 주방장을 불러 자신이 먹은 게 정말 바다거북 수프인지 물었다. 그렇다는 대답을 들은 남자는 계산을 마치고 집에 돌아가 스스로 목숨을 끊었다. 그 이유는 무엇일까?”

온라인상에 널리 퍼져 있는 ‘바다거북 수프 문제’의 전체 내용이다. ‘바다거북 수프 문제’는 ‘수평적 사고 퍼즐(lateral thinking puzzle)’의 일종이다. ‘수평적 사고’란 심리학자 에드워드 드 보노가 주창한 개념으로, 한정된 논리적 틀에 맞춰 답을 찾는 대신 창의력을 발휘해 자유롭게 문제에 접근하는 사고법을 말한다.

기괴하거나 미스터리하게 보이는 일련의 상황을 접한 뒤, 그 내막을 유추하는 게 퍼즐의 골자다. 영국 작가 ‘폴 슬론’이 관련 퍼즐 모음집을 여러 권 출간하면서 대중에 널리 퍼지게 되었으며, 해당 도서 시리즈는 국내에도 <멘사 추리 퍼즐>이라는 제목으로 소개된 바 있다.

수평적 사고 퍼즐에서 아이디어를 얻은 신작 퍼즐 게임 <바다 거북 스프>(‘바다거북 수프’가 맞춤법에 맞는 표기지만, 제목을 그대로 옮긴다)가 최근 구글 플레이스트어 등 앱 마켓에 출시됐다. 오픈AI의 대형언어모델(LLM) ‘챗 GPT’에 기반한 인게임 챗봇과 대화하며 여러 편의 퀴즈를 해결하는 내용의 게임이다.

(※ 궁금해 할 독자를 위한 바다거북 수프 문제의 정답: 남성은 과거에 조난해 굶어 죽을 위기에 처한 적 있다. 당시 함께 조난한 동료는 그에게 음식을 먹이며 ‘바다거북 수프’라고 이야기했다. 하지만 남성은 그 수프가 사실은 먼저 사망한 다른 조난자들의 인육일 가능성을 의심해 왔다. 마침내 먹어본 진짜 바다거북 수프의 맛은 기억과 달랐고, 남성은 진실을 깨달았다고 여겨 죄책감 속에 목숨을 끊고 만다.)

# 게임 방식

게임 방식은 간단하다. 채팅창 형식의 스테이지에 입장하면, 한 편의 수평적 사고 퍼즐이 텍스트로 제시된다. 이후 유저는 챗봇에게 추리에 도움이 될 만한 여러 질문을 던져 답변을 얻는다. 정답을 알아냈다고 생각되면, 정확한 문장으로 답변을 제시한다. 만약 틀렸다면 다시 질문 기회가 주어지고, 맞췄을 경우 사건의 내막이 자세히 적힌 클리어 화면이 나온다.

이때 챗봇은 ‘예’ 혹은 ‘아니오’로 답변이 나뉘는 질문에만 답할 수 있다. 대신 질문의 ‘중요도’까지 함께 분석해 알려준다. 예를 들어 위 문제에서 ‘남자가 죽은 것은 바다거북 수프의 맛과 관련이 있나?’라고 질문하면 ‘예, 당신의 질문은 매우 중요한 질문입니다’라는 이원화된 답변이 돌아온다.

모든 질문에는 ‘액션 포인트’가 소모된다. 액션 포인트는 하루 한 번 무료로 30개 충전할 수 있으며, 이후로는 광고 시청을 통해서 20개씩 충전 가능하다. 질문 기회가 이렇듯 유한하기 때문에 신중할 필요가 있다. 너무 복잡한 질문, 혹은 주관식 답변이 필요한 질문을 던지면 ‘이 질문은 답변하기 어렵다’는 반응이 돌아온다. 액션 포인트를 낭비하게 되는 셈이다.

추론이 영 어렵다면 힌트를 제공받을 수도 있다. 채팅 입력창 위의 ‘힌트’ 버튼을 누르면 중요한 정보가 간단한 문장으로 제공된다. 문제에 따라 힌트 개수는 상한이 정해져 있으며, 힌트를 보면 마찬가지로 액션 포인트가 1개 차감된다.

힌트 내용은 사전에 정해져 있다. 유저와 챗봇이 나눈 대화 내용에는 영향을 받지 않는다. 따라서 유저가 문답을 통해 이미 알아낸 정보들도 힌트로 제공될 수 있다. 힌트를 전부 확인하고 나면, 정답 화면으로 건너뛸 수 있다.

# 구글도 극복 못한 할루시네이션 문제, 여기서도

LLM의 등장으로 인간과 컴퓨터의 자연어 상호작용이 크게 개선되면서, <바다 거북 스프>와 같이 기존 ‘말놀이’를 게임으로 재현하려는 시도가 많아지고 있다.

이때 발목을 잡는 것은 이른바 ‘할루시네이션’ 현상이다. 이용자의 질문에 인공지능이 엉뚱한 답변을 내놓거나, 존재하지 않는 사실/정보를 거짓으로 꾸며 답하는 일을 말한다. LLM 발전과 함께 할루시네이션도 줄어들고 있지만, 아직 완전한 해결은 멀었다는 진단이 나온다.

이는 정확한 정보를 제공해야 하는 상황에서 특히 문제가 된다. 대표적 빅테크 구글 또한 자사 검색 인공지능 ‘AI 개요’(AI Overview)의 할루시네이션 현상으로 곤욕을 치르기도 했다. ‘치즈가 피자에 잘 붙어있지 못하는 현상’을 검색하자 ‘식용 접착제 사용을 권장한다’는 답변을 내놓은 사실이 알려지며 비판이 일었고, 구글은 개선을 약속했다.

할루시네이션의 발생 원인은 여러 가지가 지적되는데 ‘맥락 이해력 부족’도 그중 하나다. LLM은 입력된 문장의 패턴을 감지한 뒤, 여기에 답변으로서 가장 그럴듯한 문구들을 ‘예측’하는 모델이다. 따라서 고도로 학습된 모델은 결과론적으로 그럴듯한 답변을 내놓을 수 있지만, 텍스트의 맥락을 적확하게 이해하는 능력은 미약하다는 게 전문가들의 설명이다.

<바다 거북 스프>의 공식 소개에 따르면 게임은 오픈 AI의 챗 GPT에 기반하고 있다. 정확한 버전은 밝히지 않았지만, 가장 최근 버전인 4.o라 하더라도 할루시네이션 문제에서 아직 벗어나지 못한 건 마찬가지다. 실제로 <바다 거북 스프>의 챗봇은 답변을 객관식으로 제한하고 있는데도, 사실에 반하는 답을 내놓는 현상을 보여준다.

광고 시청으로 액션 포인트를 충전할 수 있다.

# 안 유쾌한 거짓말

사실 이 현상은 게임의 튜토리얼을 통해 경고되어 있기는 하다. 제작진은 “주의할 점이 있다. 인공지능은 항상 진실만을 이야기하지 않는다는 것을 기억하셔야 한다”고 적어뒀다.

미리 경고되었으므로 이를 철저히 감안해 플레이하면 그만일 것 같지만, 실제 챗봇의 거짓말(혹은 실수)을 맞닥뜨리면 게임으로서의 재미가 잘 성립하지 않는다는 걸 알 수 있다. 게임의 유일한 룰이 할루시네이션으로 인해 무력화되기 때문이다.

예시를 통해 살펴보면 이해가 쉽다. 둘째 문제에선 집안에 들어온 정체불명의 남성과 마주친 주인공 여성의 이야기가 묘사된다. 챗봇에 “남성이 뭔가 훔치기 위해 집안에 침입했나?”고 질문하자 챗봇은 이를 부정했다. 덕분에 유력한 가설 하나가 부정당해 추리가 오리무중에 빠졌다. 그런데 결국 백기를 들고 확인해 본 답변은 해당 남성이 도둑이 맞는다는 허탈한 내용이었다.

어쩌면 <바다 거북 스프> 개발진은 LLM의 할루시네이션 현상을 유저에게 심리적으로 납득시킬 방안으로서, 답안 도출 과정이 비교적 비선형적인 ‘수평적 사고 퍼즐’을 소재 삼은 것일지도 모른다.

출제자(챗봇)의 거짓말(혹은 헛소리)까지 고려하여 답변을 찾으라는 일견 당황스러운 요구는, 할루시네이션 문제를 기획적으로 잘 풀어낸 또 다른 LLM 기반 추리게임 <언커버 더 스모킹 건>을 연상시키는 지점이 있다. <언커버 더 스모킹 건>의 대화 상대들은 ‘언어능력이 불완전한 로봇’이자 ‘거짓말을 할 동기가 충분한 용의자’로 설정되어 있어 할루시네이션 현상이 스토리에 반발 없이 녹아든다.

그런데 <언커버 더 스모킹 건>에서의 할루시네이션은 유저가 즐겁게 극복 가능한 허들이라는 점에서 유의미한 게임 설계로 작동한다. 다른 캐릭터와의 대화, 혹은 해당 캐릭터에 대한 집요한 추궁이나 공박을 통해 간파할 수 있다는 점에서 ‘수사물’로서의 정체성을 오히려 강화해 주는 요소이기도 하다.

그러나 <바다 거북 스프>에서처럼 게임 내의 유일한 메커니즘이 무작위로 플레이어의 노력을 무위로 돌리거나 방해하는 경우, 유저는 공정함을 느끼기 힘들다. 불공정한 시스템은 즐거움보다는 불쾌감을 유발한다는 점에서 게임의 미디어적 본질에 어긋난다. 유저의 자원(이 경우 광고 시청 시간)을 요구하고 있는 경우라면 더욱 그렇다.