오픈 AI의 대형 언어 모델 ‘챗GPT’를 이용해 게임을 기획하는 과정을 글로 풀어본 적 있습니다. (링크) 챗GPT는 생각 이상으로 그럴듯한 시나리오를 만들어냈고, 따라서 기사를 접한 주변 사람 일부가 -조금은 진지한 태도로- ‘실제 기획자도 대체할 수 있겠냐’ 물어봐 온 것 역시 꽤 자연스러운 일입니다.
같은 질문을 기자 스스로의 직업적 전망에도 적용해볼 수 있습니다. 챗GPT, 빙 AI, 그리고 후속할 대형 언어 모델들은 게임 기자가 하는 일을 대체할 수 있을까요? 만약 그렇지 않다면 정확히 무엇 때문일까요? 지난 몇 주간 사무실 모니터 한쪽에 구직 사이트를 (몰래) 열어 두고 고민해본 끝에 내린 나름의 결론을 공유해보겠습니다.
먼저, 홀연히 나타나 혼돈에 가까운 파급력을 발휘한 챗GPT를 중심으로 대형 언어 모델이 가지는 현시점의 한계 몇 가지를 짚고 넘어가야 할 필요가 있습니다. 물론 기자가 직접 분석을 제시할 역량은 안 되기에, 현세대 최고의 SF 작가 중 하나로 꼽히는 테드 창(Ted Chiang)의 말을 빌려 설명해보고자 합니다.
테드 창은 아이비리그의 브라운 대학교에서 컴퓨터과학을 전공한 뒤 마이크로소프트에서 테크니컬 라이터(technical writer)로 일하다가 과학소설가로 전향, 휴고상· 네뷸러상 등 전 세계 주요 SF 문학상을 휩쓸어 온 입지전적 인물입니다.
특히 SF의 여러 서브장르 중에서도 과학적 정합성에 강하게 뿌리를 두는 ‘하드 SF’의 거장입니다. 정교한 외삽을 통해 미래를 그려 내는 장르 특성상, 이 계열의 유명 작가들은 현존 과학/기술에 대해서도 깊은 통찰을 보여주고는 합니다.
지난 2월 9일 뉴요커 지에 기고한 ‘챗GPT는 웹의 흐릿한 JPEG’라는 제목의 칼럼에서 테드 창은 작가로서 바라본 챗GPT(및 유사 언어모델)의 근본적 속성과 이에 따른 한계를 비교적 분명한 어조로 논합니다.
테드 창이 선택한 비유는 2013년 독일 어느 건설사무소의 한 ‘제록스 복사기’가 일으켰던 작지만 치명적 오류입니다. 해당 복사기는 대상 이미지를 스캔해 파일로 만든 뒤, 이를 인쇄하는 디지털 방식의 복사기였는데, 어느 날 설계 도면을 복사하던 중 기묘한 오류를 발생시킵니다.
문제의 도면에는 여러 규격의 방이 존재했고, 각 방 면적이 14.13㎡, 21.11㎡, 17.42㎡ 등으로 다양하게 표기되어 있었습니다. 그런데 복사기가 표기를 14.13㎡로 일괄 통일해버리는 문제가 발생했습니다. 이에 제록스는 컴퓨터 과학자인 데이비드 크리젤에 조사를 의뢰합니다.
그 결과 이는 복사기에 사용된 흑백 전용 이미지 압축 포맷 JBIG2에서 발생한 오류로 드러났습니다. JBIG2 포맷은 이미지를 압축할 때, 원본에서 유사하게 보이는 여러 영역을 단일한 형태로 바꿔 저장하는 일종의 손실 압축(원본 정보가 훼손되는 압축) 방식을 사용합니다. 문제의 도면에서는 면적 표기가 상호 ‘비슷한 이미지’로 간주되었고, 그 결과 14.13으로 통일되고 말았던 것입니다.
기고문의 제목에서도 짐작할 수 있는 것처럼, 테드 창은 챗GPT의 근본적 한계를 이러한 손실 압축의 개념에 빗대어 설명하고 있습니다. 테드 창은 다음과 같이 말합니다.
“챗GPT를 웹(Web)에 존재하는 모든 텍스트의 흐릿한 JPEG라고 생각해보라. JPEG가 원본 고해상도 이미지의 대부분 정보를 담고 있는 것처럼, 챗GPT도 웹상의 정보를 상당부분 함유하고 있다. 하지만, (원본의) 일부를 그대로 찾으려 한다면, 그럴 수 없다. 당신이 가질 수 있는 것은 언제나 그 근사치일 뿐이다.”
이러한 손실 압축의 아날로지는 요즘 인터넷상에서 무수히 돌아다니는 여러 코믹한 ‘챗GPT 대화’를 설명하는 좋은 방법이기도 합니다. 특히, 최근의 손실 압축 기술에 ‘보간법(interpolation)’이 자주 사용된다는 점에서 더욱 그렇습니다.
이 맥락에서 보간법은 두 가지 데이터 사이 빈 곳을 ‘평균치’로 채워 넣는 방식을 이야기하는데, 이렇게 산출된 ‘평균치’는 실제 사실(원본)에 위배되거나 아예 ‘무뜬금’이 될 수 있습니다. 영상, 이미지에서는 큰 문제가 되지 않을 때가 많지만 정확도가 중시되는 텍스트에서는 이야기가 달라집니다.
여러 언론에 보도될 정도로 화제를 모았던 한 유저와 챗GPT 사이의 ‘세종대왕 맥북프로 던짐 사건’ 대화도 마찬가지입니다. 이 대화에서 챗GPT는 ‘세종대왕 관련 기록’과 ‘맥북프로’라는 두 텍스트 사이의 간극을 ‘평균적인’ 세종대왕 관련 설명문 스타일로 ‘때워 넣었고’, 그 결과 박장대소할 결과물을 내게 되었습니다.
챗GPT의 텍스트 생성 방식이 이런 것이라면, 아무래도 ‘기사 작성자’로서는 현시점에서 결격 사유가 적지 않습니다. 이는 인터넷의 발달이 기자 직군을 완전히 대체하지 못한 이유와도 맥락을 같이 합니다.
인터넷에서 섭렵할 수 있는 정보의 양은 물론 기자 개인과 비교가 어려울 만큼 방대합니다. 하지만 신뢰도가 항상 온전한 것은 아니어서 적당히 참고하기엔 적절하지만 중요한 일의 근거로 삼고자 한다면 교차 검증이 필수적입니다(나무위키의 예시를 떠올려보면 좋습니다).
다만 챗GPT의 경우 참조한 원본 텍스트를 알려주지 않기에 이마저 불가능하다는 문제가 있습니다. 여러모로 신뢰할 수 있는 정보제공자는 아닌 셈입니다.
그런데, 여기까지 읽은 여러분 중 근래의 AI 열풍에 관심이 많은 독자라면, 위에 언급된 한계를 많은 부분 넘어선 AI 서비스가 하나 생각날 듯합니다. 바로 마이크로소프트의 빙 AI입니다.
2021년 이후의 정보가 제한되는 챗GPT와 달리 빙 AI는 MS의 빙 검색엔진과 연동되어 실시간 정보를 제공할 수 있고, 생성된 텍스트에서 참조한 원본 텍스트 링크까지 꼼꼼히 제공해 2차 검증 역시 쉽습니다.
또한, 챗GPT와는 달리 앞서 언급된 ‘보간법’을 제한하고 있는 것으로 보이는데, 실제로 챗GPT와 달리 온전한 답변이 어려우면 ‘답하기 어렵다’는 반응을 자주 내놓습니다. 기자가 ‘맥북프로 던짐 사건’을 물어봤을 때의 답변은 두 언어모델 사이의 이러한 차이를 잘 드러내 주고 있습니다.
테드 창이 기고문을 통해 '원본 참조'가 힘든 대형 언어 모델의 한계를 논한 것은 2월 초, 빙 AI가 서비스를 본격화한 것은 그보다 조금 지난 2월 중순부터입니다. 그는 불과 한 치 앞을 내다보지 못했던 걸까요? 꼭 그렇지는 않습니다. 테드 창이 지적한 대형 언어 모델의 한계는 더 있고, 빙 AI 역시 여기에선 자유롭지 못합니다. 바로 단어가 지시하는 개념을 본질적으로 이해하지 못한다는 사실입니다.
테드 창은 챗 GPT의 기초가 되는 GPT-3 기술을 이용해본 경험을 통해 이를 설명합니다. GPT-3는 한두 자릿수 숫자끼리의 사칙연산은 거의 틀리지 않고 해내지만, 숫자가 커질수록 정답률이 현저히 떨어지며, 다섯 자리 숫자로 올라가면 거의 10%대를 기록합니다.
이는 GPT-3이 여러 수식을 접하면서도 대수학의 원리를 정확히 이해하고 있지 않기 때문이라고 그는 추측합니다. 비슷한 사례로 GPT-3은 ‘받아올림’을 제대로 하지 못하는 모습도 보여줬는데, ‘받아올림’ 개념에 관한 설명은 분명 웹에 존재합니다. 따라서 텍스트에서 스스로 그 의미를 도출해내고, 이를 응용하는 능력이 온전치 않다는 결론을 내릴 수 있습니다.
말의 의미를 이해하지 못한다는 건, 빙 AI와 같은 보다 진보한 언어모델 역시 유저가 원하는 정보를 정확히 제공하는 능력이 제한될 수 있다는 의미가 됩니다. 일례로 기자는 <와룡: 폴른 다이너스티>가 출시한 3월 3일, 빙 AI에 영문과 국문으로 ‘오늘의 주요 게임 뉴스’를 요구했습니다. 이에 빙은 ‘제공할 수 있는 내용이 없다’는 답변을 내놓았습니다.
잘 알려진 것처럼, <와룡> 출시 당일 인터넷은 게임의 처참한 PC 최적화 문제로 들끓었던 만큼, 아무 답변도 내놓지 못하는 빙 AI의 모습은 조금 이상하게 다가옵니다. 이는 빙 AI가 ‘주요 뉴스’라는 단어가 함축하고 있는 바를 이해하지 못해 적절히 정보를 추리지 못한 결과로 짐작됩니다. 반면 ‘와룡 유저 반응’을 요구하자 이를 다룬 외신 기사를 재빨리 요약해줬습니다.
‘MS의 액티비전 블리자드 인수에 반대하는 각국 기관’을 영문으로 질문했을 때의 결과도 유사합니다. 빙 AI는 ‘그 질문에는 답변할 내용이 없다. 대신 영국 CMA, 미국 FTC, 유럽 연합이 해당 인수 건을 검토 중이라는 사실은 말해줄 수 있다’고 답변했습니다.
흥미로운 것은 CMA와 FTC가 질문에서 언급된 '인수를 반대하고 있는 기관'이라는 점입니다. 그런데도 빙 AI가 이러한 답변을 도출해내지 못한 것은 아직 외신들이 두 기관의 기조를 직접 ‘반대’(against)라는 텍스트를 통해 설명한 사례가 많지 않기 때문으로 보입니다.
챗 GPT, 그리고 빙 AI가 현재로서 지니는 한계를 둘러봤습니다. 하지만 이들 AI가 계속 발전할 것은 명약관화한 일, 조만간 상황이 바뀔 수 있습니다. 단적으로 앞선 '<와룡> 반응 종합' 사례에서 알 수 있듯, 빙 같은 검색 AI가 지금보다 고도화된다면 웹에 이미 공개된 정보를 요약 정리하는 '큐레이션' 유형 기사는 앞으로 점점 그 값어치가 떨어질 듯합니다.
사용자의 질문에 맞춤형으로 정보를 일목요연 제공할 수 있는 AI를 두고 구태여 언론 혹은 인플루언서를 찾는 건 귀찮음을 자처하는 일이 될 테니까요. 누군가 조금의 ‘응용’을 마음먹는다면 더 그렇습니다. 위에 ‘주요 뉴스’를 제공하지 못했다는 점을 단점으로 들었는데, 챗GPT API를 이용해 주요 게임 언론의 당일 뉴스를 스크레이핑해 요약하는 서비스를 만든다면 해결될 일일 겁니다(저작권 상의 문제가 어떻게든 마법적으로 해결된다는 가정 하의 일이지만요).
그러나 대형 언어 모델이 기자가 될 수 없는 궁극적이고 중대한 결격 사유가 하나 더 있다는 점을 우리는 고려해야 합니다. 그리고 그것은 의외로 능력의 결여가 아닌 '아무 말'이나 옮기지 않는 책임감의 결여입니다.
저명 언어학자 노엄 촘스키는 이언 로버츠 케임브리지대 언어학 교수, 제프리 와터멀 오셔니트 AI 국장과 함께한 최근 뉴욕타임스 기고에서 "진정한 지성은 도덕적 사고를 할 수 있다"는 말로 언어 인공지능과 인간 말하기의 근본적 차이를 지적했습니다.
촘스키는 인간 지능이 '창조적 추론' 뿐만 아니라 '창조적 비판'으로도 구성된다고 말합니다. 비판적으로 틀린 가능성을 제외하는 능력이 없는 머신 러닝 시스템은 통계적으로 유의한 답변이라면 아무런 '감별' 없이 내놓는다는 점에서 인간 말하기에 준하지 못한다는 겁니다. 그리고 이런 한계로 인해 발생하는 문제는 비단 '정확도'와 '논리'에만 있지 않다고 촘스키는 강조합니다. 그는 다음과 같이 적었습니다.
"챗GPT는 일종의 '악의 평범성', 즉, 표절, 냉담, 문제 회피 등의 경향을 보여준다. 마치 '슈퍼 자동완성'처럼 일반적인 주장들을 요약할 뿐, 어느 한 쪽의 주장을 고수하길 거부하며, 이는 단순히 무지가 아닌 지성의 결여를 보여주는 것으로, 궁극적으로는 '명령을 따랐을 뿐이다' 류의 방어논리를 펴 그 책임을 창조자에게 돌린다."
저서 <예루살렘의 아이히만>에서 한나 아렌트는 비판적으로 사유하지 못하는 생각의 무능이 결과적으로 평범하게 악을 행하는 '악의 평범성'(악의 진부성)으로 이어진다고 설명합니다. 촘스키의 말은 그러니까 근원적으로 옳고 그름을 사유하지 않는 존재로서의 챗GPT가, 다른 텍스트를 표절하고, 그릇된 정보를 옮기는 등의 도덕적 문제를 '평범히' 자행한다고 비판한 겁니다. 게다가 AI인 만큼 그 책임을 지지도 않습니다.
다만 '생각의 무능'은 당연하게도 AI 이전에 인간의 문제로, 기자 직함이 이를 자동으로 막아주는 것 역시 아닙니다. 그러나 옳고 그름을 따질 능력을 현 단계에서 근본적으로 결여한 AI에 비한다면, '인간 기자'가 달성할 수 있는-그리고 달성해야 할- 중요한 존재론적 우위가 하나 쯤은 더 있는 셈입니다.