오래간만에 <리그 오브 레전드>에 접속해 랭크 게임을 돌린 당신. 정글러로 게임을 하고 있는데 팀의 상황 심상치 않다. 탑과 미드는 서로 미친 듯이 불을 지르기 시작해 눈만 때면 라인이 터질 것 같고 봇에서는 도대체 무슨 일이 있었는지 원딜이 키보드에서 손을 놓고 있는 것만 같다. 사방에서 ‘똥’이 넘실대는 상황, 당신은 승리를 위해 어떤 선택을 해야 할까?
2013년과 2014년 라이엇게임즈에서 라이브 프로듀서 직을 담당했던 최종윤 프로덕트 오너는 라이브 프로듀서를 <리그 오브 레전드>의 ‘정글러’로 비유했다. 사방에서 수시로 문제가 터지고 있는 가운데 게임이 망하면 가장 많이 욕 먹는 직업(?), 그리고 이 때문에 수시로 맵을 읽고 최선의 선택을 해야 한다는 이유에서다.
과연 최종윤 프로덕트 오너는 2년 간 한국 <리그 오브 레전드>를 서비스하며 어떻게 ‘정글’을 돌았을까? 그에게서 라이엇게임즈의 라이브 서비스 위기관리 노하우를 들어봤다. /디스이즈게임 김승현 기자
라이브 프로듀서에 대해 이해하려면 먼저 온라인게임의 라이브 서비스가 어떤 것인지부터 알아야 한다. 라이브 서비스는 흔히들 유저들이 ‘운영’이라 이야기하는 모든 것을 이야기한다. 물론 이러한 ‘운영’에는 굉장히 많은 영역에 얹혀 있다. 버그가 발생하면 엔지니어(프로그래머)가 해결하고 이벤트에 문제가 있다면 담당 부서에서 검토에 들어간다. 그렇다면 라이브 서비스팀, 그리고 라이브 프로듀서는 어떤 것을 하는 것일까?
라이브 서비스는 온라인게임, 혹은 온라인서비스가 주류를 이루며 탄생한 개념이다. 과거 패키지 시절에는 이러한 개념이 존재하지 않았다. 애초에 패키지가 기준이다 보니 문제가 생길 요소가 적었고 설사 문제가 생기더라도 패치나 수정본을 배포하면 해결됐다.
하지만 온라인 체제가 되니 상황이 달라졌다. 온라인 서비스의 특징은 유저에게 항상 새로운 재미를 선사해야 한다는 것이다. 개발사는 이를 위해 속도전이 돌입했고, 이러한 속도전은 품질관리의 허점을 나았다. 이렇게 만들어진 허점은 온라인을 타고 치명적인 파급효과를 나았다. 이러한 일이 몇 번 일어난 후에야 개발사는 위기를 관리하고 대응하는 라이브 서비스팀을 두기 시작했다.
“한 마디로 컨트롤타워죠. 라이브 서비스 중 일어나는 문제는 굉장히 다양한 분야가 엮여있고 그 경중도 다릅니다. 라이브 프로듀서는 이를 파악한 후 해결 방법을 제시합니다. 굉장히 심각한 버그가 있다면 한밤 중에도 엔지니어를 호출할 것이고, 유저들에게 큰 피해 없는 사소한 오류라면 자원 관리 차원에서 해결을 미루는 경우도 있죠. 심지어 문제 해결을 위해 ‘서버를 잠시 내리느냐, 그대로 두느냐’까지도요.”
이러한 업무 특성 때문에 라이브 프로듀서의 결정 하나하나는 게임과 유저에게 큰 영향을 끼친다. 일단 당장 서비스와 관련해 최일선에서 유저와 소통하고 결정하기 때문에 라이브 프로듀서의 결정이 운영의 질과 이미지를 좌우한다. 또한 문제 해결을 위해 필연적으로 개발팀 등 내부 리소스를 사용하기 때문에 긴 관점에서는 라이브 프로듀서의 결정이 신규 콘텐츠 추가 일정 등에 영향을 주기도 한다.
“딱 정글러죠. 몸은 하나인데 도움을 필요한 곳은 많습니다. 여기서 버릴 것은 버리고 취할 것은 취해야 하는데 까딱 잘못하면 모든 욕이 쏟아지죠.”(웃음)
■ 치료하려면 얼마나 많은 의사가 필요할까? 야전 군의관의 고민
라이브 프로듀서는 구체적으로 어떤 일을 할까? 라이브 프로듀서의 목적은 서비스의 품질을 높이는 것이고, 그들의 업무는 유저들의 부정적인 경험을 줄여 나가는 것이다.
유저들에게 서비스 정보를 공유하고 문제가 생기면 이에 대응하고 나아가 이를 분석해 예방한다. 이 과정에서 해결에 필요한 방법을 선택하고 부서 간 업무를 분담하는 것은 기본이다. 또한 유저의 만족이 최우선 목표이기 때문에 개발사 내부에서는 유저들의 입장을 대변하는 측에 서게 된다.
라이브 프로듀서의 업무는 문제 파악부터 시작된다. 문제는 커뮤니티나 1:1 문의 등으로 라이브 프로듀서에게 전달되는 경우가 많다. 문제가 심각할수록 게임을 즐기는 유저들도 민감하게 반응하기 때문이다. 물론 그렇지 않은 경우도 있다. 라이브 프로듀서는 이를 대비해 서버 지표 등을 참조한다. 커뮤니티나 제보가 문제의 심각성을 나타낸다면, 지표는 얼마나 많은 이들이 문제를 겪는지를 보여주는 객관적인 데이터다.
문제가 발견되면 라이브 프로듀서는 먼저 사건의 심각성부터 판단해야 한다. 이 때 중요한 것은 시간이다. 이미 문제는 발생한 상태고 문제를 파악한 시점에는 수많은 유저들이 이를 겪고 있는 상태다. 때문에 라이브 서비스는 최대한 짧은 시간 안에 문제의 원인 혹은 경과를 파악해 심각성을 파악해야 한다. 라이엇게임즈는 이러한 촉박한 시간을 대처하기 위해 항상 과거 문제 사례나 다른 지역 라이브 프로듀서와의 연결고리를 유지해 최대한 많은 정보를 참조할 수 있게끔 한다.
불행히도 이런 절차로 문제의 심각성이 높다고 판단되면 본격적인 트리아지(triage)가 시작된다. 트리아지는 야전병원에서 환자의 상태를 파악해 투입 자원을 결정하는 과정을 말한다. 똑 같은 심각한 문제가 있다고 하더라도 빨리 대응해 고칠 수 있는 문제, 고칠 순 있지만 긴 시간이 필요한 문제, 고칠 가능성이 낮은 문제 등이 존재한다. 라이브 프로듀서는 이러한 문제의 성격을 파악해 해결에 투입될 자원을 결정해야 한다.
문제가 발생하면 당연히 모두 고쳐야 하는 것 아니냐는 의문이 있을 수 있다. 최종윤 프로덕트 오너는 이러한 질문에 대해 병원의 얘를 들었다.
“병원에 환자가 입원하면 모든 의료진이 총출동하진 않습니다. 한밤 중 응급환자가 발생했더라도 상세에 따라 당직의가 임시조치를 하고 기다리기도 하고 바로 전문의가 출동하기도 합니다. 게임도 같습니다. 시간과 자원은 한정되어 있고 모든 것을 해결할 순 없습니다. 오히려 그렇게 했다간 문제만 해결하느라 새로운 업데이트가 없어질 수도 있죠. 회사뿐만 아니라 유저에게도 손해입니다.”
■ 정글러가 갱킹을 성공시키기 위해선? 라이브 프로듀서의 업무
문제의 심각도와 그에 따른 투입 리소스까지 결정됐다. 그러면 이제 라이브 프로듀서는 앞으로 무엇을 할까? 최종윤 프로덕트 오너는 문제 해결과정에서 다시 한번 올바른 문제 파악의 중요성을 강조했다. 당연한 이야기지만 의외로 많은 회사들이 간과하는 측면이기도 하다. 라이브 서비스 중 생긴 이슈는 대부분 이런 기본적인 것조차 빠트릴 정도로 급박한 것이기 때문이다.
침착하게 문제를 다시 한번 파악했다면 해결방법을 정해야 한다. 이것에는 정답이 없다. 똑같은 캐릭터 버그라고 할지라도 당장 서버를 내리고 점검할 수도 있고, 해당 캐릭터를 일부 모드에서만 금지시킬 수도 있다. 이 과정에서 중요한 것은 다른 부서 사람들에게 이 해결법을 충분히 설득시키고 납득시키는 것이다. 그의 말을 빌리자면 정글러가 다른 라이너들에게 갱킹을 예고하고 협력을 요청하는 것인 셈이다.
정글러로 게임 중 탑과 미드는 박살났고 봇에서는 상대 원딜이 무럭무럭 자라고 있다고 가정하자. 정글러는 여러 선택을 할 수 있다. 탑으로 가 상대 라이너를 견제하는 것도 방법이고, 봇에 내려가 상대 원딜을 처치하고 드래곤까지 노리는 것도 방법이다. 허나 이 과정에서 중요한 것은 팀원들이 정글러의 의도를 알고 호응해 주는 것이다. 기껏 정글러가 봇으로 갱을 갔는데 소나의 궁극기가 빠져 있어선 죽도 밥도 되지 않으니까.
때문에 최종윤 프로덕트 오너는 라이브 프로듀서 업무의 중요한 것은 다른 부서 사람들에게 해결방법을 납득시키는 것, 그리고 끊임없이 타 부서 사람들에게 업무를 확인해 해결방법이 원만히 적용될 수 있도록 하는 것이라고 강조했다.
“솔로 랭크 게임을 돌리는 정글러가 혼자서 모든 것을 고민할 순 없습니다. 오로지 내가 어떤 선택을 해야 우리 팀이 이길 수 있을까만 고민할 수 있죠. 라이브 프로듀서도 똑같습니다. 서로 다른 업무, 서로 다른 목적을 가지고 있는 개발진 사이에서 가장 효율적인 답을 찾아서 설득시켜야 되죠.”
단, 이 과정에서 주의해야 할 점은 이 대응과정이 길어지는 경우다. 가깝게는 집중력 저하고 수정된 부분의 퀄리티를 보증할 수 없게 된다. 더군다나 이런 종류의 일은 특성 상 따로 실수를 검증할 QA 과정을 거칠 수 없는 것이 대부분이다. 결국 장시간의 업무는 도리어 문제 해결이 아닌 악화를 만들 가능성이 크다.
또한 대부분의 회사는 위기대응을 위한 엔지니어를 따로 두지 않는다. 문제 해결에 투입되는 엔지니어는 대부분 신규 콘텐츠를 만들던 인원이다. 때문에 문제 해결이 길어질수록 평소 하는 일의 진척도가 늦어지는 일이 발생한다. 당장 하루 밤샘을 했다고 업무가 하루 늦어지는 것이 아니다. IT업계에서는 하루 밤샘의 여파가 일주일 이상 영향을 끼치는 것이 일반적이다.
이 때문에 라이엇게임즈은 전세계 3개 국가에 8시간 단위로 교체 운영되는 위기대응 조직을 따로 운영하고 있을 정도다.
이렇게 다른 부서와의 협업으로 해결이 끝났다. 이제 라이브 프로듀서는 마지막으로 짧은 시간이나마 QA 작업을 수행해야 한다. 만약 서버 문제 때문에 기기를 바꿨다면 기기가 잘 돌아가는지를 확인해야 하고, 서버 코드를 바꿨다면 시뮬레이션을 하는 식이다.
사실 이 같은 일은 사살 라이브 프로듀서 뿐만 아니라 개발진 모두의 일이기도 하다. 하지만 모두의 일이란 곧 누구의 일도 아니라는 뜻과 같다. 때문에 이런 절차는 라이브 프로듀서가 마지막까지 신경을 써야만 큰 문제없이 해결이 끝날 수 있다.
■ 빠른 해결, 많은 정보, 더 많은 경험. 유저의 관점에서 생각하라
최종윤 프로덕트 오너는 마지막으로 라이브 프로듀서가 문제 해결 방법을 결정할 때 참고해야 할 기준을 이야기하고 강연을 끝마쳤다.
기본적으로 라이브 프로듀서의 지상과제는 유저에게 최대한 부정적인 경험을 주지 않는 것이다. 이에 대한 구체적인 사례를 이야기하면 다음과 같다.
첫 번째는 기술적인 관점이다. 라이브 이슈의 대다수는 버그와 같은 기술적인 부문에서 발생한다. 이때 가장 중요한 것은 장애시간의 최소화다. 라이브 서비스에 장애가 생겼다는 것은 그동안 정상적인 게임을 못한다는 것과 같다. 유저들이 게임사에 원하는 것은 게임을 안정적으로 서비스하는 것이다.
물론 때로는 간단한 해결 방법이 있음에도 긴 해결이 필요한 경우도 있다. 원인을 모른 채 해결방법만 찾아낸 경우가 대표적이다. 하지만 IT업계에서 원인 모르는 해결이란 곧 문제의 재발과도 같다. 이 경우, 특별한 일이 없다면 점검 시간을 길게 가져서라도 문제이 원인까지 파악해 해결하는 것이 낫다.
두 번째는 소통이다. 문제가 생기면 라이브 프로듀서가 가장 신경써야 할 것은 유저에게 정확하고 명확한 정보를 제공하는 것이다. 예를 들어 유저가 PC방에서 게임을 하는데 갑자기 튕겨서 재접속이 안 되는 일이 일어났다고 가정하자. 이 경우 당연히 문제의 발생 뿐만 아니라 조치 내역, 예상 해결 시간까지 명확할수록 좋다. 그래야 유저가 자신이 어떻게 행동할 지 판단할 근거를 얻기 때문이다.
물론 간혹 운영 상의 문제로 정보를 제한해야 하는 경우도 있다. 정보를 공개할 경우 다른 유저들에게 악영향을 주거나, 다른 지역 유저와의 형평성 등이 그 이유다. 하지만 이러한 판단은 어디까지나 유저들의 편의, 혹은 좋은 서비스라는 기준 위에서 이뤄져야 한다. 단순히 회사나 개인이 편해지기 위해 이를 게을리하면 유저들은 게임사를 불신하게 되고, 종국에는 라이브 프로듀서가 하는 일 모두가 유저에게 영향을 줄 수 없게 된다.
마지막은 유저 입장의 대응이다. 라이브 프로듀서는 게임사 직원 그 누구보다도 일선에서 유저를 만나고 이들의 입장을 알 수 있는 직종이다. 때문에 라이브 프로듀서는 회사 안에서 항상 유저의 이익을 대변하는 목소리를 내야 한다.
최종윤 프로덕트 오너가 이를 강조하는 것은, 의외로 의사결정 과정 중 유저의 입장보다 회사 혹은 부서의 입장이 우선시되는 경우가 많기 때문이다. 예를 들어 업데이트가 거의 끝나가는데 다른 것은 전부 정상인데 세일 예정인 챔피언이 구매되지 않는 버그가 발생했다고 생각하자. 고치기엔 시간이 빠듯한 상황. 이 경우 업데이트 적용 시간을 늦추고 버그를 고치는 방법과 업데이트는 먼저 끝낸 채 세일 이벤트만 버그 수정 후 시작하는 방법이 있다.
이 상황에서 이벤트 담당 부서나 CS팀은 업데이트 시간이 길어지더라도 버그를 해결하자고 할 가능성이 크다. 이벤트 담당 부서의 경우 이래야만 이벤트가 문제 없이(?) 시행돼 부서의 실적이 쌓이고, CS부서는 늦춰진 이벤트 때문에 유저들에게 문의 받을 일이 없어진다. 하지만 유저들의 게임 플레이라는 측면에서는 이러한 선택지보다 업데이트를 끝마친 후 이벤트만 늦추는 것이 더 바람직하다.