매운맛 인터넷 세상, 스마일게이트는 혐오 발언 걸러내는 AI 만들었다

인터넷에는 수많은 혐오 표현이 존재합니다.

굳이 찾으려 하지 않아도 온갖 욕설이 난무하는 게 인터넷 세상입니다. 그런 말들을 유쾌한 농담으로 받아들일 수도 있겠지만, 그렇지 않은 경우가 대부분입니다. 사전적으로는 욕설로 분류할 수 없더라도 듣는 사람에게 불쾌감을 불러 일으킬 수 있는 표현도 적지 않습니다.

우리에게 <로스트아크>로 친숙한 스마일게이트는 AI 기술을 연구하기 위한 연구 조직을 운영 중입니다. 바로 지난달, 스마일게이트 AI 센터는 혐오 표현을 감지, 분류할 수 있는 데이터셋을 깃허브(GitHub)에 오픈 소스로 공유했습니다. 총 18,742건의 데이터를 학습하여 "특정 사회적 집단에 대한 적대적 발언, 조롱, 희화화, 편견을 재생산하는 표현"을 찾아낼 수 있도록 하는 툴을 만든 것입니다.

스마일게이트는 왜 이런 일을 하고 있는 걸까요? 무엇을 기대하고 있는 걸까요? 데이터셋이 온라인게임에서는 어떻게 활용될 수 있을까요? 연구에 참여한 김성현 멀티 모달 연구원을 만나 대화를 나눴습니다.

스마일게이트 AI 센터 김성현 연구원

주의: 본문에 예시를 들기 위해서 사용된 혐오 표현, 또는 혐오 발언으로 읽힐 수 있는 표현은 이탤릭(기울임) 처리하였습니다.

Q. 디스이즈게임: 반갑습니다. 자기소개를 청합니다.

A. 김성현 연구원: 현재 스마일게이트 AI 센터에서 멀티 모달 대화 모델을 연구하고 있는 김성현입니다.

Q. 멀티 모달 대화 모델이 무엇인가요?

A. 우리가 흔히 '챗봇'이라고 하면, 텍스트가 입력되면 거기에 맞는 대화가 출력되는 것을 생각하잖아요? 멀티 모달리티, 멀티 모달(Multi Modal)은 텍스트뿐 아니라 음성, 표정, 비전 정보 등을 종합하는 분야입니다. 챗봇이 음성을 말하면서 얼굴 표정이 바뀌고, 제스처 같은 행동이 생기는 것을 멀티 모달리티라고 부릅니다.

Q. UnSmile 데이터셋은 어떤 계기로 개발하셨나요?

A. 최근 AI 분야에서는 자연어뿐 아니라 인공지능 언어도 급속도로 발전 중입니다. 이에 따라 인공지능 윤리에 대한 사회적 이슈가 부각되고 있습니다.

우리가 이야기하는 다양한 언어 표현들은 인공지능이 무분별하게 학습하다가 최근에는 혐오 발언을 학습해서 내뱉은 인공지능이 등장하기도 했습니다. 이에 따라서 센터에서는 AI가 유저에게 혐오 발언을 하지 않도록 하기 위해 필터링을 위한 학습 데이터를 개발했습니다. 반대로 유저들은 어떤 혐오 발언을 하는지도 알아볼 수 있었습니다.

UnSmile 데이터셋

Q. 비전문가도 이해할 수 있도록, 어떻게 모델 학습을 했는지 들려주실 수 있나요?

A. 기본적으로 데이터셋은 학습 데이터로 구축됩니다.

혐오 문장들을 분류하는 것이 목적이기 때문에 한국어를 잘 이해하는 인공지능이 필요합니다. 이런 인공지능을 '언어 모델'이라고 이야기합니다. 이 모델이 어떤 문장이 제시됐을 때 그 문장을 좌표 평면 위에 놓습니다. 그리고 그 평면 위에 의미가 비슷한 문장들을 분류하게 됩니다. 다른 의미의 문장들은 평면의 다른 쪽에 나열하게 됩니다.

이런 좌표 평면 위에 표현들이 쌓이게 되면 분류 모델을 사용할 수 있게 됩니다. 그 이후 선을 긋는 방식으로 왼쪽은 혐오 데이터, 오른쪽은 정상 데이터 이런 식으로 2차 학습을 시키는 것입니다. 그렇게 만들어진 모델이 현재 깃허브에 공개된 것입니다.

Q. 인터넷에서 총 몇 건의 발언을 분석하셨나요? 해당 표본이 혐오 표현을 걸러낼 만큼 신빙성을 가졌다고 보시나요?

A. 대략 1만 여 건의 혐오 데이터를 보기 위해서 55만 건의 댓글을 크롤링해서 10만 건을 랜덤으로 추출했습니다. 그리고 그 안에서 18,742건의 데이터를 뽑아냈습니다. 약 8만 건이 정상 데이터였던 것이죠. 커뮤니티 등 다양한 웹사이트에서 2019년 1월 1일부터 2021년 7월 1일까지의 데이터를 모았습니다. 표본에 대한 신빙성은 어느 정도 확보했다고 보고 있습니다.

Q. 2년 동안 여러 커뮤니티의 댓글 자료 등을 모으셨는데 어떤 경향을 가지고 있던가요?

A. 혐오 표현의 시의성과 편향성이 관찰됐습니다.

예를 들어 데이터 수집 기간에는 코로나19 확산 기간이 포함되었죠. 그때 코로나19가 많이 확산됐던 장소에 기반한 혐오 데이터가 많이 추출됐습니다. 종교 시설에서 코로나19가 확산됐을 때는 종교 혐오가, 클럽에서 확산됐을 때는 연령이나 성소수자에 대한 혐오가 나타나는 방식으로요. 코로나19가 중국에서 기반했다는 인식이 있어서 그에 대한 혐오도 나타났습니다.

또 수집 기간 중에는 적지 않은 성별 갈등 문제, 차별금지법, 난민 입국 사건 등이 발생했습니다. 이런 사건이 발생함에 따라서 혐오의 대상과 수위가 변화하는 양상을 보였습니다.

대립하는 집단 간의 혐오도 관찰됐습니다. 종교의 경우, 코로나19 초기 신천지에 대한 집단 혐오가 많이 발견되었습니다. 인종의 경우 중국인과 조선족에 대한 혐오가 구체적으로 나왔습니다. 같은 카테고리 안에서 미러링 현상이 많이 나타났는데, 영·호남 대립이 많이 나왔는가 하면 세대적으로 젊은 층과 586세대의 대립, 성별 대립 등이 보였습니다.

Q. 데이터셋의 카테고리를 보면 젠더, 인종, 국적, 연령, 지역, 종교 등등 거의 전 분야에 대해서 혐오가 이루어지고 있는 듯합니다. 왜 이럴까요?

A. 저는 사회과학자가 아니기 때문에 이러한 질문에 답하기 조심스럽습니다. 추산적인 부분에 대해서는 말해볼 수 있는데요. 데이터 상으로는, 어떤 집단이 그 집단의 이득이나 자유의지를 빼앗긴다고 판단할 때 혐오 발언이 발생하는 모습을 볼 수 있었습니다. '우리가 A 집단 때문에 코로나19로 고생한다' 이런 식으로요.

Q. 가장 많은 수집된 혐오 카테고리는 무엇인가요?

A. 인종/국적에 대한 혐오가 2,154건으로 가장 많았습니다. 그 뒤를 여성 혐오(1,993), 남성 혐오(1,681)가 뒤를 이었습니다. 우리 사회에서 젠더 갈등이 심하다는 것을 볼 수 있었습니다.

Q. 포털사이트에서는 악성 댓글을 차단하는 '클린봇' 등을 운영 중 아닌가요? 그런 데이터들은 어떻게 포함시키셨나요?

A. 봇이 검수하는 것보다 고도화된 혐오 표현들이 있습니다. 이를테면 '여자는 게임하면 안 된다'라는 예문에 욕설은 없습니다. 포털사이트 봇은 이런 표현들을 걸러낼 수 없었습니다. 조사하는 입장에서는 혐오가 비속어를 섞어서 욕하는 것뿐 아니라 맥락 차원에서 혐오가 나타난 부분들도 검출을 해야 했습니다. 뉘앙스와 맥락을 함께 검토해서 혐오 표현을 분류하기로 했기 떄문입니다.

Q. 고도화된 혐오는 어떻게 모습을 드러내던가요?

A. 몇 가지 패턴이 발견됐습니다. 그 중에서도 이 자리에서 이야기하고 싶은 부분은, 일반적으로 사회에서 부정적으로 여기는 요소를 혐오 표현에 동원하는 경우가 더러 있었다는 것입니다.

예를 들어서 성소수자에게 가해지는 혐오 발언 중에 '젠신병자'가 있었습니다. '정신병자'가 사회적으로 부정적 인식을 가지고 있으니, 그를 대입해서 성소수자의 젠더 혼동을 비하하는 표현이지요. 이 경우, 성소수자 비하는 물론 장애인 비하에도 해당합니다.

Q. 흔히 하는 말이 '데이터 뒤에 사람이 있다'는 것입니다. 조사 중에 감정적으로 힘들지는 않으셨는지요?

A. 검수 중에 충격적인 단어들이 많았습니다. 우리들도 그런 내용들을 인터넷에서 검색하면서 뜻을 알게 됐고 충격을 받기도 했습니다. 예를 들어 대구 지하철 참사 피해자를 비하하는 단어가 있었는데, 그 단어 자체는 사전적으로 비하로 보기는 어려운데, 그 단어가 쓰인 맥락을 보면 혐오 발언으로 볼 소지가 충분했고, 그 사실 자체가 저희에게 충격이었습니다.

스마일게이트의 UnSmile 데이터셋 (바로가기)

Q. 혐오 발언을 검증하는 기준은 무엇인가요? 혐오 역시 주관적 감정이 포함된 개념이 아닐까요?

A. 최대한 주관성을 배제하고자 사회과학을 전공한 석사들에게 태깅(Tagging) 작업을 맡겼습니다. 박사급 전공자도 있었습니다. 주관성을 빼기 위해서 다수결로 혐오 발언을 결정했습니다. 그러나 우리 센터가 공개한 데이터도 100% 혐오 발언을 걸러낼 수 없습니다. 주관성이 섞일 가능성이 있기 때문입니다.

센터에서 이 데이터셋을 오픈 소스로 공개한 이유가 바로 이것입니다. 공개를 하면 다수의 사람들이 이 데이터를 활용해서 발언이 혐오 발언의 여지가 있는지에 대해서 토론의 장이 이뤄질 수 있습니다. 그렇게 된다면 사회적으로 합의가 된 혐오 데이터 기준을 만들 수 있을 거라 희망하고 있습니다.

인터넷에 이 데이터셋을 공유한 뒤 '임신은 축복이지'를 혐오로 분류한 것을 두고 토론이 벌어졌습니다. 저희는 이 표현을 혐오 데이터로 분류했습니다. 누군가에게 임신이 축복이 될 수 있습니다. 그렇지만 임신을 원치 않는 여성들도 있습니다. 그러한 여성에게 이런 말을 하게 되면 임신을 통한 여성성을 강요한다고 본 것이죠.

비슷한 맥락으로 '남자는 군대를 가야 사람 구실을 하지'가 있습니다. 남성에게 군대 복무의 의무를 고착화하는 발언이죠. 우리끼리 이렇게 기준을 정해놓고 데이터를 구축했지만, 저희 결과물이 완전히 정답이라고 생각하지는 않습니다. 함께 데이터를 보고 토론을 해야만 한다고 생각합니다.

Q. 특성상 과거에는 혐오의 맥락을 담고 있었지만, 지금은 그렇지 않은 경우가 있을 듯합니다. 그 반대의 경우도 있을 텐데요.

A. 데이터셋을 공개한 뒤로 문의가 오고 있습니다. 특정 표현이 왜 혐오가 아니냐, 특정 표현은 왜 혐오냐 이런 식으로요. 근원에는 특정 인물에 대한 혐오가 담겨있지만, 시대가 지나면서 자연스럽게 사용하게 된 경우도 있습니다. AI 센터의 데이터셋 역시 시대의 흐름에 따라서 적절하지 않게 되는 시점이 올 것입니다. 우선 저희는 특정 집단을 비하하려는 의도가 분명하다면, 혐오 표현으로 분류했습니다.

Q. 특정 혐오 표현이 사회적으로 빈번하게 쓰이게 된다면, 더이상 혐오 단어가 아니게 되는 건가요?

A. 궁극적으로 사회적, 윤리적 성숙도를 높이고 싶다는 희망으로 데이터셋을 만들었습니다. 오늘날 익명성이 보장되는 커뮤니티에는 막말이 난무하고 있습니다. 이런 모습을 조금이라도 정화하고 싶었습니다. 문제의 심각성을 인지하기 위해서는 그 문제를 정면으로 바라봐야 합니다. 이번에는 그것을 위해서 메타 데이터를 구축한 것입니다.

Q. 데이터셋 구축 과정에서 지식 콘텐츠 스타트업과 함께 협업했다고 들었습니다. 어떤 협업을 하셨나요?

A. 일반적으로 인공지능 연구 데이터셋을 구축한다면, 학습을 중심으로 데이터를 만들게 됩니다. 이번 데이터는 대한민국 사회의 혐오 양상을 살펴보기 위한 의도도 있었으므로, 사회과학적 관찰법이 요구됐습니다. 이에 따라서 사회과학 전공자들이 주축이 되어 설립한 스타트업 '언더스코어'와 데이터의 검수에 대한 협업을 진행했습니다. 사회과학적 자문과 태깅 과정에서 도움을 받았습니다.

Q. 혐오 발언 데이터를 만들어 깃허브에 오픈 소스로 공유하셨습니다. 앞으로 이 데이터셋이 어떻게 사용될 수 있을까요?

A. 정제되지 않은 말들을 정면으로 볼 기회를 제공했다는 것 자체부터 의미가 있습니다.

이번 데이터셋이 공개된지 시간이 오래 지나지 않았기 때문에 단기간에 인사이트를 얻기는 어려운 점이 있습니다. 그렇지만, 앞으로 인공지능 자체도 학습을 하면서 잘못된 것들을 거를 수 있다면 더 고도화되지 않을까 하고 있습니다. 당장 게임사들은 특정 업데이트 정책이나 회사 대응이 어떤 영향을 미쳤는지 분석할 수 있을 것입니다. 혐오 발언을 자주 사용하는 유저도 검출할 수 있겠죠.

또 데이터셋은 인터넷에 난무하는 혐오표현 필터링에 사용할 수 있을 것입니다. 인공지능에게 가해지는 인간의 폭력적 언어 역시 필터링할 수 있습니다. 반대로 인공지능이 뱉는 언어도 필터링할 수 있겠죠. AI 센터의 목표는 인공지능이 혐오 발언을 꺼냈을 때, 그러한 표현을 앞으로 사용하지 않도록 학습을 통해서 알려주는 것입니다.

이 데이터셋을 제가 친구들과 쓰는 단톡방에 적용해봤습니다. 그랬더니 98% 가까이 클린한 말을 하는데, 2%의 혐오 발언이 잡혓습니다. 카테고리별로 모아서 정리를 해보니 단톡방의 친구들이 다들 놀랐습니다. 혐오 발언만 모아서 보면 굉장히 세보이기도 했습니다. 이렇게 일상적 대화를 하다가도 자기도 모르게 혐오 발언이 발화되는 경우가 많이 있습니다.

Q. "친구들끼리 농담도 못하냐?"라고 따진다면 어떻게 답변하시겠습니까?

A. 그렇게 받아들일 수 있어요. 다만 특정 발언 자체가 누군가에겐 폭력이 될 수 있다는 사실만은 인지했으면 좋겠습니다. '농담도 하지 마'가 이 데이터의 취지는 아닙니다. 어떤 발언이 누군가에게 폭력이 될 수도 있다는 사실을 함께 알아보자는 게 핵심입니다. 그렇게 알게 되는 것만으로도 우리 사회의 혐오가 조금이라도 나아지지 않을까 생각하고 있습니다.

Q. 데이터셋은 '흑형'이나 '갓양남'도 혐오 표현이라고 분류하고 있습니다. 인터넷에서 굉장히 많이 쓰이는 표현들인데 왜 혐오 발언일까요?

A. 혐오 발언엔 크게 2가지 종류가 있다고 생각합니다. 하나는 직접적인 비하고, 다른 하나는 좋은 의미로 칭찬을 하겠다고 했지만 그 집단에 대한 이미지를 고착화시키려는 발언입니다. 말씀하신 사례들은 후자에 해당한다고 생각합니다. 다른 예제를 말해보면 '아시아인들이 수학을 잘해' 이런 것들이 있겠죠.

Q. 이밖에 AI 센터에서는 어떤 일을 하고 있나요?

A. 스마일게이트 엔터테인먼트에서 적용 가능한 인공지능을 연구하고 있습니다. 사람들이 흥미롭고 재미있게 생각하는 인공지능을 연구하는 것이 중점 과제입니다. 저는 인간의 말을 잘 알아듣고, 얼굴 표정도 입 모양도, 목소리도 사람 같아서 구분이 안 가는 수준의 인간을 만드는 것을 목표로 하고 있습니다.

인공지능이 학습을 하려면 엄청난 데이터가 필요합니다. 그 많은 데이터를 얻을 곳은 인터넷밖에 없다. 그러면 인공지능이 학습할 때 사용하는 단어가 인터넷에 나와있는데, 혐오 발언과 욕설, 편향적 데이터가 적지 않습니다. 그런 지점들을 경계하기 위해서 데이터셋을 만든 부분도 있습니다.

또 인공지능이 정제되고, 좋은 데이터만 학습했다 하더라도 그 인공지능이 혐오 발언을 뱉을 가능성이 항상 존재합니다.

옛날에 (다른 곳에서) 아이 인공지능을 만든 적 있는데, 그 학습 데이터를 아동 전문가들이 검수하기도 좋은 데이터를 통해서 학습한 캐릭터였습니다. 그런데 이 인공지능이 항상 긍정 답변을 하다 보니 '산책 갈래?'에도 '응, 너무 좋아'라고 답하지만, '마약 좋아해?' 라고 물어봐도 '응, 나 마약 좋아'라고 답하더라는 겁니다.

그 인공지능은 상대의 말에 긍정적으로 답변하도록 이미 학습이 되어버린 것입니다. 데이터 내에서 필터링하는 것도 중요하지만, 그런 정보들을 다시 인공지능에게 학습시켜야 합니다. '마약은 나쁜 거니까 그렇게 답변하면 안 돼'라고요.

Q. 끝으로 앞으로의 연구 계획을 듣고 싶습니다.

A. 스마일게이트에는 게임마다 커뮤니티와 게시판이 있습니다. 그런 곳에서 사람들이 어떤 발언을 하는지 분석해서, 여론 동향을 분석해보고 싶습니다. 그러면 앞으로 게임을 고도화하는 데 쓸 수 있는 메터리얼이 확보될 수 있을 겁니다.

당장 센터가 구축한 데이터는 게임 커뮤니티의 특성과는 다를 수 있습니다. 이제는 혐오라는 주제로 구축을 한 번 해봤으니 노하우가 쌓였습니다. 아직 확실하지는 않지만, 다양한 도메인에서 일어나는 사회적 반응을 분석하는 데 저희 기술을 쓸 수 있을 것으로 생각하고 있습니다.