로그인

회원가입 | ID/PW 찾기

주요뉴스

"난 동의한 적 없는데?" 디스코드 메시지, 연구용 데이터로 공개

디스코드 공개 채널 API 20억 개 크롤링​됐다

김재석(우티) 2025-05-22 09:46:24
디스코드 이용자들이 공개 서버에서 나눈 대화가 데이터셋으로 가공되어 연구 자료가 되었다. 디스코드에서 이야기를 나눈 이용자들은 이런 미래를 예상하지 못했을 것이다.

브라질 미나스제라이스 연방대학교 연구진은 2015년부터 2024년까지 10년간 디스코드에서 수집한 20억 5천만 건 이상의 공개 메시지와 관련 정보를 담은 대규모 데이터셋을 발표했다. 이번 데이터셋은 디스코드의 '공개 서버 탐색 기능'을 통해 전체 3만 1,000여 개의 서버 중 10%에 해당하는 3,167개 서버에서 수집되었다.

474만 명의 사용자 메시지가 데이터셋으로 가공되었다. 연구진은 이 데이터를 정신 건강, 정치, 인공지능 챗봇 훈련 등 다양한 연구 목적을 위해 공개했다고 밝혔다. 연구진은 개인정보 보호를 위해 사용자 식별 정보를 무작위 값으로 대체해 익명화했다고 설명했다. 그러나 익명화된 메시지와 디스코드 공개 서버에 남아있는 메시지를 매칭하면, 사용자의 다른 메시지도 추적할 수 있게 된다.


공개된 데이터는 약 118GB 용량의 압축 파일이다. JSON 형식으로 모든 메시지 내용, 작성자, 시간, 채널 정보 등이 포함되어 있다. 이번 발표는 디스코드 내 공개 메시지의 대규모 수집 및 공개에 대한 우려를 불러일으키고 있다. 최근에는 별도의 팀이 서버 검색 플랫폼 'Searchcord.io'를 만들어, 익명화 없이 대화 내용을 검색할 수 있도록 하여 논란을 빚었다.

외신 기즈모도는 "지난 10년 동안 공개 디스코드에 접속했다면, 단순히 친구들과 채팅하는 것이 아니라 거대한 사회학 실험에 참여하고 있었던 것"이라며 "디스코드의 느슨한 관리 방식"을 비판했다. 디스코드 측은 아직 공식 입장을 내놓지 않고 있다.

최신목록 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10