GAME DONGA

[NDC 2018] 욕설도 인공지능으로 탐지하면, 효율성 UP

조광민

"기존의 욕설 탐지는 운영자에게 큰 부담과 스트레스를 안겨줬습니다. 저희는 딥러닝 기반의 욕설 탐지기를 개발해 운영자의 수고를 덜고자 했으며, 실제 적용 결과 기존의 방식에 비해 더욱 효율적인 욕설 탐지가 이뤄졌습니다"

NDC 2018 딥러닝 욕설 탐지

이는 금일(24일) NDC 2018이 강연자로 나서 ‘딥러닝으로 욕설탐지하기’ 강연을 진행한 넥슨 인텔리전스랩스 어뷰징탐지팀 조용래 데이터 분석가의 말이다. 조용래 분석가는 넥슨 인텔리전스랩스 어뷰징탐지팀에서 딥러닝을 기반으로 욕설 탐지기를 개발하고 있다. 쉽게 말해 욕설을 탐지하는 인공지능을 개발하고 있는 것이다.

욕설은 게임을 그만두게 만들 정도로 게이머들에게 스트레스를 주는 요소 중 하나다. 때문에 많은 게임사들은 욕설 방지를 위해 금칙어를 만들기도 하며, 운영자에게 신고가 들어온 채팅을 검토해 제재를 가하기도 한다. 하지만, 기존의 금칙어 기반 욕설 탐지는 여러 문제점이 많다.

NDC 2018 딥러닝 욕설 탐지

먼저 우회가 쉽다. 욕설이라고해도 금칙어로 구분된 단어만 피하고 자음과 모음을 교묘하게 변경하면 욕설이 여과 없이 노출된다. 여기에 오탐도 많다. 예를 들면 18채널이라고 입력하면 **채널이 되는 식이다. 여기에 근본적인 문제로 비속어와 공격적인 표현을 구분할 수 없기도 하다. 욕이아닌데 욕으로 인식할 수 있다. 기분이 나쁜 욕이지만, 금칙어가 아니기 때문에 그대로 화면에 표출 되기도 한다. 때문에 운영자는 이용자들의 신고에 기반해 해당 채팅 기록을 일일이 살펴볼 수 밖에 없는 것이다.

NDC 2018 딥러닝 욕설 탐지

이에 넥슨 인텔리전스랩스 어뷰징탐지팀은 딥러닝에 기반한 욕설 탐지기 개발에 나섰다. 운영자의 부담을 덜어주기 위해서다. 욕설 탐지기가 1차로 자동 분류하고 최종적으로 운영자가 수동 식별하는 것을 목표로 했다.

먼저 프로토 타입을 제작했다. 일명 ‘노가다’ 작업을 통해 일일이 데이터(욕설)를 쌓았다. 모델링 작업에는 1D CNN 방식을 도입했다. CNN(Convolutional Neural Network)은 이미지 처리 분야에 쓰이는 알고리즘으로 이를 자연어 처리에 도입한 것이다. 사용자의 입력을 자음과 모음으로 받아 처리했다. 채팅의 경우 띄어쓰기가 잘 이뤄지지 않은 경우가 있어 단어 기반 입력보다 자모 기반의 입력이 효과적이기 때문이다. 대표적인 예가 '제발'과 '젭라'다.

NDC 2018 딥러닝 욕설 탐지

아울러 텍스트를 비슷한 숫자로 바꾸는 과정도 거쳤다. 이는 비슷한 욕이 들어왔을 때 탐지할 수 있도록 돕는다. 여기에 텍스트 길이와 상관 없이 탐지할 수 있도록 불필요한 부분을 줄이는 풀링 작업도 진행했다. 여기에 최종적으로 욕설인지 아닌지 판단하는 과정을 거치도록 했다. 이런 작업을 거친 결과 88% 확률로 욕설을 탐지했다. 금칙어 기반이 56% 확률을 보여주는 것과 비교해 훨씬 뛰어난 결과다.

NDC 2018 딥러닝 욕설 탐지

욕설 탐지기 개발팀은 이에 만족하지 않고 욕설 탐지기를 더욱 고도화 했다. 더욱 효율적인 환경을 구성했고, 오차를 최소화하는 방식으로 학습할 수 있도록 했다. 모델 실행과 해석이 동시에 이뤄질 수 있도록 개선했다.

NDC 2018 딥러닝 욕설 탐지

그리고 이 결과물을 서든어택에 적용했다. 아직 실무에 적용한 것은 아니고, 서든 어택으로 일종의 테스트를 진행한 것. 욕설 탐지기는 욕설일 것으로 판단되는 부분만 추출해서 상단에 노출해 보여줬다. 운영자가 일일이 욕설을 확인해 제제하던 방식에 비해 효율이 대폭 증가했다. 탐지율도 88%에서 90%로 올랐다. 기존의 방식이 1분에 23건을 모니터링 한 것에 비해 욕설 탐지기를 적용한 이후에는 35건의 모니터링을 완료했다. 특히 모니터링 결과 기존의 방식은 41%가 제재 대상에 불과했으나 욕설 탐지기를 적용하자 96%가 제재 대상이었다. 이는 약 10회에 걸쳐 나온 결과로 확실히 효율적인 측면에서 기존의 방식을 넘어선 결과다. 운영자의 운영에 도움을 주고자하는 목표에 어울리는 성과가 나온 것으로 볼 수 있다.

NDC 2018 딥러닝 욕설 탐지

조용래 분석가는 강연을 마치며 "많은 사람이 인공지능이 스카이넷과 같다고 보는데, 인공지능은 사람을 대체할 수는 없다. 그리고 어뷰징 탐지의 업무의 경우 정확도는 99.9%여도 부족하다. 한 건이라도 억울한 이용자가 나와서는 안된다. 정확도 100%를 달성하지 못하면 인간을 대체하는 것은 어렵다. 인공지능은 아이언맨의 자비스처럼 업무를 효율적으로 진행할 수 있도록 인간을 도울 수 있다고 본다. 게임 개발과 게임운영 그리고 데이터 분석과 인공지능을 연구하는 사람들이 협업하는 것이 중요하다고 본다"고 말했다.

: NDC 서든어택 욕설 NDC2018 딥러닝

이전 다음