[NDC 2026] AI로 블루아카의 일본어 음성을 "한글 목소리로 바꾸기까지"
넥슨이 주최하는 국내 최대 규모의 게임 개발자 콘퍼런스 ‘넥슨 개발자 콘퍼런스(NDC)’가 오늘(17일) 2일 차를 맞았다.
이날 현장에서는 '내가 미소녀 목소리를 만들 수 있을 리 없잖아, 무리무리!'를 주제로 넥슨게임즈의 김명지 IO 본부 파트장이 블루 아카이브 속 오픈소스를 활용한 한국어·일본어 TTS(Text To Speech) 모델 개발 과정과 시행착오를 공유했다.
김명지 파트장은 블루 아카이브가 추구하는 핵심 가치 중 하나로 '캐릭터와 플레이어 간의 상호작용 경험'을 꼽았다. 실제로 블루 아카이브는 출시 초기부터 TTS를 활용해 캐릭터가 이용자의 닉네임을 직접 불러주는 기능을 제공해 왔다.

다만 단순히 문장을 읽어주는 수준을 넘어 캐릭터의 감정과 개성을 유지하면서도 자연스럽게 말하는 음성을 구현하는 것이 새로운 목표였다고 설명했다.
이를 위해 개발팀은 TTS 모델 선정 과정에서 캐릭터성, 감정 표현, 자연스러움이라는 세 가지 기준을 세웠다. 특히 자연스러움은 실제 검수 과정에서 반복적으로 등장한 피드백을 바탕으로 정의했다. 단어 사이의 호흡, 장음 처리, 음 높낮이, 노이즈 제거 등 이용자가 위화감을 느끼지 않는 요소를 중요하게 평가했다고 밝혔다.

최종적으로 개발팀은 일본어 특화 오픈소스 TTS 모델인 'Style-Bert-VITS2'를 선택했다. 하지만 해당 모델은 일본어와 영어, 중국어만 지원할 뿐 한국어를 지원하지 않는다는 문제가 있었다.
김 파트장은 결국 소스코드를 직접 수정해 한국어 학습 기능을 새롭게 구현했다고 설명했다. 일본어 전용 기능인 한자 처리와 악센트 분석 등을 제거하고, 한국어 발음 변환과 한국어 BERT 모델을 적용하는 방식으로 한국어 학습 구조를 구축했다는 것이다.
기술적인 난관도 적지 않았다. 그는 기반 모델을 직접 학습하는 과정에서 생성 모델과 판별 모델 간 균형이 무너지는 문제를 겪었고, 일부 데이터셋에서는 과도한 노이즈와 긴 음성 데이터로 인해 학습 품질이 크게 저하되는 현상도 발생했다고 소개했다.
특히 전체 데이터셋을 사용하는 것보다 품질이 낮은 데이터를 과감하게 제외하는 것이 더 좋은 결과를 얻는 경우도 있었다며, AI 모델 개발에서 데이터 품질의 중요성을 강조했다.
개발 과정에서 얻은 가장 큰 교훈도 데이터와 관련된 것이었다.

김 파트장은 음성 합성이 자연스럽지 않거나 특정 단어 발음이 어색한 사례를 분석한 결과, 대부분 해당 표현이 학습 데이터에 충분히 포함되지 않은 경우였다고 설명했다. 결국 좋은 TTS 모델을 만들기 위해서는 모델 자체보다 어떤 데이터를 학습시키느냐가 더욱 중요하다는 결론에 도달했다고 밝혔다.
향후 과제로는 자동 정량 평가 시스템과 사람 기반 정성 평가 체계 구축, 한국어 TTS용 코퍼스 설계 등을 제시했다. 또한 이번 발표에서 소개한 한국어 지원 Style-Bert-VITS2 코드 역시 내부 검토를 거쳐 공개를 추진 중이라고 덧붙였다.
발표를 마무리하며 김 파트장은 "TTS 모델이 말을 하게 만드는 것 자체는 어렵지 않다"면서도 "정말 중요한 것은 이용자가 캐릭터에게 더욱 몰입할 수 있는 순간을 만드는 것"이라고 말했다.
이어 "앞으로도 더 자연스럽고 더 진짜 같은 목소리를 만들기 위해 노력하겠다"며 발표를 마무리했다.