일상/IT.과학

한국 대학생이 만든 AI 음성 혁명, 나리 랩스 Dia의 놀라운 이야기

TFTC 2025. 4. 29. 10:50
반응형

한국의 두 대학생이 개발한 텍스트-음성 변환(TTS) 모델 ‘Dia’가 전 세계 AI 업계를 뒤흔들고 있다. 서울대와 카이스트 재학생으로 구성된 나리 랩스(Nari Labs)는 16억 매개변수의 오픈 소스 모델 Dia를 공개하며, 일레븐랩스(ElevenLabs), 오픈AI, 구글의 노트북LM 같은 거대 기업의 TTS 기술을 뛰어넘는 성과를 냈다. 와튼 스쿨의 에단 몰릭 교수는 Dia를 “가장 표현력 뛰어난 AI 음성”이라 극찬했고, 실리콘밸리 VC 멘로벤처스의 디디 다스는 “TTS의 정점을 보여줬다”고 평가했다. 깃허브 스타 9000개를 돌파하며 폭발적인 반응을 얻은 Dia의 매력과 그 뒤에 숨은 이야기를 자세히 들여다보자.

Dia, 무엇이 다를까?

Dia는 단순히 텍스트를 음성으로 바꾸는 데 그치지 않는다. 이 모델은 대화의 자연스러운 흐름, 감정의 뉘앙스, 심지어 웃음, 기침, 한숨 같은 비언어적 표현까지 완벽히 구현한다. 예를 들어, 화재 현장의 긴박한 대화를 텍스트로 입력하면 캐릭터의 떨리는 목소리와 긴박한 톤까지 생생하게 재현된다. 이런 섬세함은 기존 TTS 모델들이 놓쳤던 부분이다.

벤처비트는 Dia가 일레븐랩스와 세서미(Sesame)의 모델을 넘어섰으며, 오픈AI의 최신 TTS 기술도 위협할 잠재력을 가졌다고 보도했다. 허깅페이스 트렌딩 1위에 오르며 마이크로소프트, 엔비디아, 구글 같은 거대 기업들을 제친 Dia는 오픈 소스 커뮤니티에서도 열렬한 환영을 받고 있다. 깃허브와 허깅페이스에서 누구나 무료로 모델을 다운로드해 사용할 수 있다는 점도 큰 매력이다.

 

초보 개발자의 놀라운 도전

Dia의 개발 스토리는 더욱 감동적이다. 나리 랩스는 서울대 재학생 김도엽과 카이스트 재학생 성재용, 두 명의 대학생으로 구성된 팀이다. AI 전문가가 아니었던 이들은 구글의 노트북LM 팟캐스트 기능에 매료돼 TTS 모델 개발에 뛰어들었다. 놀랍게도, 이들은 아무런 외부 투자 없이 3개월 만에 Dia를 완성했다. 구글 TPU 리서치 클라우드의 지원과 허깅페이스의 ZeroGPU 프로그램 덕분에 고성능 컴퓨팅 자원을 활용할 수 있었다고 김도엽 엔지니어는 밝혔다.

이들의 여정은 단순한 기술적 성취를 넘어, 열정과 창의력이 거대한 자본과 경쟁할 수 있음을 보여준다. 허깅페이스 CEO 클렘앙 델랑그는 “2인 팀이 글로벌 테크 거인들을 제쳤다”며 Dia의 성공을 축하했다.

 

Dia의 기술적 매력

Dia는 16억 매개변수로 구성된 비교적 소형 모델이지만, 그 성능은 거대 모델들에 뒤지지 않는다. 트랜스포머 기반 아키텍처를 활용해 자연스러운 대화 합성과 효율성을 모두 잡았다. 특히, 오디오 프롬프트를 통한 음성 복제(zero-shot voice cloning) 기능은 짧은 음성 클립만으로도 원하는 톤과 감정을 재현할 수 있다.

 

비언어적 표현의 마법

Dia의 가장 큰 차별점은 비언어적 표현 처리다. 텍스트에 [S1], [S2] 같은 스피커 태그와 (laughs), (coughs), (sighs) 같은 명령어를 추가하면, 웃음, 기침, 한숨 같은 소리가 자연스럽게 삽입된다. 이는 팟캐스트, 오디오북, 게임 캐릭터 음성, 대화형 AI 등에서 몰입감을 극대화한다. 경쟁 모델인 일레븐랩스나 세서미는 이런 미묘한 표현에서 Dia에 뒤처진다는 평가다.

 

쉬운 접근성과 커뮤니티 지원

Dia는 오픈 소스 모델로, 아파치 2.0 라이선스 아래 깃허브와 허깅페이스에서 제공된다. 10GB VRAM이 있는 GPU에서 실행 가능하며, PyTorch 2.0+와 CUDA 12.6 환경을 지원한다. 나리 랩스는 Gradio 기반 데모를 제공해 설치 없이도 모델을 체험할 수 있게 했다. 곧 CPU 지원과 경량화(quantized) 버전도 출시될 예정이라 더 많은 사용자가 접근할 수 있을 전망이다. 디스코드 커뮤니티를 통해 사용자 피드백과 기여를 적극 장려하며, 오픈 소스 생태계의 발전에 기여하고 있다.

 

실리콘밸리가 열광하는 이유

Dia의 데모 음성을 들은 실리콘밸리 리더들은 하나같이 놀라움을 표했다. 에단 몰릭 교수는 “충격적인 AI 모멘트”라며 Dia의 표현력을 극찬했고, 디디 다스는 “TTS 문제를 해결한 모델”이라 평가했다. 이들의 반응은 Dia가 단순한 기술적 진보를 넘어, AI 음성 기술의 새로운 기준을 세웠기 때문이다.

특히, Dia는 대화의 맥락을 이해하고 감정적 뉘앙스를 살려내는 능력이 뛰어나다. 예를 들어, 긴박한 상황의 대화에서는 캐릭터의 다급한 톤이, 유쾌한 대화에서는 웃음소리가 자연스럽게 녹아든다. 이런 섬세함은 오디오북 제작, 게임 개발, 가상 비서 등 다양한 분야에서 활용 가능성을 열어준다.

 

윤리적 책임과 미래 전망

Dia의 강력한 음성 복제 기능은 창의적 가능성을 열지만, 윤리적 우려도 따른다. 나리 랩스는 신원 도용, 허위 콘텐츠 제작, 불법적 사용을 엄격히 금지하며, 연구와 교육 목적의 책임 있는 사용을 강조한다. 하지만 오픈 소스 모델의 특성상 오용 가능성을 완전히 막기 어렵다는 점에서, 커뮤니티와 정책 입안자들의 협력이 필요하다.

나리 랩스는 Dia를 기반으로 일반 사용자용 앱을 개발 중이며, 영어 외의 언어도 지원할 계획이다. 더 큰 모델과 소셜 플랫폼 구축도 구상하고 있어, AI 음성 기술의 대중화를 이끌 가능성이 크다.

 

Dia가 여는 새로운 가능성

Dia는 한국의 작은 스타트업이 글로벌 무대에서 거둔 놀라운 승리다. 두 대학생의 열정이 빚어낸 이 모델은 TTS 기술의 한계를 넘어, AI가 인간의 대화를 얼마나 생생하게 재현할 수 있는지 보여줬다. 팟캐스트 제작자, 게임 개발자, 접근성 솔루션 개발자 등 다양한 창작자들이 Dia를 활용해 새로운 가치를 창출할 수 있을 것이다.

 

반응형