본문 바로가기

Hi-Tech/인공지능

음성합성기술 - 유인나 오디오북 : 전반은 유인나 목소리, 후반은 네이버 합성

반응형

음성합성 - 전반은 유인나 목소리, 후반은 네이버 합성



네이버는 음성합성기술을 활용해 YG엔터테인먼트와 함께 오디오북 기부 캠페인을 하고 있습니다.



‘유인나 오디오북’ 3권은 네이버 기부 플랫폼인 해피빈을 통해 무료로 제공되고 있습니다. 유인나 오디오북은 청소년들의 교양서적으로 추천할 만한 3권의 책(데미안, 동물농장, 왕자와 거지)에 대해 진행됩니다.

http://event.happybean.naver.com/yooinna_audiobook?congbanner=none#c1


음성합성기술이란 

사람의 운율이나 목소리 톤을 컴퓨터 기술로 가져와서 합성한 것입니다.




또한, 음성합성기술이란,

텍스트의 형태소를 분석하고 음소 단위로 변환한 후 어떠한 운율로 읽는 것이 좋을지 모델링한 뒤 녹음한 음성 DB를 활용해 최적의 합성단위를 선택하고 합성하는 기술입니다.

 

텍스트로만 정보를 전달하는 시기를 지나, 음성으로 대화하고, 정보를 얻고 있는 시대로 변모함에 따라 인공지능 대화 시스템을 개발하는 업체뿐 아니라 국내외 ICT 기업들의 개발 및 학회 연구가 활발히 진행되고 있습니다. 

음성합성기술 중 합성단위 선택방식(Unit Selection)은 방대한 양의 데이터베이스를 분석하고, 자연스럽고 명료한 음성합성을 만들어 내는 알고리즘의 가장 큰 장점입니다.


 

이번 오디오 북은 총 3권으로 배우 유인나 씨가 직접 녹음한 것과 글자를 유 씨의 운율과 목소리를 입혀 유인나 목소리 톤으로 재현한 것입니다.  

책의 전반부는 유인나 씨가 직접 읽고, 후반부는 네이버의 음성합성기술로 만들어졌습니다.

특히 합성 기술이 적용된 부분은 성우의 목소리 속 고유한 운율과 자연스러움을 잘 살려내며 실제와 가까운 소리를 재현하였습니다.


일반적으로 오디오북 녹음하기 위해선 권당 10시간 이상의 녹음 시간이 필요하지만, 네이버의 음성합성기술을 활용하면 기존 대비 절반의 시간으로 오디오북을 제작할 수 있다는 것입니다. 


네이버랩스가 ‘합성단위 선택방식’을 기반으로 자체 개발한 ‘nVoice’라는 기술은 현재 읽기, 사전 예문 읽기, 번역기 등 네이버의 실제 서비스에 적용 중입니다.

향후 음성을 인터페이스로 활용하는 다양한 온·오 프라인 서비스에 확대될 예정입니다.

 

네이버 송창현 CTO는 “미래의 기기와 서비스는 사람과 기계가 음성을 주고받는 대화형 음성 인터페이스가 주를 이룰 것으로 보인다”며, “네이버도 nVoice 기술을 적용해 한국어뿐 아니라 영어, 일본어, 중국어 등 4개국 남녀 화자를 개발했고 향후 지속적으로 합성기술의 품질을 높여나가며 언어 및 적용 범위를 확대해 나갈 것”이라고 밝히고 있네요. 


네이버의 nVoice에 적용되는 합성단위 선택방식은 이런 음질의 우수성을 바탕으로 애플 ‘시리’, 아마존의 ‘에코’, 구글 ‘나우’ 등 글로벌 IT기업들이 앞다퉈 개발 및 적용하고 있는 음성합성 방식입니다. 



반응형