
생성형 AI 기업 딥브레인AI가 문장의 맥락과 목적을 스스로 해석해 감정과 억양, 말의 속도를 자동으로 적용하는 감정표현 TTS(Text-to-Speech) 기술을 고도화했다.
기존의 음성합성 기술은 텍스트를 오차 없이 읽어 내려가는 정확한 낭독에 초점을 맞췄다. 이 때문에 어조가 단조롭거나 기계적인 느낌을 지우기 어려웠다. 고도화된 이번 기술은 문장 구조와 부호를 직접 분석한다. 콤마나 마침표의 위치, 문장의 앞뒤 흐름을 인지해 강조와 멈춤, 속삭임, 웃음소리 같은 비언어적 표현을 알아서 구현하는 방식이다. 화자의 감정 상태를 흉내 내는 수준까지 올라왔다.
기반이 되는 보이스는 1000개 이상이다. 활용처도 넓다. 장시간 몰입감이 필요한 오디오북 제작을 시작으로 온라인 교육 콘텐츠, 뉴스 브리핑, 호흡이 짧은 숏폼 콘텐츠 제작에 곧바로 투입할 수 있는 수준이다.
현장에서는 오디오 제작 비용을 크게 낮출 수 있다는 점에 주목한다. 매번 성우를 섭외하고 녹음실을 잡는 번거로움 없이 텍스트 입력만으로 연기 톤이 실린 음성을 뽑아낼 수 있어서다. 회사가 밀고 있는 커스텀 아바타 기술과 결합하면 음성뿐 아니라 시각적 표현까지 맞아떨어지는 AI 영상 콘텐츠 제작도 수월해진다.
장세영 딥브레인AI 대표이사는 "그동안의 AI 음성이 정보를 정확히 전달하는 데 머물렀다면 이제는 사람처럼 소통하는 단계로 가고 있다"며 "다양한 산업 현장에서 실질적인 효율을 낼 수 있도록 음성합성 기술의 자연스러움을 계속 끌어올리겠다"고 말했다.
사용자들은 고도화된 음성합성 기능을 딥브레인AI 플랫폼 내에서 순차적으로 만나볼 수 있다.











