주메뉴 바로가기
본문 바로가기(skip to content)
도서관 정보 바로가기

서울대학교 빅데이터 지식정보플랫폼

LikeSNU 소개

전체 메뉴

AI 검색

최근 확인한 콘텐츠

1건 더보기

반출리포트 생성

논문 목록

Variable-Length Speaker Conditioning in Flow-Based Text-to-Speech

저자

Choi, Byoung Jin; Jeong, Myeonghun; Kim, Minchan; Kim, Nam Soo

학술지명

IEEE Signal Processing Letters

출판/발행연도

2024

주제

요약

본 논문에서는 제로샷 다화자 텍스트 음성 변환(ZSM-TTS)을 위해 가변 길이 참조 임베딩 시퀀스를 활용하는 새로운 화자 조건화 기법을 제안합니다. 기존 방법과 달리, 제안하는 방식은 전체 참조 음성을 나타내는 단일 고정 차원 벡터 대신 가변 길이 임베딩 시퀀스를 추출하여 보다 유연하고 효율적인 조건화를 가능하게 합니다. 실험 결과, 제안하는 방법은 화자 유사성, 음성 자연성 및 음성 명료도 측면에서 기존 방법보다 향상된 성능을 보였습니다.

찜하기

인용 논문(0)

해당 논문이 인용한 논문 목록

논문 지표

연관 콘텐츠

LikeSNU에서 의미기반으로 분석하여 연관된 자료를 추천해드립니다.

이전

다음

이전

다음

이전

다음

TOP