LikeSNU 서울대학교 도서관
서울대학교 빅데이터 지식정보플랫폼

전체 메뉴

AI 검색
반출리포트 생성
  • 분류
  • 리포트명
  • 그룹
  • 링크
  • 리포트 썸네일
논문 목록
논문 목록 (0건) Excel 내보내기

데이터가 존재하지 않습니다.

Efficient Parallel Audio Generation Using Group Masked Language Modeling

저자
Jeong, Myeonghun; Kim, Minchan; Lee, Joun Yeop; Kim, Nam Soo
학술지명
IEEE Signal Processing Letters
출판/발행연도
2024
요약

본 연구는 반복적인 샘플링으로 인한 느린 추론 속도 문제를 해결하기 위해 그룹 마스크 언어 모델링(G-MLM)과 그룹 반복 병렬 디코딩(G-IPD)을 제안하여 효율적인 병렬 오디오 생성을 가능하게 합니다. 제안하는 모델은 그룹 간 조건부 의존성을 효과적으로 모델링하여 소수의 반복 횟수로 고품질 오디오를 합성하며, 프롬프트 음성의 화자 스타일을 캡처하는 크로스 어텐션 기반 아키텍처를 사용합니다.

학술지 영향력
[IEEE Signal Processing Letters]
CiteScore
7.2
ES
0.01892
JCI
0.87
JCR
3.9
SJR
0.938

인용 논문(0)

해당 논문이 인용한 논문 목록

논문 지표

연관 콘텐츠

LikeSNU에서 의미기반으로 분석하여 연관된 자료를 추천해드립니다.

이전
다음
이전
다음
이전
다음
TOP