주메뉴 바로가기
본문 바로가기(skip to content)
도서관 정보 바로가기

서울대학교 빅데이터 지식정보플랫폼

LikeSNU 소개

전체 메뉴

AI 검색

최근 확인한 콘텐츠

16건 더보기

반출리포트 생성

논문 목록

Efficient Parallel Audio Generation Using Group Masked Language Modeling

저자

Jeong, Myeonghun; Kim, Minchan; Lee, Joun Yeop; Kim, Nam Soo

학술지명

IEEE Signal Processing Letters

출판/발행연도

2024

주제

요약

본 연구는 반복적인 샘플링으로 인한 느린 추론 속도 문제를 해결하기 위해 그룹 마스크 언어 모델링(G-MLM)과 그룹 반복 병렬 디코딩(G-IPD)을 제안하여 효율적인 병렬 오디오 생성을 가능하게 합니다. 제안하는 모델은 그룹 간 조건부 의존성을 효과적으로 모델링하여 소수의 반복 횟수로 고품질 오디오를 합성하며, 프롬프트 음성의 화자 스타일을 캡처하는 크로스 어텐션 기반 아키텍처를 사용합니다.

학술지 영향력

[IEEE Signal Processing Letters]

CiteScore: 7.2

ES: 0.01892

JCI: 0.87

JCR: 3.9

SJR: 0.938

찜하기

인용 논문(0)

해당 논문이 인용한 논문 목록

논문 지표

연관 콘텐츠

LikeSNU에서 의미기반으로 분석하여 연관된 자료를 추천해드립니다.

이전

다음

이전

다음

이전

다음

TOP