최근 확인한 콘텐츠
데이터가 존재하지 않습니다.
Mun, Sung Hwan; Han, Min Hyun; Kim, Minchan; Lee, Dongjune; Kim, Nam Soo
2022 / PROCEEDINGS OF 2022 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC)
데이터가 존재하지 않습니다.
loading...
본 논문에서는 화자 인식에서 화자 무관 특징으로 인한 도메인 불일치 문제를 해결하기 위해 상호 정보 최소화를 통한 화자 관련 특징과 화자 무관 특징의 명시적 분리 프레임워크를 제안합니다. 제안하는 프레임워크는 VoxCeleb 데이터셋으로 사전 훈련된 프론트엔드 인코더와 분리 블록, 그리고 상호 정보 최소화를 통한 분리 단계를 거치며, FFSVC2022 챌린지에서 효과적인 분리 성능을 보였습니다.
Audio signal processing for next-generation multimedia communication systems
Automatic speech analysis and recognition : proceedings of the NATO Advanced Study Institute held at Bonas, France, June 29-July 10, 1981
The phonetic bases of speaker recognition
Recent advances in speech understanding and dialog systems
Automatic speech recognition : a deep learning approach
Automatic speech and speaker recognition : advanced topics
Linguistic structure prediction
Emerging trends in computing and communication : ETCC 2014, March 22-23, 2014
Advances in Information and Communication Networks : Proceedings of the 2018 Future of Information and Communication Conference (FICC), Vol. 1
Microphone arrays : signal processing techniques and applications
VLSI artificial neural networks engineering
Automatic speech recognition : the development of the SPHINX system
Self-learning speaker identification : a system for enhanced speech recognition
Audio and Speech Processing with MATLAB
Mathematical methodologies in pattern recognition and machine learning : contributions from the International Conference on Pattern Recognition Applications and Methods, 2012
Real-time digital signal processing : implementations and applications
Image models (and their speech model cousins)
Audio- and video-based biometric person authentication : first International Conference, AVBPA '97, Crans-Montana, Switzerland, March 12-14, 1997 : proceedings
Connectionist speech recognition : a hybrid approach
The best of the best : fifty years of communications and networking research
PROCEEDINGS OF 2022 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC)
Mun, Sung Hwan; Han, Min Hyun; Kim, Minchan; Lee, Dongjune; Kim, Nam SooNeurocomputing
Wu Y.,Guo C.,Zhao J.,Jin X.,Xu J.Computer Speech and Language
Ravi, V.; Wang, J.; Alwan, A.; Flint, J.INTERSPEECH 2021
Wang, Disong; Deng, Liqun; Yeung, Yu Ting; Chen, Xiao; Liu, Xunying; Meng, HelenExpert Systems with Applications
Baradaran Kashani H.,Jazmi S.INTERSPEECH 2019
Gao, Zhifu; Song, Yan; McLoughlin, Ian; Li, Pengcheng; Jiang, Yiheng; Dai, LirongIEEE Transactions on Multimedia
Li Y.,Wang W.,Liu M.,Jiang Z.,He Q.Expert Systems with Applications
Li Y.,Huang Q.,Xing X.,Xu X.IEEE/ACM Transactions on Audio, Speech, and Language Processing, Audio, Speech, and Language Processing, IEEE/ACM Transactions on, IEEE/ACM Trans. Audio Speech Lang. Process.
Tu, Y.; Mak, M.; Chien, J.2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, CVPR 2021
Gao, Ruohan; Grauman, KristenAIMS Mathematics
Guo X.,Luo C.,Deng A.,Deng F.Journal of the Acoustical Society of Korea
Kwon Y.,Chung S.W.,Kang H.G.IEEE Access
Mun, Sung Hwan; Han, Min Hyun; Lee, Dongjune; Kim, Jihwan; Kim, Nam SooIEEE/ACM Transactions on Audio, Speech, and Language Processing
Lin Li; Fuchuan Tong; Qingyang HongCIKM '20: PROCEEDINGS OF THE 29TH ACM INTERNATIONAL CONFERENCE ON INFORMATION & KNOWLEDGE MANAGEMENT
Gu, Jia-Chen; Li, Tianda; Liu, Quan; Ling, Zhen-Hua; Su, Zhiming; Wei, Si; Zhu, XiaodanIEEE Signal Processing Letters
Zhiyun Fan; Linhao Dong; Meng Cai; Zejun Ma; Bo Xu2019 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC)
Xiang, Xu; Wang, Shuai; Huang, Houjun; Qian, Yanmin; Yu, Kai2022 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)
Koluguri, Nithin Rao; Park, Taejin; Ginsburg, BorisIEEE/ACM Transactions on Audio, Speech, and Language Processing, Audio, Speech, and Language Processing, IEEE/ACM Transactions on, IEEE/ACM Trans. Audio Speech Lang. Process.
Wang, W.; Pan, Z.; Li, X.; Wang, S.; Li, H.Biomedical Signal Processing and Control
Zi Y.,Xiong S.전선 / 학사
연구실에서의 연구참여 활동을 통하여 전공 지식을 심화 학습한다. 각자가 원하는 연구에 참여하며 그 연구에 대한 직접적인 경험을 갖는다.전선 / 대학원
음성언어 인터페이스는 인간과 컴퓨터의 상호작용에 가장 자연스러운 정보 교환 수단을 제공해준다. 음성언어처리는 이를 위한 음성인식, 음성합성 및 음성언어이해에 관련된 이론 및 기술을 가리키는 용어이다. 본 과목에서는 방대하며 학제적인 성격을 가지는 음성언어처리 분야를 이해하는데 필요한 기초이론을 체계적으로 제공하며, 또한 각종 소프트웨어 도구를 사용해서 실질적인 응용에 어떻게 기초이론들이 적용되는지를 보여준다.전선 / 대학원
이 과목은 보건의료 영역에서 컴퓨터를 활용한 텍스트 분석을 다룬다. 보건의료 영역에는 여러 종류의 언어 자료가 존재한다. 사람들이 온라인 공간에서 여러 질병에 대해 던지는 질문들, 보건의료 전문가들의 연구들, 질병과 건강에 대한 신문기사들이 그 예다. 이들로부터 정보를 체계적이고 과학적으로 추출할 수 있다면, 보건의료에서 다양한 방식으로 활용할 수 있다. 최근 많이 사용되고 있는 컴퓨터를 활용한 텍스트 분석은 이런 작업에 새로운 가능성을 제시한다. 본 과목에서는 여러 가지 컴퓨터를 활용한 텍스트 분석 방법을 학습하고, 보건의료 영역 자료에 적용하는 것을 실습한다.전선 / 대학원
본 교과목은 오늘날 인공지능의 중심을 이루는 거대언어모델(Large Language Models)과 이를 기반으로 한 대화형 인공지능을 다룬다. 특히 거대언어모델의 학습부터 응용까지 이어지는 전체 파이프라인을 아래와 같이 체계적으로 다룬다. (1) Pre-training: 지식 습득을 위한 사전학습(Transformer, BERT, GPTs) (2) Supervised Fine-tuning: 상호작용 학습(Dialogue Fine-tuning, Instruction Tuning, Reasoning) (3) Alignment: 인간 가치와의 정렬(RLHF, DPO, KTO 등) 및 언어모델 해석 기법(AI Psychometrics, Mechanistic Interpretability) (4) Grounding: 외부 데이터 및 도구 활용 기법(페르소나, 문서, 이미지, 지식 그래프, 도구 증강 에이전트) (5) Applications: 다양한 도메인으로의 응용(대화 시뮬레이션 및 심리상담·교육·설득 응용) 수업에서는 각 연구 주제별로 핵심 논문들의 아이디어, 데이터, 방법론 등을 강의한다. 실습으로는 언어모델 학습, 언어모델 API를 이용한 대화 시스템 구현, 대화형 인공지능과 관련된 작은 연구 프로젝트를 수행한다. 이 과목을 통해 수강생들은 거대언어모델 연구 동향을 큰 틀에서 파악하고, 핵심적인 연구 주제들과 방법론을 이해하며, 이를 실제 연구에 적용하는 능력을 기르게 된다.전필 / 학사
첨단융합학부 학생의 전공탐색을 위한 과목으로, 융합데이터과학의 핵심 개념과 다양한 응용 분야를 소개하여 향후 전공선택에 필요한 필수적인 정보를 제공한다. 특히, 융합데이터과학 분야에서 진행되는 첨단연구와 연구의 실제 응용 사례를 직접 체험하여, 자신의 전공 적성을 좀 더 구체적으로 알아보고 설계할 수 있는 기회를 제공한다.전선 / 대학원
딥러닝은 주어진 입력 데이터를 심층인공신경망으로 가공하여 원하는 테스크에 대해 좋은 성능을 달성하는 것을 목표로 한다. 이 과정에서 입력 데이터는 입력이 표현된 방식과는 확연히 다른 방식으로 표현되게 되고, 이러한 표현 방식의 변화를 통하여 원하는 정보를 잘 활용할 수 있게 된다. 본 강의는 딥러닝의 중요 연구주제 중 비지도학습의 기본 방식으로 자리 잡은 self-supervised learning 및 contrastive learning을 중심으로 진행한다. 특히 information theoretic approach를 비롯한 metric 관점의 representation learning에 대해 고찰하고 domain generalization, meta learning, 등과 같은 학습기법들에 대해 논의하며 이를 통하여 표현학습에 대해 심화된 이해를 하는 것을 목표로 한다.전선 / 대학원
딥러닝은 주어진 입력 데이터를 심층인공신경망으로 가공하여 원하는 테스크에 대해 좋은 성능을 달성하는 것을 목표로 한다. 이 과정에서 입력 데이터는 입력이 표현된 방식과는 확연히 다른 방식으로 표현되게 되고, 이러한 표현 방식의 변화를 통하여 원하는 정보를 잘 활용할 수 있게 된다. 본 강의에서는 딥러닝의 중요 연구주제 중 지도학습, 비지도학습, contrastive learning, domain generalization, meta learning, 등과 같은 학습기법들에 대해 논의하고 이를 통하여 표현학습에 대해 이해하는 것을 목표로 한다.전선 / 대학원
딥러닝 모델은 추상화 복잡도를 증가하면서 정보를 표현하는 여러 계층으로 이루어진 신경망으로, 최근 영상/음성/자연어 처리 등의 문제에서 다른 기계 방법론들을 크게 상회하는 뛰어난 성능을 보이고 있다. 본 과정에서는 딥러닝의 기반이 되는 기계학습 및 최적화 기법들을 배우고, 기본적인 신경망에 대해서 학습한다. 그리고 영상 처리와 자연어 처리의 핵심 모델인 Convolutional neural networks와 Recurrent neural networks의 훈련법과 추론법들을 익힌다. 또한 비감독 생성 모델인 Autoencoders와 Restrict Boltzman machines에 대해 자세히 살펴 보고 마지막으로 딥러닝 기반 강화 학습에 대해서도 학습하고 실습을 진행한다. 본 과목은 대학원생과 일부 고년차 학부생을 대상으로 한다.전선 / 대학원
이 교과목에서는 음성언어처리, 특히 연속음성인식 및 대화처리를 위하여 필요한 기초이론에 대해서 배운다. 구체적으로는 대용량 연속음성 인식을 위한 대표적인 기법인 Hidden Markov Model의 기초 이론 및 주요 구성 요소인 음향 모델, 어휘 모델, 언어 모델과 탐색 방법에 대해서 배우며, 언어학과 공학의 학제적 성격을 가지는 낭독체 및 대화체 연속음성인식과 대화처리를 위한 언어학 이론의 적용 방법에 대하여 배운다.전선 / 대학원
본 강의에서는 디지탈 음성처리의 이론과 그 응용에 대하여 고찰하는 것이 목적이다. 우선 음성신호의 통계적인 특성과 성질을 논하고 인간의 음성발생 원리를 설명한다. 또한 음성발생 원리에 근거한 선형 예측 부호화에 따른 이론적인 배경과 해법을 설명한다. 한편 음성합성, 음성인식의 원리와 이론을 고찰하고 최근 발표되고 있는 논문들을 중심으로 여러 알고리듬을 살펴보고 이의 장단점을 비교, 분석 하도록 한다. 본 강의를 수강하기 위해서는 디지탈 신호처리의 이해와 습득이 필수적이다.전선 / 대학원
이 교과목은 대학원생들을 대상으로, 현재 사용되고 있는 최신 암호 알고리즘을 설명한다. 이 과목은 다음과 같이 두 부분으로 구성된다: 첫째, DES, IDEA, RC5, RC6 와 같은 블록 암호 알고리즘들을 각각 키(key) 생성, 암호화, 복호화 하는 과정으로 설명한다. 둘째, 전자 서명에 근거한 다양한 인증 기법을 소개한다. DMDC, MD5, SHA-1, HMAC 와 같은 다양한 해쉬(hash) 함수를 사용하여 문장을 축약하고 인증하는 방식을 제시한다.전선 / 대학원
인지과학 연습 1의 내용을 보다 확장하여 인지과학의 연구사, 연구주제등을 다각도로 검토하여 과정에 진입한 학생들에게 인지과학의 기초적 지식배경을 제공하는데 목적이 있다.전선 / 대학원
이 과목에서는 자연어처리에 대한 간단한 소개와 함께, 대표적인 인공신경망 기법들이 자연어처리 어떻게 적용되는지 살펴본다. 최근 일상생활에서도 많이 쓰이는 자연어처리는 인공신경망의 성장과 함께 비약적인 발전을 보였다. 인공신경망을 이용한 딥러닝 기법은 이론적인 면뿐만 아니라, 효율적 계산과 최적화 등의 실험적인 요소가 많아 실습이 중요하다. 이 과목을 듣기 위해서는 기계학습에 대한 기본적인 이해와 파이썬, 딥러닝 모형을 사용하는 능력이 요구된다. 이 강좌는 학생들이 자연어처리의 최근 방법론을 학습하고, 실제 구현하는 능력을 배양하며, 마지막으로 최근 방법론이 가진 한계점, 미래 연구주제에 관해 탐구한다.전선 / 대학원
말소리의 음향적 특성에 관한 이론을 학습하고, 이를 토대로 스펙트로그램을 판독하고, 음소 단위로 분절하고, 각 음소를 올바른 발음기호로 표기하는 능력을 함양한다. 또한 녹음 장비 및 음향 분석기 사용법과 실험 음성학 방법론을 학습하고, 이를 토대로 한국어와 영어를 비롯한 여러 언어의 발음을 과학적으로 연구할 수 있는 능력을 함양한다. 그리고 음성학적 지식을 어떻게 음성합성기와 음성인식기의 성능 향상에 기여할 수 있을지 모색한다.전선 / 학사
영어 읽기, 쓰기, 듣기, 말하기 지도에 대한 이론들과 실제 활용하는 방법을 탐구한다. 또한 중등 영어수업에서 사용할 수 있는 실질적인 지도 방법을 개발하여 실습해 본다.전선 / 대학원
이 교과목에서는 음성언어처리 분야의 최신 연구동향을 세부 주제별 연구 과제 진행 및 세미나를 통해서 배운다. 최근의 음성언어처리 기술 평가 자료와 음성언어처리 분야의 연구를 선도하는 해외 주요대학의 박사학위 논문을 통해서 음성인식, 음성합성, 대화처리, 음성 기계번역 등의 세부 분야의 연구 수준을 알아보며, 이를 통해서 한국어 음성언어처리 연구의 세부 연구 주제를 도출한다.전선 / 대학원
본 교과목은 단순한 질의응답을 넘어, 스스로 목표를 설정하고, 도구를 사용하며, 복잡한 과업을 자율적으로 수행하는 ‘에이전트(Agentic)' AI의 설계 원리와 구현 방법론을 심층적으로 다룬다. 기존의 LLM(Large Language Model)이 가진 한계를 극복하고, LLM을 ‘추론 엔진'으로 활용하여 실제 세계와 상호작용하는 지능형 시스템을 구축하는 데 초점을 둔다. 수강생들은 단일 에이전트의 핵심 구성 요소인 사고-행동-관찰(Reasoning-Acting-Observation) 루프, 동적 도구 사용(Tool Use), 장단기 기억(Memory) 메커니즘을 학습한다. 나아가 여러 에이전트가 협력하여 인간의 개입을 최소화하면서 복잡한 문제를 해결하는 멀티 에이전트 시스템(Multi-Agent System)의 설계 패턴(예: 계층적, 협력적)과 통신 프로토콜을 배운다. LangChain, AutoGen, CrewAI와 같은 최신 프레임 워크를 활용한 실습을 통해, 에이전트 아키텍처 설계부터 정교한 프롬프트 체이닝, 실행 루프 구현까지의 전 과정을 경험하며, 차세대 AI 애플리케이션을 개발할 수 있는 실전 역량을 배양하는 것을 목표로 한다.전선 / 대학원
이 강좌에서는 현 시점에서 본 반도체 소자의 각 세부 분야의 주요한 연구 주제에 대한 소개와 토의가 이뤄진다. 개설 학기에 따라 주제가 변하며, 이 강좌 내의 다른 주제에 대한 특강을 수강할 수 있다.전선 / 학사
본 과목에서는 자연어 처리 분야의 최근 기술 발전과 이를 이해하기 위한 배경 지식 전반을 강의한다. Transformer model 기반 자연어 처리 기법을 주로 다루며, 이를 이해하기 위해 필요한 배경 지식(Embedding, Encoder-Decoder, Attention 등)을 다룬다. 실제 자연어 처리 문제를 해결하기 위해 Transformer를 수정/활용하는 프로젝트를 진행한다.전선 / 학사
말소리의 음향적인 특성을 체계적으로 이해하고, 이를 바탕으로 음성데이터베이스를 설계하고, 가공하고, 공학적으로 처리할 수 있는 능력을 함양한다. 본 교과목을 통해 다음의 학습성과를 기대할 수 있다. 첫째, 학습자들은 말소리의 조음적 특성과 음향특성을 체계적으로 이해할 수 있다. 둘째, 프라트의 사용법을 익히고 프라트를 이용해 음성데이터베이스를 가공하고, 음향분석을 할 수 있는 능력을 함양한다. 셋째, 프라트 스크립팅을 학습, 실습하여 음성데이터베이스 가공과 음향 분석의 효율성과 일관성을 확보한다.