音声情報処理特論

Numbering Code G-INF01 63129 LE12 Year/Term 2022 ・ Second semester
Number of Credits 2 Course Type Lecture
Target Year Target Student
Language English Day/Period Tue.2
Instructor name KAWAHARA TATSUYA (Graduate School of Informatics Professor)
KATO HIROAKI (Part-time Lecturer)
YOSHII KAZUYOSHI (Graduate School of Informatics Associate Professor)
Outline and Purpose of the Course This course covers fundamentals of speech, audio, and music processing. After a brief review of the mechanism of human hearing, the basics of the nature of speech and its analysis are introduced. Then, speech synthesis, coding, and recognition as well as spoken dialogue systems are reviewed. Next, audio signal processing, specifically source localization, separation, and recognition, is explained. Finally, we introduce music processing such as automatic transcription and source separation.

本講義では、音声および音響・音楽の情報処理に必要となる基礎概念の修得を目的とする。人間の聴覚機能を概説し、音声の基本的な性質と音声分析手法について説明する。その上で、音声合成・音声符号化・音声認識、及び音声対話システムについて概観する。次に、音響信号処理、具体的には音源定位・音源分離・分離音の認識手法について述べる。最後に、音楽信号を対象とした自動採譜や音源分離などの処理について述べる。

Course Goals To learn the basic methodology and a variety of techniques of speech processing.

音声情報処理に関する基本的な方法論と様々な技術を修得する。
Schedule and Contents 1. The sense of hearing (2 weeks; Kato) :
reception of sound and speech
auditory scene analysis, Spatial hearing

2. Speech analysis/synthesis/recognition (6 weeks; Kawahara) :
information in speech signals
speech analysis, source-filter model
speech coding and synthesis
speech recognition
spoken dialogue systems
other topics

3. Audio signal processing (6 weeks; Yoshii):
microphone array processing
beamforming
sound source localization
audio spectrogram modeling
sound source separation
other topics

4. Music information processing (1 week; Nakamura)
automatic transcription


1. 聴覚機構(2回;加藤):
音と音声の受容
聴覚情景分析,空間聴覚

2. 音声の分析・合成・認識(6回;河原):
音声に含まれる情報
音声分析,ソース・フィルタモデル
音声合成・音声符号化
音声認識
音声対話システム
その他トピック

3. 音響信号処理(6回;吉井):
マイクロホンアレイ信号処理
ビームフォーミング
音源定位
音源モデル
音源分離
その他トピック

4. 音楽情報処理(1回;中村):
自動採譜
Evaluation Methods and Policy Grading will be determined by question-answers and submitted reports on the assignments which will be given by individual lecturers during the course.

各講師が授業中に提示する質問への回答や課題のレポートに基づいて、到達目標の達成度を情報学研究科成績評価規定第7条により総合的に判断する。
Course Requirements None
Study outside of Class (preparation and review) Lecture materials will be provided via PandA CMS.

講義資料はPandA CMSで配布する。
References, etc. An Introduction to the Psychology of Hearing (6th edition), Moore, B.C.J., (Brill, 2013)
Speech and Language Processing, D. Jurafsky and J.H.Martin, (Pearson Education, 2009)
Signal Processing Methods for Music Transcription, Klapuri, A. and Davy, M. (eds.) , (Springer, 2006)
音声工学, 板橋 秀一 編, (森北出版)
音のアレイ信号処理, 浅野 太, (コロナ社)
PAGE TOP