授業ノート・
ビデオのある講義

 

3129000 Speech Processing, Adv.

シラバスID g_inf_4695
開講年度・開講期 後期
授業形態 講義
対象学生 Graduate
使用言語 英語
曜時限 火4
教員
  • 河原 達也(情報学研究科)
  • 加藤 宏明
  • 吉井 和佳(情報学研究科)
  • 糸山 克寿(情報学研究科)
  • 秋田 祐哉(経済学研究科)
授業の概要・目的 This course covers fundamentals of speech, audio and music processing. After a brief review of human hearing mechanism, we introduce the source-filter model, which is the basis of speech analysis, synthesis, coding and recognition. Spoken dialogue systems are also reviewed. Next, we introduce music processing such as automatic transcription and source separation. Then, audio signal processing for robot audition is explained including source localization, separation and recognition.

本講義では、音声および楽音・環境音の処理に必要となる基礎概念の修得を目的とする。人間の聴覚機能を概説した上で、音声の基本的な性質と音声分析手法について述べ、音声合成・音声符号化・音声認識などを概観する。音声対話システムについても述べる。次に、音楽信号を対象とした自動採譜や音源分離などの処理について述べる。最後に、ロボット聴覚を目的とした音響信号処理、具体的には音源定位・音源分離・分離音の認識手法について述べる。
到達目標 To learn the basic methodology and a variety of techniques of speech
processing.

音声情報処理に関する基本的な方法論と様々な技術を修得する。
授業計画と内容 1. The sense of hearing (Kato) : Reception of sound and speech, Auditory scene analysis, Spatial hearing

2. Speech analysis/synthesis/recognition (Kawahara) : Information in speech signals, source-filter model, speech analysis/synthesis/coding/recognition, acoustic model and language model for speech recognition, spoken dialogue system

3. Music information processing (Itoyama): Source separation, automatic transcription, and recognition of musical elements

4. Audio signal processing (Yoshii): robot audition, microphone array, source localization/separation, beamforming, MUSIC method, ICA, time-frequency masking

1. 聴覚機構(2回:加藤):音と音声の受容,聴覚情景分析,空間聴覚

2. 音声の分析・合成・認識(6回:河原):音声に含まれる情報,ソース・フィルタモデル,音声分析,音声合成・音声符号化・音声認識の概要,音声認識の音響モデルと言語モデル,音声対話システム

3. 音楽情報処理(2回:糸山): 音源分離,自動採譜,音楽要素の認識技術

4. 音響信号処理(4回:吉井): ロボット聴覚,マイクロホンアレイ信号処理,音源定位・分離,ビームフォーミング,MUSIC法,ICA,時間周波数マスキング
成績評価の方法・観点及び達成度 各講師のレポート課題を中心に,授業中の発表の評価・質疑応答などを勘案して,到達目標の達成度を総合的に判断する.
Grading will be determined according to the quality of submitted reports. Report topics will be given by lecturers.
履修要件 特になし
授業外学習(予習・復習)等 Lecture materials will be provided via PandA CMS.
講義資料はPandA CMSで配布する。
参考書等
  • An Introduction to the Psychology of Hearing (6th edition), Moore, B.C.J., (Brill, 2013),
  • Speech Processing, L. Deng and D.O'Shaughnessy, (Marcel Dekker, 2003),
  • Speech and Language Processing, D. Jurafsky and J.H.Martin, (Pearson Education, 2009),
  • Signal Processing Methods for Music Transcription (2006), Klapuri, A. and Davy, M. (eds.) , (Springer),
  • 音声工学 (2005), 板橋 秀一 編, (森北出版),
  • 音のアレイ信号処理, 浅野 太, (コロナ社),