音声情報処理特論｜Kyoto University OpenCourseWare

Keyword

Select category

Faculty/Graduate School

音声情報処理特論
Back
JP / EN

Numbering Code		Year/Term	2022 ・ Second semester
Number of Credits	2	Course Type	Lecture
Target Year		Target Student
Language		Day/Period	Tue.4
Instructor name	KAWAHARA TATSUYA (Graduate School of Informatics Professor) MASAKI NOBUO (Part-time Lecturer) NISHIMURA RYUICHI (Part-time Lecturer)
Outline and Purpose of the Course	本講義では，音について基礎理論から最先端の音の認識技術とその応用について学ぶ．　第１部では，音の基礎理論と音声生成機構および聴覚機構について述べる．まず音声に関わる音の物理特性を明かにし，音声生成の理論（ソース・フィルタ理論）と近年の観測技術の進歩に基づく新たな知見について述べる．聴覚機構については, 人間の聴覚特性について明かにした上で，それらの特徴を利用したディジタル信号処理技術について紹介する．　第２部では，音声の基本的な性質と特徴量について述べ，代表的な音声分析手法を解説する．音声符号化，音声合成，及び音声認識についてその概要を述べる．音声認識においては，代表的な音響モデル・言語モデルについて解説する．　第３部では，音声に限らず楽音や環境音を含む音環境理解について述べ，両耳聴の原理から空間的な知覚の原理を探り，視覚と聴覚の情報統合による認知機能について説明する．また，具体的な応用としてロボット聴覚の課題と現状，音声模倣発達についても取り上げる．
Schedule and Contents	・音・音声・脳（正木）：音の物理と音声生成機構，脳機能計測と音声情報処理機構・ヒトの聴覚と応用技術（西村）：人間の聴覚機構，音声生成・聴覚特性に基づくディジタル信号処理・音声の分析・認識・合成（河原）：音声に含まれる情報, 線形分離等価モデル，音声分析，音声合成・音声符号化・音声認識の概要，音声認識のための音響モデル言語モデル・音環境理解とロボット聴覚（奥乃）：音環境理解とは，音源定位，音源分離と分離音認識，音楽情報処理，動物音響学・マルチモーダル情報処理とロボットによる情報生成（尾形）：人工神経回路による音声模倣発達モデル，人工神経回路による視聴覚変換モデル
Evaluation Methods and Policy	５回のレポート試験を中心に，授業中の発表の評価、質疑応答などを勘案して，到達目標の達成度を総合的に判断する．
Course Requirements	None
Textbooks	Textbooks/References	配布資料を使用
References, etc.	『音声工学』(2005), 板橋秀一編, (森北出版) "An Introduction to the Psychology of Hearing'', 4th Ed.(1997), Moore, B.C.J., (Academic Press), (大串監訳『聴覚心理学概論 (第3版)』(誠信書房), 1994) "Auditory Scene Analysis''(1990), Bregman, A., (MIT Press) "Computational Auditory Scene Analysis''(1998), Rosenthal, D. and Okuno, H.G. (eds.), (Lawrence Erlbaum Associates)