コンテンツに飛ぶ | ナビゲーションに飛ぶ

  • 日本語
  • English
 

音声情報処理特論

JA | EN

開講年度・開講期 2020・後期
単位数 2 単位
授業形態 講義
対象学生 大学院生
曜時限 火4
教員
  • 河原 達也(情報学研究科 教授)
  • 正木 信夫(非常勤講師)
  • 西村 竜一(非常勤講師)
授業の概要・目的 本講義では,音について基礎理論から最先端の音の認識技術とその応用について学ぶ.
 第1部では,音の基礎理論と音声生成機構および聴覚機構について述べる.まず音声に関わる音の物理特性を明かにし,音声生成の理論(ソース・フィルタ理論)と近年の観測技術の進歩に基づく新たな知見について述べる.聴覚機構については, 人間の聴覚特性について明かにした上で,それらの特徴を利用したディジタル信号処理技術について紹介する.
 第2部では, 音声の基本的な性質と特徴量について述べ,代表的な音声分析手法を解説する.音声符号化,音声合成, 及び音声認識についてその概要を述べる.音声認識においては,代表的な音響モデル・言語モデルについて解説する.
 第3部では,音声に限らず楽音や環境音を含む音環境理解について述べ,両耳聴の原理から空間的な知覚の原理を探り,視覚と聴覚の情報統合による認知機能について説明する.また,具体的な応用としてロボット聴覚の課題と現状,音声模倣発達についても取り上げる.
授業計画と内容 ・音・音声・脳(正木):音の物理と音声生成機構,脳機能計測と音声情報処理機構
・ヒトの聴覚と応用技術(西村):人間の聴覚機構,音声生成・聴覚特性に基づくディジタル信号処理
・音声の分析・認識・合成(河原):音声に含まれる情報, 線形分離等価モデル,音声分析,音声合成・音声符号化・音声認識の概要,音声認識のための音響モデル言語モデル
・音環境理解とロボット聴覚(奥乃):音環境理解とは,音源定位,音源分離と分離音認識,音楽情報処理,動物音響学
・マルチモーダル情報処理とロボットによる情報生成(尾形):人工神経回路による音声模倣発達モデル,人工神経回路による視聴覚変換モデル
成績評価の方法・観点 5回のレポート試験を中心に,授業中の発表の評価、質疑応答などを勘案して,到達目標の達成度を総合的に判断する.
履修要件 特になし
教科書
  • 配布資料を使用
参考書等
  • 『音声工学』(2005), 板橋秀一編, (森北出版),
  • "An Introduction to the Psychology of Hearing'', 4th Ed.(1997), Moore, B.C.J., (Academic Press),
  • "Auditory Scene Analysis''(1990), Bregman, A., (MIT Press),
  • "Computational Auditory Scene Analysis''(1998), Rosenthal, D. and Okuno, H.G. (eds.), (Lawrence Erlbaum Associates),