Basic Data Analysis
Numbering Code | U-LAS11 10007 LJ55 | Year/Term | 2022 ・ First semester | |
---|---|---|---|---|
Number of Credits | 2 | Course Type | Lecture | |
Target Year | All students | Target Student | For all majors | |
Language | Japanese | Day/Period | Tue.5 | |
Instructor name | SATO HIROYUKI (Graduate School of Informatics Program-Specific Associate Professor) | |||
Outline and Purpose of the Course |
本授業の目的は、データ分析の基本的な事項を学び、実際に大規模データ解析を行うための基礎的な技術を身につけることである。大規模データ解析や最新のデータ分析手法の適用は、既存のソフトウェアを用いて簡単に実行できるとは限らない。そこで、本授業では、データ分析の基礎となる線形代数と最適化手法についても講義する。ただし、厳密な数学的証明は必要最小限に抑え、直観的な理解を深めることを目標とする。本講義は、文部科学省のモデルカリキュラム(応用基礎レベル)の、データサイエンス基礎・データエンジニアリング基礎・AI 基礎をバランスよくカバーする形で構成されている。 はじめに、データを扱う上で必要不可欠な確率変数・平均・分散などの統計の基礎的な概念について解説する。また、仮説検定の考え方を述べ、いくつかの例を用いて解説する。 その後、複数の変数の関係性を調べる多変量解析を行う際に必要となる線形代数について講義する。特に、連立一次方程式の解法であるガウスの消去法とLU分解、回帰分析において必要となるQR分解、主成分分析などで重要となる固有値分解・特異値分解について解説する。 次に、多変量解析の基礎である回帰分析と主成分分析について講義する。また、回帰分析、主成分分析について理解を深めるためExcelと統計ソフトRを使って演習を行う。 最後に、スパース推定を題材にして、最適化手法についての講義と演習を行う。最急降下法や共役勾配法などの無制約最適化手法を解説した後、Lasso回帰に現れる最適化問題の解法として近接勾配法について講義する。 |
|||
Course Goals |
1. 確率変数・平均・分散など統計の基礎的な内容、および、仮説検定について理解する。 2. 多変量解析の基礎である回帰分析、主成分分析についての概念を理解し、データ分析に応用できるようになる。 3. Excelと統計ソフトRを使いこなす知識を身につけ、実際に簡単なデータ分析を行えるようになる。 4. データ分析に登場する最適化問題とそれを解くアルゴリズムについて、基本的な考え方を理解する。 |
|||
Schedule and Contents |
授業回数はフィードバックを含め全15回とする。 開講にあたっては、受講生の所属するキャンパスの配置や受講形態にも配慮し、一部メディア授業を取り入れることがある。 ・ガイダンス、統計の基礎(1回) 授業の概要について説明する。その後、確率変数・平均・分散など統計の基礎的な内容について講義する。また、データ駆動型社会、Society 5.0、ビッグデータ、プライバシー保護、個人情報の取り扱いについても解説する。 ・仮説検定(1回) 仮説検定の基本的な考え方を講義する。 ・線形代数の基礎(2回) 行列、ベクトルの定義からはじめ、連立一次方程式の解法であるガウスの消去法やLU分解、回帰分析において必要となるQR分解、主成分分析などで重要となる固有値分解と特異値分解について解説する。 ・回帰分析(2~3回) 予測などに使われる回帰分析について講義する。主にExcelを用いた演習を通じて、ダミー変数の扱い方、多重共線性の問題と解決法、モデル選択の考え方の基本、Ridge回帰とLasso回帰などを教授する。 ・主成分分析(2~3回) 多変量解析の基礎である主成分分析について講義する。回帰分析と組み合わせる主成分回帰などについても解説する。時間があれば、低ランク近似の考えに基づく、EMアルゴリズムを用いた欠損値の推定法とその応用などについても述べる。主に統計ソフトRを用いて演習を行う。 ・最適化の基礎とスパース推定のための最適化手法(5回) いろいろな種類の最適化問題の紹介からはじめ、連続最適化問題を解くための基礎的な手法である最急降下法やその改良版とも見なせる共役勾配法について講義する。また、Lasso回帰などのスパース推定法において現れる最適化問題の解法として近接勾配法を教授し、データ分析への応用について述べるとともに、演習を行う。 ・AI・機械学習の基礎と展望(1 回)AI の歴史や背景からはじめて、機械学習(教師あり学習・教師なし学習・強化学習)の考え方について説明する。ニューラルネットワークの原理や深層学習、深層学習で利用されるデバイスなどについても概説する。 ・フィードバック(1回) |
|||
Evaluation Methods and Policy |
定期試験、レポート、平常点を総合的に評価する。 ・定期試験(配点50点) 講義で解説したデータ分析の基本的な原理や理論を理解できているかを評価する。 ・レポート評価(配点25点) 授業の途中に、講義で解説した「線形代数の基礎知識と統計処理の基礎的な内容」、「最適化の基礎的な内容」についてそれぞれレポート課題を出題する。 ・平常点(配点25点) 授業中の演習への取り組みを評価する。 |
|||
Course Requirements | None | |||
Study outside of Class (preparation and review) |
行列については授業中にも解説するが、行列の扱いに慣れていない場合は予習あるいは復習をすることが望ましい。 また、厳密な数学的議論など授業中に省略した事項について、各自で学習することを期待する。 |
|||
Textbooks | Textbooks/References |
教科書は使用しない。 資料が必要な場合には、授業中に配布する。 |