Data Analysis Practice I

Numbering Code U-LAS11 20003 SJ55 Year/Term 2022 ・ First semester
Number of Credits 2 Course Type Seminar
Target Year All students Target Student For all majors
Language Japanese Day/Period Tue.2
Instructor name KIMURA MASAYUKI (Part-time Lecturer)
Outline and Purpose of the Course 今日では、コンピュータやネットワーク、様々なセンサなどの技術の進歩により、日々膨大なデータが蓄積されるようになった。これらのデータの活用への期待は大きく、データを適切に分析し、その結果から適切な判断を下すことが重要である。
「データ分析演習I」は、ICT(情報通信技術)の進展とビッグデータ、さらにデータ表現の基礎等を確認したうえで、原則としてプログラミング言語を用いた経験のない学生を対象として、データ解析の基礎を習得する実践科目である。
本講義は、文部科学省のモデルカリキュラム(応用基礎レベル)の内、データサイエンス基礎とデータエンジニアリング基礎、AI基礎をバランスよくカバーする形で構成されている。
具体的には、データを扱うために必要なプログラミングスキル、データの取得・整形、種々の可視化手法、機械学習の基礎について学ぶ。まず、データ科学の分野で広く用いられているPython の導入法や基礎文法を修得し、データの取得方法や整形、可視化など、データ科学に必要不可欠な技術を学ぶ。続いて回帰分析や教師あり/教師なし機械学習の基礎理論と実装法を修得する。具体的には、重回帰、ロジスティック回帰、Ridge、Lasso、サポートベクターマシン、ランダムフォレストなどの決定木、ニューラルネットワーク、k近傍法、k平均法、多様体学習、主成分分析などを学ぶ。
Course Goals 1. データ分析の理論的基礎となる確率論や統計学、線形代数学の基礎を理解する。
2. Python 言語を用いてデータ分析に必要な基礎的な統計処理ができるようになる。
3. 回帰分析、機械学習、クラスタリングについて概要を理解し、プログラミング言語による実装方法を理解する。
Schedule and Contents フィードバックを含め全15回の授業で、Python言語を用いてデータ分析を実践する。本演習の前半ではデータ科学分野で広く使用されているPython言語の基礎プログラミングと外部モジュールを用いたデータの整形や可視化について、後半では機械学習モジュールを用いた教師あり/教師なし機械学習の実装と演習を予定している。
なお開講にあたっては、受講生の所属するキャンパスの配置や受講形態にも配慮し、一部メディア授業も取り入れる。
第1回 データサイエンス概観とPythonの導入(データ駆動型社会・データサイエンス活用事例、ビッグデータ、プライバシー保護、個人情報の取り扱いの概説を含む)
第2-4回 Pythonプログラミング入門
第5回 NumPy入門
第6回 pandas入門
第7回 データの入出力・整形
第8回 データの可視化
第9回 時系列データの解析
第10回 AI・機械学習の基礎
第11回 回帰分析 (重回帰、 ロジスティック回帰、 Ridge、 Lasso)
第12回 教師あり機械学習 (サポートベクターマシン、ランダムフォレストなどの決定木、ニューラルネットワーク、k近傍法)
第13回 教師なし機械学習 (k平均法、多様体学習、主成分分析)
第14回 テキストデータの解析
第15回 レポート解説およびフィードバック

なお、講義の進度・文科省のモデルカリキュラム等を反映して内容順序の変更や省略・追加を行うことがある。
Evaluation Methods and Policy 講義中に与える課題とレポートの内容によって到達目標への到達度を評価する。
Course Requirements 「統計入門」あるいは同等の科目を履修していることがのぞましい。
また、共通教育における線形代数の基礎知識(ベクトルや行列など)や高校レベルの数学の知識を必要とする。
Study outside of Class (preparation and review) 復習として,講義で解説した内容を自らプログラムを組んで実装し,様々なデータに対して適用してみることを期待する.
Textbooks Textbooks/References 使用しない。講義資料のPDF版を配布する。
References, etc. Pythonによるデータ分析入門 第2版 ― NumPy、pandasを使ったデータ処理―, Wes McKinney, (オライリージャパン, 2019), ISBN:978-4-87311-845-1
Pythonデータサイエンスハンドブック -Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習, Jake VanderPlas, (オライリージャパン, 2019), ISBN:978-4-87311-841-3
入門 Python 3, Bill Lubanovic, (オライリージャパン, 2017), ISBN:978-4-87311-738-6
PAGE TOP