Statistical Genetics II

Numbering Code G-LAS12 80002 LB87 Year/Term 2021 ・ Intensive, Second semester
Number of Credits 2 Course Type Lecture
Target Year Graduate students Target Student For science students
Language Japanese and English Day/Period Intensive
February 7-9
Instructor name YAMADA RYO (Graduate School of Medicine Professor)
Outline and Purpose of the Course Days and hours (1st week of Feb, Mon, Tue, Wed)
1 February 7th 8:45-10:15
2 February 7th 10:30-12:00
3 February 7th 13:00-14:30
4 February 7th 14:45-16:15
5 February 7th 16:30-18:00
6 February 8th 8:45-10:15
7 February 8th 10:30-12:00
8 February 8th 13:00-14:30
9 February 8th 14:45-16:15
10 February 8th 16:30-18:00
11 February 9th 8:45-10:15
12 February 9th 10:30-12:00
13 February 9th 13:00-14:30
14 February 9th 14:45-16:15
15 February 9th 16:30-18:00



統計遺伝学の学修にあたり3つの要素に分けて取り組む。基礎数学、統計解析の基礎、統計解析の応用の3つである。
基礎数学は線形代数学、微分積分学、グラフ理論、情報幾何学の4つを扱う。基礎ではデータ型・検定・推定の考え方を扱う。応用では、メンデル型遺伝、癌症候群、複合遺伝性疾患、発現解析を取り上げる。
これらを以下のような6つのモジュールとして提供する。
基礎数学A(線形代数とグラフ理論)、基礎数学B(微分積分学と情報幾何)
統計解析基礎A(データ型と検定)、統計解析B(推定)
統計解析応用A(メンデル型遺伝、癌症候群)、統計解析応用B(複合遺伝性疾患と発現解析)

統計遺伝学I、IIはそれぞれ前期、後期に開講するが、年度ごとにその提供内容は変わる。
2021年度からの提供予定は以下のとおりとする。

2021 前期 基礎数学B、後期 統計解析応用A
2022 前期 基礎数学A、後期 統計解析基礎A
2023 前期 基礎数学B、後期 統計解析応用B
2024 前期 基礎数学A、後期 統計解析基礎B

2021年度後期は統計解析応用Aである。

また、統計遺伝学I IIの講義では、プログラミング言語Rを使い、計算、データ解析、データ視覚化、データシミュレーションの技術も学ぶ。

This course is consisted of three components to master the basics of statistical genetics; (1) basic mathematics,
(2) basics of statistics and (3) application of statistics to genetic studies.
The course divides these three components into six modules and provides one of them for each semester.
Basic mathematics A: Linear algebra and graph theory
Basic mathematics B: Calculus and information geometry
Basics of statistics A: Data types and statistical tests
Basics of statistics B: Inference
Application of statistics A: Statistical aspects of Mendelian traits and Cancer syndromes
Application of statistics B: Statistical aspects of complex genetic traits and gene expression biomarkers.
Schedule plan is as below:

2021 1st semester Basic mathematics B, 2nd semester Application A
2022 1st semester Basic mathematics A, 2nd semester Basics of statistics A
2023 1st semester Basic mathematics B, 2nd semester Application B
2024 1st semester Basic mathematics A, 2nd semester Basics of statistics B

In the course, the language R is used for data analysis, simulation and visualization.
This semester: Application A.
Course Goals 基礎数学A:行列演算による、二乗法・PCAがわかる。グラフ理論の基礎を習得する。
基礎数学B:確率密度関数の微分積分の式が理解できる。尤度関数と最尤推定のための微分演算が
理解できる。近似のための微積分が理解できる。情報幾何の基礎を理解する。
統計解析基礎A:統計遺伝学分野におけるデータ型、検定、漸近近似検定、正確確率検定、分割表
検定を理解する。
統計解析基礎B:点推定・区間推定、ベイズ推定、最尤推定、尤度関数を理解する。
統計解析応用A:メンデル遺伝形質のリスク評価、癌症候群のリスク評価を理解する。
統計解析応用B:複合遺伝性疾患の遺伝モデルとそのリスク評価、遺伝子発現プロファイルとバイ
オマーカーについて理解する。
いずれのモジュールにおいても、コンピュータ言語Rを用いて基礎的な計算・プログラミングの技
術を習得する。

Basic mathematics A: To understand matrix calculation least squares, PCA, and
the basics of graph theory.
Basic mathematics B: To understand calculus for probability density functions, likelihood functions and
maximum likelihood estimation, approximation, and the basics of information geometry.
Basics of statistics A:To understand data types, statistical tests, asymptotic tests, exact tests, and
contingency table tests
Basics of statistics B:To understand point and interval estimates, Bayesian estimates, maximum likelihood
estimates and likelihood functions.
Application A: To understand statistical aspects for risk evaluation of Mendelian traits and cancer syndromes.
Application B: To understand statistical aspeccts for riks evaluation of complex genetic traits and
expressional profiles.
In every module, the basics of R language should be mastered.
Schedule and Contents 数学基礎A
 前半に線形代数を、後半にグラフ理論を扱う。
線形代数では、行列計算、分散共分散行列、最小二乗法、連立方程式、PCA、最適解を順に取り上げる。
グラフ理論では、グラフの定義、グラフオブジェクトのRでの取り扱い、木、最小全域木、ランダ
ムグラフ、ネットワークを順に取り上げる。
数学基礎B
 前半に微分積分学を、後半に情報幾何を扱う。
 微分積分学では、確率密度分布の期待値、尤度関数と最尤推定のための微分、確率密度関数・累
積分布関数・ハザード関数のための微分積分、偏微分とHWE、最小二乗法、テイラー展開を順に取
り上げる。
 情報幾何では、その基礎、フィッシャー情報量、双対平坦、指数型分布族、KLダイバージェン
スを取り上げる。
統計解析基礎A
 データ型、カテゴリと正単体、2x2表のカイ二乗検定と正確確率検定、HWE検定とその正確確
率検定、2x3表検定と遺伝モデル、一様分布とマルチプルテスティングとボンフェロニ補正を順
に扱う
統計解析基礎B
 点推定と区間推定、ベイズ推定、二項分布とベータ分布、ハプロタイプ頻度推定とEMアルゴリ
ズム、連鎖不平衡ブロックを順に扱う。
統計解析応用A
 前半にメンデル遺伝を、後半に癌症候群を扱う。
 メンデル遺伝では、家系図、メンデル遺伝のジェノタイプとフェノタイプ、NGSと疾患責任変異
を扱う。
 癌症候群では、その基礎、リスク評価、決断支援ツール、ベイズ推定、ベイジアンネットワーク
を扱う。
統計解析応用B
 前半に複合遺伝性疾患を、後半にトランスクリプトーム・発現プロファイルによる癌のサブタイ
ピングを扱う。
 複合遺伝性疾患では、遺伝モデル、集団・コホート、2x3表の関連検定、多座位モデルを扱う。
 トランスクリプトーム・発現プロファイルでは、その基礎、Differential expression analysis、クラ
スタリングとヒートマップ、教師ありクラスタリング、バリデーション法を扱う。

Basic mathematics A
The first half: Linear algebra, including matrix calculation, variance-covariance matrix, least square method,
system of equation, PCA, optimization
The second half: Graph theory, including basics of basics of graph theory, tree, minimum spanning tree,
random graph, and network and graph objects in R language.
Basic mathematics B
The first half: Calculus, including expect of probability density functions, likelihood function and maximum
likelihood estimate and calculus for them, calculus for probability density function, cumulative density
function and hazard functions, partial derivative and HWE, calculus for least square methods and Taylor
expansion.
The second half: Information geometry, including its basics, Fisher information, dual flatness, exponential
families and KL divergence.
Basics of statistics A
Data types including categorical types and simplex, 2x2 table tests and chi-square test and exact test, HWEtest and its exact test, 2x3 table test and genetic models, uniform distribution and multiple testing and
Bonferroni's correction.
Basics of statistics B
Point and interval estimates, Bayesian appoach and binomial and beta distributions, haplotype frequency
estimation and EM algorithm and LD block.
Application A
The first half: Mendelian traits, including pedigree, genotypes and phenotypes of Mendelian traits, NGS and
disease-responsible variants.
The second half: Cancer syndrome, including its basics and risk evaluation, decision-support tool, Bayseian
estimation and Bayesian network.
Application B
The first half: Complex genetic traits, including genetic models, population and cohort, 2x3 table association
tests and multiple-locus model.
The second half: Transcriptome analysis and expression profiles, including their basics, differential
expression analysis, clustering and heatmap, supervised learning and validation.
Evaluation Methods and Policy 授業中の質疑応答の発言を評価する。
宿題の提出内容を評価する。
Activities in the class hours, and homeworks are count.
Course Requirements 生物学・遺伝学の基礎を習得していることが望ましいが、意欲があれば必須ではない。
無線LAN接続の可能なノートパソコンを持参すること。計算機・プログラミングの知識は要求しな
いが、初学者は復習が必須となる。前期・後期併せての受講が望ましいが、必須ではない。

It is desirable to have background of molecular biology and genetics but not required if ready for self-learning
them.
Bring a laptop PC with wifi.
Basic computer skills and programming in R are necessary. If no, self-learn them along the course.
Study outside of Class (preparation and review)  フリーソフトウェア Rに習熟するには講義時間のみでは十分でないことが多い。日常のデータ処理などに積極的に活用するなど、使用機会を各自確保することが望まれる。
宿題が出る。

Unskilled R users should learn it themselves by using it for their daily research activities.
Homework every week.
Textbooks Textbooks/References  統計解析基礎A,Bでは、『遺伝統計学の基礎』 ISBN 978-4274068225 とその英訳プリントを用いる。
References, etc.  統計解析基礎A,Bでは、『遺伝統計学の基礎』 ISBN 978-4274068225 とその英訳プリントを用い
る。

For basics of statistics A and B "遺伝統計学の基礎ISBN 978-4274068225 in Japanese and its English
version handoout will be used.
PAGE TOP