はじめに
代表的な標本分布についてまとめています。正規母集団からの標本分布から始まり、t-分布と、F分布についてもまとめていきます。
標本分布
平均が $\mu$、分散が $\sigma^2$ の確率分布に従う母集団からランダムサンプルされた標本を用いて計算される標本平均、標本分散はそれぞれ $$ \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i $$ $$ S^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 $$ で定義されます。このように母数(この場合だと $\mu$ や $\sigma^2$)を含んでいないものは統計量と呼ばれ、それらの従う確率分布を標本分布と呼びます。
ここで問題となってくるのが、標本分布は果たしてどのような分布になっているのか?ということです。母集団が正規分布である場合と、母集団以外の一般的な確率分布に従う場合とで考え方が異なってきます。
正規母集団からの標本分布
平均が $\mu$、分散が $\sigma^2$ の正規分布に従う母集団からランダムサンプルされた標本 $$ X_1,…,X_n, i.i.d. \sim N(\mu, \sigma^2) $$ を用いた標本平均と不偏分散1 が従う確率分布(標本分布)について考えてみます。
標本平均について
標本平均は $$ \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i = \frac{1}{n} (X_1 + … + X_n) $$ のように正規分布に従う確率分布 $X_i$ の和であるため、正規分布の再生性より $\bar{X}$ も正規分布に従うことが分かります2。あとは平均と分散を求めると、 $$ E[\bar{X}] = … = \mu $$ $$ V[\bar{X}] = … = \frac{\sigma^2}{n} $$ であるので、$\bar{X}$ は $N(\mu, \sigma^2/n)$ に従うことが分かります。
不偏分散について
不偏分散は $$ V^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 $$ で、これを式変形していきます。かなり天下り的なため、変形の雰囲気だけでも覚えておいた方が良いと思います。 $$ \begin{aligned} (n-1)V^2 &= \sum_{i=1}^n (X_i - \mu + \mu - \bar{X})^2 \\ &= \sum_{i=1}^n (X_i - \mu)^2 - 2\sum_{i=1}^n(X_i-\mu)(\bar{X}-\mu) + \sum_{i=1}^n (\bar{X} - \mu)^2 \\ &= \sum_{i=1}^n (X_i - \mu)^2 - 2n(\bar{X}-\mu)^2 + n (\bar{X} - \mu)^2 \\ &= \sum_{i=1}^n (X_i - \mu)^2 - n(\bar{X}-\mu)^2 \\ (n-1)V^2/\sigma^2 &= \sum_{i=1}^n \left(\frac{X_i - \mu}{\sigma}\right)^2 - \left(\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \right)^2 \\ \end{aligned} $$ ここで右辺第一項の中身は $$ \frac{X_i - \mu}{\sigma} \sim N(0, 1) $$ であり、右辺第二項の中身は $$ \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0, 1) $$ です3。標準正規分布に従う確率変数の二乗和がカイ二乗分布に従うことを思い出すと、 $$ (n-1)V^2/\sigma^2 = \chi_n^2 - \chi_1^2 = \chi_{n-1}^2 $$ となり、不偏分散は自由度 $n-1$ のカイ二乗分布に従うことが分かりました。
補足
標本平均、不偏分散についての標本分布はヘルマート行列を用いて計算すると証明することができるのですが、毎回計算しているのも面倒なので、上記の流れで覚えておいたほうが忘れたときにぱっと計算し直せるかと思います。
t-分布
分布の定義
ここで、まず t-分布と呼ばれる確率分布を定義します。互いに独立な確率変数 $Z\sim N(0,1)$、$U\sim \chi_m^2$ とするとき、 $$ T = \frac{Z}{\sqrt{U/m}} $$ で定義される確率変数 $T$ は自由度 $m$ の t-分布と呼ばれる確率分布に従います。
標本を用いた定義
標本平均は $$ \bar{X} \sim N(\mu, \sigma^2/n) $$ のように正規分布に従い、標準化すると $$ Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1) $$ として標準正規分布に従います。また不偏分散は $$ \frac{n-1}{\sigma^2}V^2 \sim \chi_{n-1}^2 $$ として自由度 $n-1$ のカイ二乗分布に従います。そのためこれらを用いた確率変数 $$ \frac{ \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} }{\sqrt{\frac{n-1}{\sigma^2}V^2 / \frac{1}{n-1} }} $$ は t-分布に従うことが分かります。式変形していくと $$ \frac{ \bar{X} - \mu}{V/\sqrt{n}} $$ となり、標本平均を標準化した式において母分散を不偏分散に置き換えた式が自由度 $n-1$ の t-分布に従うという性質を導くことができました。 $$ \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1) \to \frac{\bar{X} - \mu}{V/\sqrt{n}} \sim T $$
F分布
分布の定義
互いに独立な確率変数 $S\sim \chi_m^2$、$T\sim \chi_n^2$ とするとき、 $$ Y = \frac{S/m}{T/n} $$ で定義される確率変数 $Y$ は自由度 $(m,n)$ の F分布と呼ばれる確率分布に従います。
標本を用いた定義
不偏分散が $$ \frac{n-1}{\sigma^2}V^2 \sim \chi_{n-1}^2 $$ として自由度 $n-1$ のカイ二乗分布に従うことを用いると $$ \frac{\frac{n-1}{\sigma^2}V_1^2 / (n-1)}{\frac{m-1}{\sigma^2}V_2^2 / (m-1)} = \frac{V_1^2/\sigma_1^2}{V_2^2/\sigma_2^2} $$ となり、不偏分散を用いて表すことができます。