標本平均と標本分散

公開:
統計 #標本平均 #標本分散

はじめに

代表的な標本分布についてまとめています。正規母集団からの標本分布から始まり、t-分布と、F 分布についてもまとめていきます。

標本分布

平均が μ\mu、分散が σ2\sigma^2 の確率分布に従う母集団からランダムサンプルされた標本を用いて計算される標本平均、標本分散はそれぞれ

Xˉ=1ni=1nXi\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i S2=1ni=1n(XiXˉ)2S^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2

で定義されます。このように母数(この場合だと μ\muσ2\sigma^2)を含んでいないものは統計量と呼ばれ、それらの従う確率分布を標本分布と呼びます。

ここで問題となってくるのが、標本分布は果たしてどのような分布になっているのか?ということです。母集団が正規分布である場合と、母集団以外の一般的な確率分布に従う場合とで考え方が異なってきます。

正規母集団からの標本分布

平均が μ\mu、分散が σ2\sigma^2 の正規分布に従う母集団からランダムサンプルされた標本

X1,...,Xn,i.i.d.N(μ,σ2)X_1,...,X_n, i.i.d. \sim N(\mu, \sigma^2)

を用いた標本平均と不偏分散[1] が従う確率分布(標本分布)について考えてみます。

標本平均について

標本平均は

Xˉ=1ni=1nXi=1n(X1+...+Xn)\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i = \frac{1}{n} (X_1 + ... + X_n)

のように正規分布に従う確率分布 XiX_i の和であるため、正規分布の再生性より Xˉ\bar{X} も正規分布に従うことが分かります[2]。あとは平均と分散を求めると、

E[Xˉ]=...=μE[\bar{X}] = ... = \mu V[Xˉ]=...=σ2nV[\bar{X}] = ... = \frac{\sigma^2}{n}

であるので、Xˉ\bar{X}N(μ,σ2/n)N(\mu, \sigma^2/n) に従うことが分かります。

不偏分散について

不偏分散は

V2=1n1i=1n(XiXˉ)2V^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2

で、これを式変形していきます。かなり天下り的なため、変形の雰囲気だけでも覚えておいた方が良いと思います。

(n1)V2=i=1n(Xiμ+μXˉ)2=i=1n(Xiμ)22i=1n(Xiμ)(Xˉμ)+i=1n(Xˉμ)2=i=1n(Xiμ)22n(Xˉμ)2+n(Xˉμ)2=i=1n(Xiμ)2n(Xˉμ)2(n1)V2/σ2=i=1n(Xiμσ)2(Xˉμσ/n)2\begin{aligned} (n-1)V^2 &= \sum_{i=1}^n (X_i - \mu + \mu - \bar{X})^2 \\ &= \sum_{i=1}^n (X_i - \mu)^2 - 2\sum_{i=1}^n(X_i-\mu)(\bar{X}-\mu) + \sum_{i=1}^n (\bar{X} - \mu)^2 \\ &= \sum_{i=1}^n (X_i - \mu)^2 - 2n(\bar{X}-\mu)^2 + n (\bar{X} - \mu)^2 \\ &= \sum_{i=1}^n (X_i - \mu)^2 - n(\bar{X}-\mu)^2 \\ (n-1)V^2/\sigma^2 &= \sum_{i=1}^n \left(\frac{X_i - \mu}{\sigma}\right)^2 - \left(\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \right)^2 \\ \end{aligned}

ここで右辺第一項の中身は

XiμσN(0,1)\frac{X_i - \mu}{\sigma} \sim N(0, 1)

であり、右辺第二項の中身は

Xˉμσ/nN(0,1)\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0, 1)

です[3]。標準正規分布に従う確率変数の二乗和がカイ二乗分布に従うことを思い出すと、

(n1)V2/σ2=χn2χ12=χn12(n-1)V^2/\sigma^2 = \chi_n^2 - \chi_1^2 = \chi_{n-1}^2

となり、不偏分散は自由度 n1n-1 のカイ二乗分布に従うことが分かりました。

補足

標本平均、不偏分散についての標本分布はヘルマート行列を用いて計算すると証明することができるのですが、毎回計算しているのも面倒なので、上記の流れで覚えておいたほうが忘れたときにぱっと計算し直せるかと思います。

t-分布

分布の定義

ここで、まず t-分布と呼ばれる確率分布を定義します。互いに独立な確率変数 ZN(0,1)Z\sim N(0,1)Uχm2U\sim \chi_m^2 とするとき、

T=ZU/mT = \frac{Z}{\sqrt{U/m}}

で定義される確率変数 TT は自由度 mm の t-分布と呼ばれる確率分布に従います。

標本を用いた定義

標本平均は

XˉN(μ,σ2/n)\bar{X} \sim N(\mu, \sigma^2/n)

のように正規分布に従い、標準化すると

Z=Xˉμσ/nN(0,1)Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)

として標準正規分布に従います。また不偏分散は

n1σ2V2χn12\frac{n-1}{\sigma^2}V^2 \sim \chi_{n-1}^2

として自由度 n1n-1 のカイ二乗分布に従います。そのためこれらを用いた確率変数

Xˉμσ/nn1σ2V2/1n1\frac{ \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} }{\sqrt{\frac{n-1}{\sigma^2}V^2 / \frac{1}{n-1} }}

は t-分布に従うことが分かります。式変形していくと

XˉμV/n\frac{ \bar{X} - \mu}{V/\sqrt{n}}

となり、標本平均を標準化した式において母分散を不偏分散に置き換えた式が自由度 n1n-1 の t-分布に従うという性質を導くことができました。

Xˉμσ/nN(0,1)XˉμV/nT\frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1) \to \frac{\bar{X} - \mu}{V/\sqrt{n}} \sim T

F 分布

分布の定義

互いに独立な確率変数 Sχm2S\sim \chi_m^2Tχn2T\sim \chi_n^2 とするとき、

Y=S/mT/nY = \frac{S/m}{T/n}

で定義される確率変数 YY は自由度 (m,n)(m,n) の F 分布と呼ばれる確率分布に従います。

標本を用いた定義

不偏分散が

n1σ2V2χn12\frac{n-1}{\sigma^2}V^2 \sim \chi_{n-1}^2

として自由度 n1n-1 のカイ二乗分布に従うことを用いると

n1σ2V12/(n1)m1σ2V22/(m1)=V12/σ12V22/σ22\frac{\frac{n-1}{\sigma^2}V_1^2 / (n-1)}{\frac{m-1}{\sigma^2}V_2^2 / (m-1)} = \frac{V_1^2/\sigma_1^2}{V_2^2/\sigma_2^2}

となり、不偏分散を用いて表すことができます。


脚注

  1. 標本分散は不偏性を持っていないため、不偏性を持っている標本分散として不偏分散を用います。 ↩︎
  2. もしくはモーメント母関数を XXXˉ\bar{X} について比較をすれば同様のことが導けますが、毎回計算しているのも面倒なので、再生性については覚えておいた方が良い性質です。 ↩︎
  3. XN(μ,σ2)X\sim N(\mu, \sigma^2)XˉN(μ,σ2/n)\bar{X} \sim N(\mu, \sigma^2/n) であるので、それぞれ平均と分散とを用いて標準化すると標準正規分布に従います。 ↩︎