平均、分散の定義

確率密度関数 $f(x)$ に従う確率変数 $X$ の平均は以下のように定義されます(ここでは連続変数を想定しておきますが、離散変数でも $\int$ 計算を $\Sigma$ 計算に変更していただければ同じです)。

母平均、母分散

母平均は以下のように定義されます。

$$ E[X] = \int x f(x) dx $$

また分散は以下のように定義されます。

$$ V[X] = \int (x - E[X])^2 f(x) dx $$

平均や分散を計算するときには、ひとまず以上の定義式に従って計算すればよいです。

標本平均、標本分散

ところで現実のデータ(標本)

$$ X = \left{X_1,X_2,…,X_n \right} $$

では、確率変数の従う確率密度関数 $f(x)$ が分かっている様なことは通常ありません。そこで平均や分散として、標本平均と標本分散を定義します。 標本平均は以下のように定義されます。

$$ \bar{X} = \frac{1}{n} \sum_i X_i $$

標本分散は以下のように定義されます。

$$ s^2 = \frac{1}{n} \sum_i (X_i - E[X_i])^2 $$

用語の整理

ここで立ち止まって考えたいのですが、以上の議論から分かるように、単に「平均」と呼んでしまうとそれが母平均なのか標本平均なのか分からなくなってしまいます。 ただし往々にして単に「平均」「分散」と呼ばれることが多いため、文脈から判断することを心がける必要があります。

ただしここで分かる通り、母平均だけは唯一「期待値」という別名を持っています1。また母平均や母分散はまとめて母数とも呼ばれます。


  1. 別名ではなく、確率変数の期待値を母平均と定義されているのが実際です。 ↩︎