不偏推定量について

平均、分散の定義

確率密度関数 $f(x)$ に従う確率変数 $X$ の平均は以下のように定義されます（ここでは連続変数を想定しておきますが、離散変数でも $\int$ 計算を $\Sigma$ 計算に変更していただければ同じです）。

母平均は以下のように定義されます。

E[X] = \int x f(x) dx

また分散は以下のように定義されます。

V[X] = \int (x - E[X])^2 f(x) dx

平均や分散を計算するときには、ひとまず以上の定義式に従って計算すればよいです。

ところで現実のデータ（標本）

X = \left\{X_1,X_2,...,X_n \right\}

では、確率変数の従う確率密度関数 $f(x)$ が分かっている様なことは通常ありません。そこで平均や分散として、標本平均と標本分散を定義します。標本平均は以下のように定義されます。

\bar{X} = \frac{1}{n} \sum_i X_i

標本分散は以下のように定義されます。

s^2 = \frac{1}{n} \sum_i (X_i - E[X_i])^2

ここで立ち止まって考えたいのですが、以上の議論から分かるように、単に「平均」と呼んでしまうとそれが母平均なのか標本平均なのか分からなくなってしまいます。ただし往々にして単に「平均」「分散」と呼ばれることが多いため、文脈から判断することを心がける必要があります。

ただしここで分かる通り、母平均だけは唯一「期待値」という別名を持っています^[1]。また母平均や母分散はまとめて母数とも呼ばれます。

脚注