確率論や機械学習の本を読んでいると
- 条件付き期待値 E[Y∣X]
- 期待値の繰り返しの公式(全期待値の法則)
が当たり前のように出てきます。たとえば、強化学習ではベルマン方程式の変形に必ず出てくるし、ベイズ統計や混合分布の解析でも「全期待値の法則」を多用します。
この記事では、
- 条件付き期待値とは何か
- なぜ「期待値の繰り返しの公式」 E[E[Y∣X]]=E[Y] が成り立つのか
を、定義から式を追いながら丁寧に説明します。以下、基本的には連続型の確率変数を想定しますが、離散型でもほぼ同じ形で書けます。
期待値のおさらい
まず普通の期待値から。
確率変数 X の確率密度関数を fX(x) とするとき、期待値は
E[X]=∫−∞∞xfX(x)dx
と定義されます。
条件つき期待値の定義
2 つの確率変数 (X,Y) を考、同時確率密度関数を fX,Y(x,y) と置きます。「X=x だと分かっているときの Y の分布」の条件つき確率密度関数は
fY∣X(y∣x)=fX(x)fX,Y(x,y)(ただし fX(x)>0)
で定義されます。 これを変形すると
fX,Y(x,y)=fY∣X(y∣x)fX(x)
とも書けます。「同時分布 = 条件つき分布 × 周辺分布という関係式のほうが捉えやすいかもしれません。
数値としてみる
「X=x が与えられたときの Y の期待値」を
E[Y∣X=x]=∫−∞∞yfY∣X(y∣x)dy
と定義します。ここで重要なのは:
- x を「固定した値」とみなしているので、E[Y∣X=x] は ひとつの数値 です。
- しかし、x をいろいろ動かすと、その値が変わる。 つまり x↦E[Y∣X=x] は x の関数 になっている。
という点です。
関数として見る
さきほどの E[Y∣X=x] を「x の関数」として考えることができ
g(x):=E[Y∣X=x]=∫−∞∞yfY∣X(y∣x)dy
と置いてみます。すると、g(x) は普通の関数になっていて、x が変化するにつれて E[Y∣X] がどのように変化するかを考えることができます。
さらに一歩進めて、確率変数 X の分布を考えることで、g(X) を確率変数として考えることもできます。「X の値に応じて g(x) がランダムに決まる」という意味を持ちます。
この g(X) を
E[Y∣X]:=g(X)
と定義します。つまり、
- E[Y∣X=x] は数値(「X=x のときの値)
- E[Y∣X] は確率変数
と考え分けることができます。
期待値の繰り返しの公式
さて、ここからが本題です。期待値の繰り返しの公式は
E[E[Y∣X]]=E[Y]
という関係です。ぱっと見ると期待値の期待値となっていてよく分からない感じですが、以下では、積分計算を追って理解していきます。念の為、使用する記法をまとめておきます:
- 同時密度:fX,Y(x,y)
- 周辺密度:fX(x), fY(y)
- 条件つき密度:fY∣X(y∣x)
- 関数 g(x)=E[Y∣X=x]
導出(まとめ)
まず初めに解説なしで式変形の全貌を示しておきます:
E[g(X)]=E[E[Y∣X]]=∫−∞∞g(x)fX(x)dx=∫−∞∞(E[Y∣X])fX(x)dx=∫−∞∞(∫−∞∞yfY∣X(y)dy)fX(x)dx=∫−∞∞(∫−∞∞yfX(x)f(x,y)dy)fX(x)dx=∫−∞∞∫−∞∞yf(x,y)dxdy=E[Y]
導出(解説付き)
まず、E[Y∣X]=g(X) は確率変数で、通常の期待値の定義を適用することで
E[g(X)]=E[E[Y∣X]]=∫−∞∞g(x)fX(x)dx
と書けます。次に、g(x) の定義
g(x)=E[Y∣X=x]=∫−∞∞yfY∣X(y∣x)dy
を代入します:
E[E[Y∣X]]=∫−∞∞g(x)fX(x)dx=∫−∞∞(∫−∞∞yfY∣X(y∣x)dy)fX(x)dx=∫−∞∞∫−∞∞y(fY∣X(y∣x)fX(x))dydx
ここで、条件つき密度の定義より
fY∣X(y∣x)fX(x)=fX,Y(x,y)
が成り立ちます。これを上式に代入すると
E[E[Y∣X]]=∫−∞∞∫−∞∞yfX,Y(x,y)dydx
です。ここで、(Y の絶対値の期待値が有限であるなどの条件のもと)Fubini の定理を使って積分の順序を入れ替えると
∫−∞∞∫−∞∞yfX,Y(x,y)dydx=∫−∞∞∫−∞∞yfX,Y(x,y)dxdy
です。したがって
E[E[Y∣X]]=∫−∞∞∫−∞∞yfX,Y(x,y)dxdy
となります。
周辺密度 fY(y) の定義は
fY(y)=∫−∞∞fX,Y(x,y)dx
なので、先ほどの式の内側の積分はまさに fY(y) です。よって
E[E[Y∣X]]=∫−∞∞(∫−∞∞yfX,Y(x,y)dx)dy=∫−∞∞y(∫−∞∞fX,Y(x,y)dx)dy=∫−∞∞yfY(y)dy
これは Y の期待値の定義そのものです:
∫−∞∞yfY(y)dy=E[Y]
よって
E[E[Y∣X]]=E[Y]
が示されました。これが期待値の繰り返しの公式(全期待値の法則)です。
まとめ
導出の式をもう一度眺めると、
E[E[Y∣X]]=∬(yfY∣X(y∣x)dy)fX(x)dx=∬yf(x,y)dxdy
と
E[Y]=∫yfY(y)dy
とが同じである、という話でした。
一見すると不思議な式なのですが、積分の中身に注目すると
- E[E[Y∣X]] の中身は
- まず「X=x ごとの条件つき期待値」を計算し
- それを X の分布 fX(x) で平均している
- 実際にはそれが
- 「(X,Y) の同時分布 fX,Y(x,y) による y の期待値」
- ひいては「Y の周辺分布 fY(y) による期待値」と完全に一致している
ということを言っているに過ぎません。
つまり本質的には、Y の期待値を、
- まず X=x ごとの条件つき期待値に分解し
- その後 X の分布で重み付き平均し直した
だけの話です。 この「条件で分解 → 条件の確率で平均」というパターンが、強化学習、ベイズ推論、混合分布の解析などで頻繁に顔を出します。
脚注
- 積分区間はここでは (−∞,∞) と書きましたが、実際には X がとりうる範囲に応じて変わります。)^[たとえば X≥0 なら ∫0∞、区間 [0,1] の一様分布なら ∫01 など。
- f(x,y) と書くこともあります
- 『現代数理統計学』 p.52 など、多くの教科書で同様の形が紹介されています。