Richard S. Sutton and Andrew G. Barto の強化学習の§3.5 The Markov Property についてまとめました。
はじめに
強化学習の枠組みではエージェント(agent)は環境(environment)から送られる状態に基づいて意思決定を行います。
時刻 t t t に取られた行動に対して、時刻 t + 1 t+1 t + 1 で環境がどのような応答をするかを考えてみます。単純には、時刻 t + 1 t+1 t + 1 で起こり得る応答はそれまでに置きた全てに依存し得ます。このとき
P r ( R t + 1 = r , S t + 1 = s ′ ∣ S 0 , A 0 , R 1 , . . . . , R t , S t , A t ) {\rm{Pr}}(R_{t+1}=r, S_{t+1}=s^\prime | S_0, A_0, R_1, ...., R_t, S_t, A_t) Pr ( R t + 1 = r , S t + 1 = s ′ ∣ S 0 , A 0 , R 1 , .... , R t , S t , A t )
と、全ての状態や報酬に依存した確率分布として定義することになります。
定義
状態がマルコフ性(Markov property)を持っているとは、時刻t + 1 t+1 t + 1 の応答は時刻 t t t の状態と行動だけに依存することを指し、
P r ( R t + 1 = r , S t + 1 = s ′ ∣ S t , A t ) {\rm{Pr}}(R_{t+1}=r, S_{t+1}=s^\prime | S_t, A_t) Pr ( R t + 1 = r , S t + 1 = s ′ ∣ S t , A t )
として定義されます。このように 直前の状態のみで遷移確率が決まる性質 をマルコフ性と呼びます。
マルコフ性を持っていれば、現在の状態と行動が分かれば次の状態を予測でき、これを繰り返し適用することで現在の状態から将来の状態と期待報酬を予測することができます。
マルコフ決定過程
マルコフ性を満たす強化学習タスクは、マルコフ決定過程(Markov Decision Process; MDP)と呼ばれます。特に、状態空間と行動空間が有限である場合には有限マルコフ決定過程(finite MDP)と呼ばれます。
MDP では状態 s s s と行動 a a a が与えられたとき、次の時刻の状態 s ′ s\prime s ′ と報酬 r r r とが生じる確率は
p ( s ′ , r ∣ s , a ) p(s^\prime, r | s, a) p ( s ′ , r ∣ s , a )
として表されます。これを用いることで、例えば状態と行動のペアに対する期待報酬は
r ( s , a ) = E [ R t + 1 ∣ S t = s , A t = a ] = ∑ s ′ ∈ S ∑ r ∈ R r p ( s ′ , r ∣ s , a ) r(s,a)=\mathbb{E}\!\left[R_{t+1}\mid S_t=s,\,A_t=a\right]
=\sum_{s'\in\mathcal{S}}\sum_{r\in\mathcal{R}} r\,p(s',r\mid s,a) r ( s , a ) = E [ R t + 1 ∣ S t = s , A t = a ] = s ′ ∈ S ∑ r ∈ R ∑ r p ( s ′ , r ∣ s , a )
また遷移確率は
p ( s ′ ∣ s , a ) = ∑ r ∈ R p ( s ′ , r ∣ s , a ) p(s'\mid s,a)=\sum_{r\in\mathcal{R}} p(s',r\mid s,a) p ( s ′ ∣ s , a ) = r ∈ R ∑ p ( s ′ , r ∣ s , a )
と計算することができます。状態–行動–次状態の三つ組に対する期待報酬も同様に
r ( s , a , s ′ ) = E [ R t + 1 ∣ S t = s , A t = a , S t + 1 = s ′ ] = ∑ r ∈ R r p ( s ′ , r ∣ s , a ) p ( s ′ ∣ s , a ) r(s,a,s')=\mathbb{E}\!\left[R_{t+1}\mid S_t=s,\,A_t=a,\,S_{t+1}=s'\right]
=\frac{\sum_{r\in\mathcal{R}} r\,p(s',r\mid s,a)}{p(s'\mid s,a)} r ( s , a , s ′ ) = E [ R t + 1 ∣ S t = s , A t = a , S t + 1 = s ′ ] = p ( s ′ ∣ s , a ) ∑ r ∈ R r p ( s ′ , r ∣ s , a )
ここで r ( s , a , s ′ ) r(s,a,s') r ( s , a , s ′ ) について補足しておきます。
p ( r ∣ s , a , s ′ ) = p ( r , s , a , s ′ ) p ( s , a , s ′ ) = p ( r , s ′ ∣ s , a ) p ( s , a ) p ( s ′ ∣ s , a ) p ( s , a ) = p ( r , s ′ ∣ s , a ) p ( s ′ ∣ s , a ) \begin{aligned}
p(r | s, a, s') &= \frac{p(r,s,a,s')}{p(s,a,s')} \\
&= \frac{p(r,s'|s,a)p(s,a)}{p(s'|s,a)p(s,a)} \\
&= \frac{p(r,s'|s,a)}{p(s'|s,a)}
\end{aligned} p ( r ∣ s , a , s ′ ) = p ( s , a , s ′ ) p ( r , s , a , s ′ ) = p ( s ′ ∣ s , a ) p ( s , a ) p ( r , s ′ ∣ s , a ) p ( s , a ) = p ( s ′ ∣ s , a ) p ( r , s ′ ∣ s , a )
であることを用いると、
r ( s , a , s ′ ) ≡ E [ R t + 1 ∣ S t = s , A t = a , S t + 1 = s ′ ] = ∑ r ∈ R r p ( r ∣ s , a , s ′ ) = ∑ r ∈ R r p ( r , s ′ ∣ s , a ) p ( s ′ ∣ s , a ) = ∑ r ∈ R r p ( s ′ , r ∣ s , a ) p ( s ′ ∣ s , a ) = ∑ r ∈ R r p ( s ′ , r ∣ s , a ) ∑ r ˉ ∈ R p ( s ′ , r ˉ ∣ s , a ) \begin{aligned}
r(s,a,s')
&\equiv \mathbb{E}\!\left[R_{t+1}\mid S_t=s,\;A_t=a,\;S_{t+1}=s'\right] \\
&= \sum_{r\in\mathcal{R}} r\; p\!\left(r\mid s,a,s'\right) \\
&= \sum_{r\in\mathcal{R}} r\;\frac{p\!\left(r,s'\mid s,a\right)}{p\!\left(s'\mid s,a\right)} \\
&= \frac{\sum_{r\in\mathcal{R}} r\;p\!\left(s',r\mid s,a\right)}{p\!\left(s'\mid s,a\right)} \\
&= \frac{\sum_{r\in\mathcal{R}} r\;p\!\left(s',r\mid s,a\right)}{\sum_{\bar r\in\mathcal{R}} p\!\left(s',\bar r\mid s,a\right)}
\end{aligned} r ( s , a , s ′ ) ≡ E [ R t + 1 ∣ S t = s , A t = a , S t + 1 = s ′ ] = r ∈ R ∑ r p ( r ∣ s , a , s ′ ) = r ∈ R ∑ r p ( s ′ ∣ s , a ) p ( r , s ′ ∣ s , a ) = p ( s ′ ∣ s , a ) ∑ r ∈ R r p ( s ′ , r ∣ s , a ) = ∑ r ˉ ∈ R p ( s ′ , r ˉ ∣ s , a ) ∑ r ∈ R r p ( s ′ , r ∣ s , a )
条件つき期待値については以下の記事でも解説していますのでご参考になれば。
条件つき期待値と期待値の繰り返しの公式をちゃんと理解する 条件つき期待値 E[Y|X] の定義から始めて、連続分布を前提に全期待値の法則 E[E[Y|X]]=E[Y] を積分計算で丁寧に導出し、その直感的な意味や強化学習・ベイズ統計での使い所にも触れます。
2025/11/29
まとめ
本記事では、次の状態と報酬の確率分布が、現在の状態 S t S_t S t と行動 A t A_t A t だけで決まるというマルコフ性を整理しました。つまり、
Pr ( R t + 1 , S t + 1 ∣ S 0 , A 0 , R 1 , S 1 , … , R t , S t , A t ) = Pr ( R t + 1 , S t + 1 ∣ S t , A t ) \Pr(R_{t+1}, S_{t+1}\mid S_0, A_0, R_1, S_1, \ldots, R_t, S_t, A_t) = \Pr(R_{t+1}, S_{t+1}\mid S_t, A_t) Pr ( R t + 1 , S t + 1 ∣ S 0 , A 0 , R 1 , S 1 , … , R t , S t , A t ) = Pr ( R t + 1 , S t + 1 ∣ S t , A t )
が成り立つような性質であることを見ました。これにより、将来の予測や計画が現時刻に局所化され、動的計画法やTD学習などの強化学習アルゴリズムが成立する土台が得られます。
また、マルコフ性を満たすタスクはマルコフ決定過程(MDP)として定式化でき、
p ( s ′ , r ∣ s , a ) p(s',r|s,a) p ( s ′ , r ∣ s , a )
の1つの確率モデルで表現できました。ここから期待報酬 r ( s , a ) r(s,a) r ( s , a ) 、遷移確率 p ( s ′ ∣ s , a ) p(s'\mid s,a) p ( s ′ ∣ s , a ) 、さらに遷移先を固定した期待報酬 r ( s , a , s ′ ) r(s,a,s') r ( s , a , s ′ ) を導きました。
一方で実問題では、観測できる情報が不十分で「見えている状態」がマルコフ性を満たさないことも多くあります。その場合は、
(1)状態の設計を工夫して必要情報を含める(履歴の要約・特徴量の追加)
(2)枠組み自体をPOMDPとして捉え直し信念状態を扱う
といった方向へ拡張が必要になります。マルコフ性は単なる仮定ではなく、学習・予測・計画が成立するために、状態が備えるべき条件であると抑えておくと良いと思います。