Sarsa による行動価値関数の学習 ー ベルマン方程式から TD 誤差まで
行動価値関数のベルマン方程式を期待値の形で捉え直し、TD誤差の導入から Sarsa による on-policy な価値学習までを丁寧に解説します。
行動価値関数のベルマン方程式を期待値の形で捉え直し、TD誤差の導入から Sarsa による on-policy な価値学習までを丁寧に解説します。
条件つき期待値 E[Y|X] の定義から始めて、連続分布を前提に全期待値の法則 E[E[Y|X]]=E[Y] を積分計算で丁寧に導出し、その直感的な意味や強化学習・ベイズ統計での使い所にも触れます。
今回は ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering を読んでみました。
強化学習における基本知識、価値関数について成り立つ再帰的なベルマン方程式についてをまとめています。
AI エージェントツールとして進歩が著しい、CLI 型コードエージェントについて調査してみました。
かなり今更ながらですが、gpt-oss 20b モデルをローカルで触ってみました。
関数の近似でよく使用されるテイラー展開について、定義から自分がこれまでにハマった観点をまとめています。