Sarsa による行動価値関数の学習 ー ベルマン方程式から TD 誤差まで
行動価値関数のベルマン方程式を期待値の形で捉え直し、TD誤差の導入から Sarsa による on-policy な価値学習までを丁寧に解説します。
行動価値関数のベルマン方程式を期待値の形で捉え直し、TD誤差の導入から Sarsa による on-policy な価値学習までを丁寧に解説します。
条件つき期待値 E[Y|X] の定義から始めて、連続分布を前提に全期待値の法則 E[E[Y|X]]=E[Y] を積分計算で丁寧に導出し、その直感的な意味や強化学習・ベイズ統計での使い所にも触れます。
今回は ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering を読んでみました。
強化学習における基本知識、価値関数について成り立つ再帰的なベルマン方程式についてをまとめています。
AI エージェントツールとして進歩が著しい、CLI 型コードエージェントについて調査してみました。
かなり今更ながらですが、gpt-oss 20b モデルをローカルで触ってみました。
関数の近似でよく使用されるテイラー展開について、定義から自分がこれまでにハマった観点をまとめています。
一変量の置換積分から出発し、確率変数の変数変換を一対一対応・単調性の観点から整理します。さらに、多変量への拡張としてヤコビアンがどのように微小体積を「拡大・縮小」する係数になるのか、微分の向き・並べ方の覚え方まで含めて解説します。
Diffusers に付属する公式サンプル train_text_to_image.py を題材に、初期化処理・モデル構造・データセットの前処理・学習ループの流れを丁寧に読み解いた解説記事です。Accelerate や ZeRO3、EMA、VAE/CLIP/U-Net の役割、ノイズスケジューラによる forward/reverse diffusion の仕組みなど、テキスト条件付き拡散モデルのトレーニング全体像を把握できるよう整理しています。
統計検定勉強中に出会った計算テクニックを雑多にまとめます。
期待値や分散の情報だけから、確率変数が大きく外れた値をとる確率に上限を与える「マルコフの不等式」「チェビシェフの不等式」について、証明の流れと直感的な意味をまとめます。定義関数を用いた基本的な導出から、現実的なイメージにつながる例まで整理した記事です。
正規母集団から得られる標本平均と不偏分散がどのような分布に従うのかを整理し、そこから t 分布および F 分布がどのように導かれるかを体系的にまとめます。正規分布の再生性・カイ二乗分布・t 分布・F 分布の関係を、式変形の流れとともに理解します。
畳み込みと混合分布という、一見似ていて混同しがちな二つの概念を対比しながら整理します。確率変数の和の分布を求める畳み込みと、確率密度関数そのものを重ね合わせて表現する混合分布では何が違うのか、直感的理解から数式による導出までまとめます。
超幾何分布の定義と、その確率の総和が 1 になることの証明をまとめます。二項展開を用いた少し巧妙な導出手法を中心に、なぜその流れで証明できるのかを直感とともに整理した解説記事です。
ワルド検定の基本的な考え方と、その背後にある最尤推定量の漸近正規性について解説します。尤度比検定との対比や、検定統計量がどのように導かれるかを式とともに丁寧に整理し、ワルド型検定の利点・背景となる理論を解説します。
母平均・母分散と、実際のデータから求める標本平均・標本分散の違いを整理し、それぞれの定義と役割を丁寧にまとめます。「平均」「分散」という用語が文脈によって指す対象が異なる点や、母数・統計量といった基本概念の位置づけを明確にする入門的な解説記事です。
標本平均・標本分散の期待値を実際に計算しながら、不偏推定量の定義と「不偏分散はなぜ n−1 で割るのか」を丁寧に導出します。標本分散との違い、用語整理、推定量としての性質までを体系的に整理した記事です。
ガンマ関数の基本から始め、ガンマ分布の定義・性質・利用例、さらにその特殊形として位置づけられるカイ二乗分布との関係までを整理します。
確率変数の変数変換を重積分の視点から体系的に整理し、ヤコビアンを用いて新しい確率密度関数を導く方法を解説します。応用として、確率変数の和の分布を求める畳み込みの背景にある考え方をまとめます。
MediaPipe の公式チュートリアル「Hello World! on Android」を、Bazel ではなく Gradle を用いて Android Studio 上で実行する手順をまとめます。スタイル設定、外部ライブラリ導入(MediaPipe の Version Catalog 設定)、CameraX の利用などの解説です。