Reinforcement Learning Archives

45 views
7 minute read

策略梯度（Policy Gradient）

ByWayne
24/12/2025

在 RL 的 control 問題中，多數方法皆以 value function 作為學習核心，透過估計長期 return 來間接改善 policy。然而，當 state 或 action 空間變得連續、或 policy 本身必須保持隨機性時，這種方式便顯得不再直接。策略梯度（Policy Gradient）方法改採另一種觀點，將 policy 本身視為可最佳化的對象，直接對 expected return 進行梯度上升（gradient ascent）。

41 views
7 minute read

函數近似的 On-Policy 控制

ByWayne
22/12/2025

在實際的 control 問題中，state 與 action 往往是高維、連續且充滿噪音的，這使得以 tabular 方法為基礎的 RL 演算法難以直接應用。當我們引入函數近似，原本在理論上清楚分離的 value evaluation 與 policy improvement，開始緊密交織，並伴隨著穩定性與變異性的挑戰。本文將介紹於 on-policy control 方法在函數近似下的 Sarsa。

Photo by Federico Di Dio photography on Unsplash

45 views
7 minute read

函數近似的 On-Policy 預測

ByWayne
19/12/2025

本章聚焦於函數近似的 On-Policy 預測（on-policy prediction with approximation），系統性地整理在此設定下，價值估計的學習目標、可行的學習方法，以及它們實際收斂到的解。透過 Gradient Monte Carlo 與 Semi-Gradient TD(0) 的對照，我們將看到，理論上的正確目標與實務上的可行方法之間，究竟存在著何種不可避免的取捨。

27 views
5 minute read

Dyna 架構

ByWayne
17/12/2025

在強化學習（Reinforcement Learning, RL）中，agent 往往必須在有限且昂貴的真實互動下，學得有效的決策 policy。單純依賴真實經驗（real experience）雖然概念直觀，但在資料效率與學習速度上常受到限制；反之，完全依賴 model 進行規劃（planning），又可能因模型不準確而導致偏誤。Dyna 架構正是為了在這兩者之間取得平衡而提出，將 acting、learning 與 planning 整合於同一個學習流程中。

54 views
9 minute read

時序差分學習（Temporal-Difference Learning, TD）

ByWayne
16/12/2025

在強化學習中（Reinforcement Learning, RL），動態規劃（Dynamic Programming, DP）提供了最完整、最數學化的解法框架，但其對 environment model 的依賴，使其難以直接應用於真實環境；蒙地卡羅（Monte Carlo, MC）則能從經驗中學習，卻必須等待整個 episode 結束，更新粒度較為粗糙。時序差分（Temporal Difference, TD）正是介於兩者之間的一種折衷方法。它不需要已知的 model，卻能在每一步互動後即時更新估計值。

43 views
1 minute read

增量式實作（Incremental Implementation）

ByWayne
15/12/2025

在強化學習（Reinforcement Learning, RL）中，許多演算法在形式上看似不同，但其核心更新機制卻高度一致。它們在實作層面都依賴一種共同的數值估計方式。這種方式並不是一個獨立的演算法，而是一種用來逐步逼近期望值的計算技巧。理解這個機制，有助於看清不同強化學習方法之間真正的差異所在。

65 views
8 minute read

蒙地卡羅方法（Monte Carlo Methods, MC）

ByWayne
14/12/2025

在動態規劃（Dynamic Programming, DP）中，完整的 environment model 是進行精確計算的前提，但這樣的假設在多數真實問題中並不成立。蒙地卡羅（Monte Carlo, MC）選擇放棄對 model 的依賴，轉而直接從與 environment 互動所產生的完整經驗中進行學習。透過對 episode 回報的取樣與平均，MC 建立了一條從實際經驗出發估計 value function 的路徑。

63 views
5 minute read

動態規劃（Dynamic Programming, DP）

ByWayne
12/12/2025

在強化學習（Reinforcement Learning, RL）中，動態規劃（Dynamic Programming, DP,）是最早且最完整的求解方法。雖然 DP 幾乎無法直接應用於實際的高維或連續環境，但它揭示了現代 RL 所有核心概念的數學基礎。所有演算法的收斂目標與更新規則本質上都源自於 DP 所使用的貝爾曼方程（Bellman Equations）與廣義策略迭代（Generalized Policy Iteration, GPI）框架。

80 views
2 minute read

廣義策略迭代（Generalized Policy Iteration, GPI）

ByWayne
10/12/2025

廣義策略迭代（Generalized Policy Iteration, GPI）並不是一個單一的演算法，而是所有強化學習（Reinforcement Learning, RL）方法背後的核心框架。它結合了策略評估（policy evaluation）與策略改善（policy improvement），使得在有限資訊的情況下，演算法仍能逐步逼近最佳策略（optimal policy）與最佳狀態價值函數（optimal state-value function）。

93 views
6 minute read

馬可夫決策過程（Markov Decision Process, MDP）

ByWayne
09/12/2025

馬可夫決策過程（Markov Decision Process, MDP）為強化學習（Reinforcement Learning, RL）中所有策略評估（policy evaluation）與策略改善（policy improvement）方法提供了嚴謹的數學框架。藉由 MDP，我們得以形式化地描述代理人（agent）與環境（environment）之間的互動，也能在回報（return）的觀點下定義策略的價值。

Get source code of posts.

策略梯度（Policy Gradient）

Reinforcement Learning

策略梯度（Policy Gradient）

函數近似的 On-Policy 控制

函數近似的 On-Policy 預測

Dyna 架構

時序差分學習（Temporal-Difference Learning, TD）

增量式實作（Incremental Implementation）

蒙地卡羅方法（Monte Carlo Methods, MC）

動態規劃（Dynamic Programming, DP）

廣義策略迭代（Generalized Policy Iteration, GPI）

馬可夫決策過程（Markov Decision Process, MDP）

Bradley-Terry 模型

熵（Entropy）

Byte-Pair Encoding

策略梯度（Policy Gradient）

函數近似的 On-Policy 控制

Python 長條圖（Bar Charts）

Kotlin Coroutine 教學

Python 散佈圖／折線圖（Scatter/Line Charts）

Spring Boot + REST APIs + JPA 教學

Python 圓餅圖／環狀圖／放射環狀圖（Pie/Donut/Sunburst Charts）

Python 長條圖（Bar Charts）

Kotlin Coroutine 教學

Python 散佈圖／折線圖（Scatter/Line Charts）

Spring Boot + REST APIs + JPA 教學